На прошлой неделе сервер (с Ubuntu linux) сообщил о проблеме с файловой системой:
с контроллером Adaptec 3405 массив состоит из двух SATA дисков в RAID1
Код: Выделить всё
Dec 24 05:05:00 r2d2 kernel: [2296384.643023] lost page write due to I/O error on sda1
Dec 24 05:05:00 r2d2 kernel: [2296384.643026] sd 0:0:0:0: [sda] Result: hostbyte=DID_ERROR driverbyte=DRIVER_OK,SUGGEST_OK
Dec 24 05:05:00 r2d2 kernel: [2296384.643029] end_request: I/O error, dev sda, sector 339133807
Dec 24 05:05:00 r2d2 kernel: [2296384.643064] lost page write due to I/O error on sda1
Dec 24 05:07:16 r2d2 kernel: [2296520.504932] sd 0:0:0:0: [sda] Result: hostbyte=DID_ERROR driverbyte=DRIVER_OK,SUGGEST_OK
Dec 24 05:07:16 r2d2 kernel: [2296520.504939] end_request: I/O error, dev sda, sector 347000135
Dec 24 05:07:16 r2d2 kernel: [2296520.504976] lost page write due to I/O error on sda1
Dec 24 05:07:16 r2d2 kernel: [2296520.504981] sd 0:0:0:0: [sda] Result: hostbyte=DID_ERROR driverbyte=DRIVER_OK,SUGGEST_OK
....
После перезагрузки fsck все починил и сервер запустился.
2 месяца назад была аналогичная проблема, но тогда обошлись только проверкой и восстановлением утилитой fsck.
Сейчас решили провести углубленную проверку:
1. сделать verify для каждого диска
2. сделать verify для массива
3. сделать проверку с помощью fsck + badblocks
Резльтат
1. verify дисков проблем не обнаружил
2. verify массива: тут проблемы появились
Код: Выделить всё
December 29, 2009 3:22:03 PM MSK INF r2d2 Running: Scrub logical disk - 95%. 195 different sectors. Controller 1, logical device 0
December 29, 2009 3:26:29 PM MSK INF r2d2 PPI update. Age 246
December 29, 2009 3:26:29 PM MSK INF r2d2 Container changed: controller 1, logical device 0
December 29, 2009 3:26:29 PM MSK INF r2d2 Complete: Scrub logical disk - 100%. 176,242 different sectors. Controller 1, logical device 0
на последних 5% он выявил 172 ТЫСЯЧИ различающихся секторов!!! 8-O
Сервер сейчас продолжает работать... но есть ощущение, что сидим на бочке с порохом.
Бэкапы есть.
Есть мысль запустить verify and fix, но обыскали интернет чтобы понять как он работает, и не нашли информации.
Как он определит при фиксе на каком диске правильная информация?
И почему вообще информация на зеркале могла так рассинхронизироваться?!
Поделитесь опытом, дайте совет, как быть?!