RAID1 рассинхронизировался

У вас сложности? Наши специалисты постараются помочь вам. Если вы сами сталкивались с похожими проблемами - поделитесь опытом.

Модераторы: Trinity admin`s, Free-lance moderator`s

Ответить
agorlov
member
Сообщения: 29
Зарегистрирован: 01 авг 2008, 22:35
Откуда: СПб

RAID1 рассинхронизировался

Сообщение agorlov » 30 дек 2009, 14:42

Здравствуйте,

На прошлой неделе сервер (с Ubuntu linux) сообщил о проблеме с файловой системой:
с контроллером Adaptec 3405 массив состоит из двух SATA дисков в RAID1

Код: Выделить всё

Dec 24 05:05:00 r2d2 kernel: [2296384.643023] lost page write due to I/O error on sda1
Dec 24 05:05:00 r2d2 kernel: [2296384.643026] sd 0:0:0:0: [sda] Result: hostbyte=DID_ERROR driverbyte=DRIVER_OK,SUGGEST_OK
Dec 24 05:05:00 r2d2 kernel: [2296384.643029] end_request: I/O error, dev sda, sector 339133807
Dec 24 05:05:00 r2d2 kernel: [2296384.643064] lost page write due to I/O error on sda1
Dec 24 05:07:16 r2d2 kernel: [2296520.504932] sd 0:0:0:0: [sda] Result: hostbyte=DID_ERROR driverbyte=DRIVER_OK,SUGGEST_OK
Dec 24 05:07:16 r2d2 kernel: [2296520.504939] end_request: I/O error, dev sda, sector 347000135
Dec 24 05:07:16 r2d2 kernel: [2296520.504976] lost page write due to I/O error on sda1
Dec 24 05:07:16 r2d2 kernel: [2296520.504981] sd 0:0:0:0: [sda] Result: hostbyte=DID_ERROR driverbyte=DRIVER_OK,SUGGEST_OK
....
и перемонтировал файловую систему в readonly

После перезагрузки fsck все починил и сервер запустился.
2 месяца назад была аналогичная проблема, но тогда обошлись только проверкой и восстановлением утилитой fsck.

Сейчас решили провести углубленную проверку:
1. сделать verify для каждого диска
2. сделать verify для массива
3. сделать проверку с помощью fsck + badblocks

Резльтат
1. verify дисков проблем не обнаружил

2. verify массива: тут проблемы появились

Код: Выделить всё

December 29, 2009 3:22:03 PM MSK INF r2d2 Running: Scrub logical disk - 95%. 195 different sectors. Controller 1, logical device 0
December 29, 2009 3:26:29 PM MSK INF r2d2 PPI update. Age 246
December 29, 2009 3:26:29 PM MSK INF r2d2 Container changed: controller 1, logical device 0
December 29, 2009 3:26:29 PM MSK INF r2d2 Complete: Scrub logical disk - 100%. 176,242 different sectors. Controller 1, logical device 0
отмечу, что пока проверка не дошла до 95% было найдено 195 различающихся секторов, но
на последних 5% он выявил 172 ТЫСЯЧИ различающихся секторов!!! 8-O

Сервер сейчас продолжает работать... но есть ощущение, что сидим на бочке с порохом.
Бэкапы есть.

Есть мысль запустить verify and fix, но обыскали интернет чтобы понять как он работает, и не нашли информации.
Как он определит при фиксе на каком диске правильная информация?

И почему вообще информация на зеркале могла так рассинхронизироваться?!

Поделитесь опытом, дайте совет, как быть?!

Аватара пользователя
gs
Сотрудник Тринити
Сотрудник Тринити
Сообщения: 16650
Зарегистрирован: 23 авг 2002, 17:34
Откуда: Москва
Контактная информация:

Re: RAID1 рассинхронизировался

Сообщение gs » 03 янв 2010, 22:30

http://3nity.ru/viewtopic.php?f=24&t=12433
Наверняка все кэши включены, ББУ нету. Достаточно одного щелчка электрики.

Чек может помочь (в данной ситуации он не должен повредить), но может и не помочь. Проверьте актуальность бэкапа, переделайте массив с нуля и раскатайте бэкап взад.

agorlov
member
Сообщения: 29
Зарегистрирован: 01 авг 2008, 22:35
Откуда: СПб

Re: RAID1 рассинхронизировался

Сообщение agorlov » 11 янв 2010, 11:08

gs писал(а):http://3nity.ru/viewtopic.php?f=24&t=12433
Наверняка все кэши включены, ББУ нету. Достаточно одного щелчка электрики.

Чек может помочь (в данной ситуации он не должен повредить), но может и не помочь. Проверьте актуальность бэкапа, переделайте массив с нуля и раскатайте бэкап взад.
Все кэши записи выключены. ББУ нет. Кэши чтения включены.

Аватара пользователя
Tert
Advanced member
Сообщения: 4233
Зарегистрирован: 19 янв 2003, 08:09
Откуда: Москва
Контактная информация:

Re: RAID1 рассинхронизировался

Сообщение Tert » 11 янв 2010, 12:32

agorlov
Есть мысль запустить verify and fix, но обыскали интернет чтобы понять как он работает, и не нашли информации.
Как он определит при фиксе на каком диске правильная информация?
Когда вы запускаете инициализацию массива, то контроллер считает контрольные суммы для блоков, которые записаны на каждом диске и записывает эту информацию в специальную область, которая резервируется на каждом диске. На основе этой информации и принимается решение о достоверности или недостоверности данных на диске.

Учтите, что это крайне упрощенное описание процедуры работы контроллера :D

agorlov
member
Сообщения: 29
Зарегистрирован: 01 авг 2008, 22:35
Откуда: СПб

Re: RAID1 рассинхронизировался

Сообщение agorlov » 13 янв 2010, 13:38

В общем после verify and fix - все починилось. Все 172000 различающихся секторов.

Но, сразу после verify and fix запустили проверку verify и обнаружилось 1 расхождение...

Сегодня, спустя день, проверили снова - 13 штук.

Сервер не выключался, не перезагружался.

В чем может быть дело?

Аватара пользователя
gs
Сотрудник Тринити
Сотрудник Тринити
Сообщения: 16650
Зарегистрирован: 23 авг 2002, 17:34
Откуда: Москва
Контактная информация:

Re: RAID1 рассинхронизировался

Сообщение gs » 13 янв 2010, 15:45

Диски для этого контроллера валидированы?
С кабелями/бэкплейном проблем нет?

agorlov
member
Сообщения: 29
Зарегистрирован: 01 авг 2008, 22:35
Откуда: СПб

Re: RAID1 рассинхронизировался

Сообщение agorlov » 13 янв 2010, 16:35

gs писал(а):Диски для этого контроллера валидированы?
С кабелями/бэкплейном проблем нет?
Сервер покупали в феврале 2008 года ком предл N31813, счет N261 от 18.02.2008:
Trinity CENTRiON
SuperMicro 5015M-U, 1U, Dual-Core, Quad-Core, i3010, PDSMU, 4xDDRII, 2x1Gb, AOC-SIMSO or AOC-SIMSO+, video, 4xSAS\SATA, UIO, 560w 1
CPU Intel® Core 2 Quad Q6600 (BX80562Q6600), 2.4GHz/1066MHz/8MB, LGA775 1
Memory 1GB, DDR2, 667MHz, PC2-5300 4
SAS RAID Adaptec RAID 3405, 4 internal ch. SAS/SATA, 128MB on Board, PCI-Ex4, 1xI-Pass(SFF 8087), RAID 0,1,5,5EE,6,10,50, sup. Up 128 drives 1
HDD ATA Seagate 250GB Barracuda 7200.10, ST3250310AS, 8MBcache, 7200rpm, NCQ, SATA-300 2
Cable CBL-0097, I-Pass(SFF 8087) - 4xSATA, 50cm, SAS cable 1
Как поставили его в марте 2008 в датацентр Инфобокса так он там и работает.

Насчет кабелей, трудно сказать, может и в них проблема, только как это определить?

agorlov
member
Сообщения: 29
Зарегистрирован: 01 авг 2008, 22:35
Откуда: СПб

Re: RAID1 рассинхронизировался

Сообщение agorlov » 13 янв 2010, 16:36

винты:

первый
Vendor: ST325031
Model: 0AS
Firmware: 3.AAC
Serial number: 9RY14DMJ

второй
Vendor: ST325031
Model: 0AS
Firmware: 3.AAC
Serial number: 9RY14F9D

Аватара пользователя
Stranger03
Сотрудник Тринити
Сотрудник Тринити
Сообщения: 12979
Зарегистрирован: 14 ноя 2003, 16:25
Откуда: СПб, Екатеринбург
Контактная информация:

Re: RAID1 рассинхронизировался

Сообщение Stranger03 » 13 янв 2010, 17:05

agorlov писал(а):Сервер покупали в феврале 2008 года ком предл N31813, счет N261 от 18.02.2008
Позвоните нашим ребятам, так будет быстрее.
С уважением Геннадий
ICQ 116164373
eburg@trinitygroup.ru

Ответить

Вернуться в «Серверы - Решение проблем»

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и 31 гость