3ware 9550SXU-4LP RAID5. Частые ошибки: Код события: 9.

Поломалось, посыпалось, не работает...

Модераторы: Trinity admin`s, Free-lance moderator`s

Ответить
Etri
Junior member
Сообщения: 2
Зарегистрирован: 28 окт 2009, 13:26
Откуда: Одесса

3ware 9550SXU-4LP RAID5. Частые ошибки: Код события: 9.

Сообщение Etri » 28 окт 2009, 14:25

Два аппаратно-идентичных сервера
Сервер: Supermicro Superserver 5035M-i+B Tower, Intel 3010
Процессор: Intel Xeon X3210 4x2.13GHz
Память: 4х 2Gb DDR2-667 ECC Unbuffered Supermicro certified (всего 8гб).
ОС win2003 enterprise sp2.

Часто, в последнее время - ну очень часто, возникает ошибка в журнале событий, ветка System.
Тип события: Ошибка
Источник события: 3wareDrv
Категория события: Отсутствует
Код события: 9
Дата: 20.10.2009
Время: 12:09:10
Пользователь: Н/Д
Компьютер: BLQN
Описание:
Устройство \Device\Scsi\3wareDrv1 не отвечает в течение интервала ожидания.

Дополнительные сведения можно найти в центре справки и поддержки, в "http://go.microsoft.com/fwlink/events.asp".
Данные:
0000: 00 00 10 00 01 00 6a 00 ......j.
0008: 00 00 00 00 09 00 04 c0 .......A
0010: 01 01 00 50 00 00 00 00 ...P....
0018: 00 00 00 00 00 00 00 00 ........
0020: 00 00 00 00 00 00 00 00 ........
0028: 00 00 00 00 00 00 00 00 ........
0030: 00 00 00 00 07 00 00 00 ........


Ошибка эта возникает то на одном, то на другом сервере. При этом сервер может зависнуть намертво, только ресет.
В легких случаях - работа продолжается дальше, возможно временное падение производительности.

вот типичная последовательность событий из журнала (источник событий - 3wareDrv):

1) Устройство \Device\Scsi\3wareDrv1 не отвечает в течение интервала ожидания.
2) RestartIO> Lost IO requests = 88
3) FwReset> Time since ready = 1297 msecs
4) AEN: CACHE_SYNC_PASS (unit=0)
5) AEN: SOFT_RESET (resets=1)

Оба сервера подключены к одному APC Smart-UPS 1000. Выключения света и проседания напряжения бывают, но они обычно не совпадают с этими ошибками. Это я определяю по логам, которые пишут программы управления этим ups-ом (и другими ups тоже).

Перед тем, как привести конфигурацию raid-а хочу спросить, почему пишет "Battery Backup Unit NOT PRESENT", что это конкретно за устройство, как но помогает, если в нем смысл для моей ситуации и можно ли его установить (докупить) в имеющуюся систему?

Теперь собственно конфигурация, данные взяты из программы 3DM2:

Controller Details (Controller ID 0)
Model 9550SXU-4LP
Serial # L320909A7241886
Firmware FE9X 3.08.00.016
Driver 3.00.01.070
BIOS BE9X 3.08.00.004
Boot Loader BL9X 3.02.00.001
Memory Installed 112 MB
Bus Type PCIX
Bus Width 64 bits
Bus Speed 133 Mhz
# of Ports 4
# of Units 1
# of Drives 3
Error Log [Download Error Log]

Unit Information (Controller ID 0)
0 Raid5 RAID 5 130.37 GB OK

Drive Information (Controller ID 0)
Port Model Capacity Serial # Firmware Unit Status
0 WDC WD740ADFD-00NLR4 69.25 GB WD-WMANS1606830 21.07QR4 0 OK
1 WDC WD740ADFD-00NLR4 69.25 GB WD-WMANS1635014 21.07QR4 0 OK
2 WDC WD740ADFD-00NLR4 69.25 GB WD-WMANS1564267 21.07QR4 0 OK

Schedule Self-test Tasks (Controller ID 0) (Бельше ничего в планировщике не назначено)
1. Sunday 12:00am Upgrade UDMA mode
2. Monday 12:00am Check S.M.A.R.T. Thresholds
3. Tuesday 12:00am
4. Wednesday 12:00am
5. Thursday 12:00am
6. Friday 12:00am
7. Saturday 12:00am

--------------------------------------------------------------------------------
В настройках:
Unit Policies (Controller ID 0): Write Cache, Queuing
Other Controller Settings (Controller ID 0):
Auto Rebuild Enabled
Auto-Carving Disabled
Carve Size 2048

Number of Drives per Spin-up 1
Delay between Spin-up 1 second(s)
Export Unconfigured Disk No

Alarms - журнал 3DM2
Oct 28, 2009 11:09.07AM (0x04:0x002B): Verify completed: unit=0
Oct 28, 2009 10:48.55AM (0x04:0x0029): Verify started: unit=0
Oct 28, 2009 04:30.24AM (0x04:0x0001): Controller reset occurred: resets=8
Oct 28, 2009 04:30.24AM (0x04:0x005F): Cache synchronization failed; some data lost: unit=0
Oct 27, 2009 11:51.04PM (0x04:0x0001): Controller reset occurred: resets=2
Oct 27, 2009 11:51.04PM (0x04:0x005E): Cache synchronization completed: unit=0
Oct 27, 2009 10:05.59PM (0x04:0x0001): Controller reset occurred: resets=1
Oct 27, 2009 10:05.59PM (0x04:0x005E): Cache synchronization completed: unit=0
Oct 27, 2009 09:55.39PM (0x04:0x002B): Verify completed: unit=0
Oct 27, 2009 09:28.13PM (0x04:0x0036): Verify fixed data/parity mismatch: unit=0
Oct 27, 2009 09:28.04PM (0x04:0x0036): Verify fixed data/parity mismatch: unit=0
Oct 27, 2009 09:27.52PM (0x04:0x0036): Verify fixed data/parity mismatch: unit=0
Oct 27, 2009 09:27.27PM (0x04:0x0036): Verify fixed data/parity mismatch: unit=0
Oct 27, 2009 09:25.34PM (0x04:0x0036): Verify fixed data/parity mismatch: unit=0
Oct 27, 2009 09:25.27PM (0x04:0x0029): Verify started: unit=0
Oct 27, 2009 09:23.56PM (0x04:0x0008): Unclean shutdown detected: unit=0

События из журнала событий операционки:
events_3ware_CNEL.txt
События из журнала событий операционки.
(4.84 КБ) 723 скачивания
Так мало, потому что при недавнем сбое журнал был поврежден, пришлось очистить.

Вот Errorlog контроллера, взятый при помощи программы 3dm2:
errorlog_0_CNEL.dat.txt
Errorlog контроллера, взятый при помощи программы 3dm2
(64.59 КБ) 695 скачиваний

Etri
Junior member
Сообщения: 2
Зарегистрирован: 28 окт 2009, 13:26
Откуда: Одесса

Re: 3ware 9550SXU-4LP RAID5. Частые ошибки: Код события: 9.

Сообщение Etri » 28 окт 2009, 14:39

Вот аналогичные данные по второму серверу. Привожу только конфигурацию коротко и ссылки на логи, т.к. остальное идентично.

Controller Details (Controller ID 0)
Model 9550SXU-4LP
Serial # L320910A7380697
Firmware FE9X 3.08.00.016
Driver 3.00.01.070
BIOS BE9X 3.08.00.004
Boot Loader BL9X 3.02.00.001
Memory Installed 112 MB
Bus Type PCIX
Bus Width 64 bits
Bus Speed 133 Mhz
# of Ports 4
# of Units 1
# of Drives 3

Battery Backup Information (Controller ID 0)
Battery Backup Unit NOT PRESENT


Unit Information (Controller ID 0)
0 Raid5 RAID 5 130.37 GB OK

Drive Information (Controller ID 0)
Port Model Capacity Serial # Firmware Unit Status
0 WDC WD740ADFD-00NLR4 69.25 GB WD-WMANS1711573 21.07QR4 0 OK
1 WDC WD740ADFD-00NLR4 69.25 GB WD-WMANS1646032 21.07QR4 0 OK
2 WDC WD740ADFD-00NLR4 69.25 GB WD-WMANS1714455 21.07QR4 0 OK

Alarms - журнал 3DM2
Oct 22, 2009 02:43.48PM (0x04:0x0001): Controller reset occurred: resets=2
Oct 22, 2009 02:43.48PM (0x04:0x005E): Cache synchronization completed: unit=0
Oct 21, 2009 02:12.36PM (0x04:0x0001): Controller reset occurred: resets=1
Oct 21, 2009 02:12.36PM (0x04:0x005E): Cache synchronization completed: unit=0
Oct 21, 2009 10:50.21AM (0x04:0x002B): Verify completed: unit=0
Oct 21, 2009 09:36.28AM (0x04:0x0029): Verify started: unit=0
Oct 21, 2009 09:35.12AM (0x04:0x0008): Unclean shutdown detected: unit=0
events_3ware_BLQN.txt
События из журнала операционки, второй сервер.
(11.39 КБ) 721 скачивание
errorlog_0_BLQN.dat.txt
Errorlog контроллера, полученный при помощи программы 3dm2, второй сервер.
(64.59 КБ) 762 скачивания
По второму серверу видно, что событие с кодом 9 сначало появлялось изредка, затем все чаще и теперь уже совсем нехорошо.
На серверах терминально работает до десатка человек, жесткие диски используются активно, ибо на них расположены базы 1С с файловым способом хранения данных.
Вопрос мой собственно в чем:
1) Можно ли проверить винчестеры на бэды и вообще, при этом не разрушая инфу на них, и если да - то как?
В биосе контроллера и в программах, которые работают с этим контроллером я нашел только возможность проверки "Verify Unit", которая работает полчаса и всегда говорит, что все ок, без подробнгостей. И, конечно есть опция "Rebuild Unit", но это же полная потеря инфы на винтах, так ведь? Бэкапы ежедневные, но операционку и программы переустанавливать придется - а это длительный простой сервера.
2) Может ли проблемой быть не побитые (сыпящиеся) винты, а что-то другое?

Serge10
Advanced member
Сообщения: 138
Зарегистрирован: 19 ноя 2003, 15:49
Откуда: Санкт-Петербург
Контактная информация:

Re: 3ware 9550SXU-4LP RAID5. Частые ошибки: Код события: 9.

Сообщение Serge10 » 28 окт 2009, 20:57

хочу спросить, почему пишет "Battery Backup Unit NOT PRESENT", что это конкретно за устройство, как но помогает, если в нем смысл для моей ситуации и можно ли его установить (докупить) в имеющуюся систему?
BBU - Батарея питания кэша - Battery Backup Unit

Ответить

Вернуться в «Массивы - Технические вопросы, решение проблем.»

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и 36 гостей