Вылетает диск на Adaptec RAID 3805

Поломалось, посыпалось, не работает...

Модераторы: Trinity admin`s, Free-lance moderator`s

Ответить
dmitry.s
Junior member
Сообщения: 11
Зарегистрирован: 26 май 2012, 00:28
Откуда: Саратов

Вылетает диск на Adaptec RAID 3805

Сообщение dmitry.s » 25 июн 2014, 20:48

Приветствую всех.

Столкнулся со следующей проблемой.

Имеется контроллер Adaptec RAID 3805, к которому подключено 7 дисков по 1Tb, собранные в RAID5. Батарейки (бабуина) нет, кэши записи на дисках и на контроллере - отключены.

Сразу после установки контроллера начались проблемы с вылетом из массива одного из дисков. Диск вылетает, затем начинается ребилдинг и массив возвращается в нормальное состояние. Происходило это примерно 1 раз в месяц, после чего было принято решение заменить данный диск. После замены массив проработал еще где-то 2-3 месяца, и сейчас диск опять вылетел.

Вот часть лога:

Код: Выделить всё

Device event log for controller 1

Vendor/Model        S/N (20 chars max)    WWN (SAS only)    Parity errors  Link errors    HW errors      Cmd aborts     Medium errors  SMART error    SMART warnings
ST310003 33AS       9TE16JTS              0000000000000000  0              0              0              1720           0              false          0
ST310003 33AS       6TE0HMPZ              0000000000000000  0              0              0              1133           0              false          0
ST310003 33AS       5TE0EX65              0000000000000000  0              0              0              1493           0              false          0
WDC WD10EARS        WD-WMAV50880208       0000000000000000  0              0              0              1124           0              false          0
ST310003 33AS       6TE0GK0D              0000000000000000  0              0              0              1884           0              false          0
WDC WD10EARS        WD-WMAV50881597       0000000000000000  0              0              0              1004           0              false          0
ST1000VX 000-1CU1   Z1D98ZVR              0000000000000000  0              0              0              174            0              false          0

Defunct drive event log for controller 1

Date and time                           Vendor/Model        S/N (20 chars max)    WWN (SAS only)    Failure code    Description
February 05, 2014 8:53:05 AM MSK        ST310003 33AS       6TE0HMPZ              0000000000000000  0x2             Selection timeout: device removed or not responding
February 15, 2014 9:06:19 AM MSK        ST310003 33AS       6TE0HMPZ              0000000000000000  0x2             Selection timeout: device removed or not responding
February 22, 2014 12:33:13 AM MSK       ST310003 33AS       6TE0HMPZ              0000000000000000  0x2             Selection timeout: device removed or not responding
February 27, 2014 10:28:44 AM MSK       ST310003 33AS       6TE0HMPZ              0000000000000000  0x2             Selection timeout: device removed or not responding
March 04, 2014 1:35:55 PM MSK           ST310003 33AS       6TE0HMPZ              0000000000000000  0x2             Selection timeout: device removed or not responding
March 26, 2014 2:10:45 AM MSK           ST310003 33AS       6TE0HMPZ              0000000000000000  0x2             Selection timeout: device removed or not responding
April 30, 2014 3:51:04 AM MSD           ST310003 33AS       6TE0HMPZ              0000000000000000  0x2             Selection timeout: device removed or not responding
June 25, 2014 7:58:54 AM MSD            ST1000VX 000-1CU1   Z1D98ZVR              0000000000000000  0x2             Selection timeout: device removed or not responding

Soft event log for controller 1

May 31, 2014 7:43:35 AM MSD	INF  PPI update.  Age 469
May 31, 2014 7:43:48 AM MSD	ERR  Battery has degraded to the dead state: controller 1
June 3, 2014 2:18:41 AM MSD	INF  Container changed: controller 1, logical device 0
June 3, 2014 2:18:42 AM MSD	INF  Container changed: controller 1, logical device 0
June 3, 2014 2:12:59 AM MSD	INF  PPI update.  Age 470
June 3, 2014 2:13:08 AM MSD	INF  PPI update.  Age 471
June 3, 2014 2:13:21 AM MSD	ERR  Battery has degraded to the dead state: controller 1
June 14, 2014 1:39:33 PM MSD	INF  Container changed: controller 1, logical device 0
June 14, 2014 1:38:01 PM MSD	INF  PPI update.  Age 472
June 14, 2014 1:38:10 PM MSD	INF  PPI update.  Age 473
June 14, 2014 1:38:23 PM MSD	ERR  Battery has degraded to the dead state: controller 1
June 25, 2014 7:58:57 AM MSD	INF  New device found: controller 1, channel 0, SCSI device ID 1, LUN 0  
June 25, 2014 7:58:57 AM MSD	WRN  An error occurred while accessing the logical device: controller 1, logical device 0
June 25, 2014 7:58:57 AM MSD	ERR  Drive in a RAID-5 set failed: controller 1, logical device 0
June 25, 2014 7:58:57 AM MSD	ERR  Disk failed: controller 1, channel 0, SCSI device ID 1
June 25, 2014 7:58:57 AM MSD	INF  Drive removed: controller 1, channel 0, SCSI device ID 1
June 25, 2014 7:58:58 AM MSD	INF  Drive inserted: controller 1, channel 0, SCSI device ID 1
June 25, 2014 7:58:58 AM MSD	INF  Container changed: controller 1, logical device 0
June 25, 2014 7:58:59 AM MSD	WRN  RAID-5 failover operation failed because there are no failover devices assigned to this RAID-5 set: controller 1, logical device 0
June 25, 2014 7:59:20 AM MSD	ERR  Disk failed: controller 1, channel 0, SCSI device ID 1
June 25, 2014 7:59:21 AM MSD	INF  PPI update.  Age 474
June 25, 2014 7:59:23 AM MSD	INF  PPI update.  Age 475
June 25, 2014 7:59:24 AM MSD	INF  PPI update.  Age 476
June 25, 2014 7:59:24 AM MSD	INF  Configuration has changed.
June 25, 2014 7:59:25 AM MSD	INF  Failover disk changed: controller 1, logical device 0
June 25, 2014 7:59:25 AM MSD	INF  Failover and rebuild operation started on a RAID-5 set: controller 1, logical device 0
June 25, 2014 7:59:25 AM MSD	INF  Container changed: controller 1, logical device 0
June 25, 2014 7:59:27 AM MSD	INF  Configuration has changed.
ST310003 33AS - старый диск
ST1000VX 000-1CU1 - новый диск
Из лога видно, что симптомы те же, что и у старого диска. Вылетает по таймауту. Смарт у обоих дисков отличный. Смущают только "Cmd aborts" в логе, не знаю насколько это нормально, события на разных дисках, но вылетает только один.

Что можно предпринять, чтобы наверняка узнать, в чем может быть проблема?

maverlife
Advanced member
Сообщения: 186
Зарегистрирован: 28 янв 2014, 08:31
Откуда: Иркутск

Re: Вылетает диск на Adaptec RAID 3805

Сообщение maverlife » 26 июн 2014, 05:25

диски подключены через бэкплейн или напрямую "хвостом" от контроллера?
и просто интересное событие "ERR Battery has degraded to the dead state: controller 1". батарейки ведь нет?

Аватара пользователя
gs
Сотрудник Тринити
Сотрудник Тринити
Сообщения: 16650
Зарегистрирован: 23 авг 2002, 17:34
Откуда: Москва
Контактная информация:

Re: Вылетает диск на Adaptec RAID 3805

Сообщение gs » 26 июн 2014, 10:58

И Вы еще хотите, чтобы это работало???
Сборная солянка дисков - не только разных вендоров, но еще и оборотов.
Диски сигейт 7200.11, знаменитые своими художествами, да еще вдшный грин.
Абортед коммандс как правило говорит о несовместимости дисков и контроллера, что в общем-то нетрудно предположить и так.
Вы хотя бы HCL контроллера посмотрите...

Аватара пользователя
Stranger03
Сотрудник Тринити
Сотрудник Тринити
Сообщения: 12979
Зарегистрирован: 14 ноя 2003, 16:25
Откуда: СПб, Екатеринбург
Контактная информация:

Re: Вылетает диск на Adaptec RAID 3805

Сообщение Stranger03 » 26 июн 2014, 11:46

gs писал(а):И Вы еще хотите, чтобы это работало???
Сборная солянка дисков - не только разных вендоров, но еще и оборотов.
Тоже хотел об этом написать, но постеснялся, :)
С уважением Геннадий
ICQ 116164373
eburg@trinitygroup.ru

dmitry.s
Junior member
Сообщения: 11
Зарегистрирован: 26 май 2012, 00:28
Откуда: Саратов

Re: Вылетает диск на Adaptec RAID 3805

Сообщение dmitry.s » 26 июн 2014, 15:58

maverlife писал(а):диски подключены через бэкплейн или напрямую "хвостом" от контроллера?
и просто интересное событие "ERR Battery has degraded to the dead state: controller 1". батарейки ведь нет?
Диски подключены напрямую к контроллеру. Что касается батарейки - наверное контроллер думает что батарейка якобы подключена. Возможно в биосе нужно отключить где-то, тогда такие ошибки исчезнут.
gs писал(а):И Вы еще хотите, чтобы это работало???
Сборная солянка дисков - не только разных вендоров, но еще и оборотов.
Диски сигейт 7200.11, знаменитые своими художествами, да еще вдшный грин.
Абортед коммандс как правило говорит о несовместимости дисков и контроллера, что в общем-то нетрудно предположить и так.
Вы хотя бы HCL контроллера посмотрите...
Да ну, всегда из разношерстных дисков собирали массивы и никаких проблем не было. Рядом на контроллере Areca аналогичный массив без проблем работает уже лет 5 под приличными нагрузками.

На счет сигейтов 7200.11 - то они из листа совместимости контроллера http://download.adaptec.com/pdfs/compat ... 5_3085.pdf (правда прошивка CC1F у меня, а в списке CC1H). Так что думаю дело не в этом, тем более отваливается только один конкретный диск, а не каждый сигейт в произвольном порядке.
Грешу на кабель, возможно поврежден разъем на данном порте, либо проблема с питанием диска. Корзина не используется, диски подключены к БП напрямую.

Какие могут быть еще варианты?

Аватара пользователя
Stranger03
Сотрудник Тринити
Сотрудник Тринити
Сообщения: 12979
Зарегистрирован: 14 ноя 2003, 16:25
Откуда: СПб, Екатеринбург
Контактная информация:

Re: Вылетает диск на Adaptec RAID 3805

Сообщение Stranger03 » 27 июн 2014, 08:56

dmitry.s писал(а):Какие могут быть еще варианты?
Все варианты вы написали сами.
С уважением Геннадий
ICQ 116164373
eburg@trinitygroup.ru

dmitry.s
Junior member
Сообщения: 11
Зарегистрирован: 26 май 2012, 00:28
Откуда: Саратов

Re: Вылетает диск на Adaptec RAID 3805

Сообщение dmitry.s » 27 июн 2014, 14:56

Тогда такой вопрос, если поменять скажем два диска местами, или например перенести диск со сбойного порта на порт №8 (который свободный), не развалится ли массив? И как вообще лучше эту операцию проделать без потери данных?

И все-таки, что означает наличие большого числа "абортед коммандс", при том что диски из HCL. Это может быть признаком недостатка питания или несовместимости дата-кабеля (используется Supermicro CBL-0188L)?

Аватара пользователя
gs
Сотрудник Тринити
Сотрудник Тринити
Сообщения: 16650
Зарегистрирован: 23 авг 2002, 17:34
Откуда: Москва
Контактная информация:

Re: Вылетает диск на Adaptec RAID 3805

Сообщение gs » 27 июн 2014, 15:03

Я уже писал, что 7200.11 - очень плохие диски. Я не знаю, как они оказались в HCL. Но это самый большой провал на рынке ХДД за последние лет 10 (столько проблем было только с IBM DTLA/DDYS). Причем, в отличие от ИБМ, проблемы у них были с микрокодом, а не железом (пресловутая "муха ЦЦ" - это как раз про них). Это к вопросу совместимости.
Насчет присутствия в HCL WD10EARS (которых, кстати, много моделей под одним названием) я вообще сомневаюсь.

В общем, если хотите - трахайтесь. Но единственный разумный совет - сменить винты. Все.

dmitry.s
Junior member
Сообщения: 11
Зарегистрирован: 26 май 2012, 00:28
Откуда: Саратов

Re: Вылетает диск на Adaptec RAID 3805

Сообщение dmitry.s » 27 июн 2014, 15:14

gs писал(а):В общем, если хотите - трахайтесь. Но единственный разумный совет - сменить винты. Все.
Ну Вы понимаете, что если баг в контроллере или кабеле - это никак проблему не решит. Да и непонятно на какие диски менять, контроллер все-таки старый и новые модели дисков с ним не тестировались. Поставили ведь Seagate SV35 (ST1000VX000), а по нему также идут "абортед коммандс".

Ответить

Вернуться в «Массивы - Технические вопросы, решение проблем.»

Кто сейчас на конференции

Сейчас этот форум просматривают: Google [Bot] и 25 гостей