Adaptec 3405 - разваливается все само

Поломалось, посыпалось, не работает...

Модераторы: Trinity admin`s, Free-lance moderator`s

grigoriyb
Power member
Сообщения: 40
Зарегистрирован: 18 авг 2013, 15:57
Откуда: Донецк

Adaptec 3405 - разваливается все само

Сообщение grigoriyb » 18 авг 2013, 18:09

Доброго дня!
Adaptec 3405. Вот так некрасиво начал себя вести. Всего на контроллере 3 массива - два RAID10 и один RAID1.

Код: Выделить всё

17 Август 2013 г. 4:47:45 EEST	WRN      301:A01C-S--L02	dnhw1.Amigo.local	Logical device is degraded: controller 1, logical device 2 ("Docs").
17 Август 2013 г. 5:38:25 EEST	WRN      338:A01C-S--L--	dnhw1.Amigo.local	Periodic scan found one or more degraded logical devices: controller 1.  Repair as soon as possible to avoid data loss.
17 Август 2013 г. 13:43:11 EEST	WRN      338:A01C-S--L--	dnhw1.Amigo.local	Periodic scan found one or more degraded logical devices: controller 1.  Repair as soon as possible to avoid data loss.
17 Август 2013 г. 21:48:20 EEST	WRN      338:A01C-S--L--	dnhw1.Amigo.local	Periodic scan found one or more degraded logical devices: controller 1.  Repair as soon as possible to avoid data loss.
17 Август 2013 г. 23:49:55 EEST	INF      408:A01C0S13L--	dnhw1.Amigo.local	Physical drive removed: controller 1, enclosure 1, slot 1, S/N 9WJ0KTV1.
17 Август 2013 г. 23:49:55 EEST	INF      408:A01C0S12L--	dnhw1.Amigo.local	Physical drive removed: controller 1, enclosure 1, slot 0, S/N 3LQ1VBXR00009815UZ35.
17 Август 2013 г. 23:49:55 EEST	INF      408:A01C0S15L--	dnhw1.Amigo.local	Physical drive removed: controller 1, enclosure 1, slot 3, S/N 3LQ12TAY00009746GYXV.
17 Август 2013 г. 23:49:55 EEST	INF      408:A01C0S14L--	dnhw1.Amigo.local	Physical drive removed: controller 1, enclosure 1, slot 2, S/N 9WJ0KTW4.
17 Август 2013 г. 23:49:55 EEST	INF      408:A01C0S16L--	dnhw1.Amigo.local	Physical drive removed: controller 1, enclosure 1, slot 4, S/N Z1N1FS81.
17 Август 2013 г. 23:49:55 EEST	INF      408:A01C0S17L--	dnhw1.Amigo.local	Physical drive removed: controller 1, enclosure 1, slot 5, S/N 9WJ0KTL0.
17 Август 2013 г. 23:49:55 EEST	INF      347:A01C-S--L02	dnhw1.Amigo.local	Deleted logical device: controller 1, logical device 2 ("Docs").
17 Август 2013 г. 23:49:55 EEST	WRN      301:A01C-S--L01	dnhw1.Amigo.local	Logical device is degraded: controller 1, logical device 1 ("RAID_10_1").
17 Август 2013 г. 23:49:55 EEST	WRN      301:A01C-S--L00	dnhw1.Amigo.local	Logical device is degraded: controller 1, logical device 0 ("RAID_1_1").
17 Август 2013 г. 23:50:01 EEST	INF      407:A01C0S15L--	dnhw1.Amigo.local	Physical drive added: controller 1, expander 1, phy 6, S/N 3LQ12TAY00009746GYXV.
17 Август 2013 г. 23:50:01 EEST	INF      407:A01C0S12L--	dnhw1.Amigo.local	Physical drive added: controller 1, expander 1, phy 1, S/N 3LQ1VBXR00009815UZ35.
17 Август 2013 г. 23:50:07 EEST	INF      407:A01C0S13L--	dnhw1.Amigo.local	Physical drive added: controller 1, expander 1, phy 1, S/N 9WJ0KTV1.
17 Август 2013 г. 23:50:07 EEST	INF      407:A01C0S16L--	dnhw1.Amigo.local	Physical drive added: controller 1, expander 1, phy 4, S/N Z1N1FS81.
17 Август 2013 г. 23:50:07 EEST	INF      407:A01C0S14L--	dnhw1.Amigo.local	Physical drive added: controller 1, expander 1, phy 2, S/N 9WJ0KTW4.
17 Август 2013 г. 23:50:07 EEST	INF      407:A01C0S17L--	dnhw1.Amigo.local	Physical drive added: controller 1, expander 1, phy 5, S/N 9WJ0KTL0.
17 Август 2013 г. 23:50:57 EEST	INF      346:A01C-S--L02	dnhw1.Amigo.local	Added logical device: controller 1, logical device 2 ("Docs"). Size = 929.99 GB, RAID level = 10.
17 Август 2013 г. 23:50:57 EEST	WRN      301:A01C-S--L02	dnhw1.Amigo.local	Logical device is degraded: controller 1, logical device 2 ("Docs").
17 Август 2013 г. 23:51:04 EEST	INF      304:A01C-S--L01	dnhw1.Amigo.local	Rebuilding: controller 1, logical device 1 ("RAID_10_1").
17 Август 2013 г. 23:51:12 EEST	INF      304:A01C-S--L02	dnhw1.Amigo.local	Rebuilding: controller 1, logical device 2 ("Docs").
17 Август 2013 г. 23:51:14 EEST	INF      304:A01C-S--L00	dnhw1.Amigo.local	Rebuilding: controller 1, logical device 0 ("RAID_1_1").
18 Август 2013 г. 0:17:00 EEST	INF      345:A01C-S--L01	dnhw1.Amigo.local	Logical device is normal: controller 1, logical device 1 ("RAID_10_1").
18 Август 2013 г. 0:17:00 EEST	INF      305:A01C-S--L01	dnhw1.Amigo.local	Rebuild complete: controller 1, logical device 1 ("RAID_10_1").
18 Август 2013 г. 0:17:57 EEST	INF      345:A01C-S--L00	dnhw1.Amigo.local	Logical device is normal: controller 1, logical device 0 ("RAID_1_1").
18 Август 2013 г. 0:18:03 EEST	INF      305:A01C-S--L00	dnhw1.Amigo.local	Rebuild complete: controller 1, logical device 0 ("RAID_1_1").
18 Август 2013 г. 1:15:31 EEST	ERR      306:A01C-S--L02	dnhw1.Amigo.local	Rebuild failed: controller 1, logical device 2 ("Docs") [0x00].
18 Август 2013 г. 1:15:47 EEST	INF      304:A01C-S--L02	dnhw1.Amigo.local	Rebuilding: controller 1, logical device 2 ("Docs").
18 Август 2013 г. 3:13:15 EEST	INF      305:A01C-S--L02	dnhw1.Amigo.local	Rebuild complete: controller 1, logical device 2 ("Docs").
18 Август 2013 г. 3:13:38 EEST	INF      304:A01C-S--L02	dnhw1.Amigo.local	Rebuilding: controller 1, logical device 2 ("Docs").
18 Август 2013 г. 3:16:53 EEST	ERR      306:A01C-S--L02	dnhw1.Amigo.local	Rebuild failed: controller 1, logical device 2 ("Docs") [0x00].
18 Август 2013 г. 3:17:12 EEST	INF      304:A01C-S--L02	dnhw1.Amigo.local	Rebuilding: controller 1, logical device 2 ("Docs").
18 Август 2013 г. 3:19:22 EEST	WRN      301:A01C-S--L00	dnhw1.Amigo.local	Logical device is degraded: controller 1, logical device 0 ("RAID_1_1").
18 Август 2013 г. 3:19:22 EEST	INF      408:A01C0S15L--	dnhw1.Amigo.local	Physical drive removed: controller 1, expander 1, phy 6, S/N 3LQ12TAY00009746GYXV.
18 Август 2013 г. 3:19:28 EEST	INF      407:A01C0S15L--	dnhw1.Amigo.local	Physical drive added: controller 1, expander 1, phy 6, S/N 3LQ12TAY00009746GYXV.
18 Август 2013 г. 3:20:14 EEST	INF      304:A01C-S--L00	dnhw1.Amigo.local	Rebuilding: controller 1, logical device 0 ("RAID_1_1").
18 Август 2013 г. 3:23:59 EEST	ERR      303:A01C-S--L02	dnhw1.Amigo.local	Logical device failed: controller 1, logical device 2 ("Docs").
18 Август 2013 г. 3:33:11 EEST	INF      345:A01C-S--L00	dnhw1.Amigo.local	Logical device is normal: controller 1, logical device 0 ("RAID_1_1").
18 Август 2013 г. 3:33:11 EEST	INF      305:A01C-S--L00	dnhw1.Amigo.local	Rebuild complete: controller 1, logical device 0 ("RAID_1_1").
Прошивка у контроллера последняя. Куда копать?

Спасибо!

Аватара пользователя
Stranger03
Сотрудник Тринити
Сотрудник Тринити
Сообщения: 12979
Зарегистрирован: 14 ноя 2003, 16:25
Откуда: СПб, Екатеринбург
Контактная информация:

Re: Adaptec 3405 - разваливается все само

Сообщение Stranger03 » 19 авг 2013, 12:37

"grigoriyb"
- проверить состояние батарейки
- проверить состояние дисков. Возможно какой-то из дисков начал сыпаться.
С уважением Геннадий
ICQ 116164373
eburg@trinitygroup.ru

grigoriyb
Power member
Сообщения: 40
Зарегистрирован: 18 авг 2013, 15:57
Откуда: Донецк

Re: Adaptec 3405 - разваливается все само

Сообщение grigoriyb » 19 авг 2013, 12:59

Как лучше всего проверять батарейку? Может быть, лучше (чтобы наверняка) просто выключить кэш на всех массивах? Я не особо понимаю почему из-за батарейки могут диски из массивов выпадать.

Как лучше проверять диски? Да и странно это, что все они сразу вываливаются.

Спасибо!

Аватара пользователя
Stranger03
Сотрудник Тринити
Сотрудник Тринити
Сообщения: 12979
Зарегистрирован: 14 ноя 2003, 16:25
Откуда: СПб, Екатеринбург
Контактная информация:

Re: Adaptec 3405 - разваливается все само

Сообщение Stranger03 » 19 авг 2013, 13:46

grigoriyb писал(а):Как лучше проверять диски? Да и странно это, что все они сразу вываливаются.
По одному подключать к любому ХБА и проверять утилитами производителя. Кеш на дисках включен? Пока не поменяна батарейка, выключить кеш на контроллере. Кеш на дисках должен быть выключен всегда.
С уважением Геннадий
ICQ 116164373
eburg@trinitygroup.ru

grigoriyb
Power member
Сообщения: 40
Зарегистрирован: 18 авг 2013, 15:57
Откуда: Донецк

Re: Adaptec 3405 - разваливается все само

Сообщение grigoriyb » 19 авг 2013, 13:56

Stranger03 писал(а):
grigoriyb писал(а):Как лучше проверять диски? Да и странно это, что все они сразу вываливаются.
По одному подключать к любому ХБА и проверять утилитами производителя. Кеш на дисках включен? Пока не поменяна батарейка, выключить кеш на контроллере. Кеш на дисках должен быть выключен всегда.
Что имеется ввиду под выключением кэша на дисках? На логических дисках в операционной системе (в свойствах тома)?

Аватара пользователя
DeadMazay
Advanced member
Сообщения: 1743
Зарегистрирован: 20 сен 2007, 15:07
Откуда: Новосибирск, Мск
Контактная информация:

Re: Adaptec 3405 - разваливается все само

Сообщение DeadMazay » 19 авг 2013, 14:02

grigoriyb писал(а): Что имеется ввиду под выключением кэша на дисках? На логических дисках в операционной системе (в свойствах тома)?
нет, в свойствах массива disk cashe
с уважением Сергей.
ICQ: 365984224

grigoriyb
Power member
Сообщения: 40
Зарегистрирован: 18 авг 2013, 15:57
Откуда: Донецк

Re: Adaptec 3405 - разваливается все само

Сообщение grigoriyb » 19 авг 2013, 17:50

Достал первый диск - ST3500514NS. Подключил к десктопному компу.
Проверил с помощью SEATools - все ОК.
Вот что говорит о нем Виктория (SMART-инфо) - в прикрепленном файле.

Мне это не совсем понятно. Может кто-то подскажет что все это значит?
Например, вот это:

Код: Выделить всё

Описание          : Переназначенные сектора
Необработанное значение: 1 024
Нормализованное значение: 0
Наихудшее значение: 0
Порог             : 36
Статус            : Неизвестно
Вложения
1.txt
(23.96 КБ) 766 скачиваний

grigoriyb
Power member
Сообщения: 40
Зарегистрирован: 18 авг 2013, 15:57
Откуда: Донецк

Re: Adaptec 3405 - разваливается все само

Сообщение grigoriyb » 20 авг 2013, 16:56

3 SATA диска по 500 ГБ (ST3500514NS) из 10-го рейда прошли нормально проверку Викторией и переназначенных секторов на них нет. А вот четвертый диск на 1 ТБ (ST1000NM0011) из этого же рейда проверку прошел, но у него есть 1 ремапнутый сектор (согласно данных СМАРТа).

Есть ли смысл менять этот диск?

Аватара пользователя
gs
Сотрудник Тринити
Сотрудник Тринити
Сообщения: 16650
Зарегистрирован: 23 авг 2002, 17:34
Откуда: Москва
Контактная информация:

Re: Adaptec 3405 - разваливается все само

Сообщение gs » 20 авг 2013, 17:11

Один ремап в общем-то не повод для беспокойства. Главное, чтобы бэды не плодились.

Винты эти отсутствуют в HCL контроллера (по очевидным причинам): http://download.adaptec.com/pdfs/compat ... 5_3085.pdf
Так что их использование - на свой страх и риск.

Aborted Commands случаем нету?

grigoriyb
Power member
Сообщения: 40
Зарегистрирован: 18 авг 2013, 15:57
Откуда: Донецк

Re: Adaptec 3405 - разваливается все само

Сообщение grigoriyb » 20 авг 2013, 17:14

gs писал(а):Один ремап в общем-то не повод для беспокойства. Главное, чтобы бэды не плодились.

Винты эти отсутствуют в HCL контроллера (по очевидным причинам): http://download.adaptec.com/pdfs/compat ... 5_3085.pdf
Так что их использование - на свой страх и риск.

Aborted Commands случаем нету?
А по каким очевидным причинам этих винтов нет в HCL? Не та серия?
По смарту чуть позже дам отчет - сейчас Seatools заканчивает тест.

Аватара пользователя
gs
Сотрудник Тринити
Сотрудник Тринити
Сообщения: 16650
Зарегистрирован: 23 авг 2002, 17:34
Откуда: Москва
Контактная информация:

Re: Adaptec 3405 - разваливается все само

Сообщение gs » 20 авг 2013, 17:18

Абортед коммандс видно в ASM.

Очевидная причина - винты эти были выпущены уже после окончания поддержки этого контроллера. Он их просто не знает. Работает - хорошо. Не работает - никто отвечать не собирается.

grigoriyb
Power member
Сообщения: 40
Зарегистрирован: 18 авг 2013, 15:57
Откуда: Донецк

Re: Adaptec 3405 - разваливается все само

Сообщение grigoriyb » 20 авг 2013, 17:28

gs писал(а):Абортед коммандс видно в ASM.
Все 4 диска уже отключены от сервера, поэтому я сейчас не смогу сказать что там. А контроллер помнит об этом после разбора рейда если я вставлю винты назад в сервер?

По поводу старого контроллера и новых винтов все понял.

Спасибо!

grigoriyb
Power member
Сообщения: 40
Зарегистрирован: 18 авг 2013, 15:57
Откуда: Донецк

Re: Adaptec 3405 - разваливается все само

Сообщение grigoriyb » 20 авг 2013, 17:32

Посмотрел только что "Aborted Commands" для оставшихся в сервере дисков (все ST373455SS). На 4-х из 6-ти дисках есть значение этого параметра от 1 до 6.

Рейды на этих дисках тоже разваливались, но я, почему-то, грешил на тот рейд который я разобрал уже, думал, что он дает сбой и мешает нормально жить контроллеру.

grigoriyb
Power member
Сообщения: 40
Зарегистрирован: 18 авг 2013, 15:57
Откуда: Донецк

Re: Adaptec 3405 - разваливается все само

Сообщение grigoriyb » 20 авг 2013, 20:35

Вопрос по поводу кэша дисков.
На каждом диске в ASM нажима правой кнопкой и выбираю "Change write-cache mode to write through", после этого вместо этого пункта меня появляется вот такой "Change write-cache mode to write back". Вроде бы все ОК.
Делаю Rescan для контроллера. И снова для каждого диска доступен пункт "Change write-cache mode to write through".

Не понимаю. В момент рескана ASM не знает о статусе кэша дисков или в чем дело?

Аватара пользователя
Stranger03
Сотрудник Тринити
Сотрудник Тринити
Сообщения: 12979
Зарегистрирован: 14 ноя 2003, 16:25
Откуда: СПб, Екатеринбург
Контактная информация:

Re: Adaptec 3405 - разваливается все само

Сообщение Stranger03 » 21 авг 2013, 12:59

grigoriyb писал(а):Не понимаю. В момент рескана ASM не знает о статусе кэша дисков или в чем дело?
Диски не в списке HCL, отсюда могут быть любые приколы. Как вариант обновить прошивку на контроллере, обновить АСМ.
С уважением Геннадий
ICQ 116164373
eburg@trinitygroup.ru

Ответить

Вернуться в «Массивы - Технические вопросы, решение проблем.»

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и 34 гостя