сбой диска на массиве RAID5 (Adaptec ASR-5805)

Поломалось, посыпалось, не работает...

Модераторы: Trinity admin`s, Free-lance moderator`s

smol74
member
Сообщения: 31
Зарегистрирован: 05 апр 2011, 00:13
Откуда: Калининград

сбой диска на массиве RAID5 (Adaptec ASR-5805)

Сообщение smol74 » 05 апр 2011, 01:19

Всем доброе время суток!
Помогите пожалуйста решить проблему. В рабочей станции (Win7 x64 ultimate) имею массив RAID5 на контроллере Adaptec ASR-5805 и дисках 2.0Tb SATA-II Seagate Barracuda LP <ST32000542AS> 5900rpm 32Mb (firmaware CC34) 8шт. ОС установлена вне массива на отдельном диске. Основные настройки контроллера - по умолчанию. Кроме того установлен background consistency check period - 1 month. Вся эта система устанавливалась всего 3 месяца назад.

03/04/2011 примерно в 5:00 контроллер стал подавать сигнал о неисправности, но в такое время суток я решил просто выключить комп и начать разбираться с проблемой утром. Днем 03/04/2011 примерно в 12:00 запустил комп, контроллер в процессе загрузки BIOS снова начал сигналить с сообщением о деградации массива. Я никак не прореагировал на сообщение с помощью клавиатуры, и контроллер через 30сек (по-моему такой интервал стоял по умолчанию) разрешил продолжить загрузку компа. После запуска ОС и затем ASM я обнаружил что контроллер в состоянии degraded выполняет rebuilding диска (conn.1, dev.0). После примерно 8 часов процедура была завершена, диск и массив получили статус optimal. Ну вроде все ОК, подумал я, хотя и интуиция мне подсказывала, что все равно что-то не так.
Увы, мои опасения оправдались. Примерно в полночь на 04/04/2011 сигнал о неисправности возобновился, я временно включил silence и вот что я обнаружил, открыв ASM. Массив в статусе degraded, но тот же самый диск имеет статус optimal, при этом и массив и диск помечены восклицательным знаком. Судя по журналу именно в момент подачи звукового сигнала появилось сообщение об обнаружении SMART (в первом скриншоте это зафиксировано), но смысл данного сообщения мне не понятен. Подскажите пожалуйста в чем может быть проблема и как ее предположительно решать? На мой взгляд необходимые скриншоты прилагаю.

Изображение

Изображение

Изображение

Изображение

Изображение
Последний раз редактировалось smol74 05 апр 2011, 22:34, всего редактировалось 1 раз.

Аватара пользователя
gs
Сотрудник Тринити
Сотрудник Тринити
Сообщения: 16650
Зарегистрирован: 23 авг 2002, 17:34
Откуда: Москва
Контактная информация:

Re: сбой массива RAID5 из-за SMART - такое возможно?

Сообщение gs » 05 апр 2011, 11:35

Смарт алерт - это предупреждение о выходе какого-то из параметров диска из рабочего диапазона, т.е. фактически предсказание надвигающейся неисправности. Меняйте диск. Можно его проверить на простой сата порту низкоуровневой утилитой типа Victoria.

Эти диски есть в HCL контроллера?

smol74
member
Сообщения: 31
Зарегистрирован: 05 апр 2011, 00:13
Откуда: Калининград

Re: сбой массива RAID5 из-за SMART - такое возможно?

Сообщение smol74 » 05 апр 2011, 22:27

gs писал(а):Смарт алерт - это предупреждение о выходе какого-то из параметров диска из рабочего диапазона, т.е. фактически предсказание надвигающейся неисправности. Меняйте диск. Можно его проверить на простой сата порту низкоуровневой утилитой типа Victoria.

Эти диски есть в HCL контроллера?
Да, конечно диски есть в таблице совместимости, и именно той же ревизии CC34. Извиняюсь за дилетанство, но не подскажите что значит "проверить на простой сата порту"? И где взять эту утилиту Victoria?

Аватара пользователя
exLH
Сотрудник Тринити
Сотрудник Тринити
Сообщения: 5061
Зарегистрирован: 11 фев 2004, 15:49
Откуда: Москва
Контактная информация:

Re: сбой диска на массиве RAID5 (Adaptec ASR-5805)

Сообщение exLH » 05 апр 2011, 23:42

smol74 писал(а):И где взять эту утилиту Victoria?
http://tinyurl.com/3tajrse
Почтовый адрес для связи: a.ivanov@trinitygroup.ru | ICQ: 112586598

Аватара пользователя
gs
Сотрудник Тринити
Сотрудник Тринити
Сообщения: 16650
Зарегистрирован: 23 авг 2002, 17:34
Откуда: Москва
Контактная информация:

Re: сбой диска на массиве RAID5 (Adaptec ASR-5805)

Сообщение gs » 06 апр 2011, 12:50

Подцепляете винт на писюк и запускаете викторию (MHDD и т.п.). Если Вас так интересует _что_именно_ не так с диском, то вопросы можно позадавать там: http://forum.ixbt.com/?id=11
Но по моему скромному мнению, если винту плохо, его надо менять. И неважно, по какой конкретно причине.

smol74
member
Сообщения: 31
Зарегистрирован: 05 апр 2011, 00:13
Откуда: Калининград

Re: сбой диска на массиве RAID5 (Adaptec ASR-5805)

Сообщение smol74 » 06 апр 2011, 22:39

exLH писал(а):
smol74 писал(а):И где взять эту утилиту Victoria?
http://tinyurl.com/3tajrse
спасибо за помощь! хоть и с подколом ;)
gs писал(а):Подцепляете винт на писюк и запускаете викторию (MHDD и т.п.). Если Вас так интересует _что_именно_ не так с диском, то вопросы можно позадавать там: http://forum.ixbt.com/?id=11
Но по моему скромному мнению, если винту плохо, его надо менять. И неважно, по какой конкретно причине.
Я абсолютно с вами согласен! Но коль дискам всего 3 месяца, то хотелось бы продавцу предъявить основание, по которой я бы мог обменять диск - как никак гарантия еще не скоро заканчивается!

smol74
member
Сообщения: 31
Зарегистрирован: 05 апр 2011, 00:13
Откуда: Калининград

Re: сбой диска на массиве RAID5 (Adaptec ASR-5805)

Сообщение smol74 » 06 апр 2011, 23:02

И можно еще пару вопросов?
1. Правильно ли я понимаю, вынимая диск для тестирования, делать лучше это на другом компе, а больной комп желательно даже не включать, дабы не рисковать отсутствием диска избыточности массива?
2. Теоритический - в данный момент больной диск имеет статус optimal. Это означает то, что он все-таки работает в штатном режиме, но так сказать звонок прозвенел и на него необходимо обязательно реагировать? Или несмотря на данный статус диск в настоящее время все-таки исключен из массива?
3. И еще, для этого диска в ASM доступна операция initialize - стОит ли ее запускать для лечения диска, хотя бы временного?
4. в ASM на дисках нет операции присвоения диску статуса failed. Как в таком случае корректно произвести замену диска? Как новому диску присвоить статус spare? Ведь только в этом случае можно будет выполнить rebuild массива, верно? Или эту процедру нужно выполнять только через БИОС контроллера?

Заранее спасибо за ответы!

Аватара пользователя
gs
Сотрудник Тринити
Сотрудник Тринити
Сообщения: 16650
Зарегистрирован: 23 авг 2002, 17:34
Откуда: Москва
Контактная информация:

Re: сбой диска на массиве RAID5 (Adaptec ASR-5805)

Сообщение gs » 07 апр 2011, 12:33

1. Да, так надежнее всего.
2. Статус оптимал означает, что диск находится в работе. Т.е. он дохлый лишь местами (в смарте много параметров и я не могу сказать, что именно не нравится контроллеру).
3. Инициализация ДИСКА (не путать с инициализацией массива) означет лишь запись на него метаданных о его принадлежности к контроллеру/массиву. Этого делать не нужно, оно там и так уже есть.
4. Заменить диск можно и путем физического втыкания нового на место старого в горячем состоянии. Можно воткнуть диск и рядом, но тогда его надо будет отметить как спару вручную и потом выдрать больного. Ребилд (при включенной опции "авторебилд") запускается сам. Или его можно запустить вручную из ASM.

smol74
member
Сообщения: 31
Зарегистрирован: 05 апр 2011, 00:13
Откуда: Калининград

Re: сбой диска на массиве RAID5 (Adaptec ASR-5805)

Сообщение smol74 » 22 май 2011, 23:12

доброе время суток уважаемый gs!
Как вы и рекомендовали, выключил комп, отключил питание с дисков в массиве, а также вынул контроллер из слота. Дефектный диск (CN1 device 0) сдал в сервис, вроде признали его бракованным, но проблема теперь в другом. Купил абсолютно идентичную модель диска на замену, вставил, все подключил, запустил. В итоге в контроллер сообщил мне что массив FAILED :(
в ASM я увидел, что не только CN1 device 0 имеет статус READY, но и вдруг откуда ни возьмись, еще и CN0 device 0 имеет статус READY. Единственное что я сделал, это пометил CN1 device 0 как HOT SPARE. На всякий случай выключил комп, проверил все коннекторы дисков, включил комп. Статус массива по-прежнему FAILED, но CN0 device 0 теперь имеет статус OPTIMAL, т.е. как неожиданно стал READY, также внезапно вернулся в положение OPTIMAL :? Что это может быть? Глюк? Посоветуйте пжл что делать в этой ситуации?
Картинку текущего состояния прикладываю:
Изображение

smol74
member
Сообщения: 31
Зарегистрирован: 05 апр 2011, 00:13
Откуда: Калининград

Re: сбой диска на массиве RAID5 (Adaptec ASR-5805)

Сообщение smol74 » 23 май 2011, 16:34

как вы понимаете, очень нужна помощь! стоит ли давать массиву команду force online?

Аватара пользователя
gs
Сотрудник Тринити
Сотрудник Тринити
Сообщения: 16650
Зарегистрирован: 23 авг 2002, 17:34
Откуда: Москва
Контактная информация:

Re: сбой диска на массиве RAID5 (Adaptec ASR-5805)

Сообщение gs » 23 май 2011, 16:50

Вам надо спасать данные с этого массива или просто вернуть его в рабочее состояние?
Если второе, то форс онлайн не повредит. Но я бы лучше перебилдил с полным инитом.

smol74
member
Сообщения: 31
Зарегистрирован: 05 апр 2011, 00:13
Откуда: Калининград

Re: сбой диска на массиве RAID5 (Adaptec ASR-5805)

Сообщение smol74 » 23 май 2011, 17:17

gs писал(а):Вам надо спасать данные с этого массива или просто вернуть его в рабочее состояние?
Если второе, то форс онлайн не повредит. Но я бы лучше перебилдил с полным инитом.
Задача минимум - спасти данные, максимум - вернуть в рабочее состояние и понять какие меры необходимо предпринять, чтобы подобное не повторилось вновь (ну кроме того, чтобы своевременно бэкапить необходимые данные, хотя по правде говоря это довольно не просто при общем объеме массива 12ТБ). Я имею ввиду произвольную смену состояния CN0 device 0 из OPTIMAL в READY и обратно. Кстати, не подскажите с чем это может быть связано?
И еще скажите пожалуйста как поребилдить с полным инитом? Все что мне удалось найти в доступных операциях - это форс онлайн. Или я не там ищу?

Аватара пользователя
gs
Сотрудник Тринити
Сотрудник Тринити
Сообщения: 16650
Зарегистрирован: 23 авг 2002, 17:34
Откуда: Москва
Контактная информация:

Re: сбой диска на массиве RAID5 (Adaptec ASR-5805)

Сообщение gs » 23 май 2011, 17:22

Если спасти данные, то поспрошайте на профильном форуме: http://rlab.ru/forum/board,14.0

Почему творится свистопляка - не знаю. Обычно это характерно для невалидированных дисков или хреновых кабелей.
Честно говоря не знаю, как эти винты попали в HCL - это явно не их вотчина.

smol74
member
Сообщения: 31
Зарегистрирован: 05 апр 2011, 00:13
Откуда: Калининград

Re: сбой диска на массиве RAID5 (Adaptec ASR-5805)

Сообщение smol74 » 23 май 2011, 18:07

Спасибо, попытаюсь обратиться в RLAB.

smol74
member
Сообщения: 31
Зарегистрирован: 05 апр 2011, 00:13
Откуда: Калининград

Re: сбой диска на массиве RAID5 (Adaptec ASR-5805)

Сообщение smol74 » 16 июн 2011, 00:03

Доброе время суток!
Еще раз благодарю за полезные советы! Также выражаю огромную благодарность Fader'у от компании R.LAB за помощь в спасении данных. Но я снова здесь в продолжении моей проблемы. В качестве совета мне было предложено таки отказаться от дисков 2.0Tb SATA-II Seagate Barracuda LP <ST32000542AS> 5900rpm 32Mb, даже несмотря на то, что они имеются в HCL моего контроллера Adaptec ASR-5805. И в качестве альтернативы предложены Samsung либо Hitachi, но все же рекомендовано обратиться к вам как к специалистам непосредственно в области хранения нежели в области восстановления данных.
Итак, возвращаясь к моим баранам, вкратце: имею контроллер Adaptec ASR-5805 и восемь дисков 2.0Tb SATA-II Seagate Barracuda LP <ST32000542AS> 5900rpm 32Mb, которые согласно HCL дружат с данным контроллером. Один диск вылетел, но у меня в запасе есть еще один. В принципе можно заменить, попытаться запустить FORCE ONLINE, предварительно вытащив ценные данные из массива. Ну и дальше, при благоприятном исходе, массив продолжит свою работу, а в противном случае как я понимаю меня ожидает пересоздание массива. Но сейчас для меня более важно понять - что целесообразнее с точки зрения НАДЕЖНОСТИ данных:
1. Обойтись минимумом затрат, запустить массив и надеяться, что остальные диски прослужат долго и верно :) Ну может купить один в запас? Хотя даже сейчас эту модель практически днем с огнем не найти, только уже по завышенной цене и то далеко не везде.
2. Ввязаться в непростое дело распродажи имеющихся дисков? (ввиду их невысокой надежности? или просто мне так повезло и не стОит всерьез обращать на быть может единичный неудачный случай вылета как казалось неплохой модели диска?) и одновременного приобретения комплекта более надежных дисков?
3. Уж совсем дорогой вариант с заменой (распродажей/покупкой) контроллера и дисков одновременно на поддерживающие САТА 6ГБ/с (назовем его САТА-3) контроллер и диски? И в первую очередь не для скорости, а ради возможности в будущем (если не дай бог снова какие-то проблемы с дисками) заменой на подходящий альтернативный. Ведь судя по всему САТА-2 очень скоро вообще умрет в плане производства новых дисков.
Я конечно понимаю, что чем дороже вариант, тем он проще в реализации, но что там говорить - кроме надежности массива для меня все-таки не менее важна стоимость его владения. Потому и обращаюсь к вам за советом как лучше поступить в моей непростой ситуации?
P.S. Прошу прощения, если ответы на мои вопросы уже были даны в каком-либо FAQ по созданию массивов для домашних архивов. Тогда просто дайте ссылки пожалуйста.

Ответить

Вернуться в «Массивы - Технические вопросы, решение проблем.»

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и 23 гостя