MSA2000 - массив в leftover

Поломалось, посыпалось, не работает...

Модераторы: Trinity admin`s, Free-lance moderator`s

Ответить
sergy_02
Advanced member
Сообщения: 118
Зарегистрирован: 13 мар 2007, 09:22
Откуда: Уфа

MSA2000 - массив в leftover

Сообщение sergy_02 » 25 мар 2011, 10:29

Всем доброго дня!

Была система MSA2000 SATA диски 750Гб, 1 контроллер (А), все подключено к 2003 серверу х86.
1 vdisk разбит на 4 раздела. RAID6 - 12 дисков
Сразу скажу, систему собирал не я, я бы сделал 4 vdisk и не разбивал бы их.

В один чудесный день сервер завис и не смог загрузитсья, выснили - виной FC карта,
переподключили MSA2000 к другому серверу и наблюдаем такую картину в логах:

3 A804 Vdisk offline: VDISK1, SN: 0ххх00
44 A803 Unwritable cache data exists for volume (volume: , SN: 0ххх00) comprising 1% of cache space (вопроряется для 4х разделов)
84 A790 Killed partner controller; reason=5 (Other not present)
314 A783 FRU type: RAID IOM B, problem: encl 0. Product ID: , S/N: rev: . Related event ID: 782, type: 313

Все диски Vdisk в состоянии leftover, в статусе UP только SPARE диски.

Подключен ЦТП НР, ждемс косультации....

Пока НР думает хотел бы спросить: это все массивы Нр так выпадают в осадок?
И по сути: как можно и можно ли эти leftover диски собрать обратно?

Данные живые, метаданные тоже присудствуют, как-то реально это пересобрать?

sergy_02
Advanced member
Сообщения: 118
Зарегистрирован: 13 мар 2007, 09:22
Откуда: Уфа

Re: MSA2000 - массив в leftover

Сообщение sergy_02 » 04 апр 2011, 15:01

Всем доброго дня!

Массив успешно собрался обратно исполнением следующей последовательнисти команд:
trust enable
trust vdisk <VDISK_Name>

ВНИМАНИЕ!:Если кто-то хочет воспользоваться данной командой, то Вы действуете на свой страх и риск!

Лучше всего обратитесь в техподдержку НР где вам, надеюсь, подскажут, что делать.

После сборки массива обратно был обнаружен один отказавший диск, думаю, когда он отказал, массив и развалился.

Делайте бэкапы!

Маленькое дополнение, хоть массив собрался, но не все данные читаются, хорошо, хоть критичные данные успешно скопировались.

Goblin
Junior member
Сообщения: 7
Зарегистрирован: 04 окт 2010, 13:12
Откуда: Perm

Re: MSA2000 - массив в leftover

Сообщение Goblin » 09 июн 2012, 09:40

О дисковой полке HP MSA P2000G3 хочу поведать историю (пока еще с непонятным финалом, хотя судя по развитию ситуации пациент уже почти зомби). Итак. Имеем небольшой массив MSA P2000G3, набитый практически под завязку 2Тб дисками SAS (основная полка с контроллерами и три дополнительных полки расширения). Для обеспечения запаса жирка дисковое пространство было организованно следующим образом: 1. На каждой физической дисковой полке был выделен один диск под горячую замену (итого 4 диска hot spare), все остальное дисковое пространство поделено на 3 части, созданы 3 vdisk с уровнем избыточности RAID 6. Вроде бы неплохой уровень избыточности - я вот до недавнего времени не верил, что возможно одновременно потерять даже 3 винта. Да не тут то было - HP меня "порадовал". На днях ОДНОВРЕМЕННО массив пометил состоянием LEFTOVER шесть винтов .. причем пометил все 4 выделенных на горячий резерв диска и два диска - принадлежащих одному и тому же RAID6. Вот вам камрады и веселенькое начало развития ситуации.
Ну черт с ним, достаем из загашника 4 диска, вставляем на место 4 помеченных. Ура, массив их видит, помечает как "доступен", ну мы отдаем обратно эти диски в пул глобальных spare disk, диски разбираются на восстановление VD .. и через несколько минут контроллер массива радостно помечает новые, из коробочки диски как LETFOVER. Вот вам и северный пушной зверек.. И рекомендации "очистить метаданные" - помогают на полчаса-на сутки. Открыт кейс в HP. Представитель HP высылает новые диски и ссылку на firmware массива, которым надо прошить оба контроллера. Готовимся к прошивке. Тут бл№ть вылетает еще один, уже седьмой диск - по состоянию "FAULT" .Меняем, ставим на его место один из дисков, которые мы недавно достали из полки с состоянием LEFTOVER. Вперед и с песней - подхватывает и начинает работать, восстанавливает RAID6 (уже на VD02). Дожидаемся реконструкции этого VD (больше суток!) - обновляем firmware. Успех. Контроллеры, перезагрузившись на новой прошивке, радостно сообщают что все хорошо (все просто отлично), переводят проблемные диски из состояния LEFTOVER и самостоятельно начинают процесс восстановления последнего Vдиска (там RAID6, не забываем об этом). Уезжаем с коллегой по домам. ИЗ дома проверяю - и наблюдаю полный северный пушной зверек - этот самый vdisk в оофлайне - контроллеры пометили состоянием LEFTOVER еще один из дисков, который входил в эту группу. Тьфу, звоню диспетчеру об аварии, решаю что утро вечера мудренее - с остальными проблемами будем заниматься с утра. И вот сегодня недоброе утро начинается. Уже морально готов что будем поднимать данные из бакапов. Выполняю некую CLI процедуру, описанную в документации - по попытке оживить vdisk для спасения данных (а вдруг произойдет чудо и умный контроллер все починит) И вот хер вам - контроллер подхватывает диск из доступных ему hot spare вместо того, чтобы забрать себе отключенный по состоянию leftover диск. ТЬФУ. Хрен с ним - идет процесс реконструкции vdisk, вроде почти все ресурсы, подлежащие бакапу есть на ленточках, так что будем развлекаться с восстановлением данных. И тут "контрольный выстрел в голову" - переводится в состояние leftover и через минуту в состояние fault еще один диск из этой raid группы. получается ВОСЬМОЙ leftover драйв по счету , и второй - fault.
В общем пациент скорее жив чем мертв (один из vdisk таки разрушен), два - живы. Предстоит увлекательная процедура восстановления виртуальных машин и данных из резервной копии. НО ЧТО САМОЕ ГЛАВНОЕ - нет уверенности ,что бл№; завтра остальные слоты и драйвы на этом злосчастном дисковом массиве не уйдут в страну вечной охоты.....

Вот такая история. С пока не завершенным концом.

P.S. Крики "ХП - говно и не умеет делать массивы" - принимаются. Хотя это не единственный массив, в хозяйстве есть дисковые полки и Хитачи, и САН .. и вот это ... Бралось как относительно недорогое решение, и схема RAID групп и количество hot spare drives рассчитывалась именно под то, что "один или два диска могут вылететь - поэтому вдобавок к хотспейрам в кладовке лежать несколько новых дисков под замену" . НО на ТАКУЮ ПОДСТАВУ никто не рассчитывал. Массив в эксплуатации пару лет ...

Аватара пользователя
exLH
Сотрудник Тринити
Сотрудник Тринити
Сообщения: 5061
Зарегистрирован: 11 фев 2004, 15:49
Откуда: Москва
Контактная информация:

Re: MSA2000 - массив в leftover

Сообщение exLH » 09 июн 2012, 10:32

Goblin писал(а):Массив в эксплуатации пару лет ...
И прошивку ни разу не обновляли, да?
Почтовый адрес для связи: a.ivanov@trinitygroup.ru | ICQ: 112586598

Goblin
Junior member
Сообщения: 7
Зарегистрирован: 04 окт 2010, 13:12
Откуда: Perm

Re: MSA2000 - массив в leftover

Сообщение Goblin » 09 июн 2012, 10:48

exLH писал(а):
Goblin писал(а):Массив в эксплуатации пару лет ...
И прошивку ни разу не обновляли, да?
Вот так получилось, что не обновляли. И более того, не получали рассылок о необходимости данных действий. Почему ВСЕ массивы SUN, ВСЕ массивы HITACHI работают и работают и работают, и прошивки у них обновляются раз в пару-тройку лет (а на тех массивах, у которых официально end of service life - соответственно больше не обновляются), и таких проблем с этими массивами не наблюдалось. Ну и более того - менее года назад у нас запускали аналогичный проблемному массив MSAP2000 - нам даже не заикнулись о возможность каких-либо проблем у данной серии массивов с ранними firmware.

Аватара пользователя
exLH
Сотрудник Тринити
Сотрудник Тринити
Сообщения: 5061
Зарегистрирован: 11 фев 2004, 15:49
Откуда: Москва
Контактная информация:

Re: MSA2000 - массив в leftover

Сообщение exLH » 11 июн 2012, 20:50

Goblin писал(а):нам даже не заикнулись о возможность каких-либо проблем у данной серии массивов с ранними firmware.
Вы так пишете, как будто я представитель HP и пытаюсь Вас обвинить во всех смертных грехах :)
Goblin писал(а):ВСЕ массивы HITACHI работают и работают и работают
Во-первых, это банальное везение. Мне известны гораздо менее радужные ситуации.
Так уж повелось, что массивы HDS (и старшие SUN тоже) не обслуживаются пользователем. Т.е. формально вы даже не имеете права обновлять прошивку. Есть партнер, которому платятся определенные деньги и который, как минимум (в зависимости от заплаченных денег) следит за актуальностью версий прошивок.
Кроме того, прошивки на том же HDS обновляются не раз в два-три года, а гораздо-гораздо чаще.
Для HP (не забываем, что P2000 это массив самый младший, т.е. для тех, кто не гнушается все своими руками делать) есть соответствующий уровень проактивного сервиса, который также можно купить и наслаждаться. Так всегда - либо поддержка подороже и меньше головной боли, либо поддержка попроще, но и самому глаз не смыкать.
Почтовый адрес для связи: a.ivanov@trinitygroup.ru | ICQ: 112586598

squirL
Advanced member
Сообщения: 114
Зарегистрирован: 11 апр 2006, 20:16
Откуда: Киев

Re: MSA2000 - массив в leftover

Сообщение squirL » 13 июн 2012, 00:04

Goblin писал(а):. Почему ВСЕ массивы SUN, ВСЕ массивы HITACHI работают и работают и работают, и прошивки у них обновляются раз в пару-тройку лет.
дадада, расскажите нам, пожалуйста про ВСЕ массивы. особенно ВСЕ массивы SUN, которые StorageTek, которые LSI Engenio, где количество критических исправлений в каждой новой версии прошивки - зашкаливает и держать которые необновленными "пару-тройку лет" - это самому себе в голову стрелять.

по поводу ВСЕХ массивов HDS - сервисные инженеры хитачи смеются над вами смишным смехом.

ну а HP - увы... просто фуфло :)

Goblin
Junior member
Сообщения: 7
Зарегистрирован: 04 окт 2010, 13:12
Откуда: Perm

Re: MSA2000 - массив в leftover

Сообщение Goblin » 13 июн 2012, 06:49

Для меня ВСЕ массивы SUN и HITACHI , которые работают и работают и работают - это имеющиеся именно в нашем хозяйстве древние FC SUN StorEdge 6020 6030 3310 3510 , Hitachi Thunder 9500, AMS500, AMS2100, AMS2300. Вот какие есть в эксплуатации - за них и рассказал что работают и не дуркуют, как MSAP2000.

squirL
Advanced member
Сообщения: 114
Зарегистрирован: 11 апр 2006, 20:16
Откуда: Киев

Re: MSA2000 - массив в leftover

Сообщение squirL » 13 июн 2012, 09:38

Goblin писал(а):Для меня ВСЕ массивы SUN и HITACHI , которые работают и работают и работают - это имеющиеся именно в нашем хозяйстве древние FC SUN StorEdge 6020 6030 3310 3510 , Hitachi Thunder 9500, AMS500, AMS2100, AMS2300. Вот какие есть в эксплуатации - за них и рассказал что работают и не дуркуют, как MSAP2000.
ну мы искренне рады за вас (без сарказма). но ваше хозяйство - не очень репрезентативная выборка :)

Goblin
Junior member
Сообщения: 7
Зарегистрирован: 04 окт 2010, 13:12
Откуда: Perm

Re: MSA2000 - массив в leftover

Сообщение Goblin » 14 июн 2012, 07:20

Upd. Как подсказал сейчас мой бывший коллега (он зимой от нас уволился) - прошивку на этом массиве он обновлял где-тов октябре-ноябре 2011.. так что не такая уж и старая версия прошивки на этом массиве стояла .

Аватара пользователя
diz
Advanced member
Сообщения: 1189
Зарегистрирован: 12 янв 2009, 12:09
Откуда: Пермь

Re: MSA2000 - массив в leftover

Сообщение diz » 14 июн 2012, 08:48

Goblin писал(а):Upd. Как подсказал сейчас мой бывший коллега (он зимой от нас уволился) - прошивку на этом массиве он обновлял где-тов октябре-ноябре 2011.. так что не такая уж и старая версия прошивки на этом массиве стояла .
Просто Виталий ушел и все :)

Аватара пользователя
Stranger03
Сотрудник Тринити
Сотрудник Тринити
Сообщения: 12979
Зарегистрирован: 14 ноя 2003, 16:25
Откуда: СПб, Екатеринбург
Контактная информация:

Re: MSA2000 - массив в leftover

Сообщение Stranger03 » 14 июн 2012, 09:05

Goblin писал(а):Для меня ВСЕ массивы SUN и HITACHI , которые работают и работают и работают - это имеющиеся именно в нашем хозяйстве древние FC SUN StorEdge 6020 6030 3310 3510 , Hitachi Thunder 9500, AMS500, AMS2100, AMS2300. Вот какие есть в эксплуатации - за них и рассказал что работают и не дуркуют, как MSAP2000.
Это хорошо, что работают и не требуют вмешательства. У нас с год - два назад был случай, довольно забавный надо сказать. У заказчика давно работала АМС200, точно уже не помню, предыдущая модель от АМС2100. Вдруг заказчик обнаружил, что у него к ней же давно куплена доп.полка с САТА дисками. Ну так случилось, иногда бывает, в крупных конторах. Сервиса как мы понимаем нет. При попытке подключить полку получаем развал группы в голове. Заказчик в панике прибегает к нам, мол что делать, выручайте, спасайте, помогайте. Доставали ему прошивку обходными путями, Андрюха Иванов помог, спасибо ему, :). Так что всякое бывает.
С уважением Геннадий
ICQ 116164373
eburg@trinitygroup.ru

Ответить

Вернуться в «Массивы - Технические вопросы, решение проблем.»

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и 25 гостей