Кажись, все.. LSI Megaraid 9260-16i Raid6 и КД с архивом

Поломалось, посыпалось, не работает...

Модераторы: Trinity admin`s, Free-lance moderator`s

Ответить
JagO
Junior member
Сообщения: 6
Зарегистрирован: 20 фев 2012, 11:30
Откуда: Москва

Кажись, все.. LSI Megaraid 9260-16i Raid6 и КД с архивом

Сообщение JagO » 05 май 2016, 22:10

Доброго дня!

Как неоднократно говорилось всеми умными людьми - "Пока гром не грянет...", ну а дальше и так всем уже понятно.

На работе есть сервер на Windows Server 2008 R2 являющийся одновременно главным контроллером домена и файловым сервером.
Собран на базе контроллера LSI Megaraid 9260-16i и восьми 2Тб жестких дисков Seagate ST2000DM001.
Диски объединены в массив RAID6.

Некоторое время назад практически одновременно два диска вылетели из массива - в логах были сообщения вида Uncorrectable Media Errors со ссылками на эти два диска, затем были сообщения об их отключении и включении по питанию, а затем оба диска перешли в состояние Failed, а состояние массива стало Degraded.
Данные с массива при этом были доступны, система нормально работала, при перезапуске сервера - он без проблем стартовал.

Были заказаны да аналогичных жестких диска. Немногим больше одной недели их закупали, потом еще примерно неделю я выжидал подходящего момента для замены. В праздники приступил к замене. Сменил статус двух "больных" дисков на - "подготовка к замене". По данным установленной в ОС программы MegaRaid Storage Manager эти диски в вышли из Virtual Drive, спустились ниже и стали Unconfigured Bad. Я извлек их из машины. Через некоторое время последовательно установил два диска им на замену. При этом контроллер самостоятельно не начинал процедуру "ребилда", и по этому я, перевел оба новых диска в состояние Global Hot Spare, затем обновил программу управления контроллером (в смысле refresh) - и увидел, что оба диска "подтянулись" в Virtual Drive и на них начался процесс Rebuild'а. Шел он последовательно, сперва прогресс-бар заполнился на одном винте, затем начался на другом. Я не стал дожидаться окончания процедуры. По журналу контроллера примерно через 6 часов оба диска уже были "в строю". И все пришло в норму.

Но, как выяснилось, не на долго. Неприятности ждали меня в первый рабочий день после праздников.
В журнале мониторинга MSM были строчки с руганью как раз на два новых жестких диска, вида:
Controller ID: 0 Puncturing bad block: PD -:-:12 Location 0xa6cbad78 Event ID:97
Controller ID: 0 Puncturing bad block: PD -:-:14 Location 0xa6cbad78 Event ID:97

а через некоторое время (по тому же журналу за прошлый день), к ним добавились строки вида:
Controller ID: 0 Unrecoverable medium error during recovery: PD -:-:12 Location 0xa6cbad7e Event ID:111
и Controller ID: 0 Unrecoverable medium error during recovery: PD -:-:8 Location 0xa6cbad78 Event ID:111

То есть, "задурил" еще один жесткий диск. При этом, он очень быстро пришел в "негодность" - проскочило сообщения о том, что он перешел в состояние Unconfired Bad и он окрасился рыже-красным значком.

То есть, когда я утром запустил MSM и увидел все эти события в логе, состояние массива было Partially degraded.
Так как я не достаточно знаком с терминологией и особенностями работы raid-массивов, в частности, очень редко посещал этот форум и не читал обязательной и рекомендованной тут литературы, первым делом принялся искать на просторах всемирной сети информацию о том, что собственно произошло, и чем это все может грозить.

Но было уже поздно. Сотрудники фирмы сообщили о проблемах с доступам к некоторым расположенным на этом сервере сетевым папкам и файлам. Я проверил права доступа - там все было в норме, но и с самого сервера (локально) я не мог открыть эти директории. Затем почти сразу отовсюду посыпались ошибки системы, ошибки с адресами в ОЗУ и ошибки доступа к системным файлам Windows. Буквально через пару минут моя терминальная сессия повисла, а затем закрылась. Сервер ушел на перезагрузку, и ОС с него уже не загружалась. И вот тут, я запаниковал, и сделал единственное что пришло в голову после поверхностного прочтения информации об ошибках их журнала с контроллера - нужно сделать Consistency Check. Я запустил эту процедуру из БИОСа контроллера. Спустя сутки она была завершена, но не принесла положительного результата - ОС так и не загружалась.

Через некоторое время, после подбора загрузочного диска с дистрибутивом Windows 2008 Server R2, и его записи на флешку с поддержкой UEFI (в противном случае другие дистрибутивы и загрузочные носители ругались на то, что Восстановление системы с этого диска невозможно, видимо, не определяя GPT структуру разделов в массиве), удалось с нее загрузиться и запустить Восстановление системы. Там было всего три пункта для выбора, и верхний из них предлагал восстановление системы из резервной копии образа. Так как регулярные бэкапы на сетевое хранилище выполнялись только для файлового хранилища, судя по всему, не неся в себе System State и другую информацию для восстановления ОС, я попробовал посмотреть резервную копию на локальном диске С. Но, открывшейся проводник не смог получить доступ в разделы C и D (раздел под установленную ОС и раздел с файловым архивом), и выставив Вид в проводнике в Таблицу - я увидел, что файловая система этих разделов с массива - RAW.

Собственно, в этот момент я понял, что могу дальше необдуманными действиями совсем все поломать или сделать еще хуже.
Подскажите, пожалуйста, как мне быть? Как вы считаете, что можно в сложившейся ситуации предпринять? Какими должны быть мои действия для восстановления данных и работоспособности сервера?

P.S. Мысли и вопросы на данную тему..

а) так как массив Partially degraded - будет ли ему (и данным на нем) лучше или хуже, если я доставлю еще один такой же диск на 2Тб и запущу процесс пересборки массива? Как это может сказаться на нем?

б) может, мне с установочного дистрибутива ОС запустить CHKDSK /F для системного раздела и файловая система и структура будут восстановлены? Читал, что есть мнения, о том, что для проблемных RAID5 этого лучше не делать, так как это может совсем испортить данные на диске. Но у меня проблемный массив RAID6 ([хотя, в текущем состоянии, он, наверное, ближе к проблемного RAID5), да и верно ли это утверждение о вреде CHKDSK для RAID массивов созданных на аппаратном контроллере с кэшем, памятью, батареей и тп?

в) начинаю с бэкапов восстанавливать данные на отдельный диск на другом ПК, что бы к ним доступ появился у сотрудников. Затем новый КД соберу и введу его в эксплуатацию... верная последовательность действий?

г) я так понимаю, что в любом случае, раз уж массив поврежден, сыпал указанными выше ошибками, то вне зависимости от того, получится с него данные восстановить и перенести в другое место, или не получится, я могу смело на этом же контроллере к оставшимся незадействованными портам подключать новые диски и создавать новый дисковый массив, что бы в дальнейшем его использовать, а поврежденный массив вывести из эксплуатации и забрать диски?

Аватара пользователя
Umlyaut
Advanced member
Сообщения: 370
Зарегистрирован: 09 июл 2010, 11:23
Откуда: Москва

Re: Кажись, все.. LSI Megaraid 9260-16i Raid6 и КД с архивом

Сообщение Umlyaut » 06 май 2016, 13:02

Ну Вы наворотили - у меня аж руки опускаются (хоть и чешутся понаписать разных полезных советов). :(

Знаете, единственный совет, который я готов дать без опасения ухудшить Вашу ситуацию - это срочно пригласить живьём специалиста, который на месте разберётся точно с Вашей ситуацией и сделает всё, что только возможно ещё сделать.

Просто, как я обычно говорю, "отсюда плохо видно"(c): помимо данного тут описания ситуации (в меру Вашего её понимания, не в обиду Вам будь сказано) могут быть нюансы и моменты, которых Вы не заметили и/или не поняли, что их нужно заметить и доложить тут.

Ну и вообще, судя по допущенным ошибкам - начиная с изначального планирования (например, пренебрежение HSD и игнорирования регулярного СС в процессе работы) и заканчивая собственно отработкой этого дизастера - Вы несколько далеки от достаточного понимания работы RAID-систем даже на базовом уровне (снова без обид, ОК).
Т.е. любые советы, данные дистанционно (ага, пресловутое "управление марсоходом по радио"(с)) дай бог чтобы хоть не навредили при их применении в меру Вашего собственного понимания своих действий.

Я понимаю: отписываясь в теме, Вы расчитывали или надеялись на помощь - но даже если бы мы тут расписали пошагово, что Вы сделали не так, как нужно было бы сделать, да что можно было б попробовать теперь в рамках реанимации, то не факт, что это пошло бы Вам на пользу.

Ещё раз извините. :( Всё же найдите и позовите спеца непосредственно "на поле боя" - это будет надёжнее всего.

P.S. На будущее: если Вы поднимете у себя в AD второй DC (можно и пару, да вообще на десктопного класса машинках и /или в режиме RODC, хоть и необязательно), то Вам не придётся тратить время, силы и удачу на попытки реанимировать именно эту инсталляцию DC - достаточно будет просто спасти инфу с DATA-раздела/группы на сторону с последующим возвратом её в обращение через подключение к другому серверу.

JagO
Junior member
Сообщения: 6
Зарегистрирован: 20 фев 2012, 11:30
Откуда: Москва

Re: Кажись, все.. LSI Megaraid 9260-16i Raid6 и КД с архивом

Сообщение JagO » 06 май 2016, 16:53

Umlyaut
Спасибо Вам за пояснение и комментарий.
Действительно, я напортачил, без специальных знаний о "предмете" подойдя к этому делу.

Получается, что лучше всего это оставить специалисту.

В таком случае вопрос другого плана - для восстановления работы моего дискового массива (только что бы копию данных снять) лучше сразу обращаться в организацию по восстановлению данных, отправлять туда контроллер и диски, использующиеся сейчас и возможно те, которые были мной заменены, или лучше по Вашему совету поискать и пригласить "спеца", который бы смог диагностировать текущее положение дел с массивом и уже от этого "дальше плясать"?

Выбор из этих двух вариантов зависит от того, сколько времени и средств я готов потратить на восстановление?
Или можно наверняка сказать, как лучше поступить?

Аватара пользователя
Umlyaut
Advanced member
Сообщения: 370
Зарегистрирован: 09 июл 2010, 11:23
Откуда: Москва

Re: Кажись, все.. LSI Megaraid 9260-16i Raid6 и КД с архивом

Сообщение Umlyaut » 06 май 2016, 20:32

Если - подчёркиваю, ЕСЛИ - у Вас есть возможность пригласить специалиста, действительно разбирающегося в предмете, то хорошо бы это сделать.
Нормальный специалист с опытом как минимум ситуацию не усугубит, как оптимум - расставит точки над "ё" и, возможно, более правильно и точно опишет ситуацию и приведший к ней ход событий тсзть на профессиональном языке.
Ну или в лучшем случае он даже и подымет данные с покосившегося массива.

Просто если массив partial degraded - для R6, как Вы уже знаете, это минус один диск из группы - то по-любому для ОС этот массив должен быть "виден" в прежнем качестве, т.е. как некий "огромный HDD" (~12TB). Другое дело, что из-за media errors на двух "свежих" дисках, поставленных на замену, повредилась файловая система.
В общем случае для начала задача состоит в том, чтобы загрузиться с некоей ОС, которая "увидит" это массив - например, подцепить к бортовой SATA одиночный хард, накатить 2008R2, поставить драйвер рейд-контроллера и убедиться, что DiskManager видит Ваш раздел на контроллере.
Затем запустить утилиту восстановления данных и дать ей вытащить - НА ДРУГОЙ НОСИТЕЛЬ!!! - всё содержимое покорёженной файловой системы. Для надёжности можно пройти потом какой-либо другой утилитой, хотя практика показывает, что наиболее результативна RunTime от GetDataBack... ну ещё может R-studio. После них, обычно, уже ничего не ловится.

Ещё раз подчеркну - операция недеструктивна для текущего состояния массива, проблема лишь в том, не продолжит ли он и далее "расползаться по швам", как это уже раз случилось (после неудачной замены). Поэтому "правильные пацаны" :) делают посекторную копию в образ каждого HDD, кладут их в кучу и собирают RAID софтверно чем-то типа RAID Reconstructor`a - и уже с этого "сэмулированного" масиива из образов точно так, как описано выше, поднимают утилитой инфу из убитой файловой системы. Естественно, для этого потребуется ещё N дисков - например, на 6 HDD по 4TB или 4 по 6TB, или 3 по 8TB поместятся и 7 отдельных образов дисков Вашего массива, и поднятая с них утилитой инфа (коли массив набит не под завязку - если же так, то просто потребуется больше дисков). Причём образы можно разложить и по независимым дискам, не обязательно собирать из них рейд-массив или JBOD. Спасённую инфу удобнее же сохранять на "составной" том - чтоб не делать несколько сессий восстановления, указывая разные destination.

Плюс обращения в фирму в том, что у них должна быть резервная дисковая ёмкость для таких манипуляций по-умолчанию.
Ну и конечно полное понимание того, что они с Вашим массивом будут делать.
Настоятельный совет - перед отвозом им "железа" пометить точно: какие харды на каких каналах висят и их, хардов статус. Идеально вообще выкрутить харды и контроллер, не расцепляя их дата-кабели (если у Вас не корзина, конечно).
Если собрать не в том порядке, в котором они были, то можно и вовсе потерять массив - лично мне такие случаи встречались (хотя сам я уберегся, бо к порядку подключения трепетен аж со времён SCSI :) ). Конечно, если отвезти системник целиком, то предыдыущий совет не нужен. :)

Фуф... вот, поди, тутошние спецы ухихикались, читая этот набор банальностей. :)
Cобственно, это вкратце, в общих чертах основные моменты операции спасения - понятно, что в зависимости от вводных "на месте" специалист может докумекать что-то ещё, по ситуации.

И снова укор в Вашу сторону под видом заботы о пострадавшем :) - вот Вы сэкономили примерно по полтиннику или чуть больше зелени на одном HDD, взяв ДЕСКТОПНЫЕ Барркакуды, а не NL-SAS Констеллейшены того же размера. Т.е. в пределах 6-8% от общей цены Вашего сервера. А ведь Констеллейшены и понадёжнее, и поразворотливее Барракуд.
Да ещё без Hot Spare Drive сыграли - а будь он, Вам бы не пришлось ждать закупки, поставки (прикиньте, если б в эти недели накернился бы ТРЕТИЙ диск?). А самое главное - СС можно (и нужно!) делать и на рейд-группу, и на HSD: и если с HSD вдруг что-то идёт не так (хотя без нагрузки это редкость, но всё же), то контроллер его отвергнет загодя, а не после того, как он посыплется после замены собою выбывшего диска из массива, как в Вашем случае.

Всё-всё, умолкаю, а то Вы и так уже натерпелись...
Доброй охоты!

JagO
Junior member
Сообщения: 6
Зарегистрирован: 20 фев 2012, 11:30
Откуда: Москва

Re: Кажись, все.. LSI Megaraid 9260-16i Raid6 и КД с архивом

Сообщение JagO » 06 май 2016, 21:36

Umlyaut
Ну вот видите! Вы же все как надо и расписали))
Пусть улыбаются завсегдатаи, специалисты и кураторы которых Мы с Вами повеселили (или, что, наверное, ближе к правде - мы их огорчили, так как они смотрят на эти "наборы текста из очевидных для них вещей" и думают - "ну сколько ж можно, на одни и те же грабли то и по ....ку получать?!").

Пятница! Конец рабочей недели! День Победы на носу! Так что, как не посмотри, а "Настроение, то - Улучшилось!" (С).
Желаю всем радости и позитива! Мы обязательно всех Победим!

Umlyaut - а Вам огромное спасибо за Помощь!

Аватара пользователя
Umlyaut
Advanced member
Сообщения: 370
Зарегистрирован: 09 июл 2010, 11:23
Откуда: Москва

Re: Кажись, все...

Сообщение Umlyaut » 06 май 2016, 22:32

Взаимно с праздником - и решайте уже Вашу проблему с минимальными потерями! Удачи! :)

Ответить

Вернуться в «Массивы - Технические вопросы, решение проблем.»

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и 24 гостя