Умер канал на MegaRAID 320-2

Поломалось, посыпалось, не работает...

Модераторы: Trinity admin`s, Free-lance moderator`s

Zirro
Advanced member
Сообщения: 235
Зарегистрирован: 27 авг 2002, 14:03
Откуда: Киров
Контактная информация:

Умер канал на MegaRAID 320-2

Сообщение Zirro » 23 дек 2004, 15:16

Сначала о конфигурации оборудования:
M/b - Intel SDS2
Proc - 2 x Pentium III 1133MHz
RAM - 4 x 512 Mb Registred ECC SDRAM
RAID Controller - LSI MegaRAID 320-2
HDD - 5 x Seagate 36Gb SCSI 68-pin
RAID10 + HS - винчестеры разнесены по каналам 0,1 на одном канале (0-ой) и 0,1 + HS на другом (1-ый)
Проблема в следующем - минут 10 назад сервер стал орать благим матом. Я загрузил GAM, и, О УЖАС, все винты, висящие на 1-ом канале имеют статус DEAD. Мои предположения: одновременный выход из строя 3-ёх винтов мало вероятен - т.е. похоже что либо умер канал на контроллере, либо что-то с кабелем на 1-ом канале. Пока вроде все работает (так как "легла" только половина зеркала), однако нужно срочно принимать какие-то меры. Какие? Помогите пожалуйста.
Последний раз редактировалось Zirro 23 дек 2004, 16:20, всего редактировалось 1 раз.

Аватара пользователя
gs
Сотрудник Тринити
Сотрудник Тринити
Сообщения: 16650
Зарегистрирован: 23 авг 2002, 17:34
Откуда: Москва
Контактная информация:

Сообщение gs » 23 дек 2004, 15:21

Для начала проверьте винты на простом скази адаптере при помощи Seatools Enterprise - возможно у какого-то винта шинный буфер выгорел. Проверить желательно в той же корзине и кабеле.

Zirro
Advanced member
Сообщения: 235
Зарегистрирован: 27 авг 2002, 14:03
Откуда: Киров
Контактная информация:

Сообщение Zirro » 23 дек 2004, 15:43

Огорчу: нет (и негде взять) простой SCSI-контроллер. К тому ж винты не в корзине. Сервер рабочий, поэтому нужно как-то дотянуть до конца рабочего дня и до завтра "кровь из носу" завести его.

Аватара пользователя
gs
Сотрудник Тринити
Сотрудник Тринити
Сообщения: 16650
Зарегистрирован: 23 авг 2002, 17:34
Откуда: Москва
Контактная информация:

Сообщение gs » 23 дек 2004, 15:48

Тогда санчала фулл бэкап, а потом попробовать запустить ребилд винтов по очереди (желательно выдрав другие - чтобы отсечь проблему дохлого буфера). Может быть это просто логический сбой. Если не поможет - поменять кабель. Без нормального теста винтов можно искать черную кошку в темной комнате :(

Zirro
Advanced member
Сообщения: 235
Зарегистрирован: 27 авг 2002, 14:03
Откуда: Киров
Контактная информация:

Сообщение Zirro » 23 дек 2004, 15:56

Прошу прощения, от страха мозги заклинило. На мат. плате есть интегрированный SCSI-контроллер утилиту уже качаю. Но меня, в общем то, больше волнует вопрос: как поступить после обнаружения неисправности?
1. Если всё ж дело в кабеле (, а запасного у меня нет) то я так понимаю надо перевешивать все винты на один канал. А что дальше?
2. Если полетел канал контроллера, то опять же перевешиваем все винты на 1 канал. А что дальше?
3. Если дело в винтах, то ... ?
Последний раз редактировалось Zirro 23 дек 2004, 16:21, всего редактировалось 1 раз.

Аватара пользователя
Dmitry
Сотрудник Тринити
Сотрудник Тринити
Сообщения: 867
Зарегистрирован: 22 авг 2002, 16:12
Откуда: St.Petersburg
Контактная информация:

Сообщение Dmitry » 23 дек 2004, 15:58

Что то я не уверен, что прям так канал взял и сдох.
Не было таких случаев.
А отвалиться мог легко - кабель например отошел...
Последний раз редактировалось Dmitry 23 дек 2004, 16:59, всего редактировалось 1 раз.

Zirro
Advanced member
Сообщения: 235
Зарегистрирован: 27 авг 2002, 14:03
Откуда: Киров
Контактная информация:

Сообщение Zirro » 23 дек 2004, 16:03

Вот я и спрашиваю на что особо обратить внимание, и что делать после обнаружения поломки?
Да, интересное наблюдение, если в GAM-е "кликнуть" правой кнопки мыши на логический диск, то выделяются белым цветом физические диски,входящие в состав логического. Так вот раньше выделялись 0,1 на 0-ом канале и 0,1 на 1-ом. А теперь "белют" 0,1 на 0-ом и 0,2 (HS) на первом.

Аватара пользователя
gs
Сотрудник Тринити
Сотрудник Тринити
Сообщения: 16650
Зарегистрирован: 23 авг 2002, 17:34
Откуда: Москва
Контактная информация:

Сообщение gs » 23 дек 2004, 16:29

Перевесить скорее всего не получится - drive roaming при сбоях автоматически отрубается. И это правильно.
Надо перевесить винт и назначить его спаре - он сам заребилдится. Сдохший винт естественно ребилд не пройдет.
Ну а потом менять по гарантии естественно :)

Но Вы для начала проверьте их - если живы, то просто верните на место и ребилд. Вполне возможно, что просто логический сбой из-за питалова или глюка какого-то.

Zirro
Advanced member
Сообщения: 235
Зарегистрирован: 27 авг 2002, 14:03
Откуда: Киров
Контактная информация:

Сообщение Zirro » 23 дек 2004, 16:36

gs писал(а):Перевесить скорее всего не получится - drive roaming при сбоях автоматически отрубается. И это правильно.
Надо перевесить винт и назначить его спаре - он сам заребилдится.
Сдохший винт естественно ребилд не пройдет.
Ну а потом менять по гарантии естественно :)
Вот тут, если можно поподробней: какой винт и куда перевесить?
Но Вы для начала проверьте их - если живы, то просто верните на место и ребилд. Вполне возможно, что просто логический сбой из-за питалова или глюка какого-то.
Так, давайте выстроим последовательность:
1. Подключаем винты висящие на 1-ом канале на наборный контроллер.
2. Проверяем диски утилитой SeaTools
  2а. Если все диски в порядке запускаем ребилд.
  2б. Если один (несколько дисков) не рабочие, то ... ?
3. ...
Я так понимаю ребилд в заключающей стадии обязателен ?!

Аватара пользователя
gs
Сотрудник Тринити
Сотрудник Тринити
Сообщения: 16650
Зарегистрирован: 23 авг 2002, 17:34
Откуда: Москва
Контактная информация:

Сообщение gs » 23 дек 2004, 16:51

1. Перевешиваем кабель с рэйда на сказю.
2. Гоним Full Test. Если канал вешается, вынимаем винты по одному до нахождения виноватого. Если виноват кабель, цепляем живой и проверяем. В общем, если есть проблемы, путем передергиваний методом тыка ищем виноватого, пока не заработает.
3. По результатам выкидываем или не выкидываем нафиг дохлый диск.
4. Все прошедшие тест диски вешаем обратно.
5. Ребилд всех этих дисков.

Если поломался кабель, то лучше всего его конечно заменить. Но если выбора нет, то винты вешаем на оставшийся канал, назначаем эти диски хот спаре. После старта машины они сами должны начать ребилдиться.
Можно конечно попытаться их отребилдить, но, насколько я помню, контроллер их просто не признает как участников того массива.

Zirro
Advanced member
Сообщения: 235
Зарегистрирован: 27 авг 2002, 14:03
Откуда: Киров
Контактная информация:

Сообщение Zirro » 23 дек 2004, 16:57

Спасибо, за столь полную инструкцию, скоро окончание рабочего дня, а у меня начнутся танцы с предметами шаманского обихода :( .

Аватара пользователя
gs
Сотрудник Тринити
Сотрудник Тринити
Сообщения: 16650
Зарегистрирован: 23 авг 2002, 17:34
Откуда: Москва
Контактная информация:

Сообщение gs » 23 дек 2004, 17:08

Только бэкап не забудьте в горячке. И вообще, семь раз отмерь...

Zirro
Advanced member
Сообщения: 235
Зарегистрирован: 27 авг 2002, 14:03
Откуда: Киров
Контактная информация:

Сообщение Zirro » 23 дек 2004, 17:22

gs писал(а):Только бэкап не забудьте в горячке. И вообще, семь раз отмерь...
Риск конечно немалый, но выбора у меня нет - к утру всё должно работать (или по крайней мере не пищать). Бэкап уже сделан (перед процедурами сделаю ещё один).

Zirro
Advanced member
Сообщения: 235
Зарегистрирован: 27 авг 2002, 14:03
Откуда: Киров
Контактная информация:

Сообщение Zirro » 24 дек 2004, 08:56

Рассказываю что у меня в итоге получилось. Перво-наперво сделал ещё один бэкап. Затем отцепил конец шлейфа с 1-го канала RAID-контроллера и подключил к набортному SCSI-контроллеру. Загрузился с дискеты SeaTools и запустил проверку всех 3-ёх дисков висящих на этом шлефе. Так как полная проверка одного диска занимает около 1 часа я не стал дожидаться проверки всех 3-ёх. Один, наиболее подозрительный, прошёл полную проверку, а два других Quick. Можно предположить, что канал в порядке. Переключаем конец кабеля обратно на RAID-контроллер. Затем всё просто - запустил ребилд и всё заработало.
НО, очень интересная деталь: ранее членами массива были диски ID0, ID1, а ID2 - HS, но, когда я стал делать ребилд, доступными для ребилда были ID0 и ID2 (бывший HS), а ID1 значился со статусом READY. В итоге теперь членами массива стоят ID0 и ID2, а ID1 я сделал HS. У меня есть некоторые объснения этому явлению. Но может кто-то выскажет свои предположения?
В общем проблема решена, но причина так и не выяснена. И кроме того есть озвученные выше "непонятки"  :confused:

Аватара пользователя
gs
Сотрудник Тринити
Сотрудник Тринити
Сообщения: 16650
Зарегистрирован: 23 авг 2002, 17:34
Откуда: Москва
Контактная информация:

Сообщение gs » 24 дек 2004, 12:38

Причиной мог быть банальный глюк или случайно проскочивший импульс по электрике. Теперь уже не поймешь.

Что касается чехарды с номерами дисков - видимо в момент сбоя контроллер успел сделать попытку запустить авторебилд на спаре диск. Это по какой-то причине не прошло, но диск уже успел отметиться как вставший в массив. Так что с этим-то как раз все понятно.

В общем - Вы легко отделались. Даже не представляете, как Вам повезло...

Ответить

Вернуться в «Массивы - Технические вопросы, решение проблем.»

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и 65 гостей