Умер канал на MegaRAID 320-2
Модераторы: Trinity admin`s, Free-lance moderator`s
-
- Advanced member
- Сообщения: 235
- Зарегистрирован: 27 авг 2002, 14:03
- Откуда: Киров
- Контактная информация:
Умер канал на MegaRAID 320-2
Сначала о конфигурации оборудования:
M/b - Intel SDS2
Proc - 2 x Pentium III 1133MHz
RAM - 4 x 512 Mb Registred ECC SDRAM
RAID Controller - LSI MegaRAID 320-2
HDD - 5 x Seagate 36Gb SCSI 68-pin
RAID10 + HS - винчестеры разнесены по каналам 0,1 на одном канале (0-ой) и 0,1 + HS на другом (1-ый)
Проблема в следующем - минут 10 назад сервер стал орать благим матом. Я загрузил GAM, и, О УЖАС, все винты, висящие на 1-ом канале имеют статус DEAD. Мои предположения: одновременный выход из строя 3-ёх винтов мало вероятен - т.е. похоже что либо умер канал на контроллере, либо что-то с кабелем на 1-ом канале. Пока вроде все работает (так как "легла" только половина зеркала), однако нужно срочно принимать какие-то меры. Какие? Помогите пожалуйста.
M/b - Intel SDS2
Proc - 2 x Pentium III 1133MHz
RAM - 4 x 512 Mb Registred ECC SDRAM
RAID Controller - LSI MegaRAID 320-2
HDD - 5 x Seagate 36Gb SCSI 68-pin
RAID10 + HS - винчестеры разнесены по каналам 0,1 на одном канале (0-ой) и 0,1 + HS на другом (1-ый)
Проблема в следующем - минут 10 назад сервер стал орать благим матом. Я загрузил GAM, и, О УЖАС, все винты, висящие на 1-ом канале имеют статус DEAD. Мои предположения: одновременный выход из строя 3-ёх винтов мало вероятен - т.е. похоже что либо умер канал на контроллере, либо что-то с кабелем на 1-ом канале. Пока вроде все работает (так как "легла" только половина зеркала), однако нужно срочно принимать какие-то меры. Какие? Помогите пожалуйста.
Последний раз редактировалось Zirro 23 дек 2004, 16:20, всего редактировалось 1 раз.
-
- Advanced member
- Сообщения: 235
- Зарегистрирован: 27 авг 2002, 14:03
- Откуда: Киров
- Контактная информация:
Прошу прощения, от страха мозги заклинило. На мат. плате есть интегрированный SCSI-контроллер утилиту уже качаю. Но меня, в общем то, больше волнует вопрос: как поступить после обнаружения неисправности?
1. Если всё ж дело в кабеле (, а запасного у меня нет) то я так понимаю надо перевешивать все винты на один канал. А что дальше?
2. Если полетел канал контроллера, то опять же перевешиваем все винты на 1 канал. А что дальше?
3. Если дело в винтах, то ... ?
1. Если всё ж дело в кабеле (, а запасного у меня нет) то я так понимаю надо перевешивать все винты на один канал. А что дальше?
2. Если полетел канал контроллера, то опять же перевешиваем все винты на 1 канал. А что дальше?
3. Если дело в винтах, то ... ?
Последний раз редактировалось Zirro 23 дек 2004, 16:21, всего редактировалось 1 раз.
- Dmitry
- Сотрудник Тринити
- Сообщения: 867
- Зарегистрирован: 22 авг 2002, 16:12
- Откуда: St.Petersburg
- Контактная информация:
Что то я не уверен, что прям так канал взял и сдох.
Не было таких случаев.
А отвалиться мог легко - кабель например отошел...
Не было таких случаев.
А отвалиться мог легко - кабель например отошел...
Последний раз редактировалось Dmitry 23 дек 2004, 16:59, всего редактировалось 1 раз.
-
- Advanced member
- Сообщения: 235
- Зарегистрирован: 27 авг 2002, 14:03
- Откуда: Киров
- Контактная информация:
Вот я и спрашиваю на что особо обратить внимание, и что делать после обнаружения поломки?
Да, интересное наблюдение, если в GAM-е "кликнуть" правой кнопки мыши на логический диск, то выделяются белым цветом физические диски,входящие в состав логического. Так вот раньше выделялись 0,1 на 0-ом канале и 0,1 на 1-ом. А теперь "белют" 0,1 на 0-ом и 0,2 (HS) на первом.
Да, интересное наблюдение, если в GAM-е "кликнуть" правой кнопки мыши на логический диск, то выделяются белым цветом физические диски,входящие в состав логического. Так вот раньше выделялись 0,1 на 0-ом канале и 0,1 на 1-ом. А теперь "белют" 0,1 на 0-ом и 0,2 (HS) на первом.
- gs
- Сотрудник Тринити
- Сообщения: 16650
- Зарегистрирован: 23 авг 2002, 17:34
- Откуда: Москва
- Контактная информация:
Перевесить скорее всего не получится - drive roaming при сбоях автоматически отрубается. И это правильно.
Надо перевесить винт и назначить его спаре - он сам заребилдится. Сдохший винт естественно ребилд не пройдет.
Ну а потом менять по гарантии естественно
Но Вы для начала проверьте их - если живы, то просто верните на место и ребилд. Вполне возможно, что просто логический сбой из-за питалова или глюка какого-то.
Надо перевесить винт и назначить его спаре - он сам заребилдится. Сдохший винт естественно ребилд не пройдет.
Ну а потом менять по гарантии естественно
Но Вы для начала проверьте их - если живы, то просто верните на место и ребилд. Вполне возможно, что просто логический сбой из-за питалова или глюка какого-то.
-
- Advanced member
- Сообщения: 235
- Зарегистрирован: 27 авг 2002, 14:03
- Откуда: Киров
- Контактная информация:
Вот тут, если можно поподробней: какой винт и куда перевесить?gs писал(а):Перевесить скорее всего не получится - drive roaming при сбоях автоматически отрубается. И это правильно.
Надо перевесить винт и назначить его спаре - он сам заребилдится.
Сдохший винт естественно ребилд не пройдет.
Ну а потом менять по гарантии естественно
Так, давайте выстроим последовательность:Но Вы для начала проверьте их - если живы, то просто верните на место и ребилд. Вполне возможно, что просто логический сбой из-за питалова или глюка какого-то.
1. Подключаем винты висящие на 1-ом канале на наборный контроллер.
2. Проверяем диски утилитой SeaTools
2а. Если все диски в порядке запускаем ребилд.
2б. Если один (несколько дисков) не рабочие, то ... ?
3. ...
Я так понимаю ребилд в заключающей стадии обязателен ?!
- gs
- Сотрудник Тринити
- Сообщения: 16650
- Зарегистрирован: 23 авг 2002, 17:34
- Откуда: Москва
- Контактная информация:
1. Перевешиваем кабель с рэйда на сказю.
2. Гоним Full Test. Если канал вешается, вынимаем винты по одному до нахождения виноватого. Если виноват кабель, цепляем живой и проверяем. В общем, если есть проблемы, путем передергиваний методом тыка ищем виноватого, пока не заработает.
3. По результатам выкидываем или не выкидываем нафиг дохлый диск.
4. Все прошедшие тест диски вешаем обратно.
5. Ребилд всех этих дисков.
Если поломался кабель, то лучше всего его конечно заменить. Но если выбора нет, то винты вешаем на оставшийся канал, назначаем эти диски хот спаре. После старта машины они сами должны начать ребилдиться.
Можно конечно попытаться их отребилдить, но, насколько я помню, контроллер их просто не признает как участников того массива.
2. Гоним Full Test. Если канал вешается, вынимаем винты по одному до нахождения виноватого. Если виноват кабель, цепляем живой и проверяем. В общем, если есть проблемы, путем передергиваний методом тыка ищем виноватого, пока не заработает.
3. По результатам выкидываем или не выкидываем нафиг дохлый диск.
4. Все прошедшие тест диски вешаем обратно.
5. Ребилд всех этих дисков.
Если поломался кабель, то лучше всего его конечно заменить. Но если выбора нет, то винты вешаем на оставшийся канал, назначаем эти диски хот спаре. После старта машины они сами должны начать ребилдиться.
Можно конечно попытаться их отребилдить, но, насколько я помню, контроллер их просто не признает как участников того массива.
-
- Advanced member
- Сообщения: 235
- Зарегистрирован: 27 авг 2002, 14:03
- Откуда: Киров
- Контактная информация:
Рассказываю что у меня в итоге получилось. Перво-наперво сделал ещё один бэкап. Затем отцепил конец шлейфа с 1-го канала RAID-контроллера и подключил к набортному SCSI-контроллеру. Загрузился с дискеты SeaTools и запустил проверку всех 3-ёх дисков висящих на этом шлефе. Так как полная проверка одного диска занимает около 1 часа я не стал дожидаться проверки всех 3-ёх. Один, наиболее подозрительный, прошёл полную проверку, а два других Quick. Можно предположить, что канал в порядке. Переключаем конец кабеля обратно на RAID-контроллер. Затем всё просто - запустил ребилд и всё заработало.
НО, очень интересная деталь: ранее членами массива были диски ID0, ID1, а ID2 - HS, но, когда я стал делать ребилд, доступными для ребилда были ID0 и ID2 (бывший HS), а ID1 значился со статусом READY. В итоге теперь членами массива стоят ID0 и ID2, а ID1 я сделал HS. У меня есть некоторые объснения этому явлению. Но может кто-то выскажет свои предположения?
В общем проблема решена, но причина так и не выяснена. И кроме того есть озвученные выше "непонятки"
НО, очень интересная деталь: ранее членами массива были диски ID0, ID1, а ID2 - HS, но, когда я стал делать ребилд, доступными для ребилда были ID0 и ID2 (бывший HS), а ID1 значился со статусом READY. В итоге теперь членами массива стоят ID0 и ID2, а ID1 я сделал HS. У меня есть некоторые объснения этому явлению. Но может кто-то выскажет свои предположения?
В общем проблема решена, но причина так и не выяснена. И кроме того есть озвученные выше "непонятки"
- gs
- Сотрудник Тринити
- Сообщения: 16650
- Зарегистрирован: 23 авг 2002, 17:34
- Откуда: Москва
- Контактная информация:
Причиной мог быть банальный глюк или случайно проскочивший импульс по электрике. Теперь уже не поймешь.
Что касается чехарды с номерами дисков - видимо в момент сбоя контроллер успел сделать попытку запустить авторебилд на спаре диск. Это по какой-то причине не прошло, но диск уже успел отметиться как вставший в массив. Так что с этим-то как раз все понятно.
В общем - Вы легко отделались. Даже не представляете, как Вам повезло...
Что касается чехарды с номерами дисков - видимо в момент сбоя контроллер успел сделать попытку запустить авторебилд на спаре диск. Это по какой-то причине не прошло, но диск уже успел отметиться как вставший в массив. Так что с этим-то как раз все понятно.
В общем - Вы легко отделались. Даже не представляете, как Вам повезло...
Кто сейчас на конференции
Сейчас этот форум просматривают: нет зарегистрированных пользователей и 78 гостей