Умер канал на MegaRAID 320-2

Поломалось, посыпалось, не работает...

Модераторы: Trinity admin`s, Free-lance moderator`s

Zirro
Advanced member
Сообщения: 235
Зарегистрирован: 27 авг 2002, 14:03
Откуда: Киров
Контактная информация:

Сообщение Zirro » 24 дек 2004, 13:06

gs писал(а):Причиной мог быть банальный глюк или случайно проскочивший импульс по электрике. Теперь уже не поймешь.
Что касается чехарды с номерами дисков - видимо в момент сбоя контроллер успел сделать попытку запустить авторебилд на спаре диск. Это по какой-то причине не прошло, но диск уже успел отметиться как вставший в массив. Так что с этим-то как раз все понятно.
Вы в точности высказали мои предположения. Но, если это так, то получается, что сначала упал 1 винт, через какое-то время другой, а затем и третий. Вот это странно. Если это произошло не одномоментно, значит была какая то причина, "растянутая по времени". А это уже не импульс по электрике. Хотя может я и ошибаюсь и Вы правы насчет импульса, и можно надеятся, что такое не повторится.
В общем - Вы легко отделались. Даже не представляете, как Вам повезло...
Легко иль нет пока непонятно. Пока не выяснены и не устранены причины есть вероятность повторения подобного :( .

Аватара пользователя
gs
Сотрудник Тринити
Сотрудник Тринити
Сообщения: 16650
Зарегистрирован: 23 авг 2002, 17:34
Откуда: Москва
Контактная информация:

Сообщение gs » 24 дек 2004, 13:13

Причина могла быть и мгновенной - мог быть дребезг электрики в течение какого-то времени - ну всякое бывает.
К тому же взбрык от электрики мог быть и не со стороны дисков, а самого контроллера. Я почему и говорил, что Вы легко отделались - обычно в таких случаях разваливается все напрочь.
Хуже, если это был самовольный глюк контроллера без внешних причин. Эта серия вообще-то очень надежна, но тем не менее "дерьмо случается".
К сожалению точно причину указать затрудняюсь - только предположения :(

Zirro
Advanced member
Сообщения: 235
Зарегистрирован: 27 авг 2002, 14:03
Откуда: Киров
Контактная информация:

Сообщение Zirro » 24 дек 2004, 13:25

Ну что ж, остаётся только надеятся ... на себя, и на бэкап, ну и конечно на помощь спецов

Zirro
Advanced member
Сообщения: 235
Зарегистрирован: 27 авг 2002, 14:03
Откуда: Киров
Контактная информация:

Сообщение Zirro » 24 янв 2005, 18:45

Ну вот, как говориться "не прошло и полгода" - опять та же фигня  :x .
Буквально в пятницу поломался UPS пришлось оставить сервер без надежного питания (знаю что сам виноват, сильно не пинайте). И, как назло, сегодня взяли и вырубили электричество во всем здании. После того как электричество появилось и был включен сервер, раздался раздражающий писк. И выяснилось что опять отвалились те же самые 2 диска на 1-ом канале. В общем всё как и в первый раз за исключением того что в прошлый раз сервер не выключался и канал "упал на ходу". Естественно, бэкап сделан и я сейчас буду пытаться оживить всё это хозяйство. Вот только очень настораживает что такая поломка происходит уже второй раз за довольно небольшой промежуток времени. Хотелось услышать мнения участников насчет причин данного явления.

Аватара пользователя
art
free-lance moderator
Сообщения: 653
Зарегистрирован: 15 май 2003, 11:25
Откуда: SPb

Сообщение art » 24 янв 2005, 20:17

Похоже на признаки плохого заземления, либо зануления "плохого" потребителя на вашу шину заземления.
Кстати, не замечали, когда был UPS, то он случайно не переходил на bypass без причины (можно по логам посмотреть)?
Это тоже признак шумной цепи заземления.

Warl0ck
Junior member
Сообщения: 11
Зарегистрирован: 28 фев 2003, 10:45
Откуда: St. Petersburg

Сообщение Warl0ck » 24 янв 2005, 20:30

Попробуйте понизить скорость шины до 160.
Подобная проблема наблюдалась у меня, но только падал не канал а диски (у меня их 11 шт. на канале), поэтому может и нельзя точно сказать это канал или еще что-то. Вываливались, то один диск, то (половинка рэйда) в рэйд 10 , то вообще рэйд выкидыкал (4 диска). Правда интервал при отключении дисков у меня был меньше,  час, 2 часа.
При понижении скорости шины с 320 до 160, всё заработало.
Скорее всего какие-то баги по шине, а что конкретно :?: (кабель, корзина, контроллер)
А может это БП шалит. Если есть возможносить осцилографом посмотрите пульсации на питании. (Это уже, что называется, мысли в слух).
ИМХО менять по очереди, если есть возможность
начать со скорости шины
1. Менять кабель
2. Менять контроллер
3. Менять корзины
Но это уже кординальные меры и я надеюсь, что до этого не дойдет.

Zirro
Advanced member
Сообщения: 235
Зарегистрирован: 27 авг 2002, 14:03
Откуда: Киров
Контактная информация:

Сообщение Zirro » 25 янв 2005, 12:20

to art:
Насчет заземления ничего сказать не могу. Здание обычное так что вряд ли там там по-нормальному заземление сделано. Поэтому ситуацию с питанием надо принять как данность. UPS простенький поэтому ни индикации ни логов нет. Однако на старом Mylex A170 в том же кузове на тех же дисках с тем же UPS проблем не наблюдалось. Может замена UPS на какой-нибудь APC Smart поможет?
to Warl0ck
Да и у меня не весь канал отваливается а только 2 диска (причем одни и те же).
В общем для борьбы с бедствием пока найдено 3 средства:
1. Понижение скорости шины (не хотелось бы - аппаратура должна работать в штатном режиме)
2. Замена шлейфа SCSI (под сомнением, так как отваливаются только 2 диска на шине)
3. Организация питания - замена UPS (так же сомневаюсь что поможет без нормального заземления).

Аватара пользователя
gs
Сотрудник Тринити
Сотрудник Тринити
Сообщения: 16650
Зарегистрирован: 23 авг 2002, 17:34
Откуда: Москва
Контактная информация:

Сообщение gs » 25 янв 2005, 12:28

Проверьте таки винты ситулзом. Хотя мы уже дважды нарывались, что винт тесты проходит, а в рэйде его плющить начинает.
На я бы все же грешил на кабель и корзину. Просто по вине сказевых проблем отвалится тот, кто послабее.
Снижение скорости действительно может дать эффект, но это будет означать хреновую обвязку сказевую. И может вылезти позже.
Кстати, попробуйте перекинуть шланги между каналами контроллера - может быть буфер на контроллере подбитый...
Опять же, все ли правильно в терминации? Как-то раз попался контроллер, у которого джампера терминации не так стояли.

В общем, бубен Вам в руки :(

Аватара пользователя
gs
Сотрудник Тринити
Сотрудник Тринити
Сообщения: 16650
Зарегистрирован: 23 авг 2002, 17:34
Откуда: Москва
Контактная информация:

Сообщение gs » 25 янв 2005, 12:30

А смарт юпс вряд ли что даст. С точки зрения фильтрации помех он принципиально от бэка не отличается. Если проблема в этом, то уж тогда онлайновый. Или ферростабилизатор деревянный.

Zirro
Advanced member
Сообщения: 235
Зарегистрирован: 27 авг 2002, 14:03
Откуда: Киров
Контактная информация:

Сообщение Zirro » 25 янв 2005, 13:21

gs писал(а):А смарт юпс вряд ли что даст. С точки зрения фильтрации помех он принципиально от бэка не отличается. Если проблема в этом, то уж тогда онлайновый. Или ферростабилизатор деревянный.
В общем шлейф поменяю однозначно. УПС хотелось бы заменить и по другим причинам, так что если денег дадут, то поменяю и его.
А ещё вот о чем подумал: может маловато для моей конфиги 300 ваттного БП?

Аватара пользователя
gs
Сотрудник Тринити
Сотрудник Тринити
Сообщения: 16650
Зарегистрирован: 23 авг 2002, 17:34
Откуда: Москва
Контактная информация:

Сообщение gs » 25 янв 2005, 13:22

Да в принципе должно быть достаточно.

Zirro
Advanced member
Сообщения: 235
Зарегистрирован: 27 авг 2002, 14:03
Откуда: Киров
Контактная информация:

Сообщение Zirro » 25 янв 2005, 14:20

gs писал(а):Да в принципе должно быть достаточно.
Вот и я так думаю, тем более что и документации у корпусу сказано что должен "держать" 5 дисков. Но, всё-таки, "меня терзают смутные сомнения".
Сейчас перечитал ветку с начала (освежил память) и нашёл различия в прошлой ситуцией и теперешней. В этот раз отпали не все 3 диска. GAM показывал диски ID-1 и ID-2 со статусом FAILED. А MegaRAID Configuration Utility показывал ID-1 со статусом FAILED, а диск ID-2 со статусом READY. Пришлось поставить диск ID-2 в состояние HotSpare, после чего диск стал доступен для Rebuild'а. После Rebuild'а диск ID-1 автматически сменил статус на READY и сделал я его HotSpare.
Может это добавит пищу к размышлениям.  :?:

Zirro
Advanced member
Сообщения: 235
Зарегистрирован: 27 авг 2002, 14:03
Откуда: Киров
Контактная информация:

Сообщение Zirro » 22 фев 2005, 11:32

Блин, нет слов. С периодичностью в месяц отваливаются винты на 1-ом канале. Чего ещё то сделать? Сменил шлейф, сменил UPS, но как по расписанию в 22-24 числах каждого месяца происходит такое :evil: .

Аватара пользователя
exLH
Сотрудник Тринити
Сотрудник Тринити
Сообщения: 5061
Зарегистрирован: 11 фев 2004, 15:49
Откуда: Москва
Контактная информация:

Сообщение exLH » 22 фев 2005, 11:34

А какая прошивка у контроллера?

Zirro
Advanced member
Сообщения: 235
Зарегистрирован: 27 авг 2002, 14:03
Откуда: Киров
Контактная информация:

Сообщение Zirro » 22 фев 2005, 11:46

насколько я помню Firmware Version 1L37

Ответить

Вернуться в «Массивы - Технические вопросы, решение проблем.»

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и 23 гостя