Отваливаются винты на MegaRAID SCSI 320-1

Поломалось, посыпалось, не работает...

Модераторы: Trinity admin`s, Free-lance moderator`s

Berlic
Junior member
Сообщения: 10
Зарегистрирован: 12 сен 2005, 15:37
Откуда: 78RUS
Контактная информация:

Отваливаются винты на MegaRAID SCSI 320-1

Сообщение Berlic » 12 сен 2005, 15:44

Добрый день!

На контроллере поднят RAID5 с 6 винтами IBM по 35002MB
Периодически (раз в месяц или в два) отваливается какой-нибудь винт.
Не один и тот же.
В прошлый раз был нулевой, сейчас - пятый.
Делаем ребилд, винт опять становится online.
В чем может быть проблемма?
Ко всему прочему при загрузке системы не зайти в биос - работаем через Power Console.
Прошивка - 1L26, BIOS - G112.

Аватара пользователя
gs
Сотрудник Тринити
Сотрудник Тринити
Сообщения: 16650
Зарегистрирован: 23 авг 2002, 17:34
Откуда: Москва
Контактная информация:

Сообщение gs » 12 сен 2005, 15:52

Залейте прошивку контроллера посвежее - уж очень старая.
Проверьте кабель-корзину-терминацию - тоже может быть. Да и винты межделмаш честно говоря не внушают доверия - мы в свое время на сигейты неспроста пересели.
Попробуйте частоту скази шины опустить на ступень - иногда при подобных проблемах помогает.

Berlic
Junior member
Сообщения: 10
Зарегистрирован: 12 сен 2005, 15:37
Откуда: 78RUS
Контактная информация:

Сообщение Berlic » 12 сен 2005, 16:05

gs писал(а):Залейте прошивку контроллера посвежее - уж очень старая.
Я бы не прочь...
Да вот не слетит ли у меня ничего? :oops:
Каков процент неудачных исходов при перепрошивке?

Аватара пользователя
gs
Сотрудник Тринити
Сотрудник Тринити
Сообщения: 16650
Зарегистрирован: 23 авг 2002, 17:34
Откуда: Москва
Контактная информация:

Сообщение gs » 12 сен 2005, 16:06

Перешивать надо с отключенными винтами - если все сделать правильно, то риска практически нет.

Berlic
Junior member
Сообщения: 10
Зарегистрирован: 12 сен 2005, 15:37
Откуда: 78RUS
Контактная информация:

Сообщение Berlic » 12 сен 2005, 16:14

ага...

т.е. я вечером:
выключаю сервер
отсоединяю винты
перепрошиваю контроллер
сдуваю пыль откуда только можно
подсоеднияю все обратно, проверяю надежность контактов
и загружаю сервер

если через какое-то время повторяется, пробую понизить частоту SCSI.

если и это не помогает - иду за новым контроллером и винтами

правильно ли я понял?

Аватара пользователя
gs
Сотрудник Тринити
Сотрудник Тринити
Сообщения: 16650
Зарегистрирован: 23 авг 2002, 17:34
Откуда: Москва
Контактная информация:

Сообщение gs » 12 сен 2005, 16:22

В общем да.
Хорошо бы еще проверить винты с родным кабелем и корзиной на простом скази адптере при помощи DFT.

Berlic
Junior member
Сообщения: 10
Зарегистрирован: 12 сен 2005, 15:37
Откуда: 78RUS
Контактная информация:

Сообщение Berlic » 13 сен 2005, 15:20

Сделали...

выключили сервер
отсоединили винты
перепрошили контроллер до 1L37
сдули пыль откуда только можно
подсоеднили все обратно

при загрузке контролер спросил откуда брать информацию - с дисков или из памяти.
взяли с дисков.

после этого сервер загрузился нормально, но массив не ребилдится.
5-й винт в состоянии failed. и никак его оттуда не вытащить.
пытались и из винды ребилдить, и из веб-биоса (с новой прошивкой заходит), и из обычного (Ctrl+M) - все равно не ребилдится.
-----------

Какие предположения?
Кстати винты в биосе определяются как IBM а наклейки на них - Hitachi...

Аватара пользователя
gs
Сотрудник Тринити
Сотрудник Тринити
Сообщения: 16650
Зарегистрирован: 23 авг 2002, 17:34
Откуда: Москва
Контактная информация:

Сообщение gs » 13 сен 2005, 15:24

Что значит не ребилдится? Пытаетесь сказать реиблд и что дальше происходит?
Винты-то проверили DFT? Стоит проверить все - ребилд может оборваться, наткнувшись на бэд блок на ЛЮБОМ из дисков.
Кстати, может быть винт просто дохлый, потому и не ребилдится.

Аватара пользователя
gs
Сотрудник Тринити
Сотрудник Тринити
Сообщения: 16650
Зарегистрирован: 23 авг 2002, 17:34
Откуда: Москва
Контактная информация:

Сообщение gs » 13 сен 2005, 15:32

Винты Хитачи потому как Межделмаш в свое время продал дисковое подразделение япошкам и какое-то время они были ни то ни сё.
А вообще, айбиэмовские диски нам много крови попортили - сигейты куда стабильнее.

Berlic
Junior member
Сообщения: 10
Зарегистрирован: 12 сен 2005, 15:37
Откуда: 78RUS
Контактная информация:

Сообщение Berlic » 13 сен 2005, 15:35

а что есть dft? :oops:

когда говорим ребилд - процесс начинается.
"идем курить"
приходим проверять - сообщение "rebuild error" и усе.

Аватара пользователя
gs
Сотрудник Тринити
Сотрудник Тринити
Сообщения: 16650
Зарегистрирован: 23 авг 2002, 17:34
Откуда: Москва
Контактная информация:

Сообщение gs » 13 сен 2005, 15:39

Видимо ошибка на одном из винтов - причем не обязательно на отвалившемся. Проверяйте диски на простом скази адаптере.
DFT=Drive Fitness Test - http://www.3nity.ru/viewtopic.htm?t=4214

Berlic
Junior member
Сообщения: 10
Зарегистрирован: 12 сен 2005, 15:37
Откуда: 78RUS
Контактная информация:

Сообщение Berlic » 13 сен 2005, 15:43

Спасибо!

Будем искать просто скази адаптер :?

Аватара пользователя
gs
Сотрудник Тринити
Сотрудник Тринити
Сообщения: 16650
Зарегистрирован: 23 авг 2002, 17:34
Откуда: Москва
Контактная информация:

Сообщение gs » 13 сен 2005, 15:47

Ищите - вариантов нет.
Кстати проверять надо еще и на родном кабеле-корзине - они тоже могут быть виноваты.

The1st
member
Сообщения: 22
Зарегистрирован: 30 окт 2003, 01:15
Откуда: Spb
Контактная информация:

Сообщение The1st » 16 сен 2005, 17:15

По поводу новых прошивок...
была такая же проблема, может чуть по реже - раз в пол-года, но винты отваливались, оставался RAID5 на 2-х винтах .
Прошил последней прошивкой 1L37 и появился Оочень неприятный глюк - "FirmWare internal Exception condition". Проявляется так:
Сервак работает нормально (RAID5 на 3 HDD + 1HS). Вдруг прибегают люди - "а у нас ничего не открывается, 1С не работает..."
Включаю монитор и вижу замечательное сообщение на черном экране загрузки " inaccessible boot device. please insert boot disk and press Ctl+Alt+Del" (или что-то типа того).
Таааак... настроение падает в минус... Перегружаю и вхожу в сетап контроллера. Смотрю массив:

схема I
-----
0 - ready
1 - on-line
2 - off-line
3 - on-line
-----
ОК.  в принципе штатный отвал. непонятно почему авторебилд не сработал и  сервак не грузится... ставлю "0- ready-> HotSpare ", сохраняю НО... не вижу начавшегося автоматического ребилда... перегружаю сервак, вхожу в контроллер и вижу мерзкую картину (состояния дисков могут варьироваться, но общая картина подобная):

схема II
-----
0 - off-line
1 - ready
2 - off-line
3 - on-line
-----
Все.. приплыли..
Выключаю сервак полность. Потом еще кнопку на БП.
Когда такое случилось в 1-й раз -махнул 50 г коньяку :\

Включаю сервак, захожу в контроллер, наблюдаю схему I (!)
выполняю ту же последовательность действий - авторебилд запускается . все ребилдится... сервак нормально загружается... красота :)

За 4 месяца 2 раза такая ситуация была. Плюс еще не столь разрушительный вариант с "FirmWare internal Exception condition", когда просто невозможно было сохранить параметры контроллера.

Berlic
Junior member
Сообщения: 10
Зарегистрирован: 12 сен 2005, 15:37
Откуда: 78RUS
Контактная информация:

Сообщение Berlic » 16 сен 2005, 18:09

Купили контроллер скази, проверили этот злополучный винт - все ОК.
Никаких бэдов, смарт в порядке.
Сделали lowlevel формат.
Вставили обратно в сервер, ребилд.
Но... нет!
Опять то же самое.
Раньше (на старой прошивке) во время ребилда винт, который подключается постоянно горел (активити led), а остальные очень интенсивно мигали - ожидаемая картина.
А теперь (с новой прошивкой) это длится интервалами секунд по 5 и с перерывами - 10.
Т.е., как будто, 5 секунд идет ребилд, потом 10 секунд пауза.. потом дальше.
Так доходит до 1-2-3 процентов и выдается ошибка.
Нажимаешь ОК - статус диска опять Failed.

Печально как-то это все...

Ответить

Вернуться в «Массивы - Технические вопросы, решение проблем.»

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и 21 гость