Выход из строя 2-х винтов одновременно на Mylex AR170
Модераторы: Trinity admin`s, Free-lance moderator`s
Выход из строя 2-х винтов одновременно на Mylex AR170
Доброго времени суток!
Столкнулся со следующей проблемой - на RAID-контроллере Mylex AR170 (RAID-5 из 3 HDD IBM DDYS-T36950M, прошивка S96H) после 2-х лет успешной работы были в течение одной ночи перемещены в offline 2 HDD (2-й и 3-й). В целях сохранения данных оба диска были насильно перемещены в online, после чего через 2 минуты 2-й диск был опять переведен контроллером в offline(он был своевременно заменен на исправный), а 3-й работает до сих пор (уже 2 недели) без единой ошибки. Кроме того, заметил, что при вынимании 2-го диска из корзины ощущалась сильная вибрация от вращения шпинделя винта.
Отсюда вопросы - что могло привести к переводу в offline 3-го винта и нормальная ли это реакция неисправного винта (отсутствие остановки шпинделя после перевода в offline)? Учитывая большое кол-во подобных raid-контроллеров и аналогичных дисков в серверах, что можно предпринять для устранения подобных проблем в будущем?
Железо: Корпус Intel SC5000, корзина SCA HSBP M14(rev.02),
Mylex AR170 (Bootblock 6.00, FW 6.00, BIOS 6.01).
Столкнулся со следующей проблемой - на RAID-контроллере Mylex AR170 (RAID-5 из 3 HDD IBM DDYS-T36950M, прошивка S96H) после 2-х лет успешной работы были в течение одной ночи перемещены в offline 2 HDD (2-й и 3-й). В целях сохранения данных оба диска были насильно перемещены в online, после чего через 2 минуты 2-й диск был опять переведен контроллером в offline(он был своевременно заменен на исправный), а 3-й работает до сих пор (уже 2 недели) без единой ошибки. Кроме того, заметил, что при вынимании 2-го диска из корзины ощущалась сильная вибрация от вращения шпинделя винта.
Отсюда вопросы - что могло привести к переводу в offline 3-го винта и нормальная ли это реакция неисправного винта (отсутствие остановки шпинделя после перевода в offline)? Учитывая большое кол-во подобных raid-контроллеров и аналогичных дисков в серверах, что можно предпринять для устранения подобных проблем в будущем?
Железо: Корпус Intel SC5000, корзина SCA HSBP M14(rev.02),
Mylex AR170 (Bootblock 6.00, FW 6.00, BIOS 6.01).
- gs
- Сотрудник Тринити
- Сообщения: 16650
- Зарегистрирован: 23 авг 2002, 17:34
- Откуда: Москва
- Контактная информация:
То, что диск продолжает крутиться после перевода в оффлайн - нормально.
Третий винт мог уйти в оффлайн либо по причине какого-то сбоя на шине во время отвала соседа (тогда это не страшно), либо потому что на нем появились бэд блоки. В этом случае его нужно как минимум форматировать. Для проверки прогоните consistency check без опции маскирования дефектов - он скажет есть ли бэды.
Причины события могли быть какие угодно. Возможно просто логический сбой при вылете одного из винтов. Но если действительно есть бэды, то скорее всего был или механический удар или какая-то жестокая помеха по электрике (это уже встречалось - юпсы без грамотного проектирования электросети могут не помочь). Просто так винты пачками не вылетают.
Третий винт мог уйти в оффлайн либо по причине какого-то сбоя на шине во время отвала соседа (тогда это не страшно), либо потому что на нем появились бэд блоки. В этом случае его нужно как минимум форматировать. Для проверки прогоните consistency check без опции маскирования дефектов - он скажет есть ли бэды.
Причины события могли быть какие угодно. Возможно просто логический сбой при вылете одного из винтов. Но если действительно есть бэды, то скорее всего был или механический удар или какая-то жестокая помеха по электрике (это уже встречалось - юпсы без грамотного проектирования электросети могут не помочь). Просто так винты пачками не вылетают.
Конечно же это не нормально, но иногда случаетсяmead писал(а):Bad-block'ов на 3-м винте нет. Сбой на шине во время отвала соседа - это нормально? Таким образом выходит из строя raid-массив на какое-то время, что достаточно критично... Это проблема корзины, винта или raid-контроллера? Что можно сделать, чтобы избежать этого?

так как такая ситуация случается крайне редко (я видел 2 раза) то весьма тяжело изучить причины вызвавшие её.
По моему предположению выходяший из строя винт подсаживает на массу сигналы scsi кабеля, результатом чего контроллер при обращении к другим винтам, воспринимает их не рабочими.
Но... это лишь предположение.
В моём случае наблюдался выход в offline всех винтов кроме сбойного.
Сомневаюсь что с этой ситуацией можно как либо бороться (по крайней мере без изменения самой технологии).
P.S. Интересно как будет вести себя в аналогичной ситуации iSCSI

- gs
- Сотрудник Тринити
- Сообщения: 16650
- Зарегистрирован: 23 авг 2002, 17:34
- Откуда: Москва
- Контактная информация:
а где ты видел диск с интерфейсом iSCSI? Это же чисто внешний интерфейс 
учите матчасть, мать вашу!
А бороться с этим действительно никак. К сожалению панацеи не существует. Более-менее реальная защита есть только на Fibre Channel (там у винтов по два порта), но тоже не всегда помогает.
А если виновата была действительно электрика (я это уже не раз встречал) - то что же Вы хотите от контроллера, которому по голове ломом врезали? Да и винт в процессе сбоя мог все что угодно на шину выкинуть - у скази адаптера контроллера могла просто крыша съехать

учите матчасть, мать вашу!

А бороться с этим действительно никак. К сожалению панацеи не существует. Более-менее реальная защита есть только на Fibre Channel (там у винтов по два порта), но тоже не всегда помогает.
А если виновата была действительно электрика (я это уже не раз встречал) - то что же Вы хотите от контроллера, которому по голове ломом врезали? Да и винт в процессе сбоя мог все что угодно на шину выкинуть - у скази адаптера контроллера могла просто крыша съехать

С электрикой в серверной все достаточно хорошо продумано. Установлено порядка 3-х десятков серверов, которые питаются от APC Symmetra, Smart-UPS, за полтора года работы оборудования подобных случаев не было.gs писал(а):а где ты видел диск с интерфейсом iSCSI? Это же чисто внешний интерфейс
учите матчасть, мать вашу!
А бороться с этим действительно никак. К сожалению панацеи не существует. Более-менее реальная защита есть только на Fibre Channel (там у винтов по два порта), но тоже не всегда помогает.
А если виновата была действительно электрика (я это уже не раз встречал) - то что же Вы хотите от контроллера, которому по голове ломом врезали? Да и винт в процессе сбоя мог все что угодно на шину выкинуть - у скази адаптера контроллера могла просто крыша съехать
- gs
- Сотрудник Тринити
- Сообщения: 16650
- Зарегистрирован: 23 авг 2002, 17:34
- Откуда: Москва
- Контактная информация:
SATA предусматривает только соединение точка-точка. так что такой проблемы быть в принципе не может. но преимущество это весьма относительное - представь себе SATA массив на 10 винтов и пачки проводов
да и все недостатки ИДЕ в текущей реализации SATA присутствуют в полный рост (отсутствие очереди команд)
да и все недостатки ИДЕ в текущей реализации SATA присутствуют в полный рост (отсутствие очереди команд)
Представляю себеgs писал(а):представь себе SATA массив на 10 винтов и пачки проводов


Вставляем (или переставляем) в любой приличный корпус и получаем надёжную файлопомойку по смешной цене.
- Dmitry
- Сотрудник Тринити
- Сообщения: 867
- Зарегистрирован: 22 авг 2002, 16:12
- Откуда: St.Petersburg
- Контактная информация:
Да тут и представлять нечего. У Supermicro есть корзинка CSE-M35T1 для 5 S-ATA винтов, обеспечивается их горячую замену и хорошее охлаждение. А корзин можно взять и 2 штуки, а это уже 10 дисков. Осталось только найти 10 S-ATA портов на плате...
Ну по по S-ATA RAID... уже их делают и продают (только пока без батареек
)

Ну по по S-ATA RAID... уже их делают и продают (только пока без батареек

Кто сейчас на конференции
Сейчас этот форум просматривают: нет зарегистрированных пользователей и 2 гостя