Выход из строя 2-х винтов одновременно на Mylex AR170

Поломалось, посыпалось, не работает...

Модераторы: Trinity admin`s, Free-lance moderator`s

mead
Junior member
Сообщения: 11
Зарегистрирован: 26 июн 2003, 17:14
Контактная информация:

Выход из строя 2-х винтов одновременно на Mylex AR170

Сообщение mead » 26 июн 2003, 17:34

Доброго времени суток!
Столкнулся со следующей проблемой - на RAID-контроллере Mylex AR170 (RAID-5 из 3 HDD IBM DDYS-T36950M, прошивка S96H) после 2-х лет успешной работы были в течение одной ночи перемещены в offline 2 HDD (2-й и 3-й). В целях сохранения данных оба диска были насильно перемещены в online, после чего через 2 минуты 2-й диск был опять переведен контроллером в offline(он был своевременно заменен на исправный), а 3-й работает до сих пор (уже 2 недели) без единой ошибки. Кроме того, заметил, что при вынимании 2-го диска из корзины ощущалась сильная вибрация от вращения шпинделя винта.
Отсюда вопросы - что могло привести к переводу в offline 3-го винта и нормальная ли это реакция неисправного винта (отсутствие остановки шпинделя после перевода в offline)? Учитывая большое кол-во подобных raid-контроллеров и аналогичных дисков в серверах, что можно предпринять для устранения подобных проблем в будущем?
Железо: Корпус Intel SC5000, корзина SCA HSBP M14(rev.02),
Mylex AR170 (Bootblock 6.00, FW 6.00, BIOS 6.01).

Аватара пользователя
gs
Сотрудник Тринити
Сотрудник Тринити
Сообщения: 16622
Зарегистрирован: 23 авг 2002, 17:34
Откуда: Москва
Контактная информация:

Сообщение gs » 26 июн 2003, 17:49

То, что диск продолжает крутиться после перевода в оффлайн - нормально.
Третий винт мог уйти в оффлайн либо по причине какого-то сбоя на шине во время отвала соседа (тогда это не страшно), либо потому что на нем появились бэд блоки. В этом случае его нужно как минимум форматировать. Для проверки прогоните consistency check без опции маскирования дефектов - он скажет есть ли бэды.

Причины события могли быть какие угодно. Возможно просто логический сбой при вылете одного из винтов. Но если действительно есть бэды, то скорее всего был или механический удар или какая-то жестокая помеха по электрике (это уже встречалось - юпсы без грамотного проектирования электросети могут не помочь). Просто так винты пачками не вылетают.

mead
Junior member
Сообщения: 11
Зарегистрирован: 26 июн 2003, 17:14
Контактная информация:

Сообщение mead » 26 июн 2003, 18:08

Bad-block'ов на 3-м винте нет. Сбой на шине во время отвала соседа - это нормально? Таким образом выходит из строя raid-массив на какое-то время, что достаточно критично... Это проблема корзины, винта или raid-контроллера? Что можно сделать, чтобы избежать этого?

Аватара пользователя
setar
Site Admin
Site Admin
Сообщения: 1984
Зарегистрирован: 22 авг 2002, 12:03
Откуда: St. Petersburg

Сообщение setar » 26 июн 2003, 18:17

mead писал(а):Bad-block'ов на 3-м винте нет. Сбой на шине во время отвала соседа - это нормально? Таким образом выходит из строя raid-массив на какое-то время, что достаточно критично... Это проблема корзины, винта или raid-контроллера? Что можно сделать, чтобы избежать этого?
Конечно же это не нормально, но иногда случается :(
так как такая ситуация случается крайне редко (я видел 2 раза) то весьма тяжело изучить причины вызвавшие её.

По моему предположению выходяший из строя винт подсаживает на массу сигналы scsi кабеля, результатом чего контроллер при обращении к другим винтам, воспринимает их не рабочими.
Но... это лишь предположение.

В моём случае наблюдался выход в offline всех винтов кроме сбойного.

Сомневаюсь что с этой ситуацией можно как либо бороться (по крайней мере без изменения самой технологии).

P.S. Интересно как будет вести себя в аналогичной ситуации iSCSI :ups:

Аватара пользователя
gs
Сотрудник Тринити
Сотрудник Тринити
Сообщения: 16622
Зарегистрирован: 23 авг 2002, 17:34
Откуда: Москва
Контактная информация:

Сообщение gs » 26 июн 2003, 18:22

а где ты видел диск с интерфейсом iSCSI? Это же чисто внешний интерфейс :)
учите матчасть, мать вашу! :)

А бороться с этим действительно никак. К сожалению панацеи не существует. Более-менее реальная защита есть только на Fibre Channel (там у винтов по два порта), но тоже не всегда помогает.

А если виновата была действительно электрика (я это уже не раз встречал) - то что же Вы хотите от контроллера, которому по голове ломом врезали? Да и винт в процессе сбоя мог все что угодно на шину выкинуть - у скази адаптера контроллера могла просто крыша съехать :(

mead
Junior member
Сообщения: 11
Зарегистрирован: 26 июн 2003, 17:14
Контактная информация:

Сообщение mead » 26 июн 2003, 18:27

То есть, это проблема конкретного вида неисправности винта, которая однозначно приводит к сбою на шине?

Аватара пользователя
gs
Сотрудник Тринити
Сотрудник Тринити
Сообщения: 16622
Зарегистрирован: 23 авг 2002, 17:34
Откуда: Москва
Контактная информация:

Сообщение gs » 26 июн 2003, 18:31

В подобных случаях трудно говорить что-либо конкретное. Такие вещи бывают крайне редко, а без статистики будут просто размышления пальцем в небо :(

Как сказал великий - "Дерьмо случается".

Аватара пользователя
setar
Site Admin
Site Admin
Сообщения: 1984
Зарегистрирован: 22 авг 2002, 12:03
Откуда: St. Petersburg

Сообщение setar » 26 июн 2003, 18:32

gs писал(а):а где ты видел диск с интерфейсом iSCSI? Это же чисто внешний интерфейс :)
учите матчасть, мать вашу! :)
:lol: думаю одно - пишу другое ,
я имел в виду S-ATA

mead
Junior member
Сообщения: 11
Зарегистрирован: 26 июн 2003, 17:14
Контактная информация:

Сообщение mead » 26 июн 2003, 18:35

gs писал(а):а где ты видел диск с интерфейсом iSCSI? Это же чисто внешний интерфейс :)
учите матчасть, мать вашу! :)

А бороться с этим действительно никак. К сожалению панацеи не существует. Более-менее реальная защита есть только на Fibre Channel (там у винтов по два порта), но тоже не всегда помогает.

А если виновата была действительно электрика (я это уже не раз встречал) - то что же Вы хотите от контроллера, которому по голове ломом врезали? Да и винт в процессе сбоя мог все что угодно на шину выкинуть - у скази адаптера контроллера могла просто крыша съехать :(
С электрикой в серверной все достаточно хорошо продумано. Установлено порядка 3-х десятков серверов, которые питаются от APC Symmetra, Smart-UPS, за полтора года работы оборудования подобных случаев не было.

Аватара пользователя
gs
Сотрудник Тринити
Сотрудник Тринити
Сообщения: 16622
Зарегистрирован: 23 авг 2002, 17:34
Откуда: Москва
Контактная информация:

Сообщение gs » 26 июн 2003, 18:36

SATA предусматривает только соединение точка-точка. так что такой проблемы быть в принципе не может. но преимущество это весьма относительное - представь себе SATA массив на 10 винтов и пачки проводов
да и все недостатки ИДЕ в текущей реализации SATA присутствуют в полный рост (отсутствие очереди команд)

Аватара пользователя
gs
Сотрудник Тринити
Сотрудник Тринити
Сообщения: 16622
Зарегистрирован: 23 авг 2002, 17:34
Откуда: Москва
Контактная информация:

Сообщение gs » 26 июн 2003, 18:37

тогда остается только считать, что диск в момент смерти выбил шину.
Увы.

ВТБ!
free-lance moderator
Сообщения: 213
Зарегистрирован: 06 ноя 2002, 11:00
Контактная информация:

Сообщение ВТБ! » 27 июн 2003, 10:54

gs писал(а):представь себе SATA массив на 10 винтов и пачки проводов
Представляю себе :roll: mobile rack (как HS, так и fixed) в 3 пятидюймовых отсека на пяток SATA дисков с интегрированным на backplane RAID-контроллером (с батарейкой :wink: или без) и подключением SATA.
Вставляем (или переставляем) в любой приличный корпус и получаем надёжную файлопомойку по смешной цене.

Аватара пользователя
Dmitry
Сотрудник Тринити
Сотрудник Тринити
Сообщения: 861
Зарегистрирован: 22 авг 2002, 16:12
Откуда: St.Petersburg
Контактная информация:

Сообщение Dmitry » 27 июн 2003, 11:07

Да тут и представлять нечего. У Supermicro есть корзинка CSE-M35T1 для 5 S-ATA винтов, обеспечивается их горячую замену и хорошее охлаждение. А корзин можно взять и 2 штуки, а это уже 10 дисков. Осталось только найти 10 S-ATA портов на плате... :wink:
Ну по по S-ATA RAID... уже их делают и продают (только пока без батареек :cry: )

Аватара пользователя
gs
Сотрудник Тринити
Сотрудник Тринити
Сообщения: 16622
Зарегистрирован: 23 авг 2002, 17:34
Откуда: Москва
Контактная информация:

Сообщение gs » 27 июн 2003, 11:10

Для таких вещей есть ящик супермикро SC733. Там корзинка встроенная под 4 SATA винта. В общем маленькая симпатичная файлопомоечка :)
Или SC942 с двумя корзинами CSE-M35T - побольше, подороже, зато дисков дофига.
Но это все годится именно для помойки - базу данных на такое ставить не стоит.

Аватара пользователя
Dmitry
Сотрудник Тринити
Сотрудник Тринити
Сообщения: 861
Зарегистрирован: 22 авг 2002, 16:12
Откуда: St.Petersburg
Контактная информация:

Сообщение Dmitry » 27 июн 2003, 11:16

Ну так никто и не спорит - от задачи все зависит как не крути. Одним базы данных на SCSI RAID, другим файлпомойка на S-ATA.

Ответить

Вернуться в «Массивы - Технические вопросы, решение проблем.»