Что происходит с RAID массивом (LSILogic 320-2,12 IBM DDYS)?

Поломалось, посыпалось, не работает...

Модераторы: Trinity admin`s, Free-lance moderator`s

Ответить
Prologue
Junior member
Сообщения: 4
Зарегистрирован: 24 мар 2003, 12:51

Что происходит с RAID массивом (LSILogic 320-2,12 IBM DDYS)?

Сообщение Prologue » 24 мар 2003, 14:16

В нашей фирме эксплуатируется файл сервер с raid массивом следующей аппаратной конфигурации:

- Курпус для raid массива покупался в фирме Меdiann
- RAID контроллер LSILogic 320-2, 64Mb, BBU
- 12 IBM DDYS T36950M, Revision S96H

Тип массива: RAID5 + 1 HotSpare

Обнаружил в логе программы MegaRaid Power Console Plus 5.00b сообщения:

Log Started.
- Sat Mar 22 18:01:35 2003
NOTIFY:Check Condition on Ch 2 ID 3 with the following sense key - Sat Mar 22 18:01:35 2003
f0 00 03 00 27 38 04
18 00 00 00 00 11 00
NOTIFY:Check Condition on Ch 2 ID 3 with the following sense key - Sat Mar 22 18:01:35 2003
f0 00 03 00 16 dc e6
18 00 00 00 00 11 00
NOTIFY:Check Condition on Ch 2 ID 3 with the following sense key - Sat Mar 22 18:01:35 2003
f0 00 03 00 16 dc e6
18 00 00 00 00 11 00
NOTIFY:Check Condition on Ch 2 ID 3 with the following sense key - Sat Mar 22 18:01:35 2003
f0 00 03 00 16 dc e7
18 00 00 00 00 11 00

Обратился к Drive Properties диска Ch 2 ID 3.
Параметр Media Error = 5.
Другие параметры: Termination = Narrow, Speed = 320Mb

Посмотрев в Properties других дисков обнаружил, что у некоторых параметры Termination = Wide, Speed = Not Supported

Сделал BackUp информации я запустил Consistency Check. В лог добавились сообщения:

Check Consistency Started on Logical Drive 1 - Sat Mar 22 18:19:45 2003
NOTIFY:Check Condition on Ch 2 ID 3 with the following sense key - Sat Mar 22 18:37:58 2003
f0 00 03 00 33 af 2a
18 00 00 00 00 11 00
NOTIFY:Check Condition on Ch 2 ID 1 with the following sense key - Sat Mar 22 21:32:06 2003
f0 00 03 02 28 2f 40
18 00 00 00 00 11 00
Check Consistency Finished on Logical Drive 1 - Sun Mar 23 00:39:29 2003

Drive Properties диска Ch 2 ID 1.
Media Error = 1, Termination = Wide, Speed = Not Supported

Что происходит с массивом? Физическое повреждение винчестеров Ch 2 ID 3 и Ch 2 ID 1?

Почему у винчестеров в массиве разный параметр Termination?

Что делать? Куда думать?

Спасибо.

Аватара пользователя
Dmitry
Сотрудник Тринити
Сотрудник Тринити
Сообщения: 861
Зарегистрирован: 22 авг 2002, 16:12
Откуда: St.Petersburg
Контактная информация:

Сообщение Dmitry » 24 мар 2003, 14:37

Да уж...
Самое простое все разобрать и собрать заново. Стереть конфигурацию из RAID и дисков (диски подключены). Проверить все перемычки на HDD и способ терминации корзин (если имеются) и правильность ее. Кабели на загибы и повреждения и главное на поддержку стандарта U160 или U160
Параметры должны быть Termination = Wide, Speed = 160MB

Что вообще за корпус? Корзины тянут Ultra 160 ?

Prologue
Junior member
Сообщения: 4
Зарегистрирован: 24 мар 2003, 12:51

Сообщение Prologue » 24 мар 2003, 15:02

Корпус покупался в компании Mediann. Модель Iridium.
В корпусе установлены 4 штуки case на 3 диска.
Реального производителя к сожалению незнаю.
Одним из требованием было работа на скорости 160 и жескими дисками IBM 10000 об.

С этим массивом в прошлом году уже случалась крупная авария. Картина была несколько другой, чем сейчас.
Контроллер был AMI MegaRAID 1600 128MB, BBU.
Периодически разные диски вылетали в offline. В какой-то момент они стали offline все одновременно. В ходе спасательной операции данные спасти не удалось. При попытке заного создать новый массив типа RAID5 или RAID3 он рассыпался на глазах. После окончания операции его формирования и запуска Consistency Check сразу несколько дисков становились offline.
Созданные массивы типа RAID0 или RAID1 работали несколько суток нормально.

Собрав все данные, было принято решение заменить контролер.
Новый контроллер Фирмы LSI 320-2.
Сейчас ситуация носит описанный в первом сообщении характер.

Prologue
Junior member
Сообщения: 4
Зарегистрирован: 24 мар 2003, 12:51

Сообщение Prologue » 24 мар 2003, 15:32

Возник ещё вопрос. Что могло привести к такой ситуации?

Аватара пользователя
Dmitry
Сотрудник Тринити
Сотрудник Тринити
Сообщения: 861
Зарегистрирован: 22 авг 2002, 16:12
Откуда: St.Petersburg
Контактная информация:

Сообщение Dmitry » 24 мар 2003, 16:42

Вообще-то стоит обратить внимание именно на корзины и их попарную терминацию. Как с этим у вас? Может на Backplane корзины написана модель или производитель? Может фотки кинете внутренностей корпуса и вид бэкплейна сзади?
А что замена контроллера ни к чему не привела - не удевляюсь - не там копали.

Prologue
Junior member
Сообщения: 4
Зарегистрирован: 24 мар 2003, 12:51

Сообщение Prologue » 24 мар 2003, 17:34

Замена контроллера принципиально исправила ситуацию.
Как я уже говорил, на прошлом контроллере массивы RAID5 вообще разваливались на глазах.
С новым контроллером массив проработал месяца 4 и сейчас начались проблемы.

Попробую подсмотреть или сфотографировать марку корзин.
Что значит "попарная терминация" ?

ВТБ!
free-lance moderator
Сообщения: 213
Зарегистрирован: 06 ноя 2002, 11:00
Контактная информация:

Сообщение ВТБ! » 24 мар 2003, 17:45

Prologue писал(а):Что значит "попарная терминация" ?
4 корзины на два канала - значит по паре корзин на канал :)

Аватара пользователя
gs
Сотрудник Тринити
Сотрудник Тринити
Сообщения: 16622
Зарегистрирован: 23 авг 2002, 17:34
Откуда: Москва
Контактная информация:

Сообщение gs » 24 мар 2003, 17:52

У вас стоит 4 корзины на 2 канала. Т.е. по 2 на канал. В этом случае терминация должна быть ВКЛЮЧЕНА на тех корзинах, которые ближе к концу кабеля и ВЫКЛЮЧЕНА на ближних. Если кабель с терминатором, то выключена везде. Некоторые корзины позволяют это делать, некоторые нет. Потому был и вопрос - тип корзины. Разного рода автоматическая терминация - источник постоянных глюков.
Медиан у нас брал достаточно много корзин Супермикро CSE-031 - если там они, то все можно вкл\выкл вручную. Но сборщик просто мог ошибиться при конфигурировании. Так что проверьте.
Может быть серьезная проблема, если корзины интеловские, где нет ручного переключения.
А то, что несколько месяцев все работало - еще не показатель. Свалиться может в любой момент.

Serge
Junior member
Сообщения: 16
Зарегистрирован: 08 сен 2003, 23:46
Контактная информация:

Сообщение Serge » 10 сен 2003, 03:43

пусть слегка не в тему но все же ..
как узнать какой пароль вводить в Power console plus при первом запуске..... замучался .. выручай

Аватара пользователя
Ant
Advanced member
Сообщения: 113
Зарегистрирован: 02 сен 2003, 16:06
Откуда: St.Petersburg
Контактная информация:

PCP

Сообщение Ant » 10 сен 2003, 21:02

2Serge:
Я так понимаю, что речь идёт о MegaRaid Server-е, т.к. в Client-е никакого пароля нет. Так вот при установке Server-а задаётся пароль для удалённого администрирования, который потом нужен для Full Access-а (View Only пароля не требует)... Может вы просто забыли его? :)

Аватара пользователя
a_shats
Advanced member
Сообщения: 5010
Зарегистрирован: 27 авг 2002, 10:55
Откуда: Москва
Контактная информация:

Сообщение a_shats » 11 сен 2003, 00:04

Serge
Да, и для GAM необходимо обязательно завести юзера gamroot (в windows) с административными правами - им в GAM и заходить.

Ответить

Вернуться в «Массивы - Технические вопросы, решение проблем.»