MegaRAID 320-2: отваливаются по нескольку винтов...

Поломалось, посыпалось, не работает...

Модераторы: Trinity admin`s, Free-lance moderator`s

Ответить
Аватара пользователя
Quentin
Junior member
Сообщения: 9
Зарегистрирован: 12 ноя 2003, 15:41
Откуда: Обнинск
Контактная информация:

MegaRAID 320-2: отваливаются по нескольку винтов...

Сообщение Quentin » 12 ноя 2003, 16:06

LSI Logic MegaRAID 320-2, 128 МБ, BBU
Xyratex RS-1422-LVD-5 ("U320-ready")
14 Seagate Cheetah ST336753LC
Кабеля U320.
Куплено в Тринити-Москва :lol:
Сервер - 1U двухпроцессорный Intel. Win2000.

Иногда (в среднем раз в 3 месяца) отваливаются по несколько дисков с одного канала. Потом (в течение суток) контроллер сам их ребилдит, даже не спрашивая разрешения. Сейчас - третий раз (вылетело сразу 5 дисков).
Благодаря тому, что используется RAID 1+0 с размещением половинок зеркал на разных каналах, информация не теряется, БД не останавливается.

Но - надоело.

БД (Oracle) работает в режиме 24*7, но плановые остановки возможны (хотя и нежелательны).

В этот раз собираюсь добиться плановой остановки, перепрошить контроллер, обновить драйвера и софт. Переключить диски на режим U160. Возможно, сменить PowerConsole на GAM.

Ваши советы?

Аватара пользователя
gs
Сотрудник Тринити
Сотрудник Тринити
Сообщения: 16622
Зарегистрирован: 23 авг 2002, 17:34
Откуда: Москва
Контактная информация:

Сообщение gs » 12 ноя 2003, 17:27

А почему Вы нас сразу не спросили?
Дистанционно сложно сказать что происходит. Первое что стоит сделать - переключить шину на U160. Это исключит все проблемы канала. Возможно просто контроллер глючит - тогда это не поможет. Но яснее станет. Теоретически возможна несовместимость фирмвари дисков и контроллера, но с этим вроде бы все должно быть в порядке.
Есть еще момент - в контроллере есть разные варианты терминации (вкл, выкл, авто) - поставьте принудительно вкл.

Аватара пользователя
Tert
Advanced member
Сообщения: 4233
Зарегистрирован: 19 янв 2003, 08:09
Откуда: Москва
Контактная информация:

Сообщение Tert » 12 ноя 2003, 17:28

Возможно проблема кроется здесь: http://www.seagate.com/support/disc/u320_firmware.html

Аватара пользователя
Quentin
Junior member
Сообщения: 9
Зарегистрирован: 12 ноя 2003, 15:41
Откуда: Обнинск
Контактная информация:

Продолжение: как это было сегодня.

Сообщение Quentin » 12 ноя 2003, 17:55

Как это было:

Вижу пять оранжевых лампочек... чувствую лёгкий дискомфорт :shock:

Смотрю в PowerConsole - пять отвалившихся дисков.

Запускаю PowerConsole в режиме "Full Control" - тут же начинается ребилд, Oracle входит в ступор...
Странно, настраивал 30% ресурсов на ребилд. Останавливаю.
Ребилдиться не раньше ночи!

Запускаю снова, в "view only" - и тут при сканировании массива сервер целиком зависает на минуту, даже не пингуется.
Потом очухивается.

Теперь ничего не пускаю... жду ночи.

Прошивка контроллера, драйвера и софт обновлялись в июле (после прошлого сбоя).
Диски не перепрошивал. Стоит попробовать?

Аватара пользователя
gs
Сотрудник Тринити
Сотрудник Тринити
Сообщения: 16622
Зарегистрирован: 23 авг 2002, 17:34
Откуда: Москва
Контактная информация:

Сообщение gs » 12 ноя 2003, 18:14

Попробуйте сделать как я выше говорил. Не поможет - перешивайте диски. А контроллер перешить не помешает по любому.
Для управления мы сами пользуемся GAM-TT. Роднее как-то и имхо намного удобнее.
А вообще контроллеры LSI, в отличие от майлекса, слишком многое делают по собственному желанию. Это пожалуй единственный серьезный недостаток.
А ребилд ввергает машину в ступор всегда - это к сожалению нормально.

Аватара пользователя
gs
Сотрудник Тринити
Сотрудник Тринити
Сообщения: 16622
Зарегистрирован: 23 авг 2002, 17:34
Откуда: Москва
Контактная информация:

Сообщение gs » 12 ноя 2003, 18:20

Хотя если сложно выкроить окно для процедур, лучше сразу и винты перешить. Только про бэкап в этом случае не забудьте (про него никогда забывать не нада :)).

Аватара пользователя
Quentin
Junior member
Сообщения: 9
Зарегистрирован: 12 ноя 2003, 15:41
Откуда: Обнинск
Контактная информация:

Спасибо, сделаю... на выходных.

Сообщение Quentin » 12 ноя 2003, 18:59

Спасибо, после второй аварии с бэкапом у нас совсем хорошо стало - ежесуточный, на каждый день недели своя лента.

Вторая авария такая была: всего одна лампочка - но сервер завис.
После ребута - 12 дохлых дисков в конфигурации из памяти.
Второй ребут, конфигурация с дисков - 1 дохлый диск, авторебилд...

Восстановления с бэкапа не потребовалось.
И десяток лент выбил...

Аватара пользователя
Quentin
Junior member
Сообщения: 9
Зарегистрирован: 12 ноя 2003, 15:41
Откуда: Обнинск
Контактная информация:

Продолжение...

Сообщение Quentin » 14 ноя 2003, 11:28

За первую ночь контроллер отребилдил четыре из пяти отвалившихся дисков.
За вторую - оставшийся.
После чего отвалился весь канал, и сервер встал.
Постоял минут пять, произвёл аборт Оракла, дал себя выключить.

Я перевёл оба канала на U160.
Перепрошивки и т.п. по производственной необходимости откладываются на выходные.

Аватара пользователя
Quentin
Junior member
Сообщения: 9
Зарегистрирован: 12 ноя 2003, 15:41
Откуда: Обнинск
Контактная информация:

Гипотеза:

Сообщение Quentin » 14 ноя 2003, 11:37

Гипотеза:
Я пришёл на работу, увидел целый, восстановившийся массив.
Решил проветрить, выключил кондиционер, открыл форточку (и стало холодать).
Через полчаса отвалился канал.
Считаю - это может указывать на проблему с кабелем/разъёмом.
Что думаете?

Аватара пользователя
Quentin
Junior member
Сообщения: 9
Зарегистрирован: 12 ноя 2003, 15:41
Откуда: Обнинск
Контактная информация:

Ещё гипотеза:

Сообщение Quentin » 14 ноя 2003, 13:59

Ещё гипотеза:
Может, контроллеру всё-таки жарко в 1U корпусе?
Хотя падают винты всё время на одном и том же канале...

Аватара пользователя
CyberDrake
free-lance moderator
Сообщения: 338
Зарегистрирован: 23 авг 2002, 10:39
Откуда: Санкт-Петербург
Контактная информация:

Сообщение CyberDrake » 14 ноя 2003, 14:07

а что показывает софт мониторинга Power Console или лучше GAMTT?

Аватара пользователя
Quentin
Junior member
Сообщения: 9
Зарегистрирован: 12 ноя 2003, 15:41
Откуда: Обнинск
Контактная информация:

Что показывает софт:

Сообщение Quentin » 14 ноя 2003, 15:38

PowerConsole я просто боюсь теперь пускать - он сразу,
ничего не спрашивая, начинает ребилдить винты,
причём забирая все ресурсы. База при этом ложится.

При этом самостоятельный ночной ребилд контроллера довольно щадящий.

На выходных перепрошью контроллер, обновлю дрова,
поставлю GAM - тогда что-то отвечу по существу.

Аватара пользователя
Quentin
Junior member
Сообщения: 9
Зарегистрирован: 12 ноя 2003, 15:41
Откуда: Обнинск
Контактная информация:

После перепрошивки...

Сообщение Quentin » 16 ноя 2003, 03:44

Прошил контроллер, обновил драйвера, поставил GAM-TT :D .
GAM, конечно, покрасивее чем PowerConsole.
И даже показывает температуру ящиков 31-32°C.

Нет никакой информации о состоянии батареи
(кроме типа NiMN, версии 2 и включённого режима быстрой зарядки).

Аватара пользователя
Quentin
Junior member
Сообщения: 9
Зарегистрирован: 12 ноя 2003, 15:41
Откуда: Обнинск
Контактная информация:

Бяка продолжается :^(

Сообщение Quentin » 16 ноя 2003, 13:35

Опять отвалился диск. На этот раз - один. На том же канале.

GAM о диске:
  • Linked: Yes
  • Status: DEAD
  • Soft Errors: N/A
  • Hard Errors: 0
  • Parity Errors: N/A
  • PFA Count: None
Хочу попробовать заменить кабель.
Жду замену...

У меня есть два запасных диска.
Если бы стабильно выпадал один и тот же диск - я бы его заменил.
Но считаю, что когда выпадают по пять штук сразу - дело не в дисках.

Что ещё я могу сообщить для локализации источника проблем?

Ответить

Вернуться в «Массивы - Технические вопросы, решение проблем.»