MegaRAID 320-2: отваливаются по нескольку винтов...
Модераторы: Trinity admin`s, Free-lance moderator`s
- Quentin
- Junior member
- Сообщения: 9
- Зарегистрирован: 12 ноя 2003, 15:41
- Откуда: Обнинск
- Контактная информация:
MegaRAID 320-2: отваливаются по нескольку винтов...
LSI Logic MegaRAID 320-2, 128 МБ, BBU
Xyratex RS-1422-LVD-5 ("U320-ready")
14 Seagate Cheetah ST336753LC
Кабеля U320.
Куплено в Тринити-Москва
Сервер - 1U двухпроцессорный Intel. Win2000.
Иногда (в среднем раз в 3 месяца) отваливаются по несколько дисков с одного канала. Потом (в течение суток) контроллер сам их ребилдит, даже не спрашивая разрешения. Сейчас - третий раз (вылетело сразу 5 дисков).
Благодаря тому, что используется RAID 1+0 с размещением половинок зеркал на разных каналах, информация не теряется, БД не останавливается.
Но - надоело.
БД (Oracle) работает в режиме 24*7, но плановые остановки возможны (хотя и нежелательны).
В этот раз собираюсь добиться плановой остановки, перепрошить контроллер, обновить драйвера и софт. Переключить диски на режим U160. Возможно, сменить PowerConsole на GAM.
Ваши советы?
Xyratex RS-1422-LVD-5 ("U320-ready")
14 Seagate Cheetah ST336753LC
Кабеля U320.
Куплено в Тринити-Москва
Сервер - 1U двухпроцессорный Intel. Win2000.
Иногда (в среднем раз в 3 месяца) отваливаются по несколько дисков с одного канала. Потом (в течение суток) контроллер сам их ребилдит, даже не спрашивая разрешения. Сейчас - третий раз (вылетело сразу 5 дисков).
Благодаря тому, что используется RAID 1+0 с размещением половинок зеркал на разных каналах, информация не теряется, БД не останавливается.
Но - надоело.
БД (Oracle) работает в режиме 24*7, но плановые остановки возможны (хотя и нежелательны).
В этот раз собираюсь добиться плановой остановки, перепрошить контроллер, обновить драйвера и софт. Переключить диски на режим U160. Возможно, сменить PowerConsole на GAM.
Ваши советы?
- gs
- Сотрудник Тринити
- Сообщения: 16650
- Зарегистрирован: 23 авг 2002, 17:34
- Откуда: Москва
- Контактная информация:
А почему Вы нас сразу не спросили?
Дистанционно сложно сказать что происходит. Первое что стоит сделать - переключить шину на U160. Это исключит все проблемы канала. Возможно просто контроллер глючит - тогда это не поможет. Но яснее станет. Теоретически возможна несовместимость фирмвари дисков и контроллера, но с этим вроде бы все должно быть в порядке.
Есть еще момент - в контроллере есть разные варианты терминации (вкл, выкл, авто) - поставьте принудительно вкл.
Дистанционно сложно сказать что происходит. Первое что стоит сделать - переключить шину на U160. Это исключит все проблемы канала. Возможно просто контроллер глючит - тогда это не поможет. Но яснее станет. Теоретически возможна несовместимость фирмвари дисков и контроллера, но с этим вроде бы все должно быть в порядке.
Есть еще момент - в контроллере есть разные варианты терминации (вкл, выкл, авто) - поставьте принудительно вкл.
- Tert
- Advanced member
- Сообщения: 4233
- Зарегистрирован: 19 янв 2003, 08:09
- Откуда: Москва
- Контактная информация:
Возможно проблема кроется здесь: http://www.seagate.com/support/disc/u320_firmware.html
- Quentin
- Junior member
- Сообщения: 9
- Зарегистрирован: 12 ноя 2003, 15:41
- Откуда: Обнинск
- Контактная информация:
Продолжение: как это было сегодня.
Как это было:
Вижу пять оранжевых лампочек... чувствую лёгкий дискомфорт
Смотрю в PowerConsole - пять отвалившихся дисков.
Запускаю PowerConsole в режиме "Full Control" - тут же начинается ребилд, Oracle входит в ступор...
Странно, настраивал 30% ресурсов на ребилд. Останавливаю.
Ребилдиться не раньше ночи!
Запускаю снова, в "view only" - и тут при сканировании массива сервер целиком зависает на минуту, даже не пингуется.
Потом очухивается.
Теперь ничего не пускаю... жду ночи.
Прошивка контроллера, драйвера и софт обновлялись в июле (после прошлого сбоя).
Диски не перепрошивал. Стоит попробовать?
Вижу пять оранжевых лампочек... чувствую лёгкий дискомфорт
Смотрю в PowerConsole - пять отвалившихся дисков.
Запускаю PowerConsole в режиме "Full Control" - тут же начинается ребилд, Oracle входит в ступор...
Странно, настраивал 30% ресурсов на ребилд. Останавливаю.
Ребилдиться не раньше ночи!
Запускаю снова, в "view only" - и тут при сканировании массива сервер целиком зависает на минуту, даже не пингуется.
Потом очухивается.
Теперь ничего не пускаю... жду ночи.
Прошивка контроллера, драйвера и софт обновлялись в июле (после прошлого сбоя).
Диски не перепрошивал. Стоит попробовать?
- gs
- Сотрудник Тринити
- Сообщения: 16650
- Зарегистрирован: 23 авг 2002, 17:34
- Откуда: Москва
- Контактная информация:
Попробуйте сделать как я выше говорил. Не поможет - перешивайте диски. А контроллер перешить не помешает по любому.
Для управления мы сами пользуемся GAM-TT. Роднее как-то и имхо намного удобнее.
А вообще контроллеры LSI, в отличие от майлекса, слишком многое делают по собственному желанию. Это пожалуй единственный серьезный недостаток.
А ребилд ввергает машину в ступор всегда - это к сожалению нормально.
Для управления мы сами пользуемся GAM-TT. Роднее как-то и имхо намного удобнее.
А вообще контроллеры LSI, в отличие от майлекса, слишком многое делают по собственному желанию. Это пожалуй единственный серьезный недостаток.
А ребилд ввергает машину в ступор всегда - это к сожалению нормально.
- Quentin
- Junior member
- Сообщения: 9
- Зарегистрирован: 12 ноя 2003, 15:41
- Откуда: Обнинск
- Контактная информация:
Спасибо, сделаю... на выходных.
Спасибо, после второй аварии с бэкапом у нас совсем хорошо стало - ежесуточный, на каждый день недели своя лента.
Вторая авария такая была: всего одна лампочка - но сервер завис.
После ребута - 12 дохлых дисков в конфигурации из памяти.
Второй ребут, конфигурация с дисков - 1 дохлый диск, авторебилд...
Восстановления с бэкапа не потребовалось.
И десяток лент выбил...
Вторая авария такая была: всего одна лампочка - но сервер завис.
После ребута - 12 дохлых дисков в конфигурации из памяти.
Второй ребут, конфигурация с дисков - 1 дохлый диск, авторебилд...
Восстановления с бэкапа не потребовалось.
И десяток лент выбил...
- Quentin
- Junior member
- Сообщения: 9
- Зарегистрирован: 12 ноя 2003, 15:41
- Откуда: Обнинск
- Контактная информация:
Продолжение...
За первую ночь контроллер отребилдил четыре из пяти отвалившихся дисков.
За вторую - оставшийся.
После чего отвалился весь канал, и сервер встал.
Постоял минут пять, произвёл аборт Оракла, дал себя выключить.
Я перевёл оба канала на U160.
Перепрошивки и т.п. по производственной необходимости откладываются на выходные.
За вторую - оставшийся.
После чего отвалился весь канал, и сервер встал.
Постоял минут пять, произвёл аборт Оракла, дал себя выключить.
Я перевёл оба канала на U160.
Перепрошивки и т.п. по производственной необходимости откладываются на выходные.
- Quentin
- Junior member
- Сообщения: 9
- Зарегистрирован: 12 ноя 2003, 15:41
- Откуда: Обнинск
- Контактная информация:
Гипотеза:
Гипотеза:
Я пришёл на работу, увидел целый, восстановившийся массив.
Решил проветрить, выключил кондиционер, открыл форточку (и стало холодать).
Через полчаса отвалился канал.
Считаю - это может указывать на проблему с кабелем/разъёмом.
Что думаете?
Я пришёл на работу, увидел целый, восстановившийся массив.
Решил проветрить, выключил кондиционер, открыл форточку (и стало холодать).
Через полчаса отвалился канал.
Считаю - это может указывать на проблему с кабелем/разъёмом.
Что думаете?
- Quentin
- Junior member
- Сообщения: 9
- Зарегистрирован: 12 ноя 2003, 15:41
- Откуда: Обнинск
- Контактная информация:
Ещё гипотеза:
Ещё гипотеза:
Может, контроллеру всё-таки жарко в 1U корпусе?
Хотя падают винты всё время на одном и том же канале...
Может, контроллеру всё-таки жарко в 1U корпусе?
Хотя падают винты всё время на одном и том же канале...
- CyberDrake
- free-lance moderator
- Сообщения: 338
- Зарегистрирован: 23 авг 2002, 10:39
- Откуда: Санкт-Петербург
- Контактная информация:
- Quentin
- Junior member
- Сообщения: 9
- Зарегистрирован: 12 ноя 2003, 15:41
- Откуда: Обнинск
- Контактная информация:
Что показывает софт:
PowerConsole я просто боюсь теперь пускать - он сразу,
ничего не спрашивая, начинает ребилдить винты,
причём забирая все ресурсы. База при этом ложится.
При этом самостоятельный ночной ребилд контроллера довольно щадящий.
На выходных перепрошью контроллер, обновлю дрова,
поставлю GAM - тогда что-то отвечу по существу.
ничего не спрашивая, начинает ребилдить винты,
причём забирая все ресурсы. База при этом ложится.
При этом самостоятельный ночной ребилд контроллера довольно щадящий.
На выходных перепрошью контроллер, обновлю дрова,
поставлю GAM - тогда что-то отвечу по существу.
- Quentin
- Junior member
- Сообщения: 9
- Зарегистрирован: 12 ноя 2003, 15:41
- Откуда: Обнинск
- Контактная информация:
После перепрошивки...
Прошил контроллер, обновил драйвера, поставил GAM-TT .
GAM, конечно, покрасивее чем PowerConsole.
И даже показывает температуру ящиков 31-32°C.
Нет никакой информации о состоянии батареи
(кроме типа NiMN, версии 2 и включённого режима быстрой зарядки).
GAM, конечно, покрасивее чем PowerConsole.
И даже показывает температуру ящиков 31-32°C.
Нет никакой информации о состоянии батареи
(кроме типа NiMN, версии 2 и включённого режима быстрой зарядки).
- Quentin
- Junior member
- Сообщения: 9
- Зарегистрирован: 12 ноя 2003, 15:41
- Откуда: Обнинск
- Контактная информация:
Бяка продолжается :^(
Опять отвалился диск. На этот раз - один. На том же канале.
GAM о диске:
Жду замену...
У меня есть два запасных диска.
Если бы стабильно выпадал один и тот же диск - я бы его заменил.
Но считаю, что когда выпадают по пять штук сразу - дело не в дисках.
Что ещё я могу сообщить для локализации источника проблем?
GAM о диске:
- Linked: Yes
- Status: DEAD
- Soft Errors: N/A
- Hard Errors: 0
- Parity Errors: N/A
- PFA Count: None
Жду замену...
У меня есть два запасных диска.
Если бы стабильно выпадал один и тот же диск - я бы его заменил.
Но считаю, что когда выпадают по пять штук сразу - дело не в дисках.
Что ещё я могу сообщить для локализации источника проблем?
Кто сейчас на конференции
Сейчас этот форум просматривают: нет зарегистрированных пользователей и 1 гость