Отваливается LSI MegaRAID Elite 1650 на X5DPL под Solaris9

У вас сложности? Наши специалисты постараются помочь вам. Если вы сами сталкивались с похожими проблемами - поделитесь опытом.

Модераторы: Trinity admin`s, Free-lance moderator`s

gloine
Junior member
Сообщения: 9
Зарегистрирован: 30 авг 2004, 20:45
Откуда: Odessa

Отваливается LSI MegaRAID Elite 1650 на X5DPL под Solaris9

Сообщение gloine » 30 авг 2004, 21:42

Мать X5DPL-8GM Dual Xeon 3GHz RAM 4Gb
onboard AIC 7902 (ver.4.25) + Intel 82551 + Intel 82545EM
SCSI HP C5686B DAT 40

LSI MegaRAID Elite 1650 FW G170 SCSI HDD 6x36-> RAID 10

OC Solaris 9 + все Recommended Patch + mega 2.19

Используется в качестве сервера под Informix 9.21

Раз в день , примерно в 9 с копейками, сервер зависает,причем
vmstat и netstat показывают активность CPU и сети, в первые пару минут даже откликается telnet, запрашивает пароль но... не впускает.
Аналогично и на консоли. Потом уже реакция прекращается. Перезагрузить можно только через Power.
Никаких ошибок нигде нет! На сетевом адаптере даже коллизии отсутствуют.
Закрывали SCSI, перешли с Intel 10/100 на Intel 1000(работаем
на одном интерфейсе) - никаких изменений!
Пока выкручиваемся, перезагружаем сами до работы юзеров,
но это не выход, да и пару раз он лег под вечер...
Что делать - непонятно. Гуру откликнитесь, подскажите пожалуйста
где копать!!!!

Аватара пользователя
Dmitry
Сотрудник Тринити
Сотрудник Тринити
Сообщения: 867
Зарегистрирован: 22 авг 2002, 16:12
Откуда: St.Petersburg
Контактная информация:

Сообщение Dmitry » 31 авг 2004, 10:58

Как отваливается RAID?
- все диски в offline
- не видно контроллера
- что в логах контроллера (в самомой железке) и что в управляющем софте, если имеется
- что за корпус или корзины в которые вставлены винты
- последние ли биосы (мамы, дисков, корзин, контроллера)

gloine
Junior member
Сообщения: 9
Зарегистрирован: 30 авг 2004, 20:45
Откуда: Odessa

Сообщение gloine » 31 авг 2004, 20:38

"Отваливается RAID"- это вывод , сделанный по следующим фактам:
- ping проходит
- ранее запущенные на консоли vmstat и netstat продолжают работать
- аналогично с ними же, запущенными на удаленном терминале по telnet
- если работающую, к примеру vmstat снять, то ее можно запустить
снова.
- нормальный переход между окнами консоли
но:
- нельзя запустить новое приложение
- нельзя начать новый сеанс telnet ( начинает работать сеанс login,
выдается запрос и принимается ответ на pasword) , но не завершается
- не отрабатывает init 0, только кнопкой
- iostat -E в ответе только 0
- нигде никаких подозрительных сообщений
- обмен по ftp сваливается по timeout

Всего лишь один раз проскочило сообщение на консоли
AMIRDMON[Servere]: MegaRAID
Enquery failed for 1 adapter

Во всех логах пусто! Биосы все свежие

File Server Case EN-8950
Две корзины Intel SC5100
LSI MegaRAID Elite 1650 F316 24.02.03
LSI MGR 40-LD FW G170 DRAM 256 стоит в 4 слоте (100 MHz PCI-X)

Появилась новая FirmWare под него,где как пишут улучшена совместимость с PCI-X, но ... в ее описании говорится
о том, что надобно менять софтовую часть, а вот это вызывает опасение что перестанет работать mega 2.19. А более свежей версии этого драйвера я не знаю.
Ситуация в общем неприятная. Очень надеюсь на помощь.

Аватара пользователя
gs
Сотрудник Тринити
Сотрудник Тринити
Сообщения: 16650
Зарегистрирован: 23 авг 2002, 17:34
Откуда: Москва
Контактная информация:

Сообщение gs » 01 сен 2004, 13:38

Вообще-то не очень это похоже на рэйд. Я не спец в солярке, но уже как-то раз было нечто похожее. Ковырялись с дровами контроллера, а оказалась проблема с ACPI. Может быть тут аналогичная собака порылась?

А что собственно предшествует отвалу? Подозрительно повторяется время - нагрузка возрастает?

gloine
Junior member
Сообщения: 9
Зарегистрирован: 30 авг 2004, 20:45
Откуда: Odessa

Сообщение gloine » 01 сен 2004, 20:05

ACPI ,как рекомендует Sun, у нас отключено.
До "засыпания" происходит следующее:
1- поднимается репликация на Informix ( посылается по сетке
штук 20 логов по 2м каждый)
2 - запускается выгрузка на ленту (HP на onboard AIC-7902) накопленных логов ( те же штук 20) и затем по мере закрытия логов
они скидываются н ленту
- начинают активно работать с базой юзера из всяческих приложений
На самом сервере приложений нет.
Вот минут через 10-15 после скидывания логов сервер "засыпает"

gloine
Junior member
Сообщения: 9
Зарегистрирован: 30 авг 2004, 20:45
Откуда: Odessa

Сообщение gloine » 22 сен 2004, 01:41

Ну и где же вы гуру? Теперь, когда проблема решена,
могу подсказать- дело в эл.питании. SmartUPS здорово выправила
ситуацию, но ... остальные серваки и без умных упс не валятся.
Так почему же этот такой глючный? Кто скажет? :D :lol: :lol:

Аватара пользователя
gs
Сотрудник Тринити
Сотрудник Тринити
Сообщения: 16650
Зарегистрирован: 23 авг 2002, 17:34
Откуда: Москва
Контактная информация:

Сообщение gs » 22 сен 2004, 12:32

Никакой гуру не поможет, не видя тела и не зная ВСЕХ обстоятельств :(
А про электрику мы орем во весь голос на всех форумах. Да никто не слышит :evil:

Аватара пользователя
Stranger03
Сотрудник Тринити
Сотрудник Тринити
Сообщения: 12979
Зарегистрирован: 14 ноя 2003, 16:25
Откуда: СПб, Екатеринбург
Контактная информация:

Сообщение Stranger03 » 22 сен 2004, 16:11

gloine писал(а):Ну и где же вы гуру? Теперь, когда проблема решена,
могу подсказать- дело в эл.питании. SmartUPS здорово выправила
ситуацию, но ... остальные серваки и без умных упс не валятся.
Так почему же этот такой глючный? Кто скажет? :D :lol: :lol:
Мне так кажется, проблема не в питании. Просто совпадение. В основном такие проблемы возникают из-за ошибок в памяти. Ни с того ни сего начинает перегружаться или просто виснет.

Ну а по поводу гуру 8), у вас сервер стоял без UPS??? :lol:

gloine
Junior member
Сообщения: 9
Зарегистрирован: 30 авг 2004, 20:45
Откуда: Odessa

Сообщение gloine » 22 сен 2004, 20:25

Категорически не память! По поводу знания ВСЕХ обстоятельств -
консультант LSI , которому было коротко изложено на корявом
инглише то же, что и в конференции ( только гораздо короче ),
ответил сразу. Надо в setup на слоте PCI-X установить частоту 66 Mhz и прошить новый firmware. Неродная частота делает адаптер уязвимым к любым внешним неприятностям.Так что есть системные интеграторы, а есть "системные интеграторы", мы купили сервак у второй категории.

gloine
Junior member
Сообщения: 9
Зарегистрирован: 30 авг 2004, 20:45
Откуда: Odessa

Сообщение gloine » 22 сен 2004, 20:28

UPS стояли , но не Smart!

Аватара пользователя
gs
Сотрудник Тринити
Сотрудник Тринити
Сообщения: 16650
Зарегистрирован: 23 авг 2002, 17:34
Откуда: Москва
Контактная информация:

Сообщение gs » 22 сен 2004, 20:35

Ёлы-пылы! Ясен пень девайс на неродной частоте работать вовсе не обязан! Я почему и говорил про ВСЕ обстоятельства!!!

Аватара пользователя
gs
Сотрудник Тринити
Сотрудник Тринити
Сообщения: 16650
Зарегистрирован: 23 авг 2002, 17:34
Откуда: Москва
Контактная информация:

Сообщение gs » 22 сен 2004, 20:36

Питание, питание...

gloine
Junior member
Сообщения: 9
Зарегистрирован: 30 авг 2004, 20:45
Откуда: Odessa

Сообщение gloine » 22 сен 2004, 20:54

Во-первых, если стоит auto, то шина с девайсом должны договориться,
а во-вторых, это должен был отработать интегратор, а не покупатель,ну и в третьих, фирмач ничего не знал о том,что стояло в setup, но ответил четко! Квалификация, господа, и профессионализм. Интеграция - это не сборка детского конструктора, а вручение покупателю готового продута , а не полуфабриката.

Аватара пользователя
gs
Сотрудник Тринити
Сотрудник Тринити
Сообщения: 16650
Зарегистрирован: 23 авг 2002, 17:34
Откуда: Москва
Контактная информация:

Сообщение gs » 22 сен 2004, 20:57

Разве это мы продавали? :shock:
Вот нам и в голову не пришло!!!
А при "авто" в подавляющем большинстве случаев действительно нормально опознается...

gloine
Junior member
Сообщения: 9
Зарегистрирован: 30 авг 2004, 20:45
Откуда: Odessa

Сообщение gloine » 22 сен 2004, 21:11

К вам никаких претензий, наоборот, спасибо за участие. Покупали не у вас. Обидно,что LSI фирмач так четко отработал проблему. Про электрику говорят много, но именно по данной ситуации никто и не пискнул в эту сторону. А меня лично сбило в сторону от проблем с железом то, что эти паразиты ( наши интеграторы) в поставке дали старый драйвер mega , а он при работе дает постояные немотивированные отпады рэйда. Короче, картина внешне точно такая же, но не в определеное время, а постоянно.После отыскания последней версии драйвера( они нам его так и не дали, хотели доп.плату) стало все нормально, а уж после ввода в эксплуатацию (поспешили, но не было другого выхода) проявилось все то ,о чем речь шла

Ответить

Вернуться в «Серверы - Решение проблем»

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и 13 гостей