непонятные вещи с ML150 G3 + LSI SAS3080-HP

У вас сложности? Наши специалисты постараются помочь вам. Если вы сами сталкивались с похожими проблемами - поделитесь опытом.

Модераторы: Trinity admin`s, Free-lance moderator`s

Ответить
Аватара пользователя
alexey.bober
member
Сообщения: 27
Зарегистрирован: 22 сен 2006, 14:02
Откуда: Алма-Ата

непонятные вещи с ML150 G3 + LSI SAS3080-HP

Сообщение alexey.bober » 22 фев 2010, 09:15

Очень надеюсь на вашу помощь!
Два года назад было куплено два сервера HP ML150 G3 p/n 416773-421 с внешним контроллером LSI SAS3080x-hp на базе LSI 1068. Гарантия на них один год (уже закончилась). Сервера абсолютно одинаковые за исключением, что в первом два процессора и 4x1Гб, а во втором один процессор и 4x512Мб. В каждом сервере по 3 диска HP 146Gb 15k SAS LFF model # DF146A9845 версия firmware HPD0 (новее на сайте hp нету). Контроллеры работают в режиме directly attached, т.е. без рэйда. На диске 1 установлена система, диск2 – данные MS SQL, диск 3 – логи MS SQL.
Оба сервера работали около 1,5 лет без сбоев. После этого на менее мощном (пусть будет HP01) стали пропадать диски 2 и 3 прям в самой винде. Сервер перезагружали и диски появлялись, но вот эта самая перезагрузка длилась около 5 часов. Но в результате загружалась! Спустя 1-2 дня ситуация повторялась. Сервер был изъят в ремонт.

Для проверки я написал простейший батник, который пришел в голову, на работу с дисками (sql сервер был убран на время тестов):
rmdir /S /Q d:\temp
xcopy c:\temp d:\temp /E /F /I /H /C /Y
rmdir /S /Q c:\temp2
xcopy d:\temp c:\temp2 /E /F /I /H /C /Y
rmdir /S /Q d:\temp2
xcopy c:\temp2 d:\temp2 /E /F /I /H /C /Y
rmdir /S /Q c:\temp2
xcopy d:\temp c:\temp2 /E /F /I /H /C /Y
shutdown -r –f

папки temp и temp2 одинаковые по 30Гб и напичканы всякими разными файлами и большими и маленькими. Весь батник отрабатывался за минут 40 и запускался каждые 2 часа. После 3-10 выполнений при перезагрузке при определении винтов контроллер не видит второй диск при этом горит лампочка активности диска минут 5, в итоге определяет только один диск. После этого начинает грузиться винда и висит в режиме загрузка Windows Server 2003 около 5 часов, после этого она загружается только с диском C. И во время этой долгой загрузки в систем лог пишутся следующие сообщения:

Event Type: Warning
Event Source: lsi_sas
Event Category: None
Event ID: 129
Date: 18.02.2010
Time: 18:26:28
User: N/A
Computer: ES02
Description:
The description for Event ID ( 129 ) in Source ( lsi_sas ) cannot be found. The local computer may not have the necessary registry information or message DLL files to display messages from a remote computer. You may be able to use the /AUXSOURCE= flag to retrieve this description; see Help and Support for details. The following information is part of the event: \Device\RaidPort0.

И

Event Type: Error
Event Source: lsi_sas
Event Category: None
Event ID: 11
Date: 18.02.2010
Time: 18:26:28
User: N/A
Computer: ES02
Description:
The driver detected a controller error on \Device\RaidPort0.

For more information, see Help and Support Center at http://go.microsoft.com/fwlink/events.asp.

После этого если сервер перезагрузить, то диски успешно определятся.
Этот срипт я пробовал с двумя и тремя дисками – результат одинаковый – диски не определяются через несколько выполнений этого батника. Если это же делать только с одним диском C (копировать из одной папки в другую), то проблем нету.
После этого я начал менять по одному компоненту со второго сервера (который более мощный), хорошо что у них всё одинаковое. Менял блок питания, память, корзину, шлейфы от корзины до контроллера, сам контроллер, и наконец поменял два жестких диска. Вставлял контроллер во все возможные 3 слота, менял расположение дисков от id0 до id5, обновил биос мат. платы, обновил firmware контроллера. Запускал HP offline diagnostic. Все тесты гонялись несколько дней (в результате никаких проблем не было найдено). Ничего из всего этого не помогло. Естественно первым делом переустановил винду. После этого всего я сделал вывод, что это материнка, но решил проверить, т.к. материнка стоит 1000$.
Я вставил все вышеперечисленные комплектующие из проблемного сервера (БП, память, винты, корзина, контроллер, шлейфы) в более мощный и запустил скрипт. И получил то, что получал всегда – опять вылетают диски. Тогда я вернул всё как было изначально при покупке серверов и запустил скрипт на более мощном сервере. И что я получил? Правильно, также вылетели диски. Но более мощный сервер использовался редко, поэтому я наверное не имел с ним таких проблем как с первым.

Я уже не знаю что менять и что проверять. И еще, если в этом скрипте оставить только перезагрузку, то таких проблем не будет. Значит эти проблемы возникают при дисковых операциях, причем только между дисками.
Буду рад услышать хоть какие-нибудь советы/комментарии.

Аватара пользователя
Stranger03
Сотрудник Тринити
Сотрудник Тринити
Сообщения: 12979
Зарегистрирован: 14 ноя 2003, 16:25
Откуда: СПб, Екатеринбург
Контактная информация:

Re: непонятные вещи с ML150 G3 + LSI SAS3080-HP

Сообщение Stranger03 » 25 фев 2010, 12:52

"alexey.bober"
Ну для начала было бы неплохо ознакомиться с правилами поведения на форуме: http://3nity.ru/viewtopic.php?f=8&t=11458
А далее проверить диски поодиночке. Варианта два:
- или дурит контроллер (кабель)
- или дурят диски
С уважением Геннадий
ICQ 116164373
eburg@trinitygroup.ru

Аватара пользователя
alexey.bober
member
Сообщения: 27
Зарегистрирован: 22 сен 2006, 14:02
Откуда: Алма-Ата

Re: непонятные вещи с ML150 G3 + LSI SAS3080-HP

Сообщение alexey.bober » 01 мар 2010, 06:16

Stranger03 писал(а):"alexey.bober"
Ну для начала было бы неплохо ознакомиться с правилами поведения на форуме: http://3nity.ru/viewtopic.php?f=8&t=11458
А далее проверить диски поодиночке. Варианта два:
- или дурит контроллер (кабель)
- или дурят диски
Ознакомился и поправил..

Неужели могут дурить 6 дисков или два контроллера или 4 кабеля!?
Диски как только уже не перемещал. Шлейфы тоже.
Провел еще тесты: обновил на мощном втором сервере биос материнки, контроллера и драйвер контроллера в винде.
Оставил в батнике только одну строчку: shutdown -r –f
1,5 дня сервер перезагружался каждый час. В итоге после инициализации контроллера пишет Searching devices on HBA0... И так висит минут 5, горит лампочка на втором винте. После этого долгого поиска первый винт определяется нормально, а у второго всё тоже самое, кроме того, что не пишет емкость винта в графе Capacity. После этого долгая загрузка винды. В винде только диск С, далее если сделать перезагрузку, то ситуация не изменится. Спасает только выключение питания.

Аватара пользователя
Stranger03
Сотрудник Тринити
Сотрудник Тринити
Сообщения: 12979
Зарегистрирован: 14 ноя 2003, 16:25
Откуда: СПб, Екатеринбург
Контактная информация:

Re: непонятные вещи с ML150 G3 + LSI SAS3080-HP

Сообщение Stranger03 » 02 мар 2010, 12:16

"alexey.bober"
Может дурить что угодно. Зайдите в биос контроллера и посмотрите логи. Посмотрите в каком состоянии рейд-группы. Можно с сайта ХП скачать утилиту или взять с сайта LSI, утилиту управления контроллером. И посмотреть оттуда.
С уважением Геннадий
ICQ 116164373
eburg@trinitygroup.ru

Аватара пользователя
Wizard
Advanced member
Сообщения: 185
Зарегистрирован: 09 сен 2002, 11:34
Откуда: SPb
Контактная информация:

Re: непонятные вещи с ML150 G3 + LSI SAS3080-HP

Сообщение Wizard » 05 мар 2010, 17:15

Что то указывает на корзину. ИМХО.

Ответить

Вернуться в «Серверы - Решение проблем»

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и 10 гостей