Intel MFSYS25 + Xyratex E5412E = проблема ?

У вас сложности? Наши специалисты постараются помочь вам. Если вы сами сталкивались с похожими проблемами - поделитесь опытом.

Модераторы: Trinity admin`s, Free-lance moderator`s

Ответить
khrustalov
member
Сообщения: 33
Зарегистрирован: 11 янв 2007, 12:12
Откуда: SPb

Intel MFSYS25 + Xyratex E5412E = проблема ?

Сообщение khrustalov » 13 окт 2008, 17:40

Дано:
Intel Modular Server MFSYS25 с firmware 2.31
Xyratex E5412E (RS-1220-E3-E5412E-1024-1), забита 12xSAS 146Gb/15K + expander (RS-1220-E3-XPN-1), забит 12xSATA 1Tb/7.2K с firmware 3.5 Build 0022

С сервера разрешен доступ к полке с 2-х модулей, на которые замаплены LUN-ы, на один сервер (SUSE Enterpise 10 SP1)- вся SAS полка, на второй (Windows Server 2008 Enterprise) несколько LUN-ов c SATA.

Периодически в логах полки видим сообщения:
Information Message   10/13/08   17:15:56   Configuration WWN: 20000050CC6011BB Controller: 0   A LUN reset has been received on port 0 for Logical Drive 2. This was repeated 0 times. (Command Tag: 65535)

Information Message 10/13/08 17:04:20 Configuration WWN: 20000050CC6011BB Controller: 0 A host has accessed a Logical Drive 1 for the first time, or for the first time following a reset or LIP. ID 12 accessed it thru Host Loop 0 with the SCSI command 0x28.

Information Message 10/13/08 16:57:15 Configuration WWN: 20000050CC6011BB Controller: 0 A LUN reset has been received on port 0 for Logical Drive 0. This was repeated 0 times. (Command Tag: 65535)

При этом в логах винды появляются сообщения:

Несколько раз подряд:

Имя журнала:   System
Подача:        LSI_SAS
Дата:          13.10.2008 16:57:55
Код события:   11
Категория задачи:Отсутствует
Уровень:       Ошибка
Ключевые слова:Классический
Пользователь:  Н/Д
Компьютер:    xxx
Описание:
Драйвер обнаружил ошибку контроллера \Device\RaidPort0.

Периодически, иногда по одному, иногда несколько:

Имя журнала:   System
Подача:        LSI_SAS
Дата:          13.10.2008 17:16:35
Код события:   129
Категория задачи:Отсутствует
Уровень:       Предупреждение
Ключевые слова:Классический
Пользователь:  Н/Д
Компьютер:     xxx
Описание:
Был произведен возврат к устройству \Device\RaidPort0.

Посоветуйте, пожалуйста, куда копать ?

Аватара пользователя
setar
Site Admin
Site Admin
Сообщения: 1990
Зарегистрирован: 22 авг 2002, 12:03
Откуда: St. Petersburg

Сообщение setar » 14 окт 2008, 12:20

суть то какая? система нестабильна или данные пропадают ?
насколько я вижу это информационное сообщение

khrustalov
member
Сообщения: 33
Зарегистрирован: 11 янв 2007, 12:12
Откуда: SPb

Сообщение khrustalov » 14 окт 2008, 13:24

Данные не пропадают, система не падает, но под нагрузкой на дисковую систему начинает тормозить, при этом эти сообщения и появляются.

А вот этот event классифицируется как ошибка, да и описание как-то не бодрит.

Подача:        LSI_SAS
Код события:   11
Уровень:       Ошибка
Описание:
Драйвер обнаружил ошибку контроллера \Device\RaidPort0.

Вряд ли это нормальное поведение. И хотелось бы понять природу сообщений на самой полке типа: A LUN reset has been received on port 0 for Logical Drive 2, насколько это нормально ?

P.S. Наверное правильнее было запостить этот вопрос в раздел "Массивы - Технические вопросы, решение проблем.", если можно, перенесите пожалуйста тему туда.

Аватара пользователя
Alexxy
Junior member
Сообщения: 12
Зарегистрирован: 13 фев 2007, 16:08
Откуда: Санкт-Петербург
Контактная информация:

Сообщение Alexxy » 15 окт 2008, 16:14

Два вопроса
1 Это тока в виндах проявляется?
2 Если на первый вопрос ответ утвердительный то это проблема драйверов винды => попробовать обновить или переставить дрова

Аватара пользователя
setar
Site Admin
Site Admin
Сообщения: 1990
Зарегистрирован: 22 авг 2002, 12:03
Откуда: St. Petersburg

Сообщение setar » 15 окт 2008, 16:16

массив получает ресет
который инициируют дрова винды
а они это считают за ошибку

khrustalov
member
Сообщения: 33
Зарегистрирован: 11 янв 2007, 12:12
Откуда: SPb

Сообщение khrustalov » 16 окт 2008, 10:59

Alexxy писал(а):Два вопроса
1 Это тока в виндах проявляется?
2 Если на первый вопрос ответ утвердительный то это проблема драйверов винды => попробовать обновить или переставить дрова
Есть ощущение, что только на виндах, на втором сервере стоит SLES 10SP1, у него в логах все чисто. Дрова на виндах пробовал родные, те что в дистрибутиве идут и те, что последние на LSI лежат - 1.28.03 - с последними вроде проявляется реже.
На родных еще иногда проявлялась такая ошибка в логах хранилки:
Error Message       10/14/08       12:12:40       Configuration WWN: 20000050CC6011BB Controller: 0       SAS Host Port 0 has reported an error (25984, 0, 536940849, 162). It was repeated 0 times.

На обновленных вроде как больше не проявлялась.

khrustalov
member
Сообщения: 33
Зарегистрирован: 11 янв 2007, 12:12
Откуда: SPb

Сообщение khrustalov » 16 окт 2008, 11:00

setar писал(а):
массив получает ресет
который инициируют дрова винды
а они это считают за ошибку
Т.е. проблема все таки в драйверах в виндах ?

Аватара пользователя
setar
Site Admin
Site Admin
Сообщения: 1990
Зарегистрирован: 22 авг 2002, 12:03
Откуда: St. Petersburg

Сообщение setar » 16 окт 2008, 12:55

да, проблема в виндовых дровах (или самими виндами, я не знаю какие там взаимосвязи)

KLIM_SPb
Сотрудник Тринити
Сотрудник Тринити
Сообщения: 421
Зарегистрирован: 06 май 2006, 16:33
Откуда: СПб
Контактная информация:

Сообщение KLIM_SPb » 17 окт 2008, 14:35

Попробуйте обновить драйвер до 1.27.03

khrustalov
member
Сообщения: 33
Зарегистрирован: 11 янв 2007, 12:12
Откуда: SPb

Сообщение khrustalov » 20 окт 2008, 13:51

Пробовал 1.28.03, сейчас поставил 1.27.03 - ничего не поменялось, все равно сыпет в event log 129-ю и 11-ю ошибки, а в логах хранилки одно сообщение: A LUN reset has been received on port 0 for Logical Drive 4. This was repeated 0 times. (Command Tag: 65535)

vfx
Junior member
Сообщения: 10
Зарегистрирован: 28 ноя 2008, 13:02
Откуда: Москва

Сообщение vfx » 07 дек 2008, 16:03

Чем у вас всё закончилось? У меня аналогичная ситуация.

khrustalov
member
Сообщения: 33
Зарегистрирован: 11 янв 2007, 12:12
Откуда: SPb

Сообщение khrustalov » 26 дек 2008, 16:58

Пока ничем. Времени не было в серьез разбираться, сейчас вот занялся снова. Сразу скажу, что новую прошивку - 2.6 на сервер еще не заливал. Пока могу сказать одно, ссылка на то что дело в виндах не отражает действительности, т.к. на SUSE Linux Enterprise Server 10 SP1 x64 на другом лезвии периодически вижу в логах следующее:

Dec 24 07:12:14 blade2 kernel: mptscsih: ioc0: attempting task abort! (sc=ffff8102ac14f680)
Dec 24 07:12:14 blade2 kernel: sd 0:0:1:0:
Dec 24 07:12:14 blade2 kernel:         command: Write(10): 2a 00 51 38 00 bf 00 00 08 00
Dec 24 07:12:14 blade2 kernel: mptbase: ioc0: LogInfo(0x31130000): Originator={PL}, Code={IO Not Yet Executed}, SubCode(0x0000)
Dec 24 07:12:14 blade2 kernel: mptscsih: ioc0: task abort: SUCCESS (sc=ffff8102ac14f680)

Dec 24 11:03:02 blade2 kernel: mptbase: ioc0: LogInfo(0x31120114): Originator={PL}, Code={Abort}, SubCode(0x0114)
Dec 24 11:03:03 blade2 kernel: mptbase: ioc0: LogInfo(0x31120114): Originator={PL}, Code={Abort}, SubCode(0x0114)

Так что похоже, что дело не в драйверах  :(

Ответить

Вернуться в «Серверы - Решение проблем»

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и 25 гостей