Проблема с Intel SRCSAS18E

У вас сложности? Наши специалисты постараются помочь вам. Если вы сами сталкивались с похожими проблемами - поделитесь опытом.

Модераторы: Trinity admin`s, Free-lance moderator`s

Ответить
progressor
member
Сообщения: 20
Зарегистрирован: 21 май 2007, 15:56
Откуда: Москва

Проблема с Intel SRCSAS18E

Сообщение progressor » 21 май 2007, 18:44

Есть сервер, собранный на мат. плате Intel S5000PSLSATA с RAID-контроллером Intel SRCSAS18E, на нём висят 8 дисков SAS Fujitsu Max 3073RC, объединённых в 2 массива (RAID1 из 2 дисков и RAID10 из 6). Диски живут в 2 корзинах (AXX4DRV3G и AXX6DRV3G) - 2 и 6 штук соответственно. В корзине - 4-ке дополнительно живёт 2 SATA диска, подключённых на мат. плату. Системные диски живут на отдельном контроллере Intel SRCU41L. Биос SRCSAS18E последний.

Возникла следующая проблема. Контроллер SAS начал пищать. Перезагрузил машину, вошёл в BIOS контроллера - вижу, что про два диска контроллер сообщает, что они выпали из массивов (Missed) - и те же два диска есть в списке свободных незадействованных. Вставил эти диски обратно на место, сказал Rebuild. Rebuild дошёл до 99%, контроллер опять запищал - и вернулся к изначальной картине - 2 выпавших доска и т.п., можно повторять всё заново.

Вопрос - что с этим делать?

Заранее спасибо!

Аватара пользователя
gs
Сотрудник Тринити
Сотрудник Тринити
Сообщения: 16650
Зарегистрирован: 23 авг 2002, 17:34
Откуда: Москва
Контактная информация:

Сообщение gs » 21 май 2007, 18:47

Винты бы проверить надо. Но для этого нужен сас HBA, не рэйд.

progressor
member
Сообщения: 20
Зарегистрирован: 21 май 2007, 15:56
Откуда: Москва

Сообщение progressor » 21 май 2007, 19:01

Попробую найти HBA, не очень это просто... Но вообще маловероятно, что это диски - во-первых, два сразу, во-вторых - диски почти новые, сервер работает всего месяц, да и то в режиме тестирования.

Аватара пользователя
gs
Сотрудник Тринити
Сотрудник Тринити
Сообщения: 16650
Зарегистрирован: 23 авг 2002, 17:34
Откуда: Москва
Контактная информация:

Сообщение gs » 21 май 2007, 19:06

Новые - это еще ничего не значит. Возможно конечно очень много вариантов, но раз контроллер их второй раз выкидывает - наверно неспроста...

Oleg2
Заслуженный сетевик
Сообщения: 494
Зарегистрирован: 15 окт 2004, 17:47
Откуда: Москва

Re: Проблема с Intel SRCSAS18E

Сообщение Oleg2 » 26 май 2007, 00:08

progressor писал(а):Есть сервер, собранный на мат. плате Intel S5000PSLSATA с RAID-контроллером Intel SRCSAS18E, на нём висят 8 дисков SAS Fujitsu Max 3073RC, объединённых в 2 массива (RAID1 из 2 дисков и RAID10 из 6). Диски живут в 2 корзинах (AXX4DRV3G и AXX6DRV3G) - 2 и 6 штук соответственно. В корзине - 4-ке дополнительно живёт 2 SATA диска, подключённых на мат. плату. Системные диски живут на отдельном контроллере Intel SRCU41L. Биос SRCSAS18E последний.

Возникла следующая проблема. Контроллер SAS начал пищать. Перезагрузил машину, вошёл в BIOS контроллера - вижу, что про два диска контроллер сообщает, что они выпали из массивов (Missed) - и те же два диска есть в списке свободных незадействованных. Вставил эти диски обратно на место, сказал Rebuild. Rebuild дошёл до 99%, контроллер опять запищал - и вернулся к изначальной картине - 2 выпавших доска и т.п., можно повторять всё заново.

Вопрос - что с этим делать?

Заранее спасибо!
Каким образом  выполнено соединение корзин с контроллерами и материнской платой?
Укажите ТОЧНО какие разъёмы с какими соединялись.

progressor
member
Сообщения: 20
Зарегистрирован: 21 май 2007, 15:56
Откуда: Москва

Re: Проблема с Intel SRCSAS18E

Сообщение progressor » 28 май 2007, 18:59

Oleg2 писал(а): Каким образом  выполнено соединение корзин с контроллерами и материнской платой?
Укажите ТОЧНО какие разъёмы с какими соединялись.
соединения:
корзина <-> контроллер

SAS (HDD_x) <-> SAS
SES <-> I2C (J5)

корзина <-> мать

IPMB <-> NSBP_A

Вроде всё правильно.

С момента последнего письма проблему удалось порешать следующим странным образом. Для начала я поменял выпадавшие винты с двумя живыми. Выпал некий третий винт (не один из двух переставленных и стоящий не на местах где раньше выпадали). Немного подумавши, я подключил корзину к питанию к двум разным шлейфам (раньше к двум разъёмам питания корзины шёл один раздвоенный шлейф). И проблема перестала появляться, сервер пока совершенно нормально живёт.

Oleg2
Заслуженный сетевик
Сообщения: 494
Зарегистрирован: 15 окт 2004, 17:47
Откуда: Москва

Re: Проблема с Intel SRCSAS18E

Сообщение Oleg2 » 29 май 2007, 12:47

progressor писал(а):
Oleg2 писал(а): Каким образом  выполнено соединение корзин с контроллерами и материнской платой?
Укажите ТОЧНО какие разъёмы с какими соединялись.
соединения:
корзина <-> контроллер

SAS (HDD_x) <-> SAS
SES <-> I2C (J5)

корзина <-> мать

IPMB <-> NSBP_A

Вроде всё правильно.

С момента последнего письма проблему удалось порешать следующим странным образом. Для начала я поменял выпадавшие винты с двумя живыми. Выпал некий третий винт (не один из двух переставленных и стоящий не на местах где раньше выпадали). Немного подумавши, я подключил корзину к питанию к двум разным шлейфам (раньше к двум разъёмам питания корзины шёл один раздвоенный шлейф). И проблема перестала появляться, сервер пока совершенно нормально живёт.
Хотя вы и не указали как подключены ВСЕ контроллеры, но, тем не менее, одну ошибку (AFAIK )я у Вас уже вижу - неправильно
подключен SES кабель.

Посмотрите внимательно вот этот документ:
http://support.intel.com/support/mother ... 022359.htm (страница 38-39 Таблица jumper descriptions)

И вот этот:
http://support.intel.com/support/mother ... 025354.htm
(документ целиком)

progressor
member
Сообщения: 20
Зарегистрирован: 21 май 2007, 15:56
Откуда: Москва

Re: Проблема с Intel SRCSAS18E

Сообщение progressor » 29 май 2007, 15:17

Oleg2 писал(а): Хотя вы и не указали как подключены ВСЕ контроллеры, но, тем не менее, одну ошибку (AFAIK )я у Вас уже вижу - неправильно
подключен SES кабель.

Посмотрите внимательно вот этот документ:
http://support.intel.com/support/mother ... 022359.htm (страница 38-39 Таблица jumper descriptions)

И вот этот:
http://support.intel.com/support/mother ... 025354.htm
(документ целиком)
Про одну ошибку согласен, но не совсем. :-)
Привожу полный список соединений, чтобы было от чего отталкиваться (тем более что я выше допустил одну неточность):

С корзины номер 1 (AXX6DRV3G):
6 шлейфов SAS соединяются с контроллером SRCSAS18E - разъёмы 1-6
шлейф 3-конт. соединяет SES и разъём SRCSAS18E J18
шлейф 4-конт. соединяет IPMB и HSBP_A на матери

С корзины номер 2 (AXX4DRV3G, 2 винта SAS, 2 винта SATA):
2 шлейфа SAS соединяются с контроллером SRCSAS18E - разъёмы 7-8
2 шлейфа SATA соединяются с матерью - разъёмы SATA 1-2
шлейф 3-конт. соединяет SES и разъём J5 на SRCSAS18E (*)
шлейф 4-конт. соединяет IPMB и HSBP_B на матери

Так что вы правы - шлейф помечен звёздочкой (*) подключён ошибочно. Я могу его отключить, но возникает 2 вопроса:
1. Сбои возникали на корзине номер 1, которая подключена вроде как совершенно правильно.
2. Куда я должен подключать шлейф от разъёма SES 2-й корзины? В документации про это молчат.

Oleg2
Заслуженный сетевик
Сообщения: 494
Зарегистрирован: 15 окт 2004, 17:47
Откуда: Москва

Re: Проблема с Intel SRCSAS18E

Сообщение Oleg2 » 29 май 2007, 15:33

progressor писал(а):
Oleg2 писал(а): Хотя вы и не указали как подключены ВСЕ контроллеры, но, тем не менее, одну ошибку (AFAIK )я у Вас уже вижу - неправильно
подключен SES кабель.

Посмотрите внимательно вот этот документ:
http://support.intel.com/support/mother ... 022359.htm (страница 38-39 Таблица jumper descriptions)

И вот этот:
http://support.intel.com/support/mother ... 025354.htm
(документ целиком)
Про одну ошибку согласен, но не совсем. :-)
Привожу полный список соединений, чтобы было от чего отталкиваться (тем более что я выше допустил одну неточность):

С корзины номер 1 (AXX6DRV3G):
6 шлейфов SAS соединяются с контроллером SRCSAS18E - разъёмы 1-6
шлейф 3-конт. соединяет SES и разъём SRCSAS18E J18
шлейф 4-конт. соединяет IPMB и HSBP_A на матери

С корзины номер 2 (AXX4DRV3G, 2 винта SAS, 2 винта SATA):
2 шлейфа SAS соединяются с контроллером SRCSAS18E - разъёмы 7-8
2 шлейфа SATA соединяются с матерью - разъёмы SATA 1-2
шлейф 3-конт. соединяет SES и разъём J5 на SRCSAS18E (*)
шлейф 4-конт. соединяет IPMB и HSBP_B на матери

Так что вы правы - шлейф помечен звёздочкой (*) подключён ошибочно. Я могу его отключить, но возникает 2 вопроса:
1. Сбои возникали на корзине номер 1, которая подключена вроде как совершенно правильно.
2. Куда я должен подключать шлейф от разъёма SES 2-й корзины? В документации про это молчат.
В документации совершенно чётко написано, что некорректное подключение кабелей управления корзинами может приводить к аномальному поведению контроллера.
Я бы вообще не советовал разносить диски с одного контроллера по разным корзинам в данной конфигурации. Либо, в крайнем случае, поставьте экспандерные корзины, там кабелей управления нет вообще, весь поток команд управления идёт через SAS интерфейсы.

progressor
member
Сообщения: 20
Зарегистрирован: 21 май 2007, 15:56
Откуда: Москва

Re: Проблема с Intel SRCSAS18E

Сообщение progressor » 29 май 2007, 16:43

Oleg2 писал(а): В документации совершенно чётко написано, что некорректное подключение кабелей управления корзинами может приводить к аномальному поведению контроллера.
Я бы вообще не советовал разносить диски с одного контроллера по разным корзинам в данной конфигурации. Либо, в крайнем случае, поставьте экспандерные корзины, там кабелей управления нет вообще, весь поток команд управления идёт через SAS интерфейсы.
А есть ли у Интела где-нибудь упоминание, что в данной конфигурации диски не стоит разносить по корзинам? Или это Ваш личный опыт?

Oleg2
Заслуженный сетевик
Сообщения: 494
Зарегистрирован: 15 окт 2004, 17:47
Откуда: Москва

Re: Проблема с Intel SRCSAS18E

Сообщение Oleg2 » 29 май 2007, 16:58

progressor писал(а):
Oleg2 писал(а): В документации совершенно чётко написано, что некорректное подключение кабелей управления корзинами может приводить к аномальному поведению контроллера.
Я бы вообще не советовал разносить диски с одного контроллера по разным корзинам в данной конфигурации. Либо, в крайнем случае, поставьте экспандерные корзины, там кабелей управления нет вообще, весь поток команд управления идёт через SAS интерфейсы.
А есть ли у Интела где-нибудь упоминание, что в данной конфигурации диски не стоит разносить по корзинам? Или это Ваш личный опыт?
Личный опыт и банальная  :)  логика.

Судите сами.
1) На неэкспандерных корзинах контроль состояния корзины
и зажигание лампочек отказа дисков производится путём подачи соотвествующих команд корзине через  SES или SGPIO интерфейс.
Это факт.

2) Если диски сидят в корзине, SAS (SGPIO) кабель которой не подключен к контроллеру, который этими дисками управляет,
то как вы думаете, каким образом будет осуществляться
контроль дисков из соседней корзины? Правильно. Никаким.
Или это всё будет глючить.
Это логика.

К тому же в документации на контроллер, ссылку на которую я приводил выше,  чётко сказано, что неэкспандерные корзины НЕЛЬЗЯ подключать к разъёму J5:
"Warning: Do not connect to a non-expander SAS
backplane. Doing so may cause data loss."

Alex_forum
Junior member
Сообщения: 19
Зарегистрирован: 04 дек 2007, 15:53
Откуда: Москва

Сообщение Alex_forum » 02 янв 2008, 20:41

Какой в итоге результат по этой теме ?

У меня похожая ситуация :
Есть несколько машин одинаковой конфигурации на базе S5000PSLSATAR и SRCSAS18E + 4xFuji MAX3147RC.
При создании рэйд-массива например 5 уровня где-то на 5...20% процесса отваливается какой-нибудь диск (переходит из Online в Unconfigured&Good), но процесс инициализации продолжается, только рэйд пищит.

Отваливания происходят и при полной (Slow), и при фоновой (Fast)
Прошивка контроллера 18Е и корзины последняя.
Еще такой вопрос :
Как вывести Virtual disk из состояния Degraded ?

Один из 4-х дисков в состоянии Good&Unconfigured, можно ли сделать его Rebuild или еще что-то, чтоб вернуть его и весь массив в состояние Online ?

В меню я нашел только операцию "Locate disk", чтоб он помигал и все.

Хотя в других контроллерах (SRCU42E, 42X, Elite 1600 и др.) всегда была  функция  Rebuild для вылетевшего диска, Format всегда был.

Или только можно удалить Virtual disk и создать его заново ?

Oleg2
Заслуженный сетевик
Сообщения: 494
Зарегистрирован: 15 окт 2004, 17:47
Откуда: Москва

Сообщение Oleg2 » 14 янв 2008, 10:23

Alex_forum писал(а):Какой в итоге результат по этой теме ?

У меня похожая ситуация :
Есть несколько машин одинаковой конфигурации на базе S5000PSLSATAR и SRCSAS18E + 4xFuji MAX3147RC.
При создании рэйд-массива например 5 уровня где-то на 5...20% процесса отваливается какой-нибудь диск (переходит из Online в Unconfigured&Good), но процесс инициализации продолжается, только рэйд пищит.

Отваливания происходят и при полной (Slow), и при фоновой (Fast)
Прошивка контроллера 18Е и корзины последняя.
Еще такой вопрос :
Как вывести Virtual disk из состояния Degraded ?

Один из 4-х дисков в состоянии Good&Unconfigured, можно ли сделать его Rebuild или еще что-то, чтоб вернуть его и весь массив в состояние Online ?

В меню я нашел только операцию "Locate disk", чтоб он помигал и все.

Хотя в других контроллерах (SRCU42E, 42X, Elite 1600 и др.) всегда была  функция  Rebuild для вылетевшего диска, Format всегда был.

Или только можно удалить Virtual disk и создать его заново ?
Для начала надо понять, чем вызывается отвал дисков. Снимите NVRAM лог с контроллера и вывесите его здесь. Как снимать лог - смотрите в FAQ.

P.S. А лучше, для начала посмотрите лог сами. У LSI логи всегда были приличными.

progressor
member
Сообщения: 20
Зарегистрирован: 21 май 2007, 15:56
Откуда: Москва

Сообщение progressor » 15 янв 2008, 17:09

Alex_forum писал(а):Какой в итоге результат по этой теме ?
Результат примерно такой. Оставил только шнурок к разъёму SES одной из корзин - который идёт к разъёму J18 на SRCSAS18E. Всё стало работать надёжно без сбоев. В дальнейшем перед вводом в эксплуатацию заменили корзины на экспандерные - во избежании возможных проблем в дальнейшем.

Ответить

Вернуться в «Серверы - Решение проблем»

Кто сейчас на конференции

Сейчас этот форум просматривают: Google [Bot] и 24 гостя