Проблема с Intel SRCSAS18E
Модераторы: Trinity admin`s, Free-lance moderator`s
-
- member
- Сообщения: 20
- Зарегистрирован: 21 май 2007, 15:56
- Откуда: Москва
Проблема с Intel SRCSAS18E
Есть сервер, собранный на мат. плате Intel S5000PSLSATA с RAID-контроллером Intel SRCSAS18E, на нём висят 8 дисков SAS Fujitsu Max 3073RC, объединённых в 2 массива (RAID1 из 2 дисков и RAID10 из 6). Диски живут в 2 корзинах (AXX4DRV3G и AXX6DRV3G) - 2 и 6 штук соответственно. В корзине - 4-ке дополнительно живёт 2 SATA диска, подключённых на мат. плату. Системные диски живут на отдельном контроллере Intel SRCU41L. Биос SRCSAS18E последний.
Возникла следующая проблема. Контроллер SAS начал пищать. Перезагрузил машину, вошёл в BIOS контроллера - вижу, что про два диска контроллер сообщает, что они выпали из массивов (Missed) - и те же два диска есть в списке свободных незадействованных. Вставил эти диски обратно на место, сказал Rebuild. Rebuild дошёл до 99%, контроллер опять запищал - и вернулся к изначальной картине - 2 выпавших доска и т.п., можно повторять всё заново.
Вопрос - что с этим делать?
Заранее спасибо!
Возникла следующая проблема. Контроллер SAS начал пищать. Перезагрузил машину, вошёл в BIOS контроллера - вижу, что про два диска контроллер сообщает, что они выпали из массивов (Missed) - и те же два диска есть в списке свободных незадействованных. Вставил эти диски обратно на место, сказал Rebuild. Rebuild дошёл до 99%, контроллер опять запищал - и вернулся к изначальной картине - 2 выпавших доска и т.п., можно повторять всё заново.
Вопрос - что с этим делать?
Заранее спасибо!
-
- member
- Сообщения: 20
- Зарегистрирован: 21 май 2007, 15:56
- Откуда: Москва
Re: Проблема с Intel SRCSAS18E
Каким образом выполнено соединение корзин с контроллерами и материнской платой?progressor писал(а):Есть сервер, собранный на мат. плате Intel S5000PSLSATA с RAID-контроллером Intel SRCSAS18E, на нём висят 8 дисков SAS Fujitsu Max 3073RC, объединённых в 2 массива (RAID1 из 2 дисков и RAID10 из 6). Диски живут в 2 корзинах (AXX4DRV3G и AXX6DRV3G) - 2 и 6 штук соответственно. В корзине - 4-ке дополнительно живёт 2 SATA диска, подключённых на мат. плату. Системные диски живут на отдельном контроллере Intel SRCU41L. Биос SRCSAS18E последний.
Возникла следующая проблема. Контроллер SAS начал пищать. Перезагрузил машину, вошёл в BIOS контроллера - вижу, что про два диска контроллер сообщает, что они выпали из массивов (Missed) - и те же два диска есть в списке свободных незадействованных. Вставил эти диски обратно на место, сказал Rebuild. Rebuild дошёл до 99%, контроллер опять запищал - и вернулся к изначальной картине - 2 выпавших доска и т.п., можно повторять всё заново.
Вопрос - что с этим делать?
Заранее спасибо!
Укажите ТОЧНО какие разъёмы с какими соединялись.
-
- member
- Сообщения: 20
- Зарегистрирован: 21 май 2007, 15:56
- Откуда: Москва
Re: Проблема с Intel SRCSAS18E
соединения:Oleg2 писал(а): Каким образом выполнено соединение корзин с контроллерами и материнской платой?
Укажите ТОЧНО какие разъёмы с какими соединялись.
корзина <-> контроллер
SAS (HDD_x) <-> SAS
SES <-> I2C (J5)
корзина <-> мать
IPMB <-> NSBP_A
Вроде всё правильно.
С момента последнего письма проблему удалось порешать следующим странным образом. Для начала я поменял выпадавшие винты с двумя живыми. Выпал некий третий винт (не один из двух переставленных и стоящий не на местах где раньше выпадали). Немного подумавши, я подключил корзину к питанию к двум разным шлейфам (раньше к двум разъёмам питания корзины шёл один раздвоенный шлейф). И проблема перестала появляться, сервер пока совершенно нормально живёт.
Re: Проблема с Intel SRCSAS18E
Хотя вы и не указали как подключены ВСЕ контроллеры, но, тем не менее, одну ошибку (AFAIK )я у Вас уже вижу - неправильноprogressor писал(а):соединения:Oleg2 писал(а): Каким образом выполнено соединение корзин с контроллерами и материнской платой?
Укажите ТОЧНО какие разъёмы с какими соединялись.
корзина <-> контроллер
SAS (HDD_x) <-> SAS
SES <-> I2C (J5)
корзина <-> мать
IPMB <-> NSBP_A
Вроде всё правильно.
С момента последнего письма проблему удалось порешать следующим странным образом. Для начала я поменял выпадавшие винты с двумя живыми. Выпал некий третий винт (не один из двух переставленных и стоящий не на местах где раньше выпадали). Немного подумавши, я подключил корзину к питанию к двум разным шлейфам (раньше к двум разъёмам питания корзины шёл один раздвоенный шлейф). И проблема перестала появляться, сервер пока совершенно нормально живёт.
подключен SES кабель.
Посмотрите внимательно вот этот документ:
http://support.intel.com/support/mother ... 022359.htm (страница 38-39 Таблица jumper descriptions)
И вот этот:
http://support.intel.com/support/mother ... 025354.htm
(документ целиком)
-
- member
- Сообщения: 20
- Зарегистрирован: 21 май 2007, 15:56
- Откуда: Москва
Re: Проблема с Intel SRCSAS18E
Про одну ошибку согласен, но не совсем.Oleg2 писал(а): Хотя вы и не указали как подключены ВСЕ контроллеры, но, тем не менее, одну ошибку (AFAIK )я у Вас уже вижу - неправильно
подключен SES кабель.
Посмотрите внимательно вот этот документ:
http://support.intel.com/support/mother ... 022359.htm (страница 38-39 Таблица jumper descriptions)
И вот этот:
http://support.intel.com/support/mother ... 025354.htm
(документ целиком)
Привожу полный список соединений, чтобы было от чего отталкиваться (тем более что я выше допустил одну неточность):
С корзины номер 1 (AXX6DRV3G):
6 шлейфов SAS соединяются с контроллером SRCSAS18E - разъёмы 1-6
шлейф 3-конт. соединяет SES и разъём SRCSAS18E J18
шлейф 4-конт. соединяет IPMB и HSBP_A на матери
С корзины номер 2 (AXX4DRV3G, 2 винта SAS, 2 винта SATA):
2 шлейфа SAS соединяются с контроллером SRCSAS18E - разъёмы 7-8
2 шлейфа SATA соединяются с матерью - разъёмы SATA 1-2
шлейф 3-конт. соединяет SES и разъём J5 на SRCSAS18E (*)
шлейф 4-конт. соединяет IPMB и HSBP_B на матери
Так что вы правы - шлейф помечен звёздочкой (*) подключён ошибочно. Я могу его отключить, но возникает 2 вопроса:
1. Сбои возникали на корзине номер 1, которая подключена вроде как совершенно правильно.
2. Куда я должен подключать шлейф от разъёма SES 2-й корзины? В документации про это молчат.
Re: Проблема с Intel SRCSAS18E
В документации совершенно чётко написано, что некорректное подключение кабелей управления корзинами может приводить к аномальному поведению контроллера.progressor писал(а):Про одну ошибку согласен, но не совсем.Oleg2 писал(а): Хотя вы и не указали как подключены ВСЕ контроллеры, но, тем не менее, одну ошибку (AFAIK )я у Вас уже вижу - неправильно
подключен SES кабель.
Посмотрите внимательно вот этот документ:
http://support.intel.com/support/mother ... 022359.htm (страница 38-39 Таблица jumper descriptions)
И вот этот:
http://support.intel.com/support/mother ... 025354.htm
(документ целиком)
Привожу полный список соединений, чтобы было от чего отталкиваться (тем более что я выше допустил одну неточность):
С корзины номер 1 (AXX6DRV3G):
6 шлейфов SAS соединяются с контроллером SRCSAS18E - разъёмы 1-6
шлейф 3-конт. соединяет SES и разъём SRCSAS18E J18
шлейф 4-конт. соединяет IPMB и HSBP_A на матери
С корзины номер 2 (AXX4DRV3G, 2 винта SAS, 2 винта SATA):
2 шлейфа SAS соединяются с контроллером SRCSAS18E - разъёмы 7-8
2 шлейфа SATA соединяются с матерью - разъёмы SATA 1-2
шлейф 3-конт. соединяет SES и разъём J5 на SRCSAS18E (*)
шлейф 4-конт. соединяет IPMB и HSBP_B на матери
Так что вы правы - шлейф помечен звёздочкой (*) подключён ошибочно. Я могу его отключить, но возникает 2 вопроса:
1. Сбои возникали на корзине номер 1, которая подключена вроде как совершенно правильно.
2. Куда я должен подключать шлейф от разъёма SES 2-й корзины? В документации про это молчат.
Я бы вообще не советовал разносить диски с одного контроллера по разным корзинам в данной конфигурации. Либо, в крайнем случае, поставьте экспандерные корзины, там кабелей управления нет вообще, весь поток команд управления идёт через SAS интерфейсы.
-
- member
- Сообщения: 20
- Зарегистрирован: 21 май 2007, 15:56
- Откуда: Москва
Re: Проблема с Intel SRCSAS18E
А есть ли у Интела где-нибудь упоминание, что в данной конфигурации диски не стоит разносить по корзинам? Или это Ваш личный опыт?Oleg2 писал(а): В документации совершенно чётко написано, что некорректное подключение кабелей управления корзинами может приводить к аномальному поведению контроллера.
Я бы вообще не советовал разносить диски с одного контроллера по разным корзинам в данной конфигурации. Либо, в крайнем случае, поставьте экспандерные корзины, там кабелей управления нет вообще, весь поток команд управления идёт через SAS интерфейсы.
Re: Проблема с Intel SRCSAS18E
Личный опыт и банальная :) логика.progressor писал(а):А есть ли у Интела где-нибудь упоминание, что в данной конфигурации диски не стоит разносить по корзинам? Или это Ваш личный опыт?Oleg2 писал(а): В документации совершенно чётко написано, что некорректное подключение кабелей управления корзинами может приводить к аномальному поведению контроллера.
Я бы вообще не советовал разносить диски с одного контроллера по разным корзинам в данной конфигурации. Либо, в крайнем случае, поставьте экспандерные корзины, там кабелей управления нет вообще, весь поток команд управления идёт через SAS интерфейсы.
Судите сами.
1) На неэкспандерных корзинах контроль состояния корзины
и зажигание лампочек отказа дисков производится путём подачи соотвествующих команд корзине через SES или SGPIO интерфейс.
Это факт.
2) Если диски сидят в корзине, SAS (SGPIO) кабель которой не подключен к контроллеру, который этими дисками управляет,
то как вы думаете, каким образом будет осуществляться
контроль дисков из соседней корзины? Правильно. Никаким.
Или это всё будет глючить.
Это логика.
К тому же в документации на контроллер, ссылку на которую я приводил выше, чётко сказано, что неэкспандерные корзины НЕЛЬЗЯ подключать к разъёму J5:
"Warning: Do not connect to a non-expander SAS
backplane. Doing so may cause data loss."
-
- Junior member
- Сообщения: 19
- Зарегистрирован: 04 дек 2007, 15:53
- Откуда: Москва
Какой в итоге результат по этой теме ?
У меня похожая ситуация :
Есть несколько машин одинаковой конфигурации на базе S5000PSLSATAR и SRCSAS18E + 4xFuji MAX3147RC.
При создании рэйд-массива например 5 уровня где-то на 5...20% процесса отваливается какой-нибудь диск (переходит из Online в Unconfigured&Good), но процесс инициализации продолжается, только рэйд пищит.
Отваливания происходят и при полной (Slow), и при фоновой (Fast)
Прошивка контроллера 18Е и корзины последняя.
Еще такой вопрос :
Как вывести Virtual disk из состояния Degraded ?
Один из 4-х дисков в состоянии Good&Unconfigured, можно ли сделать его Rebuild или еще что-то, чтоб вернуть его и весь массив в состояние Online ?
В меню я нашел только операцию "Locate disk", чтоб он помигал и все.
Хотя в других контроллерах (SRCU42E, 42X, Elite 1600 и др.) всегда была функция Rebuild для вылетевшего диска, Format всегда был.
Или только можно удалить Virtual disk и создать его заново ?
У меня похожая ситуация :
Есть несколько машин одинаковой конфигурации на базе S5000PSLSATAR и SRCSAS18E + 4xFuji MAX3147RC.
При создании рэйд-массива например 5 уровня где-то на 5...20% процесса отваливается какой-нибудь диск (переходит из Online в Unconfigured&Good), но процесс инициализации продолжается, только рэйд пищит.
Отваливания происходят и при полной (Slow), и при фоновой (Fast)
Прошивка контроллера 18Е и корзины последняя.
Еще такой вопрос :
Как вывести Virtual disk из состояния Degraded ?
Один из 4-х дисков в состоянии Good&Unconfigured, можно ли сделать его Rebuild или еще что-то, чтоб вернуть его и весь массив в состояние Online ?
В меню я нашел только операцию "Locate disk", чтоб он помигал и все.
Хотя в других контроллерах (SRCU42E, 42X, Elite 1600 и др.) всегда была функция Rebuild для вылетевшего диска, Format всегда был.
Или только можно удалить Virtual disk и создать его заново ?
Для начала надо понять, чем вызывается отвал дисков. Снимите NVRAM лог с контроллера и вывесите его здесь. Как снимать лог - смотрите в FAQ.Alex_forum писал(а):Какой в итоге результат по этой теме ?
У меня похожая ситуация :
Есть несколько машин одинаковой конфигурации на базе S5000PSLSATAR и SRCSAS18E + 4xFuji MAX3147RC.
При создании рэйд-массива например 5 уровня где-то на 5...20% процесса отваливается какой-нибудь диск (переходит из Online в Unconfigured&Good), но процесс инициализации продолжается, только рэйд пищит.
Отваливания происходят и при полной (Slow), и при фоновой (Fast)
Прошивка контроллера 18Е и корзины последняя.
Еще такой вопрос :
Как вывести Virtual disk из состояния Degraded ?
Один из 4-х дисков в состоянии Good&Unconfigured, можно ли сделать его Rebuild или еще что-то, чтоб вернуть его и весь массив в состояние Online ?
В меню я нашел только операцию "Locate disk", чтоб он помигал и все.
Хотя в других контроллерах (SRCU42E, 42X, Elite 1600 и др.) всегда была функция Rebuild для вылетевшего диска, Format всегда был.
Или только можно удалить Virtual disk и создать его заново ?
P.S. А лучше, для начала посмотрите лог сами. У LSI логи всегда были приличными.
-
- member
- Сообщения: 20
- Зарегистрирован: 21 май 2007, 15:56
- Откуда: Москва
Результат примерно такой. Оставил только шнурок к разъёму SES одной из корзин - который идёт к разъёму J18 на SRCSAS18E. Всё стало работать надёжно без сбоев. В дальнейшем перед вводом в эксплуатацию заменили корзины на экспандерные - во избежании возможных проблем в дальнейшем.Alex_forum писал(а):Какой в итоге результат по этой теме ?
Кто сейчас на конференции
Сейчас этот форум просматривают: Google [Bot] и 24 гостя