Проблеммы при перезагрузке одного из узлов Cluster-a

Технологии постороения кластеров (вычислительных и отказоустойчивых), настройка терминал серверов,
SAN , NAS, FibreChannel, Infiniband

Модераторы: Trinity admin`s, Free-lance moderator`s

Ответить
shmichael
Junior member
Сообщения: 12
Зарегистрирован: 31 авг 2007, 13:07
Откуда: Москва

Проблеммы при перезагрузке одного из узлов Cluster-a

Сообщение shmichael » 17 сен 2007, 16:10

Здравствуйте уважаемые посетители форума и сотрудники Тринити!
Помогите пжста, разобраться в следующей ситуации:
есть диск. массив Ifortrend F16F-R2021, два сервера, на которых потом подразумевается поднять кластер MS. На серверах установлены Windows Server 2003 R2 SP2, в домен не включены. Также в каждом сервере установлены по два контроллера QLogic 2340 с установленными драйверами STOR Miniport Driver версии 9.1.4.15 от QLogic.
Если включить оба сервера, то тот сервер, который был включен первым загрузиться нормально, а тот, который был включен вторым доходит до экрана, где на черном фоне "бежит" линейка прокрутки и зависает... В таком положении может висеть сколь угодно долго(оставляли один раз на ночь). Однако, если в это время отправить на перезагрузку первый(загруженный) сервер или перегрузить диск. массив, то второй сервер чудесным образом отвисает и продолжает грузиться! Т.о. если посылать поочередно на перезагрузку сервера, то загрузиться тот, который начал грузиться первым! А второй будет висеть.
Еще было замечено такое: если один из серверов загрузился, а второй еще висит и в этот момент разорвать и потом восстановить оптическое соединение между контроллером QLogic 2340 в сервере и диск. массивом, то когда линк восстанавливается и сервер, который висел, отвисает и продолжает дальнейшую загрузку!

Может кто подскажет в чем может быть дело? Может кто сталкивался с похожей ситуацией? Толи не правильно выполнено физическое подключение, толи не выполнены какие-либо настройки на контроллерах QLogiс или еще что-то? А может - это нормальная ситуация, так все и должно быть?

Хочу добавить, что такие экспиременты проводились с установленными MultiPath-драйверами и без них. Результат одинаковый.

Заранее спасибо.

Аватара пользователя
gs
Сотрудник Тринити
Сотрудник Тринити
Сообщения: 16650
Зарегистрирован: 23 авг 2002, 17:34
Откуда: Москва
Контактная информация:

Сообщение gs » 17 сен 2007, 16:13

Прежде, чем делать кластер, неплохо бы почитать доки.
Сначала конфигурируете все кластерные ресурсы на одной машине, а потом уже включаете вторую и вводите ее второй нодой.

Кстати, если память не изменяет, машины должны быть в домене.

Аватара пользователя
exLH
Сотрудник Тринити
Сотрудник Тринити
Сообщения: 5061
Зарегистрирован: 11 фев 2004, 15:49
Откуда: Москва
Контактная информация:

Сообщение exLH » 17 сен 2007, 16:14

Кроме того, на данный момент MPIO не поддерживается для кластера, так что надо отключать один из адаптеров в каждом сервере и ждать конца октября, когда обещали сделать новые драйверы.

shmichael
Junior member
Сообщения: 12
Зарегистрирован: 31 авг 2007, 13:07
Откуда: Москва

Сообщение shmichael » 24 сен 2007, 14:05

Последовали вашим советам...

Установили Windows, затем драйверы на чипсет, LAN
установили драйверы Qlogic- ов (Windows Server 2003 STOR Miniport 32-bit Driver 9.1.4.15)
Установили утилиту QLogic (SANsurfer FC HBA Manager for Windows 5.0.0 Build 17)
Установили MPIO драйверы от Infortrend, DriverVer=1.16.3790.1609 от 12/16/2005

Завели в домен

установили первый узел кластера
все прошло гладко, без ошибок.

Включили второй узел, с целью добавить в кластер, - он не грузится (как в первом посте описано, выше)
повытыкали/повтыкали оптические пачкорды - второй узел загрузился.
завели его в кластер - все прошло отлично.
Дисковые ресурсы перетаскиваются и руками и автоматически (при перезагрузке одного из узлов).

Но перезагрузка  узлов по очередно, по-прежнему, затыкается на старте винды.

Если убрать запасные пути от узлов (оставить по одному пачкорду)
то все перезагружается нормально.

Пробовали назначать адаптерам Hard loop ID с помощью утилиты от QLogic SANSurf Manager - не помогает.

Вот еще что смущает: полгода назад тоже самое железо с тем же самым подключением к массиву работало! (как кластер)
"затыков" при перезагрузках не было...

Что можете сказать по этому поводу?

Аватара пользователя
gs
Сотрудник Тринити
Сотрудник Тринити
Сообщения: 16650
Зарегистрирован: 23 авг 2002, 17:34
Откуда: Москва
Контактная информация:

Сообщение gs » 24 сен 2007, 14:07

В предыдущем посте Андрей написал, что МПИО под кластером не поддерживается. Так что все понятно с запасными путями...

shmichael
Junior member
Сообщения: 12
Зарегистрирован: 31 авг 2007, 13:07
Откуда: Москва

Сообщение shmichael » 24 сен 2007, 14:16

Андрей, год назад готовил для нас это оборудование: МПИО драйвера стояли(той же версии), оба узла были в кластере, соединение узлов было такое же("крест на крест")... и все РАБОТАЛО!

И потом, Андрей нам объяснял, что МПИО драйвера некоректно работают при "обрыве" одного из путей и т.д.

Мы же рассматриваем случай, когда все связи есть и контроллеры работают НОРМАЛЬНО. Т.е. перезагрузка должна  проходить без проблем...

shmichael
Junior member
Сообщения: 12
Зарегистрирован: 31 авг 2007, 13:07
Откуда: Москва

Сообщение shmichael » 24 сен 2007, 14:36

Кстати,
если оставить один узел кластера (второй, например, на профилактике), то он прекрасно перезагружается, хотя подключен двумя путями и на нем установлен MPIO.

Аватара пользователя
exLH
Сотрудник Тринити
Сотрудник Тринити
Сообщения: 5061
Зарегистрирован: 11 фев 2004, 15:49
Откуда: Москва
Контактная информация:

Сообщение exLH » 24 сен 2007, 14:39

shmichael
Включили второй узел, с целью добавить в кластер, - он не грузится
Сначала нужно было выключить первый (это описано в документации).
Я бы не рекомендовал на данном этапе использовать MPIO. Оставьте по одному пути от сервера до тома на дисковой системе.
Вот конфигурация, которая _запускается_ с MPIO, но отказ пути будет приводить к краху:
2 servers directly connected to F16F-R2021:
CH0 -> HBA0 on SRV1
CH0 -> HBA0 on SRV2
CH1 -> HBA1 on SRV1
CH1 -> HBA1 on SRV2
two LD are mapped to CH0 and CH1
MPIO is installed on each server
HBA - Qlogic QLA2340 + STORport driver 9.1.2.16
JP3 on each HBA is set to 1-2 position.
Hard Loop ID is set to 0 and 1 on SRV1 and to 2 and 3 on SRV2.

shmichael
Junior member
Сообщения: 12
Зарегистрирован: 31 авг 2007, 13:07
Откуда: Москва

Сообщение shmichael » 24 сен 2007, 16:34

2 servers directly connected to F16F-R2021:
CH0 -> HBA0 on SRV1
CH0 -> HBA0 on SRV2
CH1 -> HBA1 on SRV1
CH1 -> HBA1 on SRV2
two LD are mapped to CH0 and CH1
MPIO is installed on each server
HBA - Qlogic QLA2340 + STORport driver 9.1.2.16
JP3 on each HBA is set to 1-2 position.
Hard Loop ID is set to 0 and 1 on SRV1 and to 2 and 3 on SRV2.
Андрей, у нас практически все это и есть. Только драйвера HBA - Qlogic QLA2340 + STORport driver 9.1.4.15 и Hard Loop ID мы пробовали выставлять и убирали в авто(т.е. "0")
И еще мы обновили БИОС контроллеров Qlogic QLA2340 с 1.47 до 1.52

Насколько важным может быть это отличие?

Аватара пользователя
exLH
Сотрудник Тринити
Сотрудник Тринити
Сообщения: 5061
Зарегистрирован: 11 фев 2004, 15:49
Откуда: Москва
Контактная информация:

Сообщение exLH » 24 сен 2007, 16:37

shmichael
Насколько важным может быть это отличие?
Если учесть, что драйверы на данный момент вообще не поддерживают такой режим работы, то влиять может что угодно. Я бы рекомендовал просто отключить вторые линки до системы до момента появления поддержки MSCS в MPIO.

shmichael
Junior member
Сообщения: 12
Зарегистрирован: 31 авг 2007, 13:07
Откуда: Москва

Сообщение shmichael » 28 сен 2007, 09:11

Спасибо всем за участие и помощь!
В результате долгих испытаний и экспериментов привожу результаты.

"Условно рабочей" на данный момент, можно назвать конфигурацию, которая будет указана ниже.
"Условно" - потому, что при запукске кластера с новейшей, на данный момент, версией драйверов MPIO, "отказ одного из путей будет приводить к краху" (со слов Андрея... Сами перепроверять это утверждение не решились).
А "рабочей" потому, что в данной конфигурации перетаскивание ресурсов или лог. дисков с узла на узел происходит корректно и перезагрузка(или поочередное включение) одного из узлов происходит нормально, так как надо!

Это то, о чем писал Андрей:

 2 servers directly connected to F16F-R2021:
 CH0 -> HBA0 on SRV1
 CH0 -> HBA0 on SRV2
 CH1 -> HBA1 on SRV1
 CH1 -> HBA1 on SRV2
 two LD are mapped to CH0 and CH1
 MPIO is installed on each server
 HBA - Qlogic QLA2340 + STORport driver 9.1.2.16
 JP3 on each HBA is set to 1-2 position.
 Hard Loop ID is set to 0 and 1 on SRV1 and to 2 and 3 on SRV2.


В этой конфигурации хочется добавить, что замена драйвера на Qlogic ver. 9.1.4.15 и установка параметра "Hard Loop ID" в программе "SANsurfer FC HBA Manager" в режим "авто" к видимым нам "глюкам"  в работе не приводит. Эти параметры, я думаю, можно смело менять.

Еще один параметр, смена которого к к видимым "глюкам"  в работе не приводит - это смена BIOS-а на контроллерах HBA QLogic 2340 c 1.47 до 1.52 и обратно.

А вот смена другого, не указанного здесь, параметра коренным образом влияет на описанные нами проблеммы!
При прошивке BIOS-а на массиве Infortrend F16F-R2021 ver.3.47.С05 - прекрасно происходит перезагрузка узлов, но не перетаскиваются ресурсы на другой узел в случае, если LD назначены через второй контроллер(SLOT B) на Infortrende.
При прошивке BIOS-а на массиве Infortrend F16F-R2021 ver.3.48.D04(самая новая версия на севодняшний день) - перезагрузка узлов зависает,  но перетаскиваются все ресурсы и назначенные через второй контроллер(SLOT B).
При прошивке BIOS-а на массиве Infortrend F16F-R2021 ver.3.48.B05(промежуточная версия между 3.47.С05 и 3.48.D04) - прекрасно происходит перезагрузка узлов и перетаскиваются все ресурсы.

Так, что мы остановились пока на следующей конфигурации:

 BIOS на массиве Infortrend F16F-R2021 ver.3.48.B05
 BIOS на HBA QLogic 2340 ver. 1.52
 драйвера Qlogic (Windows Server 2003 STOR Miniport 32-bit Driver 9.1.4.15)
 драйвера MPIO от Infortrend ver. 1.16.3790.1609 от 12/16/2005
 утилита для управления контроллерами QLogic QLA 2340 (SANsurfer FC HBA Manager for Windows 5.0.0 Build 17)


Ну и конечно ждем конца октября, когда выйдут новые драйвера МПИО для кластера MS!

Ответить

Вернуться в «Кластеры, Аппаратная часть»

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и 18 гостей