Кластер на Windows2003. Отключение сетевого кабеля
Модераторы: Trinity admin`s, Free-lance moderator`s
Кластер на Windows2003. Отключение сетевого кабеля
Добрый день!
Есть проблема с восстановлением работы узла кластера при исчезновении внешнего сетевого соединения.
Имеем два тестовых сервера в кластере с Windows 2003.
При выключении питания на одном из узлов кластер успешно перемещается на другой узел, а при восстановлении
упавшего узла возвращается назад, если были указаны параметры возврата.
Т.е. все вцелом работает как описано, но хотелось проверить как поведет себя кластер, если будет следующая ситуация:
1. Один из двух узлов вышел из строя.
2. После того, как кластер переехал на другой узел, пропала внешняя сеть (скажем в выходной и на несколько часов).
Ожидалось, что кластер не должен аварийно завершаться, а должен постоянно отслеживать появление внешней сети (перегружать ресурсы Cluster Group и Cluster Name).
Оба сервера входят в один домен Windows2003 (Контроллер домена на отдельной машине).
Слово "тестовых" означает, что это простые компьютеры. Внешнее дисковое хранилище имитируется одним SCSI-диском, подключенным шлейфом к обоим компьютерам (сразу скажу, что вся нижеописанная ситуация возникала и при наличии массива ADAPTEC DURASTORE 6200
и думаю, что не является причиной проблем).
В каждом узле по две сетевые карты. Создана общая и частная сети.
Общая сеть подключена к свитчу, частная соединяет узлы через хаб.
На общем SCSI-диске создан кворум.
В кластере всего одна группа ресурсов Cluster Group.
В эту группу входят следующие ресурсы:
- Cluster IP Address
- Cluster Name
- Диск Q (это диск кворума)
На этой конфигурации попытались проверить реакцию
кластера при отключении сетевого кабеля.
Отсоединяем внешний сетевой кабель от оставшегося в живых узла и видим, что примерно минуты через 3
ресурс Cluster IP Address переходит в состояние "Ошибка" , а Cluster Name в состояние "Автономно" (Windows с MUI).
Подключаем внешний сетевой кабель - ничего не происходит.
Вернуть в работу кластер можно только зайдя локально с консоли на этот узел, запустить Администратор кластера и перевести Cluser Group в Оперативый режим, либо перегрузить узел.
Пробовал менять настройки ресурсов Cluster IP Address и Cluster Name, но не добился результатов (Закладка Дополнительно в свойствах ресурса).
Возможно я не совсем подробно описал ситуацию и что-то осталось между строк.
Вопрос:
Можно ли вообще ожидать от кластера восстановления своей работоспособности в такой ситуации, или
потеря сетевого соединения для него смерть ?
Если можно ожидать, то подскажите пож. что еще можно предпринять ?
Готов ответить на уточняющие вопросы.
Есть проблема с восстановлением работы узла кластера при исчезновении внешнего сетевого соединения.
Имеем два тестовых сервера в кластере с Windows 2003.
При выключении питания на одном из узлов кластер успешно перемещается на другой узел, а при восстановлении
упавшего узла возвращается назад, если были указаны параметры возврата.
Т.е. все вцелом работает как описано, но хотелось проверить как поведет себя кластер, если будет следующая ситуация:
1. Один из двух узлов вышел из строя.
2. После того, как кластер переехал на другой узел, пропала внешняя сеть (скажем в выходной и на несколько часов).
Ожидалось, что кластер не должен аварийно завершаться, а должен постоянно отслеживать появление внешней сети (перегружать ресурсы Cluster Group и Cluster Name).
Оба сервера входят в один домен Windows2003 (Контроллер домена на отдельной машине).
Слово "тестовых" означает, что это простые компьютеры. Внешнее дисковое хранилище имитируется одним SCSI-диском, подключенным шлейфом к обоим компьютерам (сразу скажу, что вся нижеописанная ситуация возникала и при наличии массива ADAPTEC DURASTORE 6200
и думаю, что не является причиной проблем).
В каждом узле по две сетевые карты. Создана общая и частная сети.
Общая сеть подключена к свитчу, частная соединяет узлы через хаб.
На общем SCSI-диске создан кворум.
В кластере всего одна группа ресурсов Cluster Group.
В эту группу входят следующие ресурсы:
- Cluster IP Address
- Cluster Name
- Диск Q (это диск кворума)
На этой конфигурации попытались проверить реакцию
кластера при отключении сетевого кабеля.
Отсоединяем внешний сетевой кабель от оставшегося в живых узла и видим, что примерно минуты через 3
ресурс Cluster IP Address переходит в состояние "Ошибка" , а Cluster Name в состояние "Автономно" (Windows с MUI).
Подключаем внешний сетевой кабель - ничего не происходит.
Вернуть в работу кластер можно только зайдя локально с консоли на этот узел, запустить Администратор кластера и перевести Cluser Group в Оперативый режим, либо перегрузить узел.
Пробовал менять настройки ресурсов Cluster IP Address и Cluster Name, но не добился результатов (Закладка Дополнительно в свойствах ресурса).
Возможно я не совсем подробно описал ситуацию и что-то осталось между строк.
Вопрос:
Можно ли вообще ожидать от кластера восстановления своей работоспособности в такой ситуации, или
потеря сетевого соединения для него смерть ?
Если можно ожидать, то подскажите пож. что еще можно предпринять ?
Готов ответить на уточняющие вопросы.
Спасибо gs за быстрый ответ.
Вы меня сильно обнадежили :D .
Неужели это никак не лечится ?
С такой "фукциональностью" трудно решиться на боевое использование кластера. Отключение сетевого оборудования не является редким явлением (к сожалению).
Может есть какой-то способ обойти эту ситуацию ?
Если кластер перешел уже в такое нерабочее состояние и вывести из него можно перезагрузкой кластерного сервиса, то может можно как-то автоматизировать этот процесс ?
Например ловить событие "Ошибка" для кластерного ресурса (не знаю как ловить :) ) и каким-то скриптом, или программой перезапустить сервис.
Есть ли опыт борьбы с таким свойством кластера ?
Некоторое время назад, я задавал это вопрос на другом форуме (http://primary.education.ru:8000/?url=h ... 5F0%2525E0)
Положительного ответа тоже не получил.
Правда одному специалисту из форума удалось что-то настроить в параметрах кластера, но сменилась тема проекта и он не смог точно вспомнить что настраивал.
Это последнее обстоятельство и не позволяет терять надежду.
Буду рад любым соображениям.
Вы меня сильно обнадежили :D .
Неужели это никак не лечится ?
С такой "фукциональностью" трудно решиться на боевое использование кластера. Отключение сетевого оборудования не является редким явлением (к сожалению).
Может есть какой-то способ обойти эту ситуацию ?
Если кластер перешел уже в такое нерабочее состояние и вывести из него можно перезагрузкой кластерного сервиса, то может можно как-то автоматизировать этот процесс ?
Например ловить событие "Ошибка" для кластерного ресурса (не знаю как ловить :) ) и каким-то скриптом, или программой перезапустить сервис.
Есть ли опыт борьбы с таким свойством кластера ?
Некоторое время назад, я задавал это вопрос на другом форуме (http://primary.education.ru:8000/?url=h ... 5F0%2525E0)
Положительного ответа тоже не получил.
Правда одному специалисту из форума удалось что-то настроить в параметрах кластера, но сменилась тема проекта и он не смог точно вспомнить что настраивал.
Это последнее обстоятельство и не позволяет терять надежду.
Буду рад любым соображениям.
- Stranger03
- Сотрудник Тринити
- Сообщения: 12979
- Зарегистрирован: 14 ноя 2003, 16:25
- Откуда: СПб, Екатеринбург
- Контактная информация:
- gs
- Сотрудник Тринити
- Сообщения: 16650
- Зарегистрирован: 23 авг 2002, 17:34
- Откуда: Москва
- Контактная информация:
Я так подозреваю, что ему надо хотя бы какую-нибудь сеть видеть. Можно попробовать просто еще одну сетевушку воткнуть куда-нибудь, чтобы это "что-нибудь" не могло упасть одновременно со всей сетью. Например просто кроссовер во вторую ноду или в другую соседскую машину.
Это просто шаманство конечно - так что просто мысль вслух.
Это просто шаманство конечно - так что просто мысль вслух.
- Stranger03
- Сотрудник Тринити
- Сообщения: 12979
- Зарегистрирован: 14 ноя 2003, 16:25
- Откуда: СПб, Екатеринбург
- Контактная информация:
Кластеру действительно нужен какой-то линк.
Достаточно подключить внешнюю сеть через хаб и кластер стоит, пока работает хаб.
Для исключения случая, когда совсем нет сети, нужно выстраивать схему
подключения внутренней и внешней сетей через разные хабы, свитчи (а они, в свою очередь,
должны быть поключеы к разным источникам питания (хорошо бы к разным Чубайсам)).
Но, можно попробовать и другой путь.
В Windows 2003 есть такое средство как триггер события (eventtriggers.exe).
Этот триггер позволяет отловить нужное событие (нам нужно ID 1205) и запустить нужную программу.
Создать триггер:
Если в сети все еще нет, то в журале (в SYSTEM) опять появляется ошибка 1205 и т. д.
Как только линк появился, то при очередном перезапуске сервиса
кластер восстанавливает свою работу !
Пока сильно не тестировал, но оптимизма прибавилось.
Достаточно подключить внешнюю сеть через хаб и кластер стоит, пока работает хаб.
Для исключения случая, когда совсем нет сети, нужно выстраивать схему
подключения внутренней и внешней сетей через разные хабы, свитчи (а они, в свою очередь,
должны быть поключеы к разным источникам питания (хорошо бы к разным Чубайсам)).
Но, можно попробовать и другой путь.
В Windows 2003 есть такое средство как триггер события (eventtriggers.exe).
Этот триггер позволяет отловить нужное событие (нам нужно ID 1205) и запустить нужную программу.
Создать триггер:
Содержимое ReCluster.bat :eventtriggers /create /s 10.10.1.16 /u alfa
2\matv /tr Restart_Cluster /l SYSTEM /eid 1205 /d Перезапускает_кластер_при_обрыве_ЛВС /tk c:\Cluster\ReCluster.bat
Триггер периодически срабатывает и перегружает сервис кластера.net stop "Cluster Service"
net start "Cluster Service"
Если в сети все еще нет, то в журале (в SYSTEM) опять появляется ошибка 1205 и т. д.
Как только линк появился, то при очередном перезапуске сервиса
кластер восстанавливает свою работу !
Пока сильно не тестировал, но оптимизма прибавилось.
To GS
Я тоже думаю, что пара небольших компьютеров, для организации отдельного домена - это не очень дорого.
Но, во-первых, если это работает и настраивается за приемлемое время,
то почему бы и нет ?
А во-вторых, с дополнительными компьютерами, начинаются другие "мелочи" (место в серверной, которого мало, дополнительные розетки питания и сети и т.д.)
Опять программистское прошлое ... :D
Я тоже думаю, что пара небольших компьютеров, для организации отдельного домена - это не очень дорого.
Но, во-первых, если это работает и настраивается за приемлемое время,
то почему бы и нет ?
А во-вторых, с дополнительными компьютерами, начинаются другие "мелочи" (место в серверной, которого мало, дополнительные розетки питания и сети и т.д.)
Опять программистское прошлое ... :D
Кто сейчас на конференции
Сейчас этот форум просматривают: нет зарегистрированных пользователей и 8 гостей