"Зависает" один из узлов кластера

Модераторы: Trinity admin`s, Free-lance moderator`s

ITER
Advanced member
Сообщения: 306
Зарегистрирован: 13 июл 2003, 10:01
Откуда: Хабаровский край

"Зависает" один из узлов кластера

Сообщение ITER » 27 ноя 2005, 12:56

Здравствуйте.

Конфиг такой:
Два стареньких сервера OSPRF100 (8х500PIII, 4GB) в каждом по 3 сетевые карточки: 2 серверных в команде и одна десктопная для пульсовой сети, плюс один HBA Emulex в каждом. Два FC линка от серверов идут напрямую к внешнему стораджу. Ось win2003sp1EE, MSCS. Система используется в качестве отказоустойчивого файл-сервера. Нагрузка примерно такая: всего порядка 300-400 пользователей, одновременно 80-100 человек. На сервере около десяти файловых шар на четырех шареных дисках (плюс один маленький под кворум). Шары раскиданы по узлам.

Проблема такая: достаточно редко (2-3 раза в месяц) происходит "подвисание" узла кластера, на котором в данный момент находится кворум диск.
Выглядит это так: узел полностью отваливается от сети (и общей и приватной) при локальной попытке логона пароль проходит, но система "подвисает" на логоне. Мышь двигается, т.е. полностью ось не зависает. Второй узел продолжает работать, его кластерные ресурсы доступны по сети.
Самое неприятное то, что все ресурсы (включая кворум, имя кластера, айпи и т.д.) не переходят на другой узел, они блокируются на зависшем узле. Как только нажать на нем ресет, все ресурсы сразу переходят на второй узел. Пробовали менять группы ресурсов местами на узлах, оставлять обе группы ресурсов на одном узле - все равно зависает. Уже и не знаю, что предположить.
В логах зависшего узла не остается ничего, даже не фиксируется факт потери сети. В логах работающего узла фиксируются ошибки кластерных ресурсов, принадлежащих зависшему узлу. Больше никаких ошибок нет.

Помогите разобратся в чем проблема, в какую сторону копать. Заранее спасибо.

Аватара пользователя
Stranger03
Сотрудник Тринити
Сотрудник Тринити
Сообщения: 12979
Зарегистрирован: 14 ноя 2003, 16:25
Откуда: СПб, Екатеринбург
Контактная информация:

Re: "Зависает" один из узлов кластера

Сообщение Stranger03 » 28 ноя 2005, 10:44

ITER писал(а):Помогите разобратся в чем проблема, в какую сторону копать. Заранее спасибо.
Мне кажется проблема на в кластере как таковом, а в железе. Попробуйте поставить на сервер системы мониторинга, посмотрите, что с температурой там происходит.

ITER
Advanced member
Сообщения: 306
Зарегистрирован: 13 июл 2003, 10:01
Откуда: Хабаровский край

Сообщение ITER » 28 ноя 2005, 13:15

Нет, с сервером все нормально. ISM стоит, перегрева, ошибок памяти, и т.п. нет. В логах все чисто, к тому же как я говорил сама ось не зависает. Подвисает именно служба кластера, а вот почему из-за этого отваливаются все сети я сам теряюсь в догадках. Один из узлов раньше стоял отдельно (не в кластере) с теми же ресурсами под той же самой нагрузкой, проблем не было. Все началось когда решили сделать кластер.

Кстати, сторадж хитачи 9980, на нем крутятся ещё и другие задачи проблем с ними нет, так что дело тоже не в нем.  :(

Аватара пользователя
Stranger03
Сотрудник Тринити
Сотрудник Тринити
Сообщения: 12979
Зарегистрирован: 14 ноя 2003, 16:25
Откуда: СПб, Екатеринбург
Контактная информация:

Сообщение Stranger03 » 28 ноя 2005, 16:45

ITER писал(а):Нет, с сервером все нормально. ISM стоит, перегрева, ошибок памяти, и т.п. нет. В логах все чисто, к тому же как я говорил сама ось не зависает. Подвисает именно служба кластера, а вот почему из-за этого отваливаются все сети я сам теряюсь в догадках.
Так, свичи на кластерную сеть какие стоят? Сетевые карточки какие? Посмотрите ошибки пакетов на сетевом интерфейсе Нетворк монитором. Еще попробуйте на кластерных сетевухах поставить 10Мбит фулл дуплекс.

ITER
Advanced member
Сообщения: 306
Зарегистрирован: 13 июл 2003, 10:01
Откуда: Хабаровский край

Сообщение ITER » 28 ноя 2005, 17:44

Свитчи на кластерную сеть? Это в смысле на пульсовую? Там напрямую кроссовером соединение, карточки интеловские 1000 MT desktop. В драйвере ошибок пакетов нет, скорость гигабит фулл дуплекс. Наружу в каждом узле по 2 Intel 1000 MT Server адаптера, собраны в ALB-команду, свитчи наружу BayStack 5510-48T ошибок по паетам тоже нет.

Аватара пользователя
Stranger03
Сотрудник Тринити
Сотрудник Тринити
Сообщения: 12979
Зарегистрирован: 14 ноя 2003, 16:25
Откуда: СПб, Екатеринбург
Контактная информация:

Сообщение Stranger03 » 28 ноя 2005, 18:47

ITER писал(а):Свитчи на кластерную сеть? Это в смысле на пульсовую? Там напрямую кроссовером соединение, карточки интеловские 1000 MT desktop
Попробуйте на тех сетевухах, которые в "приват кластер коннекшен", поставить 10Мб фулл дуплекс вместо "Авто". Вполне возможно, что именно этот линк как-то некорректно отрабатывает.

ITER
Advanced member
Сообщения: 306
Зарегистрирован: 13 июл 2003, 10:01
Откуда: Хабаровский край

Сообщение ITER » 29 ноя 2005, 16:32

Stranger03 писал(а): Попробуйте на тех сетевухах, которые в "приват кластер коннекшен", поставить 10Мб фулл дуплекс вместо "Авто". Вполне возможно, что именно этот линк как-то некорректно отрабатывает.
Не совсем понял зачем нужно принудительно ставить 10Мб, я конечно понимаю что для пульсовой сети прпускная способность не требуется. Хорошо попробую поставить, плохо то что зависания случаются достаточно редко, так что сразу не проверишь помогло или нет  :(

Аватара пользователя
Stranger03
Сотрудник Тринити
Сотрудник Тринити
Сообщения: 12979
Зарегистрирован: 14 ноя 2003, 16:25
Откуда: СПб, Екатеринбург
Контактная информация:

Сообщение Stranger03 » 01 дек 2005, 17:01

ITER писал(а):Не совсем понял зачем нужно принудительно ставить 10Мб, я конечно понимаю что для пульсовой сети прпускная
Если бы вы внимательно читали рекомендации МС, то увидели в них пункт, относящийся к рекомендательным настройкам сетевых адаптеров. Не помню, есть ли этот пункт для 2003, но в статье Step-by-Step Microsoft Cluster fow Windows 2000 Server он однозначно присутсвует. Попробуйте. Думаю дело как раз в этом линке.

ITER
Advanced member
Сообщения: 306
Зарегистрирован: 13 июл 2003, 10:01
Откуда: Хабаровский край

Сообщение ITER » 27 дек 2005, 03:46

Stranger03 писал(а):
ITER писал(а):Не совсем понял зачем нужно принудительно ставить 10Мб, я конечно понимаю что для пульсовой сети прпускная
Если бы вы внимательно читали рекомендации МС, то увидели в них пункт, относящийся к рекомендательным настройкам сетевых адаптеров. Не помню, есть ли этот пункт для 2003, но в статье Step-by-Step Microsoft Cluster fow Windows 2000 Server он однозначно присутсвует. Попробуйте. Думаю дело как раз в этом линке.
В общем сделал я 10 Мбит фулл дуплекс на пульсовых карточках - это не помогло, все равно один-два раза в месяц один из узлов зависает. Зависает всегда тот узел, где сейчас находится кворум диск. Пока настроил предпочтения так, что имя айпи и кворум диск живут на одном узле, а все остальное на другом. Если зависает, просто перегружаем зависший узел.

Какие ещё мысли из-за чего могут быть зависания?

Аватара пользователя
Stranger03
Сотрудник Тринити
Сотрудник Тринити
Сообщения: 12979
Зарегистрирован: 14 ноя 2003, 16:25
Откуда: СПб, Екатеринбург
Контактная информация:

Сообщение Stranger03 » 27 дек 2005, 20:12

ITER писал(а):Какие ещё мысли из-за чего могут быть зависания?
Понимаете какая штука, если ваш узел просто виснет сам по себе и не пишет в лог, то очень сложно что-то сказать. Может у вас линк на кворум (внешний сторадж) кривой? Тут остается только гадать.

abc
Advanced member
Сообщения: 207
Зарегистрирован: 24 ноя 2003, 14:01
Откуда: Москва

Сообщение abc » 28 дек 2005, 00:39

Какие ещё мысли из-за чего могут быть зависания?
Только не судите строго... :oops:
...все ресурсы (включая кворум, имя кластера, айпи и т.д.) не переходят на другой узел, они блокируются на зависшем узле. Как только нажать на нем ресет, все ресурсы сразу переходят на второй узел.
Значит, с точки зрения второго узла, первый жив, по крайней мере настолько, чтобы помешать забрать ресурсы.
...узел полностью отваливается от сети (и общей и приватной) при локальной попытке логона пароль проходит, но система "подвисает" на логоне. Мышь двигается, т.е. полностью ось не зависает.
В сумме похоже, что система ждет освобождения какого-то ресурса.  Те процессы, которым не требуются дополнительные ресурсы, продолжают жить, все остальные встают на запросе выделения.
Во-первых, это может быть память. Нужно последить, нет ли в системе утечки памяти, залогиниться заранее и посмотреть динамику использования памяти процессами, в первую очередь невыгружаемого пула. Если самой системе памяти не хватает, то и логи не будут писаться, и сеть отвалится - нету свободных буферов.
А вторая идея - вот отсюда:
происходит "подвисание" узла кластера, на котором в данный момент находится кворум диск.
Может, просто висит операция на кворумном диске...

ITER
Advanced member
Сообщения: 306
Зарегистрирован: 13 июл 2003, 10:01
Откуда: Хабаровский край

Сообщение ITER » 28 дек 2005, 13:53

Stranger03 писал(а): Понимаете какая штука, если ваш узел просто виснет сам по себе и не пишет в лог, то очень сложно что-то сказать. Может у вас линк на кворум (внешний сторадж) кривой? Тут остается только гадать.
Да все может быть, дело в том, что узел зависает и на первом узле (коворум) и когда кворум на другом узле. Так что маловероятно что проблемы с линком до стораджа. Опять же вряд ли дело в сторадже, кворум это один маленький лун, кроме него там остальные ресурсы кластера и ресурсы других кластеров, и ещё куча ресурсов выведено. А виснет только этот кластер.

ITER
Advanced member
Сообщения: 306
Зарегистрирован: 13 июл 2003, 10:01
Откуда: Хабаровский край

Сообщение ITER » 11 янв 2006, 09:43

Выяснилось, что зависает не кворум, а другая группа. Т.е. сейчас на кластере 4 группы: группа кворум-айпишник кластера-имя кластера, и ещё 3 группы в которые входят физические диски, шары и сетевые виртуальные имена. Зависает группа в которую входят 2 физических диска, сетевое имя-айпишник и 15 шар. Это самая нагруженная група по колличеству пользователей. Сейчас она живет на отдельном узле в кластере, все остальные группы на другом. При зависании второй узел и все его ресурсы остаются на плаву. Скорее это больше похоже на то, о чем писал abc. Только вот как бы уточнить не представляю. HELP ME! Все мозги уже проел этот чертов кластер  :(

Аватара пользователя
gs
Сотрудник Тринити
Сотрудник Тринити
Сообщения: 16650
Зарегистрирован: 23 авг 2002, 17:34
Откуда: Москва
Контактная информация:

Сообщение gs » 11 янв 2006, 13:36

Гляньте-ка перфмоном загрузку дисков и сетевух в этой группе. Ошибки пакетов туда же. Наверно особенно пристально на сетевухи посмотреть - у интеловых уже не раз баги дров всплывали.
Кроме того, Вы вскользь упомянули про два ФЦ адаптера в каждом сервере. Это мультипас? Тут тоже могут быть проблемы - попробуйте с одним адаптером для верности.

ITER
Advanced member
Сообщения: 306
Зарегистрирован: 13 июл 2003, 10:01
Откуда: Хабаровский край

Сообщение ITER » 11 янв 2006, 15:17

Смотрел уже, ещё с самого начала как ввели в строй кластер. Загрузки по дискам практически нет: йопсов порядка 100-150, очередь меньше единицы. С сетью немного другая ситуация: ошибок по пакетам нет вообще ни в драйвере ни на портах коммутатора, куда они включены, а вот очередь исходящих пакетов имеется. В среднем порядка 4-6. Это учитывая, что в каждом узле кластера на внешнюю сеть стоят две гигабитные сетевушки (1000 МТ) в ALB команде.

Мультипассинга нет, в каждом узле по одному HBA, это вы что-то путаете не писал я такого  :?

Ответить

Вернуться в «Кластеры, Программное обеспечение»

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и 14 гостей