"Зависает" один из узлов кластера
Модераторы: Trinity admin`s, Free-lance moderator`s
"Зависает" один из узлов кластера
Здравствуйте.
Конфиг такой:
Два стареньких сервера OSPRF100 (8х500PIII, 4GB) в каждом по 3 сетевые карточки: 2 серверных в команде и одна десктопная для пульсовой сети, плюс один HBA Emulex в каждом. Два FC линка от серверов идут напрямую к внешнему стораджу. Ось win2003sp1EE, MSCS. Система используется в качестве отказоустойчивого файл-сервера. Нагрузка примерно такая: всего порядка 300-400 пользователей, одновременно 80-100 человек. На сервере около десяти файловых шар на четырех шареных дисках (плюс один маленький под кворум). Шары раскиданы по узлам.
Проблема такая: достаточно редко (2-3 раза в месяц) происходит "подвисание" узла кластера, на котором в данный момент находится кворум диск.
Выглядит это так: узел полностью отваливается от сети (и общей и приватной) при локальной попытке логона пароль проходит, но система "подвисает" на логоне. Мышь двигается, т.е. полностью ось не зависает. Второй узел продолжает работать, его кластерные ресурсы доступны по сети.
Самое неприятное то, что все ресурсы (включая кворум, имя кластера, айпи и т.д.) не переходят на другой узел, они блокируются на зависшем узле. Как только нажать на нем ресет, все ресурсы сразу переходят на второй узел. Пробовали менять группы ресурсов местами на узлах, оставлять обе группы ресурсов на одном узле - все равно зависает. Уже и не знаю, что предположить.
В логах зависшего узла не остается ничего, даже не фиксируется факт потери сети. В логах работающего узла фиксируются ошибки кластерных ресурсов, принадлежащих зависшему узлу. Больше никаких ошибок нет.
Помогите разобратся в чем проблема, в какую сторону копать. Заранее спасибо.
Конфиг такой:
Два стареньких сервера OSPRF100 (8х500PIII, 4GB) в каждом по 3 сетевые карточки: 2 серверных в команде и одна десктопная для пульсовой сети, плюс один HBA Emulex в каждом. Два FC линка от серверов идут напрямую к внешнему стораджу. Ось win2003sp1EE, MSCS. Система используется в качестве отказоустойчивого файл-сервера. Нагрузка примерно такая: всего порядка 300-400 пользователей, одновременно 80-100 человек. На сервере около десяти файловых шар на четырех шареных дисках (плюс один маленький под кворум). Шары раскиданы по узлам.
Проблема такая: достаточно редко (2-3 раза в месяц) происходит "подвисание" узла кластера, на котором в данный момент находится кворум диск.
Выглядит это так: узел полностью отваливается от сети (и общей и приватной) при локальной попытке логона пароль проходит, но система "подвисает" на логоне. Мышь двигается, т.е. полностью ось не зависает. Второй узел продолжает работать, его кластерные ресурсы доступны по сети.
Самое неприятное то, что все ресурсы (включая кворум, имя кластера, айпи и т.д.) не переходят на другой узел, они блокируются на зависшем узле. Как только нажать на нем ресет, все ресурсы сразу переходят на второй узел. Пробовали менять группы ресурсов местами на узлах, оставлять обе группы ресурсов на одном узле - все равно зависает. Уже и не знаю, что предположить.
В логах зависшего узла не остается ничего, даже не фиксируется факт потери сети. В логах работающего узла фиксируются ошибки кластерных ресурсов, принадлежащих зависшему узлу. Больше никаких ошибок нет.
Помогите разобратся в чем проблема, в какую сторону копать. Заранее спасибо.
- Stranger03
- Сотрудник Тринити
- Сообщения: 12979
- Зарегистрирован: 14 ноя 2003, 16:25
- Откуда: СПб, Екатеринбург
- Контактная информация:
Re: "Зависает" один из узлов кластера
Мне кажется проблема на в кластере как таковом, а в железе. Попробуйте поставить на сервер системы мониторинга, посмотрите, что с температурой там происходит.ITER писал(а):Помогите разобратся в чем проблема, в какую сторону копать. Заранее спасибо.
Нет, с сервером все нормально. ISM стоит, перегрева, ошибок памяти, и т.п. нет. В логах все чисто, к тому же как я говорил сама ось не зависает. Подвисает именно служба кластера, а вот почему из-за этого отваливаются все сети я сам теряюсь в догадках. Один из узлов раньше стоял отдельно (не в кластере) с теми же ресурсами под той же самой нагрузкой, проблем не было. Все началось когда решили сделать кластер.
Кстати, сторадж хитачи 9980, на нем крутятся ещё и другие задачи проблем с ними нет, так что дело тоже не в нем. :(
Кстати, сторадж хитачи 9980, на нем крутятся ещё и другие задачи проблем с ними нет, так что дело тоже не в нем. :(
- Stranger03
- Сотрудник Тринити
- Сообщения: 12979
- Зарегистрирован: 14 ноя 2003, 16:25
- Откуда: СПб, Екатеринбург
- Контактная информация:
Так, свичи на кластерную сеть какие стоят? Сетевые карточки какие? Посмотрите ошибки пакетов на сетевом интерфейсе Нетворк монитором. Еще попробуйте на кластерных сетевухах поставить 10Мбит фулл дуплекс.ITER писал(а):Нет, с сервером все нормально. ISM стоит, перегрева, ошибок памяти, и т.п. нет. В логах все чисто, к тому же как я говорил сама ось не зависает. Подвисает именно служба кластера, а вот почему из-за этого отваливаются все сети я сам теряюсь в догадках.
Свитчи на кластерную сеть? Это в смысле на пульсовую? Там напрямую кроссовером соединение, карточки интеловские 1000 MT desktop. В драйвере ошибок пакетов нет, скорость гигабит фулл дуплекс. Наружу в каждом узле по 2 Intel 1000 MT Server адаптера, собраны в ALB-команду, свитчи наружу BayStack 5510-48T ошибок по паетам тоже нет.
- Stranger03
- Сотрудник Тринити
- Сообщения: 12979
- Зарегистрирован: 14 ноя 2003, 16:25
- Откуда: СПб, Екатеринбург
- Контактная информация:
Попробуйте на тех сетевухах, которые в "приват кластер коннекшен", поставить 10Мб фулл дуплекс вместо "Авто". Вполне возможно, что именно этот линк как-то некорректно отрабатывает.ITER писал(а):Свитчи на кластерную сеть? Это в смысле на пульсовую? Там напрямую кроссовером соединение, карточки интеловские 1000 MT desktop
Не совсем понял зачем нужно принудительно ставить 10Мб, я конечно понимаю что для пульсовой сети прпускная способность не требуется. Хорошо попробую поставить, плохо то что зависания случаются достаточно редко, так что сразу не проверишь помогло или нет :(Stranger03 писал(а): Попробуйте на тех сетевухах, которые в "приват кластер коннекшен", поставить 10Мб фулл дуплекс вместо "Авто". Вполне возможно, что именно этот линк как-то некорректно отрабатывает.
- Stranger03
- Сотрудник Тринити
- Сообщения: 12979
- Зарегистрирован: 14 ноя 2003, 16:25
- Откуда: СПб, Екатеринбург
- Контактная информация:
Если бы вы внимательно читали рекомендации МС, то увидели в них пункт, относящийся к рекомендательным настройкам сетевых адаптеров. Не помню, есть ли этот пункт для 2003, но в статье Step-by-Step Microsoft Cluster fow Windows 2000 Server он однозначно присутсвует. Попробуйте. Думаю дело как раз в этом линке.ITER писал(а):Не совсем понял зачем нужно принудительно ставить 10Мб, я конечно понимаю что для пульсовой сети прпускная
В общем сделал я 10 Мбит фулл дуплекс на пульсовых карточках - это не помогло, все равно один-два раза в месяц один из узлов зависает. Зависает всегда тот узел, где сейчас находится кворум диск. Пока настроил предпочтения так, что имя айпи и кворум диск живут на одном узле, а все остальное на другом. Если зависает, просто перегружаем зависший узел.Stranger03 писал(а):Если бы вы внимательно читали рекомендации МС, то увидели в них пункт, относящийся к рекомендательным настройкам сетевых адаптеров. Не помню, есть ли этот пункт для 2003, но в статье Step-by-Step Microsoft Cluster fow Windows 2000 Server он однозначно присутсвует. Попробуйте. Думаю дело как раз в этом линке.ITER писал(а):Не совсем понял зачем нужно принудительно ставить 10Мб, я конечно понимаю что для пульсовой сети прпускная
Какие ещё мысли из-за чего могут быть зависания?
- Stranger03
- Сотрудник Тринити
- Сообщения: 12979
- Зарегистрирован: 14 ноя 2003, 16:25
- Откуда: СПб, Екатеринбург
- Контактная информация:
Только не судите строго...Какие ещё мысли из-за чего могут быть зависания?
Значит, с точки зрения второго узла, первый жив, по крайней мере настолько, чтобы помешать забрать ресурсы....все ресурсы (включая кворум, имя кластера, айпи и т.д.) не переходят на другой узел, они блокируются на зависшем узле. Как только нажать на нем ресет, все ресурсы сразу переходят на второй узел.
В сумме похоже, что система ждет освобождения какого-то ресурса. Те процессы, которым не требуются дополнительные ресурсы, продолжают жить, все остальные встают на запросе выделения....узел полностью отваливается от сети (и общей и приватной) при локальной попытке логона пароль проходит, но система "подвисает" на логоне. Мышь двигается, т.е. полностью ось не зависает.
Во-первых, это может быть память. Нужно последить, нет ли в системе утечки памяти, залогиниться заранее и посмотреть динамику использования памяти процессами, в первую очередь невыгружаемого пула. Если самой системе памяти не хватает, то и логи не будут писаться, и сеть отвалится - нету свободных буферов.
А вторая идея - вот отсюда:
Может, просто висит операция на кворумном диске...происходит "подвисание" узла кластера, на котором в данный момент находится кворум диск.
Да все может быть, дело в том, что узел зависает и на первом узле (коворум) и когда кворум на другом узле. Так что маловероятно что проблемы с линком до стораджа. Опять же вряд ли дело в сторадже, кворум это один маленький лун, кроме него там остальные ресурсы кластера и ресурсы других кластеров, и ещё куча ресурсов выведено. А виснет только этот кластер.Stranger03 писал(а): Понимаете какая штука, если ваш узел просто виснет сам по себе и не пишет в лог, то очень сложно что-то сказать. Может у вас линк на кворум (внешний сторадж) кривой? Тут остается только гадать.
Выяснилось, что зависает не кворум, а другая группа. Т.е. сейчас на кластере 4 группы: группа кворум-айпишник кластера-имя кластера, и ещё 3 группы в которые входят физические диски, шары и сетевые виртуальные имена. Зависает группа в которую входят 2 физических диска, сетевое имя-айпишник и 15 шар. Это самая нагруженная група по колличеству пользователей. Сейчас она живет на отдельном узле в кластере, все остальные группы на другом. При зависании второй узел и все его ресурсы остаются на плаву. Скорее это больше похоже на то, о чем писал abc. Только вот как бы уточнить не представляю. HELP ME! Все мозги уже проел этот чертов кластер :(
- gs
- Сотрудник Тринити
- Сообщения: 16650
- Зарегистрирован: 23 авг 2002, 17:34
- Откуда: Москва
- Контактная информация:
Гляньте-ка перфмоном загрузку дисков и сетевух в этой группе. Ошибки пакетов туда же. Наверно особенно пристально на сетевухи посмотреть - у интеловых уже не раз баги дров всплывали.
Кроме того, Вы вскользь упомянули про два ФЦ адаптера в каждом сервере. Это мультипас? Тут тоже могут быть проблемы - попробуйте с одним адаптером для верности.
Кроме того, Вы вскользь упомянули про два ФЦ адаптера в каждом сервере. Это мультипас? Тут тоже могут быть проблемы - попробуйте с одним адаптером для верности.
Смотрел уже, ещё с самого начала как ввели в строй кластер. Загрузки по дискам практически нет: йопсов порядка 100-150, очередь меньше единицы. С сетью немного другая ситуация: ошибок по пакетам нет вообще ни в драйвере ни на портах коммутатора, куда они включены, а вот очередь исходящих пакетов имеется. В среднем порядка 4-6. Это учитывая, что в каждом узле кластера на внешнюю сеть стоят две гигабитные сетевушки (1000 МТ) в ALB команде.
Мультипассинга нет, в каждом узле по одному HBA, это вы что-то путаете не писал я такого :?
Мультипассинга нет, в каждом узле по одному HBA, это вы что-то путаете не писал я такого :?
Кто сейчас на конференции
Сейчас этот форум просматривают: нет зарегистрированных пользователей и 6 гостей