Прошу помощи (общие вопросы по кластеру)
Модераторы: Trinity admin`s, Free-lance moderator`s
Прошу помощи (общие вопросы по кластеру)
Господа!
1.Каким образом происходит организация взаимодействия двух серверов?
2.Какое время возобновления работы системы после сбоя (выключения) одного из серверов?
3.Если во время работы системы один из серверов вышел из строя, то что происходит с информацией, которая в этот момент записывалась/считывалась по сети?
4.Как выглядит для клиентских машин выключение одного из серверов?
5.Каким образом происходит разграничение доступа обоих серверов к RAID массиву на чтение/запись?
6. Не подскажете литературу по кластерам - желательно в электронном виде?
1.Каким образом происходит организация взаимодействия двух серверов?
2.Какое время возобновления работы системы после сбоя (выключения) одного из серверов?
3.Если во время работы системы один из серверов вышел из строя, то что происходит с информацией, которая в этот момент записывалась/считывалась по сети?
4.Как выглядит для клиентских машин выключение одного из серверов?
5.Каким образом происходит разграничение доступа обоих серверов к RAID массиву на чтение/запись?
6. Не подскажете литературу по кластерам - желательно в электронном виде?
- a_shats
- Advanced member
- Сообщения: 5010
- Зарегистрирован: 27 авг 2002, 10:55
- Откуда: Москва
- Контактная информация:
1. Они должны быть связаны между собой по ЛВС. Только нужно учесть, что обмен данными между узлами кластера (т.н. hearthbeat) весьма интенсивен.
2. Если кластер "остался жив" (т.е. продолжает работать) после вылета одного узла - то так и будет работать дальше, но, естественно, с некоторой потерей отказоустойчивости/производительности - за счет выпавшего узла.
3. Упомянутый выше хертбит и есть в общем случае обмен копиями той информации, которую в данный момент записывает/изменяет каждый узел, т.е. в отказоустойчивом кластере все узлы содержат одну и ту же информацию в любой момент времени.
4. Никак не выглядит - если кластер не падает целиком, то пользователь этого не замечает. Исключение - вычислительные кластеры: при выпадении узла их производительность снижается.
5. Точно не скажу, это детали, относящиеся к конкретной ОС и конкретному железу. Больше могут подсказать сотрудники Тринити.
6. http://parallel.ru
2. Если кластер "остался жив" (т.е. продолжает работать) после вылета одного узла - то так и будет работать дальше, но, естественно, с некоторой потерей отказоустойчивости/производительности - за счет выпавшего узла.
3. Упомянутый выше хертбит и есть в общем случае обмен копиями той информации, которую в данный момент записывает/изменяет каждый узел, т.е. в отказоустойчивом кластере все узлы содержат одну и ту же информацию в любой момент времени.
4. Никак не выглядит - если кластер не падает целиком, то пользователь этого не замечает. Исключение - вычислительные кластеры: при выпадении узла их производительность снижается.
5. Точно не скажу, это детали, относящиеся к конкретной ОС и конкретному железу. Больше могут подсказать сотрудники Тринити.
6. http://parallel.ru
- gs
- Сотрудник Тринити
- Сообщения: 16650
- Зарегистрирован: 23 авг 2002, 17:34
- Откуда: Москва
- Контактная информация:
Позволю себе не согласиться с a_shats. Возможно я несколько устарел, но насколько я помню standby кластеры (MS, Novell, Linux), они не зеркалируют текущее состояние.
Если свалился один из серверов, через некоторое время (десятки секунд - минуты. Время можно регулировать в некоторых пределах, но малым нельзя делать, чтобы не было ложных срабатываний - может быть сервер не умер, а просто перегружен) его приложения запускаются на партнере. Текущее состояние операционки он, естественно, не помнит - цепляет только информацию с общего дискового пула.
Клиенты на некоторое время теряют связь с сервером. Чтобы они ничего не заметили, на них нужно выставлять задержку (щас не помню - суть в том, какое время операционка ждет отклика сетевого девайса, не считая его дохлым) больше, чем время подъема резервного сервака. Таким образом, если все правильно настроить, операции на клиентах на некоторое время замрут, потом продолжатся как будто ничего не было.
Разраничение доступа к дисковой системе делается тупо - одной партицией владеет (и на чтение и на запись) только один сервак. А после его смерти, право доступа переходит к партнеру.
Если свалился один из серверов, через некоторое время (десятки секунд - минуты. Время можно регулировать в некоторых пределах, но малым нельзя делать, чтобы не было ложных срабатываний - может быть сервер не умер, а просто перегружен) его приложения запускаются на партнере. Текущее состояние операционки он, естественно, не помнит - цепляет только информацию с общего дискового пула.
Клиенты на некоторое время теряют связь с сервером. Чтобы они ничего не заметили, на них нужно выставлять задержку (щас не помню - суть в том, какое время операционка ждет отклика сетевого девайса, не считая его дохлым) больше, чем время подъема резервного сервака. Таким образом, если все правильно настроить, операции на клиентах на некоторое время замрут, потом продолжатся как будто ничего не было.
Разраничение доступа к дисковой системе делается тупо - одной партицией владеет (и на чтение и на запись) только один сервак. А после его смерти, право доступа переходит к партнеру.
- CyberDrake
- free-lance moderator
- Сообщения: 338
- Зарегистрирован: 23 авг 2002, 10:39
- Откуда: Санкт-Петербург
- Контактная информация:
Еще небольшое замечание про надежность: большинство кластеров прекрасно выполняют процедуры fail back и fail over только при "тупом" выпадении узла, т.е при выключении питания или ресете. А ежели делать кластеру различные подлости, такие как периодический plug/unplug сетевых разъемов и разъемов подключения к разделяемой системе хранения, то в этом случае все не так уж и просто - зачастую валится ВЕСЬ КЛАСТЕР. Так что перед непосредственным внедрением кластерного софта в "боевую" систему, протестируйте его не один и не два раза на отказоустойчивость.
- CyberDrake
- free-lance moderator
- Сообщения: 338
- Зарегистрирован: 23 авг 2002, 10:39
- Откуда: Санкт-Петербург
- Контактная информация:
если над этим крутится софт БД, то потеря информации узлом во время падения компенсируется софтом БД
ежели это просто файловый сервис, то избежать потери информации можно только выставлением тайм-аутов на клиентах, например на кластере Novell при использовании команды ncopy все проходило на ура, а при родном copy-paste из explorer, порой процесс копирования прерывался
ежели это просто файловый сервис, то избежать потери информации можно только выставлением тайм-аутов на клиентах, например на кластере Novell при использовании команды ncopy все проходило на ура, а при родном copy-paste из explorer, порой процесс копирования прерывался
Кто сейчас на конференции
Сейчас этот форум просматривают: нет зарегистрированных пользователей и 1 гость