Прошу помощи (общие вопросы по кластеру)

Sku · Сообщение **Sku** » 16 май 2003, 15:20

Господа!

1.Каким образом происходит организация взаимодействия двух серверов?
2.Какое время возобновления работы системы после сбоя (выключения) одного из серверов?
3.Если во время работы системы один из серверов вышел из строя, то что происходит с информацией, которая в этот момент записывалась/считывалась по сети?
4.Как выглядит для клиентских машин выключение одного из серверов?
5.Каким образом происходит разграничение доступа обоих серверов к RAID массиву на чтение/запись?
6. Не подскажете литературу по кластерам - желательно в электронном виде?

a_shats · Сообщение **a_shats** » 17 май 2003, 11:54

1. Они должны быть связаны между собой по ЛВС. Только нужно учесть, что обмен данными между узлами кластера (т.н. hearthbeat) весьма интенсивен.
2. Если кластер "остался жив" (т.е. продолжает работать) после вылета одного узла - то так и будет работать дальше, но, естественно, с некоторой потерей отказоустойчивости/производительности - за счет выпавшего узла.
3. Упомянутый выше хертбит и есть в общем случае обмен копиями той информации, которую в данный момент записывает/изменяет каждый узел, т.е. в отказоустойчивом кластере все узлы содержат одну и ту же информацию в любой момент времени.
4. Никак не выглядит - если кластер не падает целиком, то пользователь этого не замечает. Исключение - вычислительные кластеры: при выпадении узла их производительность снижается.
5. Точно не скажу, это детали, относящиеся к конкретной ОС и конкретному железу. Больше могут подсказать сотрудники Тринити.
6. http://parallel.ru

Сообщение **setar** » 19 май 2003, 12:37

Специалистом по кластерам является CyberDrake,
он сейчас в зарубежной командировке.
По поводу 5 пункта - кажется это выполняется на уровне софта, ведётся БД открытых на запись файлов (или блоков?), когда приедет CyberDrake он прояснит сутуацию.

Сообщение gs » 19 май 2003, 12:50

Позволю себе не согласиться с a_shats. Возможно я несколько устарел, но насколько я помню standby кластеры (MS, Novell, Linux), они не зеркалируют текущее состояние.
Если свалился один из серверов, через некоторое время (десятки секунд - минуты. Время можно регулировать в некоторых пределах, но малым нельзя делать, чтобы не было ложных срабатываний - может быть сервер не умер, а просто перегружен) его приложения запускаются на партнере. Текущее состояние операционки он, естественно, не помнит - цепляет только информацию с общего дискового пула.
Клиенты на некоторое время теряют связь с сервером. Чтобы они ничего не заметили, на них нужно выставлять задержку (щас не помню - суть в том, какое время операционка ждет отклика сетевого девайса, не считая его дохлым) больше, чем время подъема резервного сервака. Таким образом, если все правильно настроить, операции на клиентах на некоторое время замрут, потом продолжатся как будто ничего не было.

Разраничение доступа к дисковой системе делается тупо - одной партицией владеет (и на чтение и на запись) только один сервак. А после его смерти, право доступа переходит к партнеру.

Сообщение gs » 19 май 2003, 12:52

Это я все говорил про стендбайные кластеры. К параллельным типа Оракла это не относится.

Сообщение **CyberDrake** » 20 май 2003, 12:22

Еще небольшое замечание про надежность: большинство кластеров прекрасно выполняют процедуры fail back и fail over только при "тупом" выпадении узла, т.е при выключении питания или ресете. А ежели делать кластеру различные подлости, такие как периодический plug/unplug сетевых разъемов и разъемов подключения к разделяемой системе хранения, то в этом случае все не так уж и просто - зачастую валится ВЕСЬ КЛАСТЕР. Так что перед непосредственным внедрением кластерного софта в "боевую" систему, протестируйте его не один и не два раза на отказоустойчивость.

Sku · Сообщение **Sku** » 21 май 2003, 11:29

А вот можно добиться ого, чотбы при падении одного узла та информация,которую он обрабатывал, не терялась бы?

Сообщение **CyberDrake** » 21 май 2003, 12:40

если над этим крутится софт БД, то потеря информации узлом во время падения компенсируется софтом БД
ежели это просто файловый сервис, то избежать потери информации можно только выставлением тайм-аутов на клиентах, например на кластере Novell при использовании команды ncopy все проходило на ура, а при родном copy-paste из explorer, порой процесс копирования прерывался

Прошу помощи (общие вопросы по кластеру)

Прошу помощи (общие вопросы по кластеру)

Кто сейчас на конференции