Прошу помощи (общие вопросы по кластеру)

Технологии постороения кластеров (вычислительных и отказоустойчивых), настройка терминал серверов,
SAN , NAS, FibreChannel, Infiniband

Модераторы: Trinity admin`s, Free-lance moderator`s

Ответить
Sku
Junior member
Сообщения: 4
Зарегистрирован: 16 май 2003, 15:08

Прошу помощи (общие вопросы по кластеру)

Сообщение Sku » 16 май 2003, 15:20

Господа!

1.Каким образом происходит организация взаимодействия двух серверов?
2.Какое время возобновления работы системы после сбоя (выключения) одного из серверов?
3.Если во время работы системы один из серверов вышел из строя, то что происходит с информацией, которая в этот момент записывалась/считывалась по сети?
4.Как выглядит для клиентских машин выключение одного из серверов?
5.Каким образом происходит разграничение доступа обоих серверов к RAID массиву на чтение/запись?
6. Не подскажете литературу по кластерам - желательно в электронном виде?

Аватара пользователя
a_shats
Advanced member
Сообщения: 5010
Зарегистрирован: 27 авг 2002, 10:55
Откуда: Москва
Контактная информация:

Сообщение a_shats » 17 май 2003, 11:54

1. Они должны быть связаны между собой по ЛВС. Только нужно учесть, что обмен данными между узлами кластера (т.н. hearthbeat) весьма интенсивен.
2. Если кластер "остался жив" (т.е. продолжает работать) после вылета одного узла - то так и будет работать дальше, но, естественно, с некоторой потерей отказоустойчивости/производительности - за счет выпавшего узла.
3. Упомянутый выше хертбит и есть в общем случае обмен копиями той информации, которую в данный момент записывает/изменяет каждый узел, т.е. в отказоустойчивом кластере все узлы содержат одну и ту же информацию в любой момент времени.
4. Никак не выглядит - если кластер не падает целиком, то пользователь этого не замечает. Исключение - вычислительные кластеры: при выпадении узла их производительность снижается.
5. Точно не скажу, это детали, относящиеся к конкретной ОС и конкретному железу. Больше могут подсказать сотрудники Тринити.
6. http://parallel.ru

Аватара пользователя
setar
Site Admin
Site Admin
Сообщения: 1984
Зарегистрирован: 22 авг 2002, 12:03
Откуда: St. Petersburg

Сообщение setar » 19 май 2003, 12:37

Специалистом по кластерам является CyberDrake,
он сейчас в зарубежной командировке.
По поводу 5 пункта - кажется это выполняется на уровне софта, ведётся БД открытых на запись файлов (или блоков?), когда приедет CyberDrake он прояснит сутуацию.

Аватара пользователя
gs
Сотрудник Тринити
Сотрудник Тринити
Сообщения: 16622
Зарегистрирован: 23 авг 2002, 17:34
Откуда: Москва
Контактная информация:

Сообщение gs » 19 май 2003, 12:50

Позволю себе не согласиться с a_shats. Возможно я несколько устарел, но насколько я помню standby кластеры (MS, Novell, Linux), они не зеркалируют текущее состояние.
Если свалился один из серверов, через некоторое время (десятки секунд - минуты. Время можно регулировать в некоторых пределах, но малым нельзя делать, чтобы не было ложных срабатываний - может быть сервер не умер, а просто перегружен) его приложения запускаются на партнере. Текущее состояние операционки он, естественно, не помнит - цепляет только информацию с общего дискового пула.
Клиенты на некоторое время теряют связь с сервером. Чтобы они ничего не заметили, на них нужно выставлять задержку (щас не помню - суть в том, какое время операционка ждет отклика сетевого девайса, не считая его дохлым) больше, чем время подъема резервного сервака. Таким образом, если все правильно настроить, операции на клиентах на некоторое время замрут, потом продолжатся как будто ничего не было.

Разраничение доступа к дисковой системе делается тупо - одной партицией владеет (и на чтение и на запись) только один сервак. А после его смерти, право доступа переходит к партнеру.

Аватара пользователя
gs
Сотрудник Тринити
Сотрудник Тринити
Сообщения: 16622
Зарегистрирован: 23 авг 2002, 17:34
Откуда: Москва
Контактная информация:

Сообщение gs » 19 май 2003, 12:52

Это я все говорил про стендбайные кластеры. К параллельным типа Оракла это не относится.

Аватара пользователя
CyberDrake
free-lance moderator
Сообщения: 338
Зарегистрирован: 23 авг 2002, 10:39
Откуда: Санкт-Петербург
Контактная информация:

Сообщение CyberDrake » 20 май 2003, 12:22

Еще небольшое замечание про надежность: большинство кластеров прекрасно выполняют процедуры fail back и fail over только при "тупом" выпадении узла, т.е при выключении питания или ресете. А ежели делать кластеру различные подлости, такие как периодический plug/unplug сетевых разъемов и разъемов подключения к разделяемой системе хранения, то в этом случае все не так уж и просто - зачастую валится ВЕСЬ КЛАСТЕР. Так что перед непосредственным внедрением кластерного софта в "боевую" систему, протестируйте его не один и не два раза на отказоустойчивость.

Sku
Junior member
Сообщения: 4
Зарегистрирован: 16 май 2003, 15:08

Сообщение Sku » 21 май 2003, 11:29

А вот можно добиться ого, чотбы при падении одного узла та информация,которую он обрабатывал, не терялась бы?

Аватара пользователя
CyberDrake
free-lance moderator
Сообщения: 338
Зарегистрирован: 23 авг 2002, 10:39
Откуда: Санкт-Петербург
Контактная информация:

Сообщение CyberDrake » 21 май 2003, 12:40

если над этим крутится софт БД, то потеря информации узлом во время падения компенсируется софтом БД
ежели это просто файловый сервис, то избежать потери информации можно только выставлением тайм-аутов на клиентах, например на кластере Novell при использовании команды ncopy все проходило на ура, а при родном copy-paste из explorer, порой процесс копирования прерывался

Ответить

Вернуться в «Кластеры, Аппаратная часть»