посоветуйте железо для кластера
Модераторы: Trinity admin`s, Free-lance moderator`s
99.9% готовности это говоря проще:
24(часа)*7(дней)*4.5(недели)*(100%-99.9%) = 75 часов простоя в месяц. 99.99% соответвенно 7.5 часов в месяц. Целый рабочий день. Даже на windows такое можно обеспечить с лёгкостью. Если это обычная организация, работающая пн-пт, с 10 до 19, то это ещё больше времени на обслуживание.
Дальше, RHCS не поддерживает двух серверов на одной SCSI-шине.
http://www.redhat.com/docs/manuals/csgf ... uster.html
Так что тебе надо либо 2х портовый рейд-контроллер (тот же eonstor) либо нормальную и цивилиованную систему на FiberChannel. (внешние подключение по scsi - г*вно энивей, огромные толстые провода, вечно пропадающая куда-то терминация и все остальные бонусы двадцатилетнетнего наследия параллельной передачи)
Но, если ты считаешь каждые тысячи, то FC явно в твой бюджет не уложатся: 30 тыс за дисковый массив, 4-6k$ за 4 HBA, по два в каждый сервер и 4 LCLC патчкорда по $50.
iSCSI тоже опция, но там цены пока сравнимы FC. У некоторых вендоров даже дороже, хыхы.
Я тебе советую не возится с кластерами -- хорошо ты всёравно в бюджет не уложишься, а плохой кластер это гораздло лучше чем без кластера вообще. Сломаться может очень интересно.
Возьми один хороший сервер с разумной гарантией, с двумя блоками питания, подключи его к двум разным UPS и 6 внутренними дисками SCSI U320 в RAID10. Такая конфиграция выдержит твои полторы тысячи пользователей с лёгкостью и обеспечит необходимый запас надёжности. Если останутся деньги, то потрать их на хороший стриммер и обучение администраторов на курсах.
24(часа)*7(дней)*4.5(недели)*(100%-99.9%) = 75 часов простоя в месяц. 99.99% соответвенно 7.5 часов в месяц. Целый рабочий день. Даже на windows такое можно обеспечить с лёгкостью. Если это обычная организация, работающая пн-пт, с 10 до 19, то это ещё больше времени на обслуживание.
Дальше, RHCS не поддерживает двух серверов на одной SCSI-шине.
http://www.redhat.com/docs/manuals/csgf ... uster.html
Так что тебе надо либо 2х портовый рейд-контроллер (тот же eonstor) либо нормальную и цивилиованную систему на FiberChannel. (внешние подключение по scsi - г*вно энивей, огромные толстые провода, вечно пропадающая куда-то терминация и все остальные бонусы двадцатилетнетнего наследия параллельной передачи)
Но, если ты считаешь каждые тысячи, то FC явно в твой бюджет не уложатся: 30 тыс за дисковый массив, 4-6k$ за 4 HBA, по два в каждый сервер и 4 LCLC патчкорда по $50.
iSCSI тоже опция, но там цены пока сравнимы FC. У некоторых вендоров даже дороже, хыхы.
Я тебе советую не возится с кластерами -- хорошо ты всёравно в бюджет не уложишься, а плохой кластер это гораздло лучше чем без кластера вообще. Сломаться может очень интересно.
Возьми один хороший сервер с разумной гарантией, с двумя блоками питания, подключи его к двум разным UPS и 6 внутренними дисками SCSI U320 в RAID10. Такая конфиграция выдержит твои полторы тысячи пользователей с лёгкостью и обеспечит необходимый запас надёжности. Если останутся деньги, то потрать их на хороший стриммер и обучение администраторов на курсах.
-
- Junior member
- Сообщения: 16
- Зарегистрирован: 06 дек 2005, 17:11
- Откуда: Protvino
- Контактная информация:
Вот тут мне как-то не совсем понятно: повсюду говорится об улучшении надежности за счет уменьшения единичных точек отказа, а тут получается полный букет таковых.Такая конфиграция выдержит твои полторы тысячи пользователей с лёгкостью и обеспечит необходимый запас надёжности.
Ну дык, Infortrend A08U-C2412-M2, вроде бы как имеет как раз dual SCSI-320, или это не то?Так что тебе надо либо 2х портовый рейд-контроллер (тот же eonstor) либо нормальную и цивилиованную систему на FiberChannel
ps: тут нашел в описании RHCS, что нужны (опционально) переключатели питания - либо аппаратный PCI, либо сетевой. Пошарил по предложениям и ничего такого не нашел. Они у нас водятся вообще, или называются по другому, или в России считаются вообще не нужными? :)
- gs
- Сотрудник Тринити
- Сообщения: 16650
- Зарегистрирован: 23 авг 2002, 17:34
- Откуда: Москва
- Контактная информация:
Если речь идет о массиве с двумя независимыми скази портами, то никакие переключатели питания не нужны - каждый сервер сидит на своем индивидуальном канале и все, что происходит на втором, ему по барабану.
Но мораль сей басни в том, что в кластере точкой отказа является массив. Он конечно надежнее PCI рэйдов в серверах, но уж если сломается, то это кранты. Поэтому чтобы обезопаситься, используются двухконтроллерные массивы. Но это совсем другие дэнги. В общем, если Вы не готовы тратиться на двухконтроллерный массив, то примерно так - или относительно частые поломки обычных серверов с достаточно быстрым временем восстановления или очень редкие, но катастрофические поломки внешнего массива. Правда инфортренды у нас еще ни разу не ломались, но таки все когда-то бывает в первый раз...
Но мораль сей басни в том, что в кластере точкой отказа является массив. Он конечно надежнее PCI рэйдов в серверах, но уж если сломается, то это кранты. Поэтому чтобы обезопаситься, используются двухконтроллерные массивы. Но это совсем другие дэнги. В общем, если Вы не готовы тратиться на двухконтроллерный массив, то примерно так - или относительно частые поломки обычных серверов с достаточно быстрым временем восстановления или очень редкие, но катастрофические поломки внешнего массива. Правда инфортренды у нас еще ни разу не ломались, но таки все когда-то бывает в первый раз...
-
- Junior member
- Сообщения: 16
- Зарегистрирован: 06 дек 2005, 17:11
- Откуда: Protvino
- Контактная информация:
То есть как это по-барабану? В случае "активный/пассивный", когда ведущий сервак повиснет, второй должен его перегрузить или отключить, перенять сервисы на себя. В противном случае данные могут быть искажены.каждый сервер сидит на своем индивидуальном канале и все, что происходит на втором, ему по барабану
Переключатели питания позволяют одной кластерной системе отключить питание другой, до запуска её служб во время переноса. Возможность удаленного отключения/включения питания системы гарантирует сохранение целостности данных при сбой в любых условиях. Рекомендуется при реализации кластеров в производственной среде использовать переключатели питания или сторожевые таймеры. Только в среде разработки (тестовой) допускается использование конфигурации без переключателей питания (тип "Отсутствует"). Обратитесь к разделу Выбор типа переключателя питания за описанием различных типов переключателей питания. Заметьте, в этом разделе понятие "переключатель питания" включает в себя также сторожевые таймеры.
- gs
- Сотрудник Тринити
- Сообщения: 16650
- Зарегистрирован: 23 авг 2002, 17:34
- Откуда: Москва
- Контактная информация:
Сорри, возможно я не о том говорил. Я имел в виду сказевые дела.
Не спец по линуксовому кластеру, но довольно странное требование. По крайней мере микрософтовский кластер прекрасно обходится без подобных прибамбасов. А веритасовский, afaik, вообще умеет переводить на другую ноду приложение, например потерявшее линк к дисковому ресурсу на данной машине.
Возможно это один из способов избежать бардак при потере кластерного интерконнекта - единственное что в голову приходит. Правда его задублировать можно...
Не спец по линуксовому кластеру, но довольно странное требование. По крайней мере микрософтовский кластер прекрасно обходится без подобных прибамбасов. А веритасовский, afaik, вообще умеет переводить на другую ноду приложение, например потерявшее линк к дисковому ресурсу на данной машине.
Возможно это один из способов избежать бардак при потере кластерного интерконнекта - единственное что в голову приходит. Правда его задублировать можно...
-
- Junior member
- Сообщения: 16
- Зарегистрирован: 06 дек 2005, 17:11
- Откуда: Protvino
- Контактная информация:
В RHCS тоже предлагают использовать HeartBeat - один по сети, а второй по нуль-модемному соединению.
А переключатели питания, как я понял, используются когда один из серверов перестал сообщать "я жив", и тогда, оставшийся в живых сервер, должен отрубить "мертвеца" от питания и запустить на себе сервисы, при этом используя данные на внешнем хранилище. Идея такая.
А переключатели питания, как я понял, используются когда один из серверов перестал сообщать "я жив", и тогда, оставшийся в живых сервер, должен отрубить "мертвеца" от питания и запустить на себе сервисы, при этом используя данные на внешнем хранилище. Идея такая.
В моём предложении все самые ненадёжные элементы -- жёсткие диски, электропитание и охлаждение -- продублированы и заменяются на ходу.Вот тут мне как-то не совсем понятно: повсюду говорится об улучшении надежности за счет уменьшения единичных точек отказа, а тут получается полный букет таковых.
Вообще, считается (и моя практика это подтверждает) что доступность страдает в основном от трёх вещей:
1. Ошибки администраторов.
2. Отказ электропитания
3. Заканчивается место на файловой системе
п.1 решается тренингом персонала, подготовкой документации о действии в сложных ситуациях, упрощением системы и мониторингом.
п.2 это резервирование UPS и опять же мониторинг.
п.3 это снова мониторинг
В общем, если систему не оставлять без присмотра, то большинство аспектов проблемы доступности можно устранить до звука грома. А историями про то как адмиистраторы проспали выход из строя диска в RAID/переключения кластера/отказ одного из CPU/etc, а потом всё навернулось Интернет полон.
Это не то, я имел ввиду двухконтроллерные массивы (два ночи, хохо). Отказ контроллера у тебя приводит к отказу инсталляции. А контроллер этот в общем-то обычный фон-неймановский компьютер, с процессором, памятью, ПО и всем таким. Для меня совершенно не очивидно что его уровень доступности будет выше.Ну дык, Infortrend A08U-C2412-M2, вроде бы как имеет как раз dual SCSI-320, или это не то?
Системы среднего уровня FibreChannel устроены по другому: там два контроллера, жёсткие диски и серверы подключены по двум путям к обоим контроллерам. То есть, в массиве нету единой точки отказа, кроме коробки с пассивной соединительной панелю.
Нужны, если ты используешь один диск на двух серверах. Тогдаps: тут нашел в описании RHCS, что нужны (опционально) переключатели питания
при потере отклика резервный узел отключает основной от разделяемой системы хранения. Это надо чтобы не испортить данные на диске. Называется fencing, STONITH. Если вдруг оба узла становятся активными, такое в иностранной литературе называется split-brain.
Сетевые выключатели -- это один из вариантов. К ним приходишь по snmp (или CLI/HTTP) и говоришь "выключить розетку номер N" и он выключает. В России видел APC, p/n AP7920, сам не использовал. Я в своих инсталляциях отключал порт на FC-свиче или менял правила LUN Masking на массиве.
Если у тебя совсем нет денег (в рамках кластеризации это значит нету полста тасяч $$), то посмотри на Linux'овый drbd:
http://gazette.lrn.ru/rus/articles/clusters.html
- gs
- Сотрудник Тринити
- Сообщения: 16650
- Зарегистрирован: 23 авг 2002, 17:34
- Откуда: Москва
- Контактная информация:
На самом деле Инфортрендовые массивы, даже одноконтроллерные, имхо надежнее и стабильнее PCI рэйдов - почему, не знаю - скорее всего просто из-за более серьезных требований при проектировании-производстве. У нас и по тем и по тем статистика весьма нехилая. Но конечно о серьезной отказоустойчивости можно говорить только в случае двухконтроллерных железок - ну да я уже писал...
Кто сейчас на конференции
Сейчас этот форум просматривают: нет зарегистрированных пользователей и 8 гостей