вопрос по DS400

Технологии постороения кластеров (вычислительных и отказоустойчивых), настройка терминал серверов,
SAN , NAS, FibreChannel, Infiniband

Модераторы: Trinity admin`s, Free-lance moderator`s

Ответить
Bush
Advanced member
Сообщения: 71
Зарегистрирован: 20 янв 2005, 10:46
Откуда: Санкт Петербург

вопрос по DS400

Сообщение Bush » 28 июл 2005, 13:47

Добрый день!
Для начала конфигурация: Есть cluster на 2х IBMx346 with HBA QLogic2310 + DS400 (3xHDD Raid5, 2LUN) Win2k3 Ent. Наблюдается следующие: вырубаем питание 1-й ноды и видим что вторая не подымается, пишит она при этом следующие:

The disk associated with cluster disk resource 'Disk Q:' could not be found. The expected signature of the disk was BA3C5395. If the disk was removed from the server cluster, the resource should be deleted. If the disk was replaced, the resource must be deleted and created again in order to bring the disk online. If the disk has not been removed or replaced, it may be inaccessible at this time because it is reserved by another server cluster node.

Ситуацию можно поправить если не включая ноду1 рестартнуть RAID (бред, но что делать) тогда нода2 встает.
После прочтения http://support.microsoft.com/kb/309186/ сделал вывод, что копать надо в направлении DS400 :)
Собственно вопросы:
1. Можно в DS400 ли посмотреть кто монополизировал доступ к LUN-у, если можно то где? (и не бред ли это :) )
2. Если предположить что 2-я нода вдруг потеряла private сеть (с 1-й все ок), решила завладеть диском то .... ? ей будет грубо отказано ?

Аватара пользователя
a_shats
Advanced member
Сообщения: 5010
Зарегистрирован: 27 авг 2002, 10:55
Откуда: Москва
Контактная информация:

Сообщение a_shats » 28 июл 2005, 15:16

Нет, не бред - MSCS как раз захватывает кворум на уровне команд протокола SCSI (scsi_reservation), грубо говоря. И это нормально. Ненормально, что упавшая нода не отдает кворум - тут надо рыться в настройках MSCS.
1. Посмотреть - не выйдет ;) Команды, полученные по SCSI, не кажет никакой массив. ;)
2. Потеря private сети - смерть кластеру ;) По определению.

Bush
Advanced member
Сообщения: 71
Зарегистрирован: 20 янв 2005, 10:46
Откуда: Санкт Петербург

Сообщение Bush » 28 июл 2005, 15:51

[quote="a_shats"] Ненормально, что упавшая нода не отдает кворум - тут надо рыться в настройках MSCS.

А как она может отдать кворум, если ей рубанули питание? Скорее это РАЙД должен позволить второй ноде поднять кворум если линк с первой утерян? Поправте если не прав, но получается, что РАЙД решает отдать ресурс или нет?

Аватара пользователя
a_shats
Advanced member
Сообщения: 5010
Зарегистрирован: 27 авг 2002, 10:55
Откуда: Москва
Контактная информация:

Сообщение a_shats » 28 июл 2005, 15:53

RAID никак не может решать, может он освободить том, захваченный по scsi_reservation, или нет ;) Он SCSI Target, он только выполняет поданные ему Initiator'ами команды - и только ;)

Bush
Advanced member
Сообщения: 71
Зарегистрирован: 20 янв 2005, 10:46
Откуда: Санкт Петербург

Сообщение Bush » 28 июл 2005, 19:14

Самое непонятное, что если 1-й ноде сделать shutdown то, кворум замечательно переезжает на 2-у! т.е. 1-я успевает послать release, вторая шлет reserve и забирает кворум? так?

А когда выдираешь питание 1-й получается что она не успевает послать release а команда SCSI_Reset со второй ноды по какой-то причине не проходит? А когда RAID перегружается то, все Reservation сбрасываются и команда SCSI_Reserve проходит?

Так почему может не проходить SCSI_Reset (а может она не шлется? можно ли это проверить?)и кто за это отвечает :) RAID, HBA, driver, MS?

Аватара пользователя
gs
Сотрудник Тринити
Сотрудник Тринити
Сообщения: 16650
Зарегистрирован: 23 авг 2002, 17:34
Откуда: Москва
Контактная информация:

Сообщение gs » 28 июл 2005, 19:22

Кластер сервис за это отвечает. Но вот куда копать - непонятно :(

Bush
Advanced member
Сообщения: 71
Зарегистрирован: 20 янв 2005, 10:46
Откуда: Санкт Петербург

Сообщение Bush » 02 авг 2005, 12:57

Добрый день.
Аналогичная ситуация сложилась и на "соседнем" кластере, конфигурация идентична за исключением серверов (вместо х346, супермикро). После лишения первой ноды питания вторая пишет:

Event Type: Error
Event Source: Service Control Manager
Event Category: None
Event ID: 7031
Description:
The Cluster Service service terminated unexpectedly.  It has done this 1 time(s).  The following corrective action will be taken in 60000 milliseconds: Restart the service.

Event Type: Error
Event Source: ClusSvc
Event Category: Startup/Shutdown
Event ID: 1073
Description:
Cluster service was halted to prevent an inconsistency within the server cluster. The error code was 5892.

Event Type: Error
Event Source: ClusSvc
Event Category: Membership Mgr
Event ID: 1177
Description:
Cluster service is shutting down because the membership engine failed to arbitrate for the quorum device. This could be due to the loss of network connectivity with the current quorum owner.  Check your physical network infrastructure to ensure that communication between this node and all other nodes in the server cluster is intact.

Причем если перезапустить RAID, то cluster service замечательно запускается вручную.
Это вообще должно работать? Повторяемость 100% на всех ТРЕХ cluster..... Что еще можно поменять? HBA? Win2003 w/o sp1? RAID? admina?

Аватара пользователя
gs
Сотрудник Тринити
Сотрудник Тринити
Сообщения: 16650
Зарегистрирован: 23 авг 2002, 17:34
Откуда: Москва
Контактная информация:

Сообщение gs » 02 авг 2005, 13:07

На 99% это проблема приватной сети или конфигурации кластер сервиса. Но не видя тела трудно что-то вразумительное сказать.

Bush
Advanced member
Сообщения: 71
Зарегистрирован: 20 янв 2005, 10:46
Откуда: Санкт Петербург

Сообщение Bush » 02 авг 2005, 17:54

А Microsoft Distributed Transaction Coordinator обязательно должен присутствовать в cluster resource?
Приватную сеть (10Мб Half Duplex) и кросиком делали и через хабчик..... все по мануалам MS, что там еще можно настроить?
На экскурсии к телу за отдельный интерес ездите?

Bush
Advanced member
Сообщения: 71
Зарегистрирован: 20 янв 2005, 10:46
Откуда: Санкт Петербург

Сообщение Bush » 17 авг 2005, 17:26

Дело можно закрывать. Собственно для HBA есть два типа дров STOR и SCSI, т.е. по первости можно было ошибится 50 на 50. Что и было сделанно :)
Неуже ли никто так не ошибался?!

Ответить

Вернуться в «Кластеры, Аппаратная часть»

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и 8 гостей