вопрос по DS400
Модераторы: Trinity admin`s, Free-lance moderator`s
вопрос по DS400
Добрый день!
Для начала конфигурация: Есть cluster на 2х IBMx346 with HBA QLogic2310 + DS400 (3xHDD Raid5, 2LUN) Win2k3 Ent. Наблюдается следующие: вырубаем питание 1-й ноды и видим что вторая не подымается, пишит она при этом следующие:
The disk associated with cluster disk resource 'Disk Q:' could not be found. The expected signature of the disk was BA3C5395. If the disk was removed from the server cluster, the resource should be deleted. If the disk was replaced, the resource must be deleted and created again in order to bring the disk online. If the disk has not been removed or replaced, it may be inaccessible at this time because it is reserved by another server cluster node.
Ситуацию можно поправить если не включая ноду1 рестартнуть RAID (бред, но что делать) тогда нода2 встает.
После прочтения http://support.microsoft.com/kb/309186/ сделал вывод, что копать надо в направлении DS400
Собственно вопросы:
1. Можно в DS400 ли посмотреть кто монополизировал доступ к LUN-у, если можно то где? (и не бред ли это )
2. Если предположить что 2-я нода вдруг потеряла private сеть (с 1-й все ок), решила завладеть диском то .... ? ей будет грубо отказано ?
Для начала конфигурация: Есть cluster на 2х IBMx346 with HBA QLogic2310 + DS400 (3xHDD Raid5, 2LUN) Win2k3 Ent. Наблюдается следующие: вырубаем питание 1-й ноды и видим что вторая не подымается, пишит она при этом следующие:
The disk associated with cluster disk resource 'Disk Q:' could not be found. The expected signature of the disk was BA3C5395. If the disk was removed from the server cluster, the resource should be deleted. If the disk was replaced, the resource must be deleted and created again in order to bring the disk online. If the disk has not been removed or replaced, it may be inaccessible at this time because it is reserved by another server cluster node.
Ситуацию можно поправить если не включая ноду1 рестартнуть RAID (бред, но что делать) тогда нода2 встает.
После прочтения http://support.microsoft.com/kb/309186/ сделал вывод, что копать надо в направлении DS400
Собственно вопросы:
1. Можно в DS400 ли посмотреть кто монополизировал доступ к LUN-у, если можно то где? (и не бред ли это )
2. Если предположить что 2-я нода вдруг потеряла private сеть (с 1-й все ок), решила завладеть диском то .... ? ей будет грубо отказано ?
- a_shats
- Advanced member
- Сообщения: 5010
- Зарегистрирован: 27 авг 2002, 10:55
- Откуда: Москва
- Контактная информация:
Нет, не бред - MSCS как раз захватывает кворум на уровне команд протокола SCSI (scsi_reservation), грубо говоря. И это нормально. Ненормально, что упавшая нода не отдает кворум - тут надо рыться в настройках MSCS.
1. Посмотреть - не выйдет Команды, полученные по SCSI, не кажет никакой массив.
2. Потеря private сети - смерть кластеру По определению.
1. Посмотреть - не выйдет Команды, полученные по SCSI, не кажет никакой массив.
2. Потеря private сети - смерть кластеру По определению.
[quote="a_shats"] Ненормально, что упавшая нода не отдает кворум - тут надо рыться в настройках MSCS.
А как она может отдать кворум, если ей рубанули питание? Скорее это РАЙД должен позволить второй ноде поднять кворум если линк с первой утерян? Поправте если не прав, но получается, что РАЙД решает отдать ресурс или нет?
А как она может отдать кворум, если ей рубанули питание? Скорее это РАЙД должен позволить второй ноде поднять кворум если линк с первой утерян? Поправте если не прав, но получается, что РАЙД решает отдать ресурс или нет?
Самое непонятное, что если 1-й ноде сделать shutdown то, кворум замечательно переезжает на 2-у! т.е. 1-я успевает послать release, вторая шлет reserve и забирает кворум? так?
А когда выдираешь питание 1-й получается что она не успевает послать release а команда SCSI_Reset со второй ноды по какой-то причине не проходит? А когда RAID перегружается то, все Reservation сбрасываются и команда SCSI_Reserve проходит?
Так почему может не проходить SCSI_Reset (а может она не шлется? можно ли это проверить?)и кто за это отвечает RAID, HBA, driver, MS?
А когда выдираешь питание 1-й получается что она не успевает послать release а команда SCSI_Reset со второй ноды по какой-то причине не проходит? А когда RAID перегружается то, все Reservation сбрасываются и команда SCSI_Reserve проходит?
Так почему может не проходить SCSI_Reset (а может она не шлется? можно ли это проверить?)и кто за это отвечает RAID, HBA, driver, MS?
Добрый день.
Аналогичная ситуация сложилась и на "соседнем" кластере, конфигурация идентична за исключением серверов (вместо х346, супермикро). После лишения первой ноды питания вторая пишет:
Event Type: Error
Event Source: Service Control Manager
Event Category: None
Event ID: 7031
Description:
The Cluster Service service terminated unexpectedly. It has done this 1 time(s). The following corrective action will be taken in 60000 milliseconds: Restart the service.
Event Type: Error
Event Source: ClusSvc
Event Category: Startup/Shutdown
Event ID: 1073
Description:
Cluster service was halted to prevent an inconsistency within the server cluster. The error code was 5892.
Event Type: Error
Event Source: ClusSvc
Event Category: Membership Mgr
Event ID: 1177
Description:
Cluster service is shutting down because the membership engine failed to arbitrate for the quorum device. This could be due to the loss of network connectivity with the current quorum owner. Check your physical network infrastructure to ensure that communication between this node and all other nodes in the server cluster is intact.
Причем если перезапустить RAID, то cluster service замечательно запускается вручную.
Это вообще должно работать? Повторяемость 100% на всех ТРЕХ cluster..... Что еще можно поменять? HBA? Win2003 w/o sp1? RAID? admina?
Аналогичная ситуация сложилась и на "соседнем" кластере, конфигурация идентична за исключением серверов (вместо х346, супермикро). После лишения первой ноды питания вторая пишет:
Event Type: Error
Event Source: Service Control Manager
Event Category: None
Event ID: 7031
Description:
The Cluster Service service terminated unexpectedly. It has done this 1 time(s). The following corrective action will be taken in 60000 milliseconds: Restart the service.
Event Type: Error
Event Source: ClusSvc
Event Category: Startup/Shutdown
Event ID: 1073
Description:
Cluster service was halted to prevent an inconsistency within the server cluster. The error code was 5892.
Event Type: Error
Event Source: ClusSvc
Event Category: Membership Mgr
Event ID: 1177
Description:
Cluster service is shutting down because the membership engine failed to arbitrate for the quorum device. This could be due to the loss of network connectivity with the current quorum owner. Check your physical network infrastructure to ensure that communication between this node and all other nodes in the server cluster is intact.
Причем если перезапустить RAID, то cluster service замечательно запускается вручную.
Это вообще должно работать? Повторяемость 100% на всех ТРЕХ cluster..... Что еще можно поменять? HBA? Win2003 w/o sp1? RAID? admina?
Кто сейчас на конференции
Сейчас этот форум просматривают: нет зарегистрированных пользователей и 8 гостей