Проблема с MSA 1000

Технологии постороения кластеров (вычислительных и отказоустойчивых), настройка терминал серверов,
SAN , NAS, FibreChannel, Infiniband

Модераторы: Trinity admin`s, Free-lance moderator`s

Ответить
Аватара пользователя
Bighand
Advanced member
Сообщения: 179
Зарегистрирован: 21 фев 2005, 15:08
Откуда: г. Клин
Контактная информация:

Проблема с MSA 1000

Сообщение Bighand » 26 сен 2006, 11:17

железо:
стоит кластер на двух HP DL380 (операционка Windows 2003 Server)
на этом кластере поднята БД Oracle 9i + RAC (Real Application Clusters)
база от него (сами файлы) лежат на MSA 1000 (14 винтов, работает только 1 контроллер), который подключен через HP SAN Switch 2/8.

проблема:
в одни прекрасный день..винда выбает ошибку

Код: Выделить всё

Доступ к устройству \Device\Harddisk0 пока невозможен. 
oracle выдает ошибку:

Код: Выделить всё

Не найдено описание для события с кодом ( 0 ) в источнике ( OracleCMService9i ). Возможно, на локальном компьютере нет нужных данных в реестре или файлов DLL сообщений для отображения сообщений удаленного компьютера. Попробуйте использовать ключ /AUXSOURCE= для получения этого описания, - дополнительные сведения об этом содержатся в справке. В записи события содержится следующая информация: Exit:  requested with status (1) from tid(1692) at file oem.c : 470.
т.е я так понимаю, что по каким то причинам была потеряна связь с массивом..

в сообщениях на MSA 1000 присутствуют ошибки:

Код: Выделить всё

406 STORAGE BOX
#<n> OVERHEATING
т.е. перегрев..

вопрос: где еще можно посмотреть логи, чтобы лучше понять ситуацию?

P.S. с SAN не работал...опыта нету совсем..

OlegP@
Advanced member
Сообщения: 184
Зарегистрирован: 19 май 2003, 20:26
Откуда: Челябинск

Сообщение OlegP@ » 27 сен 2006, 07:14

вопрос: где еще можно посмотреть логи, чтобы лучше понять ситуацию?
Смотреть надо везде. Но проще сказать, что внутри MSA1000 их нет.
Можно скачать документ с hp.com по расшифровке сообщений. Там будет несколько доп. инофрмация (описание  ошибки).

Перегрев-то реально был?

Bighand
с SAN не работал...опыта нету совсем..
А как же вы кластер эксплуатируете?
Я к примеру свои хорошо знаю, но все равно без контракта на поддержку никак. (Вернее можно пока все работает, а вот когда перестает нормально работать ...).

Аватара пользователя
Bighand
Advanced member
Сообщения: 179
Зарегистрирован: 21 фев 2005, 15:08
Откуда: г. Клин
Контактная информация:

Сообщение Bighand » 27 сен 2006, 09:50

OlegP@ писал(а):Смотреть надо везде. Но проще сказать, что внутри MSA1000 их нет.
Можно скачать документ с hp.com по расшифровке сообщений. Там будет несколько доп. инофрмация (описание  ошибки).
расшифровка сообщений MSA1000 есть..полный комплект документации имеется..(см. вложение)
а есть логи в SAN switch и как их от туда достать?
на массиве орокловая файловая система Oracle CFS..у Оракла есть лог от этой фаловой системы?
OlegP@ писал(а):Перегрев-то реально был?
трудно сказать..т.к. 406 и 405 сообщений несколько и чередуются между собой..а все это железо территориально находиться далеко..
OlegP@ писал(а):А как же вы кластер эксплуатируете?
партия сказала - "НАДО!"..вот и приходиться  :?
Вложения
расшифровка ошибки 405
расшифровка ошибки 405
2.JPG (12.94 КБ) 6970 просмотров
расшифровка ошибки 406
расшифровка ошибки 406
1.JPG (42.28 КБ) 6960 просмотров

OlegP@
Advanced member
Сообщения: 184
Зарегистрирован: 19 май 2003, 20:26
Откуда: Челябинск

Сообщение OlegP@ » 27 сен 2006, 21:28

Bighand
есть логи в SAN switch и как их от туда достать?
Есть. Но к проблемам MSA1000 они не имеют отношения.

Аватара пользователя
Bighand
Advanced member
Сообщения: 179
Зарегистрирован: 21 фев 2005, 15:08
Откуда: г. Клин
Контактная информация:

Сообщение Bighand » 28 сен 2006, 16:41

не факт, что была проблема именно с MSA1000...была потеряна связь с массивом..и ошибки в свиче тоже могли быть этому причиной..

подскажите, пожалуйста, как посмотреть логи в SAN switch..

Ответить

Вернуться в «Кластеры, Аппаратная часть»

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и 17 гостей