Infortrend F16F R2J2 Power Supply Failure

Технологии постороения кластеров (вычислительных и отказоустойчивых), настройка терминал серверов,
SAN , NAS, FibreChannel, Infiniband

Модераторы: Trinity admin`s, Free-lance moderator`s

Ответить
Аватара пользователя
art
free-lance moderator
Сообщения: 653
Зарегистрирован: 15 май 2003, 11:25
Откуда: SPb

Infortrend F16F R2J2 Power Supply Failure

Сообщение art » 17 июн 2008, 13:23

БП диагностирует ошибку.
Можно (нужно ли?) вынуть-вставить его находу для проверки, реальная ли это проблема?

Аватара пользователя
gs
Сотрудник Тринити
Сотрудник Тринити
Сообщения: 16650
Зарегистрирован: 23 авг 2002, 17:34
Откуда: Москва
Контактная информация:

Сообщение gs » 17 июн 2008, 16:56

А что мешает это сделать?

Аватара пользователя
art
free-lance moderator
Сообщения: 653
Зарегистрирован: 15 май 2003, 11:25
Откуда: SPb

Сообщение art » 17 июн 2008, 17:12

gs писал(а):А что мешает это сделать?
робость -)
Я знаю, что отказавший компонент можно вынуть и заменить на новый,
но не уверен, что можно вставлять потенциально мертвый.

Аватара пользователя
gs
Сотрудник Тринити
Сотрудник Тринити
Сообщения: 16650
Зарегистрирован: 23 авг 2002, 17:34
Откуда: Москва
Контактная информация:

Сообщение gs » 17 июн 2008, 17:17

Ну если он там уже стоит и ничего еще не умерло :)
Конечно теоретический риск есть, но...

Если железка наша, Вы просто звякните нашим питерским, разберутся...

Аватара пользователя
CyberDrake
free-lance moderator
Сообщения: 338
Зарегистрирован: 23 авг 2002, 10:39
Откуда: Санкт-Петербург
Контактная информация:

Сообщение CyberDrake » 17 июн 2008, 17:44

уже в процессе

Аватара пользователя
art
free-lance moderator
Сообщения: 653
Зарегистрирован: 15 май 2003, 11:25
Откуда: SPb

Сообщение art » 20 июн 2008, 14:13

продолжение.
через два дня возникла такая же ошибка на втором БП ( UPS в другой фазе) и дисковая полка отвалилась.
После физического выключения обоих БП и вкл. обратно, полка определили оба БП как исправные. LD, конечно же отвалился.

К сожалению, Infortrend бывает довольно неподатлив на online операции: иногда отказывается без перезагрузки видеть вставленые HBA или диски, возвращенные место. Пришлось перегружать контроллер, после чего все  встало на место.
Справедливости ради скажу, что у меня не последняя версия FW.
Когда я жаловался на неподхват HBA, тех. поддержка Infortrenfd советовала обновиться.

Спасибо Cyberdrake за поддержку.

Аватара пользователя
art
free-lance moderator
Сообщения: 653
Зарегистрирован: 15 май 2003, 11:25
Откуда: SPb

Сообщение art » 20 июн 2008, 14:42

Протокол событий:
====
1й день - выход из строя Power Supply 0 на полке F16F-R2J2
запись в лога

Код: Выделить всё

│SES(C4 I8)Power Supply 0 ALERT:Failure Detected                              
Если зайти в SES Device - > Power Supply -> Element 0,
то пишет вот такое:

Код: Выделить всё

Status      :Critical                                                    │
 │ │Information :Failure Detected                                            │
 │ │             DC Failure DetectedDC Failed                                │
 │ │             Not Providing power    
====
в тот же день БП был выдернут и вставлен обратно. Контроллер уверенно сообщал ту же ошибку. БП был выключен (swith off ), но шнур питания вставлен.
====
3-й день. та же ошибка возникла в логах, полка обесточилась, поэтому увидеть SES диагностику было нельзя.
====
полка обесточена, затем включена обратно. Оба БП показываеют исправную работу, SES статусы OK
  • В общем списке физ. дисков присутствует все диски полки в нейтральном состоянии FRMT DRV (т.е. отформатирован и неиспользуется)
    LD   в состоянии FAIL, в списке дисков 16 из 16-ти в состоянии FAIL.
====
По совету Cyberdrake все диски вынуты по одиночке
  • В общем списке физ. дисков  все диски полки в нейтральном состоянии MISSING
    LD   в состоянии FAIL, в списке дисков 14 из 16-ти в состоянии MISSING, 2 диска в состоянии  FAIL
Затем вставлены все по очереди.
  • В общем списке физ. дисков  все диски полки в нейтральном состоянии FRMT DRV
    LD   в состоянии FAIL, в списке дисков 14 из 16-ти в состоянии FAIL, 2 диска в состоянии  BAD
====
Контроллер был перезагружен, в диски в полке подвытащены.
  • LD пропал из списка
Диски вернули на место, они появились в общем списке в состоянии FRMT DRV, LD не был обнаружен.
====
Диски в полку были вставлены вставлены, затем контролер еще раз перезагружен
  • LD был обнаружен в состоянии GOOD
===счастливый конец===

Мои выводы
(могут быть ошибочными и отличаться от мнения сотрудников Тринити и Infortrend)

- проблема инициирована скрытой неисправностью БП или проблемой питания. Вероятно - и то и другой вместе.
- не следовало пытаться повторно включать потенциально неисправный  БП (надо было либо оставить его выкл. до перезагрузки, либо заменить на другой)
- возникновение любых ошибок (даже софтовых) лучше при первой возможности лечить заменой блока и, если софтовая проблема не устраняется  - перезагрузкой.
- ЗИП в сейфе - наш лучший друг.

Аватара пользователя
art
free-lance moderator
Сообщения: 653
Зарегистрирован: 15 май 2003, 11:25
Откуда: SPb

Продолжение 2

Сообщение art » 23 июн 2008, 10:42

через еще двое суток второй БП той же полки выдал ту же самую ошибку:

Код: Выделить всё

────────────────────────────────────────────────────────────────────────┐
 │ │Status      :Critical                                                    │
 │ │Information :Failure Detected                                            │
 │ │             DC Failure DetectedDC Failed                                │
 │ │             Not Providing power 
Сейчас снова работаем на 1 БП.

Замечу, что этот БП подключен к другому UPS, запитанному от другой фазы.
Есть подозрение, дело в самом JBOD: он выдает ошибки мониторинга и отсреливает нормально работающие устройства.

Ответить

Вернуться в «Кластеры, Аппаратная часть»

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и 36 гостей