Сбои на сервере

На доскональное знание данной темы, не может претендовать, пожалуй ни один спец, из ныне живущих на земле. ;-)
Так поможем друг другу.

Модераторы: Trinity admin`s, Free-lance moderator`s

Ответить
kiotr
Power member
Сообщения: 35
Зарегистрирован: 31 янв 2005, 10:19
Откуда: Perm

Сбои на сервере

Сообщение kiotr » 14 авг 2006, 15:41

Уважаемые эксперты!
У меня сервер HP ML570G3 (1 контроллер SCSI)  2-а аппаратных raid (raid1 + raid5), все крутится под Redhat8. Сервер произвольно перезапускается 1 раз в неделю, в логах ошибок нет или я плохо смотрел. Администратору в почту посылается письмо с ошибкой

Subject: HP Insight Management Agents Trap Alarm
Trap-ID=6025
An 'ASR Recover Complete' trap signifies that the system has been shutdown by the ASR feature and has just become operational again

Сервер вроде стал так себя вести после подключения HP StrgWks SCSI 1U Rack и raid5

Как отследить и найти причину перезапуска сервера?

спасибо

Аватара пользователя
apelsin
Advanced member
Сообщения: 470
Зарегистрирован: 09 окт 2004, 12:32

Сообщение apelsin » 14 авг 2006, 18:58

вам надо воспользоватся утилитой cpqimlview или hpimlview и посмотреть лог ILO контроллера. По коду ошибки из лога скорее всего можно будет понять вчем дело.

kiotr
Power member
Сообщения: 35
Зарегистрирован: 31 янв 2005, 10:19
Откуда: Perm

Сообщение kiotr » 15 авг 2006, 14:56

Спасибо
воспользовался утилитой cpqimlview
имеется 2-е ошибки

1) ASR Lockup Detected: (casm device driver alerted)
2) ASR Detected by system ROM

А где посмотреть коды ошибок их в этом логе нет

Аватара пользователя
apelsin
Advanced member
Сообщения: 470
Зарегистрирован: 09 окт 2004, 12:32

Сообщение apelsin » 15 авг 2006, 16:57

hpasm man page писал(а): The HP ProLiant Automatic Server Recovery (ASR) process will log a mes-
      sage  that  the ASR  has  been initated, attempt to force normal Linux
      shutdown and if the Linux shutdown is successfull, the cpqasm.o driver
      will  log a message to the IML indicating a good shutdown.  The HP Pro-
      Liant ROM will check a status bit on the ASM hardware to see if an  ASR
      event took place and will log a message to the IML as such.

      The  first  message  to be  logged  to the  IML  will be: "ASR Lockup
      Detected: (casm device driver alerted)". This message  indicates  that
      the  NMI handler  code of the cpqasm.o driver was able to execute.  If
      this message is not present but the "ASR Detected by System  ROM"  mes-
      sage IS present, this is an indication that the NMI handler code of the
      cpqasm.o driver was not able to execute. The two primary  events  that
      prevent the cpqasm.o NMI handler from executing are:

      *      An uncorrectable ("double-bit") ECC memory error has occurred in
     the memory area occupied by the cpqasm.o driver. You  can  try
     moving  the  memory  around to different slots to see if you can
     isolate the issue to a particular DIMM.

      *      A critical PCI or Processor error has occurred. This could  stop
     either  memory fetches or processor instructions from being exe-
     cuted.

      In most cases when only the "ASR Detected by  System  ROM"  message  is
      logged  to  the IML, the problem is usually an uncorrectable ECC memory
      error.  If both messages are logged to the  IML, this  is  usually  an
      indication  of  a  software  (e.g. Linux Kernel issue) lockup.  The ASR
      event is always a reaction to another event that has caused  the Linux
      scheduler  to stop executing.  Using tools such as "sar" in conjunction
      with enabling the CASM_NMI_DEBUG code can assist in making a determina-
      tion of what may be creating the conditions to generate an ASR event.

посмотрите еще messages  и  dmesg  на предмет  ообщений об ошибках и еще  полезно поднять netconsole чтоб организовать лог на другую машину по сети.

так тяжело что-либо сказать, но может быть память или глюк со скази картой

в любом случае RH8  не поддерживается аж с 2004 года ... .  вам [давно] надо  апгрейдить  систему и после апгрейда уже смотреть.

Ответить

Вернуться в «Серверы - ПО, Unix подобные системы»

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и 17 гостей