Need help. Сервер виснет каждый день.

У вас сложности? Наши специалисты постараются помочь вам. Если вы сами сталкивались с похожими проблемами - поделитесь опытом.

Модераторы: Trinity admin`s, Free-lance moderator`s

Ответить
hiot
Junior member
Сообщения: 14
Зарегистрирован: 03 янв 2006, 14:24

Need help. Сервер виснет каждый день.

Сообщение hiot » 03 янв 2006, 14:33

Только установил новый сервер на платформе Intel SR1425 BK1. Сразу начал зависать раз в день, причем в случайное время. В логах ничего по этому поводу нет, как будто просто питание обрубаеться. В датацентре говорят, что при подключении клавиатуры и монитора черный экран, на клавиатуру не реагирует. Помогает только кнопка reset. ОС CentOS - полный аналог Enterprise Linux. Помогите советом, горю. Сервер уже введен в эксплуатацию.

Аватара пользователя
apelsin
Advanced member
Сообщения: 470
Зарегистрирован: 09 окт 2004, 12:32

Сообщение apelsin » 06 янв 2006, 11:10

похожие зависания наблюдаются на *никсах когда ОС не может получить доступ к  /  (корневому каталогу) файловой системы.  Вызвано может быть кучей вещей начиная контактов в scsi кабелях, терминацией и кончая перегревом дисков/хост-адаптера.  

Это все предположения, чтоб  узнать точнее надо смотреть логи, для этого надо настроить syslog чтоб все копировалось на другую машину по сети.
(как это сделать см. в syslog.conf и  man syslog.conf ) В описаной выше ситуации когда машина виснет в лога ничего нет потому как доступ к файловой пропадает и соответственно записать ничего в лог невозможно.

Ortin
Junior member
Сообщения: 3
Зарегистрирован: 08 янв 2006, 22:41

Сообщение Ortin » 08 янв 2006, 22:55

Была такая проблема, Low level format   :D  + установка оси заново помогло

hiot
Junior member
Сообщения: 14
Зарегистрирован: 03 янв 2006, 14:24

Сообщение hiot » 11 янв 2006, 11:29

apelsin писал(а):похожие зависания наблюдаются на *никсах когда ОС не может получить доступ к  /  (корневому каталогу) файловой системы.  Вызвано может быть кучей вещей начиная контактов в scsi кабелях, терминацией и кончая перегревом дисков/хост-адаптера.  

Это все предположения, чтоб  узнать точнее надо смотреть логи, для этого надо настроить syslog чтоб все копировалось на другую машину по сети.
(как это сделать см. в syslog.conf и  man syslog.conf ) В описаной выше ситуации когда машина виснет в лога ничего нет потому как доступ к файловой пропадает и соответственно записать ничего в лог невозможно.
Попробывал зеркалировать логи ну другой машине, в журнале тоже самое. Т.е. нет никаких ошибок, работает, работает, потом лог перестает писаться и перезагрузка.

Аватара пользователя
apelsin
Advanced member
Сообщения: 470
Зарегистрирован: 09 окт 2004, 12:32

Сообщение apelsin » 11 янв 2006, 12:45

если в логах и консоли (на подключенном мониторе то есть) ничего не наблюдается тогда проблемы с дисковой на 98% можно исключить из списка.

Проверьте такую вещь:  стартует-ли сервер атоматически после сбоя по питанию?  (может сервер не виснет а просто не стартует автоматически )

Если проблемы с питанием/БП исключить, то остается память или температура как наиболее вероятные причины.

Можете узнать какая там общая температура в помещении где находится ваш сервер?

пс: а средства удаленного мониторинга у сервера есть,  вроде IMPI или LightsOut контроллера?

hiot
Junior member
Сообщения: 14
Зарегистрирован: 03 янв 2006, 14:24

Сообщение hiot » 11 янв 2006, 13:10

Я евстроил watchdog в ipmi, он перезагружаеться после зависания. Раньше перезагружали сотрудники дата центра кнопкой reset, т.к. на клавиатуру он не реагировал.
С температурой в дата центре я думаю проблемм нет, там стоят кондиционеры.
Вот вырезка из ipmi лога со странностью:

Код: Выделить всё

04/01/2006 03:57:31 PM  	 Подчиненный адрес IPMB  	 Вентилятор  	Не установлено:System Fan 5B:Верхний критический - повышается
04/01/2006 03:57:20 PM 	 Подчиненный адрес IPMB 	 Вентилятор 	System Fan 5B:Верхний критический - повышается
04/01/2006 03:57:20 PM 	 Подчиненный адрес IPMB 	 Вентилятор 	System Fan 5B:Верхний не критический - повышается
04/01/2006 03:45:40 PM  	 Подчиненный адрес IPMB  	 Системное событие  	
04/01/2006 03:45:40 PM 	 Подчиненный адрес IPMB 	 Системное событие 	Событие загрузки OEM-системы
04/01/2006 03:45:24 PM 	 Подчиненный адрес IPMB 	 Системное событие 	
04/01/2006 03:45:07 PM 	 Подчиненный адрес IPMB 	 Выполнение микропрограммы системы 	Неисправимый сбой системной платы
04/01/2006 03:31:23 PM 	 Подчиненный адрес IPMB 	 Вентилятор 	Не установлено:System Fan 5A:Верхний не критический - повышается
04/01/2006 03:31:12 PM 	 Подчиненный адрес IPMB 	 Вентилятор 	System Fan 5A:Верхний не критический - повышается
04/01/2006 03:30:50 PM 	 Подчиненный адрес IPMB 	 Вентилятор 	Не установлено:System Fan 5A:Верхний не критический - повышается
04/01/2006 03:30:40 PM 	 Подчиненный адрес IPMB 	 Вентилятор 	System Fan 5A:Верхний не критический - повышается
04/01/2006 02:56:03 PM 	 Подчиненный адрес IPMB 	 Вентилятор 	Не установлено:System Fan 6A:Верхний критический - повышается
04/01/2006 02:56:03 PM 	 Подчиненный адрес IPMB 	 Вентилятор 	Не установлено:System Fan 6A:Верхний не критический - повышается
04/01/2006 02:55:52 PM 	 Подчиненный адрес IPMB 	 Вентилятор 	System Fan 6A:Верхний критический - повышается
04/01/2006 02:55:52 PM 	 Подчиненный адрес IPMB 	 Вентилятор 	System Fan 6A:Верхний не критический - повышается
Это как раз момент зависания.
Но я думаю это не из за температуры, так как критечечкий уровень не повышался, а сбой возник во время перезагрузки.

Аватара пользователя
apelsin
Advanced member
Сообщения: 470
Зарегистрирован: 09 окт 2004, 12:32

Сообщение apelsin » 12 янв 2006, 13:11

Код: Выделить всё

04/01/2006 03:45:07 PM     Подчиненный адрес IPMB     Выполнение микропрограммы системы    Неисправимый сбой системной платы 
а в логе сообщения о  работе вентиляторов появляются все время или только близко к моменту сбоя? (если толко близко к моменту сбоя -- то тогда дело в перегреве )

боюсь что далее подсказать вам не смогу -- не стаклкивался я близко с интеловкими материнками и их impi модулями.  Если материнка на гарантии то я бы обратился к сервисмэнам с этим логом.   Если они не поменяют плату, то по крайней мере они подключатся к изучению логов и проблемы вцелом.

Ответить

Вернуться в «Серверы - Решение проблем»

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и 22 гостя