Need help. Сервер виснет каждый день.
Модераторы: Trinity admin`s, Free-lance moderator`s
Need help. Сервер виснет каждый день.
Только установил новый сервер на платформе Intel SR1425 BK1. Сразу начал зависать раз в день, причем в случайное время. В логах ничего по этому поводу нет, как будто просто питание обрубаеться. В датацентре говорят, что при подключении клавиатуры и монитора черный экран, на клавиатуру не реагирует. Помогает только кнопка reset. ОС CentOS - полный аналог Enterprise Linux. Помогите советом, горю. Сервер уже введен в эксплуатацию.
похожие зависания наблюдаются на *никсах когда ОС не может получить доступ к / (корневому каталогу) файловой системы. Вызвано может быть кучей вещей начиная контактов в scsi кабелях, терминацией и кончая перегревом дисков/хост-адаптера.
Это все предположения, чтоб узнать точнее надо смотреть логи, для этого надо настроить syslog чтоб все копировалось на другую машину по сети.
(как это сделать см. в syslog.conf и man syslog.conf ) В описаной выше ситуации когда машина виснет в лога ничего нет потому как доступ к файловой пропадает и соответственно записать ничего в лог невозможно.
Это все предположения, чтоб узнать точнее надо смотреть логи, для этого надо настроить syslog чтоб все копировалось на другую машину по сети.
(как это сделать см. в syslog.conf и man syslog.conf ) В описаной выше ситуации когда машина виснет в лога ничего нет потому как доступ к файловой пропадает и соответственно записать ничего в лог невозможно.
Попробывал зеркалировать логи ну другой машине, в журнале тоже самое. Т.е. нет никаких ошибок, работает, работает, потом лог перестает писаться и перезагрузка.apelsin писал(а):похожие зависания наблюдаются на *никсах когда ОС не может получить доступ к / (корневому каталогу) файловой системы. Вызвано может быть кучей вещей начиная контактов в scsi кабелях, терминацией и кончая перегревом дисков/хост-адаптера.
Это все предположения, чтоб узнать точнее надо смотреть логи, для этого надо настроить syslog чтоб все копировалось на другую машину по сети.
(как это сделать см. в syslog.conf и man syslog.conf ) В описаной выше ситуации когда машина виснет в лога ничего нет потому как доступ к файловой пропадает и соответственно записать ничего в лог невозможно.
если в логах и консоли (на подключенном мониторе то есть) ничего не наблюдается тогда проблемы с дисковой на 98% можно исключить из списка.
Проверьте такую вещь: стартует-ли сервер атоматически после сбоя по питанию? (может сервер не виснет а просто не стартует автоматически )
Если проблемы с питанием/БП исключить, то остается память или температура как наиболее вероятные причины.
Можете узнать какая там общая температура в помещении где находится ваш сервер?
пс: а средства удаленного мониторинга у сервера есть, вроде IMPI или LightsOut контроллера?
Проверьте такую вещь: стартует-ли сервер атоматически после сбоя по питанию? (может сервер не виснет а просто не стартует автоматически )
Если проблемы с питанием/БП исключить, то остается память или температура как наиболее вероятные причины.
Можете узнать какая там общая температура в помещении где находится ваш сервер?
пс: а средства удаленного мониторинга у сервера есть, вроде IMPI или LightsOut контроллера?
Я евстроил watchdog в ipmi, он перезагружаеться после зависания. Раньше перезагружали сотрудники дата центра кнопкой reset, т.к. на клавиатуру он не реагировал.
С температурой в дата центре я думаю проблемм нет, там стоят кондиционеры.
Вот вырезка из ipmi лога со странностью:
Это как раз момент зависания.
Но я думаю это не из за температуры, так как критечечкий уровень не повышался, а сбой возник во время перезагрузки.
С температурой в дата центре я думаю проблемм нет, там стоят кондиционеры.
Вот вырезка из ipmi лога со странностью:
Код: Выделить всё
04/01/2006 03:57:31 PM Подчиненный адрес IPMB Вентилятор Не установлено:System Fan 5B:Верхний критический - повышается
04/01/2006 03:57:20 PM Подчиненный адрес IPMB Вентилятор System Fan 5B:Верхний критический - повышается
04/01/2006 03:57:20 PM Подчиненный адрес IPMB Вентилятор System Fan 5B:Верхний не критический - повышается
04/01/2006 03:45:40 PM Подчиненный адрес IPMB Системное событие
04/01/2006 03:45:40 PM Подчиненный адрес IPMB Системное событие Событие загрузки OEM-системы
04/01/2006 03:45:24 PM Подчиненный адрес IPMB Системное событие
04/01/2006 03:45:07 PM Подчиненный адрес IPMB Выполнение микропрограммы системы Неисправимый сбой системной платы
04/01/2006 03:31:23 PM Подчиненный адрес IPMB Вентилятор Не установлено:System Fan 5A:Верхний не критический - повышается
04/01/2006 03:31:12 PM Подчиненный адрес IPMB Вентилятор System Fan 5A:Верхний не критический - повышается
04/01/2006 03:30:50 PM Подчиненный адрес IPMB Вентилятор Не установлено:System Fan 5A:Верхний не критический - повышается
04/01/2006 03:30:40 PM Подчиненный адрес IPMB Вентилятор System Fan 5A:Верхний не критический - повышается
04/01/2006 02:56:03 PM Подчиненный адрес IPMB Вентилятор Не установлено:System Fan 6A:Верхний критический - повышается
04/01/2006 02:56:03 PM Подчиненный адрес IPMB Вентилятор Не установлено:System Fan 6A:Верхний не критический - повышается
04/01/2006 02:55:52 PM Подчиненный адрес IPMB Вентилятор System Fan 6A:Верхний критический - повышается
04/01/2006 02:55:52 PM Подчиненный адрес IPMB Вентилятор System Fan 6A:Верхний не критический - повышается
Но я думаю это не из за температуры, так как критечечкий уровень не повышался, а сбой возник во время перезагрузки.
Код: Выделить всё
04/01/2006 03:45:07 PM Подчиненный адрес IPMB Выполнение микропрограммы системы Неисправимый сбой системной платы
боюсь что далее подсказать вам не смогу -- не стаклкивался я близко с интеловкими материнками и их impi модулями. Если материнка на гарантии то я бы обратился к сервисмэнам с этим логом. Если они не поменяют плату, то по крайней мере они подключатся к изучению логов и проблемы вцелом.
Кто сейчас на конференции
Сейчас этот форум просматривают: нет зарегистрированных пользователей и 22 гостя