Периодическое зависание сервера.
Модераторы: Trinity admin`s, Free-lance moderator`s
-
- Advanced member
- Сообщения: 235
- Зарегистрирован: 27 авг 2002, 14:03
- Откуда: Киров
- Контактная информация:
Периодическое зависание сервера.
Доброго времени суток. У меня такая проблемка: вот уже 2-й день подряд периодически зависает сервер: Intel SE7210TP1-E + P-IV 2.8 Hz + 2Gb ОЗУ. В логах ОС ничего подозрительного не нашёл. Стал рыться в логах SEL. Обнаружил такие записи:
Uncorrectable ECC Transition to OK Previous Event Trigger = 01 Trigger Threshold = 119
примерно соответствующие времени подвисания сервера. Правильно ли я понимаю, что это есть причина зависания сервера? И причина эта связана со сбоями в работе оперативной памяти?
Uncorrectable ECC Transition to OK Previous Event Trigger = 01 Trigger Threshold = 119
примерно соответствующие времени подвисания сервера. Правильно ли я понимаю, что это есть причина зависания сервера? И причина эта связана со сбоями в работе оперативной памяти?
-
- Advanced member
- Сообщения: 235
- Зарегистрирован: 27 авг 2002, 14:03
- Откуда: Киров
- Контактная информация:
Непонятная тишина, неужели никто не в курсе . Тогда вот свежие новости: 3 дня сервер проработал и снова завис. Перезагрузил с утра сервер, полез System Event смотреть: "Предыдущее завершение работы системы в 18:44:44 на 26.06.2006 было неожиданным." .
Загрузил ISM - смотрю SEL:
18:45:31
"Uncorrectable ECC Transition to OK Previous Event Trigger = 01 Trigger Threshold = 142"
Вроде события взаимосвязаны, но непонятно почему сервер "встал" раньше чем вылезла ошибка памяти (если это память конечно).
И ещё раз спрошу, можно ли однозначно сказать что это ошибки памяти и соответственно "наезжать" на поставщиков.
Загрузил ISM - смотрю SEL:
18:45:31
"Uncorrectable ECC Transition to OK Previous Event Trigger = 01 Trigger Threshold = 142"
Вроде события взаимосвязаны, но непонятно почему сервер "встал" раньше чем вылезла ошибка памяти (если это память конечно).
И ещё раз спрошу, можно ли однозначно сказать что это ошибки памяти и соответственно "наезжать" на поставщиков.
-
- Advanced member
- Сообщения: 235
- Зарегистрирован: 27 авг 2002, 14:03
- Откуда: Киров
- Контактная информация:
Ну чтоб memtest прогнать надо для начала снять память, взамен что-то поставить (а где это что-то взять?), чтобы сервер не стоял. Затем эту память во что-то воткнуть, чтобы проверить (а где это что-то взять?). Мне надо точно выявить память или нет и ОЧЕНЬ быстро подыскать замену. Мне кажется что строка в SEL:
Sensor Type and Number: 0Ch - Memory #0x08
Event Description: Uncorrectable ECC Transition to OK Previous Event Trigger = 01 Trigger Threshold = 142
однозначно указывает на память, я просто хочу подтверждения людей, сталкивающихся с такой ошибкой услышать.
Sensor Type and Number: 0Ch - Memory #0x08
Event Description: Uncorrectable ECC Transition to OK Previous Event Trigger = 01 Trigger Threshold = 142
однозначно указывает на память, я просто хочу подтверждения людей, сталкивающихся с такой ошибкой услышать.
Последний раз редактировалось Zirro 28 июн 2006, 08:27, всего редактировалось 1 раз.
Так у Интела есть отличная утилитка для проверки мамы и памяти (берется у интела в драйверах к материнской плате). Грузится с дискетки, ничего вытаскивать/устанавливать не надо. Единственное, что нужно - около часа веремени.Zirro писал(а):Ну чтоб memtest прогнать надо для начала снять память, взамен что-то поставить (а где это что-то взять?), чтобы сервер не стоял. Затем эту память во что-то воткнуть, чтобы проверить (а где это что-то взять?). Мне надо точно выявить память или нет и ОЧЕНЬ быстро подыскать замену.
-
- Junior member
- Сообщения: 11
- Зарегистрирован: 13 апр 2006, 15:38
У меня возникла похожая проблема и если автор не против я опишу её здесь (чтобы топики не плодить).
Сервер зависает. Причем внезапно, вроде ни чего не делали. Пользователей выкидывает. Приетом машинка находится в сети (стоит - шумит), но подключится нельзя. После перезагрузки все нормально. В логах ОС ничего нет кроме неожиданного завершения.
Хотелось узнать что за логи SEL и как их просмотреть, может чего интересного покажут (Сервак новый, фирменный)
И каких результатов добился автор ?
Сервер зависает. Причем внезапно, вроде ни чего не делали. Пользователей выкидывает. Приетом машинка находится в сети (стоит - шумит), но подключится нельзя. После перезагрузки все нормально. В логах ОС ничего нет кроме неожиданного завершения.
Хотелось узнать что за логи SEL и как их просмотреть, может чего интересного покажут (Сервак новый, фирменный)
И каких результатов добился автор ?
-
- Advanced member
- Сообщения: 235
- Зарегистрирован: 27 авг 2002, 14:03
- Откуда: Киров
- Контактная информация:
Обычно серверные платы имеют на борту специальный микроконтроллер, который фиксирует аппаратные события (сбои памяти, процессоров, вентиляторов, несанкционированный доступ и т.д и т.п.) и складывает их в некий флэш, формируя тем самым System Event Log (SEL). Просматривают этот SEL средствами мониторига мат. платы. В моём случае это ISM - Intel Server Management.
Что касается моей проблемы: история не закончена, вот уже недели полторы всё спокойно. Я связываю это с глобыльным похолоданием :lol: . Если серьёзно, то как раз во время последних жарких деньков сервер и зависал. Моим первым предположением сразу было нарушение температурного режима в корпусе. Однако, ISM рапортовал, что темп-ра в корпусе нормальная. Я склоняюсь к мысли что температура, приемлимая для мат. платы, неприемлима для памяти. И, соответственно, подумываю об установке в корпус дополнительных вентиляторов. Вариант с прогоном теста ещё не отрабатывался.
Что касается моей проблемы: история не закончена, вот уже недели полторы всё спокойно. Я связываю это с глобыльным похолоданием :lol: . Если серьёзно, то как раз во время последних жарких деньков сервер и зависал. Моим первым предположением сразу было нарушение температурного режима в корпусе. Однако, ISM рапортовал, что темп-ра в корпусе нормальная. Я склоняюсь к мысли что температура, приемлимая для мат. платы, неприемлима для памяти. И, соответственно, подумываю об установке в корпус дополнительных вентиляторов. Вариант с прогоном теста ещё не отрабатывался.
-
- Junior member
- Сообщения: 11
- Зарегистрирован: 13 апр 2006, 15:38
-
- Junior member
- Сообщения: 11
- Зарегистрирован: 13 апр 2006, 15:38
Сервер стал зависать чаще. В логах SEL чисто.
В логах ОС следующее:
Тип события: Ошибка
Источник события: rasctrs
Категория события: Отсутствует
Код события: 2001
Дата: 13.07.2006
Время: 8:46:38
Пользователь: Нет данных
Компьютер: SERVERCO
Описание:
Не найдено описание для события с кодом ( 2001 ) в источнике ( rasctrs ).
Возможно, на локальном компьютере нет нужных данных в реестре или файлов DLL
сообщений для отображения сообщений удаленного компьютера.
В записи события содержится следующая информация: Файл журнала событий поврежден..
Тип события: Предупреждение
Источник события: WinMgmt
Категория события: Отсутствует
Код события: 61
Дата: 13.07.2006
Время: 8:45:54
Пользователь: Нет данных
Компьютер: SERVERCO
Описание:
WMI ADAP не удалось вызвать библиотеку "PerfDisk" рассогласования времени в функции: open
И один раз появился синий экран:
...
DRIVER_IRQL_NOT_LESS_OR_EQUAL
В логах ОС следующее:
Тип события: Ошибка
Источник события: rasctrs
Категория события: Отсутствует
Код события: 2001
Дата: 13.07.2006
Время: 8:46:38
Пользователь: Нет данных
Компьютер: SERVERCO
Описание:
Не найдено описание для события с кодом ( 2001 ) в источнике ( rasctrs ).
Возможно, на локальном компьютере нет нужных данных в реестре или файлов DLL
сообщений для отображения сообщений удаленного компьютера.
В записи события содержится следующая информация: Файл журнала событий поврежден..
Тип события: Предупреждение
Источник события: WinMgmt
Категория события: Отсутствует
Код события: 61
Дата: 13.07.2006
Время: 8:45:54
Пользователь: Нет данных
Компьютер: SERVERCO
Описание:
WMI ADAP не удалось вызвать библиотеку "PerfDisk" рассогласования времени в функции: open
И один раз появился синий экран:
...
DRIVER_IRQL_NOT_LESS_OR_EQUAL
- Stranger03
- Сотрудник Тринити
- Сообщения: 12979
- Зарегистрирован: 14 ноя 2003, 16:25
- Откуда: СПб, Екатеринбург
- Контактная информация:
Кто сейчас на конференции
Сейчас этот форум просматривают: нет зарегистрированных пользователей и 71 гость