Периодическое зависание сервера.

У вас сложности? Наши специалисты постараются помочь вам. Если вы сами сталкивались с похожими проблемами - поделитесь опытом.

Модераторы: Trinity admin`s, Free-lance moderator`s

Ответить
Zirro
Advanced member
Сообщения: 235
Зарегистрирован: 27 авг 2002, 14:03
Откуда: Киров
Контактная информация:

Периодическое зависание сервера.

Сообщение Zirro » 23 июн 2006, 08:59

Доброго времени суток. У меня такая проблемка: вот уже 2-й день подряд периодически зависает сервер: Intel SE7210TP1-E + P-IV 2.8 Hz + 2Gb ОЗУ. В логах ОС ничего подозрительного не нашёл. Стал рыться в логах SEL. Обнаружил такие записи:
Uncorrectable ECC Transition to OK Previous Event Trigger = 01 Trigger Threshold = 119
примерно соответствующие времени подвисания сервера. Правильно ли я понимаю, что это есть причина зависания сервера? И причина эта связана со сбоями в работе оперативной памяти?

Zirro
Advanced member
Сообщения: 235
Зарегистрирован: 27 авг 2002, 14:03
Откуда: Киров
Контактная информация:

Сообщение Zirro » 27 июн 2006, 16:44

Непонятная тишина, неужели никто не в курсе  :confused: . Тогда вот свежие новости: 3 дня сервер проработал и снова завис. Перезагрузил с утра сервер, полез System Event смотреть: "Предыдущее завершение работы системы в 18:44:44 на 26.06.2006 было неожиданным." .
Загрузил ISM - смотрю SEL:
18:45:31
"Uncorrectable ECC Transition to OK Previous Event Trigger = 01 Trigger Threshold = 142"
Вроде события взаимосвязаны, но непонятно почему сервер "встал" раньше чем вылезла ошибка памяти (если это память конечно).
И ещё раз спрошу, можно ли однозначно сказать что это ошибки памяти и соответственно "наезжать" на поставщиков.

Аватара пользователя
gs
Сотрудник Тринити
Сотрудник Тринити
Сообщения: 16650
Зарегистрирован: 23 авг 2002, 17:34
Откуда: Москва
Контактная информация:

Сообщение gs » 27 июн 2006, 17:50

Прогоните мемтест для начала. Вполне возможно - это может быть как память, так и мама. А может быть и куча других причин - но это первое, что в голову приходит. По крайней мере такое жесткое падение, когда ось даже лог записать не успевает, весьма характерно для проблем с мозгами.

Zirro
Advanced member
Сообщения: 235
Зарегистрирован: 27 авг 2002, 14:03
Откуда: Киров
Контактная информация:

Сообщение Zirro » 28 июн 2006, 08:22

Ну чтоб memtest прогнать надо для начала снять память, взамен что-то поставить (а где это что-то взять?), чтобы сервер не стоял. Затем эту память во что-то воткнуть, чтобы проверить (а где это что-то взять?). Мне надо точно выявить память или нет и ОЧЕНЬ быстро подыскать замену. Мне кажется что строка в SEL:
Sensor Type and Number: 0Ch - Memory #0x08
Event Description: Uncorrectable ECC Transition to OK Previous Event Trigger = 01 Trigger Threshold = 142
однозначно указывает на память, я просто хочу подтверждения людей, сталкивающихся с такой ошибкой услышать.
Последний раз редактировалось Zirro 28 июн 2006, 08:27, всего редактировалось 1 раз.

ALoader
Junior member
Сообщения: 3
Зарегистрирован: 31 май 2006, 19:33

Сообщение ALoader » 28 июн 2006, 08:27

Zirro писал(а):Ну чтоб memtest прогнать надо для начала снять память, взамен что-то поставить (а где это что-то взять?), чтобы сервер не стоял. Затем эту память во что-то воткнуть, чтобы проверить (а где это что-то взять?). Мне надо точно выявить память или нет и ОЧЕНЬ быстро подыскать замену.
Так у Интела есть отличная утилитка для проверки мамы и памяти (берется у интела в драйверах к материнской плате). Грузится с дискетки, ничего вытаскивать/устанавливать не надо. Единственное, что нужно - около часа веремени.

Zirro
Advanced member
Сообщения: 235
Зарегистрирован: 27 авг 2002, 14:03
Откуда: Киров
Контактная информация:

Сообщение Zirro » 28 июн 2006, 09:20

Упс, про неё то я и забыл. Спасибо, вечером погоняю тест.

yar-posse
Junior member
Сообщения: 13
Зарегистрирован: 24 апр 2006, 15:17
Откуда: Moscow, Russia
Контактная информация:

Сообщение yar-posse » 06 июл 2006, 12:14

Ну и как успехи?

Zirro
Advanced member
Сообщения: 235
Зарегистрирован: 27 авг 2002, 14:03
Откуда: Киров
Контактная информация:

Сообщение Zirro » 06 июл 2006, 12:52

Это Вы о чём?

Albert Hilow
Junior member
Сообщения: 11
Зарегистрирован: 13 апр 2006, 15:38

Сообщение Albert Hilow » 06 июл 2006, 15:08

У меня возникла похожая проблема и если автор не против я опишу её здесь (чтобы топики не плодить).
Сервер зависает. Причем внезапно, вроде ни чего не делали. Пользователей выкидывает. Приетом машинка находится в сети (стоит - шумит), но подключится нельзя. После перезагрузки все нормально. В логах ОС ничего нет кроме неожиданного завершения.
Хотелось узнать что за логи SEL и как их просмотреть, может чего интересного покажут (Сервак новый, фирменный)
И каких результатов добился автор ?

Zirro
Advanced member
Сообщения: 235
Зарегистрирован: 27 авг 2002, 14:03
Откуда: Киров
Контактная информация:

Сообщение Zirro » 07 июл 2006, 09:27

Обычно серверные платы имеют на борту специальный микроконтроллер, который фиксирует аппаратные события (сбои памяти, процессоров, вентиляторов, несанкционированный доступ и т.д и т.п.) и складывает их в некий флэш, формируя тем самым System Event Log (SEL). Просматривают этот SEL средствами мониторига мат. платы. В моём случае это ISM - Intel Server Management.
Что касается моей проблемы: история не закончена, вот уже недели полторы всё спокойно. Я связываю это с глобыльным похолоданием  :lol: . Если серьёзно, то как раз во время последних жарких деньков сервер и зависал. Моим первым предположением сразу было нарушение температурного режима в корпусе. Однако, ISM рапортовал, что темп-ра в корпусе нормальная. Я склоняюсь к мысли что температура, приемлимая для мат. платы, неприемлима для памяти. И, соответственно, подумываю об установке в корпус дополнительных вентиляторов. Вариант с прогоном теста ещё не отрабатывался.

Albert Hilow
Junior member
Сообщения: 11
Зарегистрирован: 13 апр 2006, 15:38

Сообщение Albert Hilow » 07 июл 2006, 10:03

Спасибо Zirro.
Понятно, что это те логи которые просматриваются в биосе.  
У меня там все нормально. По поводу  температуры - интересно.
С помещение где серверная не больше 19 градусов. Сколько внутри сервера незнаю. Но там 12 вентиляторов.Вот
P.S. Когда тест проведешь отпиши тут ))

Zirro
Advanced member
Сообщения: 235
Зарегистрирован: 27 авг 2002, 14:03
Откуда: Киров
Контактная информация:

Сообщение Zirro » 07 июл 2006, 12:32

Когда тест проведешь отпиши тут ))
Я сомневаюсь в целесообразности теста. Подожду очередного "потепления", посмотрим что тогда будет.
Сколько внутри сервера незнаю. Но там 12 вентиляторов.
Посмотреть температуру внутри корпуса, а заодно и скорости вращения вентиляторов как раз и позволяет ISM.

Albert Hilow
Junior member
Сообщения: 11
Зарегистрирован: 13 апр 2006, 15:38

Сообщение Albert Hilow » 13 июл 2006, 09:38

Сервер стал зависать чаще. В логах SEL чисто.
В логах ОС следующее:
Тип события: Ошибка
Источник события: rasctrs
Категория события: Отсутствует
Код события: 2001
Дата: 13.07.2006
Время: 8:46:38
Пользователь: Нет данных
Компьютер: SERVERCO
Описание:
Не найдено описание для события с кодом ( 2001 ) в источнике ( rasctrs ).
Возможно, на локальном компьютере нет нужных данных в реестре или файлов DLL
сообщений для отображения сообщений удаленного компьютера.
В записи события содержится следующая информация: Файл журнала событий поврежден..

Тип события: Предупреждение
Источник события: WinMgmt
Категория события: Отсутствует
Код события: 61
Дата: 13.07.2006
Время: 8:45:54
Пользователь: Нет данных
Компьютер: SERVERCO
Описание:
WMI ADAP не удалось вызвать библиотеку "PerfDisk"  рассогласования времени в функции: open

И один раз появился синий экран:
...
DRIVER_IRQL_NOT_LESS_OR_EQUAL

Аватара пользователя
Stranger03
Сотрудник Тринити
Сотрудник Тринити
Сообщения: 12979
Зарегистрирован: 14 ноя 2003, 16:25
Откуда: СПб, Екатеринбург
Контактная информация:

Сообщение Stranger03 » 14 июл 2006, 18:32

Albert Hilow писал(а):DRIVER_IRQL_NOT_LESS_OR_EQUAL
все остальное не интересно, а вот это говорит о некорректной обработки прерыванийю Для начала стоило бы обновить все прошивки на сервере.

Вадим С.
Advanced member
Сообщения: 232
Зарегистрирован: 11 май 2006, 09:56
Откуда: Москва

Сообщение Вадим С. » 20 июл 2006, 10:33

Я не крутой спец по серверам, но что-то мне подсказывает, что все таки надо смотреть оперативку.

Ответить

Вернуться в «Серверы - Решение проблем»

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и 23 гостя