RHEL AS 3.6(64-bit) Критическая ошибка в логе

На доскональное знание данной темы, не может претендовать, пожалуй ни один спец, из ныне живущих на земле. ;-)
Так поможем друг другу.

Модераторы: Trinity admin`s, Free-lance moderator`s

Ответить
garmahis
Junior member
Сообщения: 19
Зарегистрирован: 03 мар 2006, 16:28

RHEL AS 3.6(64-bit) Критическая ошибка в логе

Сообщение garmahis » 14 сен 2006, 09:26

Здравствуйте. Сервер с RHEL AS 3.6 (64-bit) два двухядерных процессора Opteron; 16Gb ОЗУ.

В логах и при старте машины появляется сообщение об ошибке.  Подскажите пожалуйста о чём говорит эта ошибка :
===============================================

CPU 0: Silent Northbridge MCE
Northbridge status d4544001: 33080813
Error chipkill ecc error
ECC error syndrome 3328
bus error local node origin, request didn't time out
generic read
memory access, level generic
link number 0
err cpu1
corrected ecc error
error overflow
previos error lost
NB error address 0000001ff5c66e0 (адрес меняется)

===============================================
Спасибо.

Аватара пользователя
apelsin
Advanced member
Сообщения: 470
Зарегистрирован: 09 окт 2004, 12:32

Сообщение apelsin » 15 сен 2006, 12:38

логах и при старте машины -- это биос имеется в ввиду?

текст ошибки говорит о срабатывании механизма ECC при доступе к памяти.

garmahis
Junior member
Сообщения: 19
Зарегистрирован: 03 мар 2006, 16:28

Сообщение garmahis » 15 сен 2006, 18:08

Спасибо, что откликнулись.
В логах - это имеется в виду /var/log/messages + на все консоли.
при старте - это "dmesg"
Извините, не уточнил : машина запускается и работает.
На ней крутится жутко загруженный сервер базы данных Sybase ASE-12.5
Сервер с такой ошибкой работает уже 4 дня.

Как мне кажется - это проблема с памятью, может memtest-ом её погонять?

Спасибо.

Аватара пользователя
Stranger03
Сотрудник Тринити
Сотрудник Тринити
Сообщения: 12979
Зарегистрирован: 14 ноя 2003, 16:25
Откуда: СПб, Екатеринбург
Контактная информация:

Сообщение Stranger03 » 18 сен 2006, 10:13

garmahis писал(а):Как мне кажется - это проблема с памятью, может memtest-ом её погонять?
Так и надо сделать. Очевидно в какой-то линейке памяти происходит ошибка.

Аватара пользователя
apelsin
Advanced member
Сообщения: 470
Зарегистрирован: 09 окт 2004, 12:32

Сообщение apelsin » 18 сен 2006, 11:33

на счет memtest'а не уверен, т.к.  memtest ошибки которые корректируются ECC не распознает.   Кроме того, это может быть и CPU ошибка и  мат. платы.

Можно попробовать потестить чтобы определиь что это такое поточнее и, в случае если это память -- какая конкретно плата за это ответственна (подробности --см. файлик в аттачменте)

Я бы обратился к в суппорт к производителю, т.к. 100% это дело в железе.
Вложения
edac.txt
Documentation/edac.txt
(18.72 КБ) 891 скачивание

Ответить

Вернуться в «Серверы - ПО, Unix подобные системы»

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и 20 гостей