Ошибки вида MCA: Bank 4, Status 0xd468c0008f080a13

У вас сложности? Наши специалисты постараются помочь вам. Если вы сами сталкивались с похожими проблемами - поделитесь опытом.

Модераторы: Trinity admin`s, Free-lance moderator`s

Ответить
IvanB
member
Сообщения: 31
Зарегистрирован: 27 дек 2008, 17:14
Откуда: Москва

Ошибки вида MCA: Bank 4, Status 0xd468c0008f080a13

Сообщение IvanB » 24 фев 2012, 04:08

Добой ночи,

Дано: 2021M-UR+B, 2xAMD Opteron OS2389, 16 x KVR667D2D4P5/4G, Adaptec ASR-5805Z, 8 x Seagate ST3300657SS, AOC SIMSO+
Сервер работает под управлением FreeBSD 8.2.

В настоящее время сервер работает нестабильно:
1) самопроизвольно перезагружается (при этом в логах ОС и IMPI все чисто);
2) во время нагрузочного тестирования выключается (при этом в логах ОС и IMPI все чисто);

Во время бездействия или во время нагрузочного тестирования в лог файле FreeBSD появляются сообщения следующего содержания:

Feb 22 02:03:58 serv kernel: MCA: Bank 4, Status 0xd4614000a9080a13
Feb 22 02:03:58 serv kernel: MCA: Global Cap 0x0000000000000106, Status 0x0000000000000000
Feb 22 02:03:58 serv kernel: MCA: Vendor "AuthenticAMD", ID 0x100f42, APIC ID 0
Feb 22 02:03:58 serv kernel: MCA: CPU 0 COR OVER BUSLG Responder RD Memory
Feb 22 02:03:58 serv kernel: MCA: Address 0x37d217990

Feb 22 03:03:59 serv kernel: MCA: Bank 4, Status 0xd420c000bf080a13
Feb 22 03:03:59 serv kernel: MCA: Global Cap 0x0000000000000106, Status 0x0000000000000000
Feb 22 03:03:59 serv kernel: MCA: Vendor "AuthenticAMD", ID 0x100f42, APIC ID 0
Feb 22 03:03:59 serv kernel: MCA: CPU 0 COR OVER BUSLG Responder RD Memory
Feb 22 03:03:59 serv kernel: MCA: Address 0x37d216600

Воспользовавшись утилитой mcelog получил следующее:

# mcelog --ascii < /var/log/messages
HARDWARE ERROR. This is *NOT* a software problem!
Please contact your hardware vendor
CPU 0 4 northbridge
ADDR 37d217990
Northbridge RAM Chipkill ECC error
Chipkill ECC syndrome = a9c2
bit46 = corrected ecc error
bit62 = error overflow (multiple errors)
bus error 'local node response, request didn't time out
generic read mem transaction
memory access, level generic'
STATUS d4614000a9080a13 MCGSTATUS 0
MCGCAP 106 APICID 0 SOCKETID 0
CPUID Vendor AMD Family 16 Model 4
HARDWARE ERROR. This is *NOT* a software problem!
Please contact your hardware vendor
CPU 0 4 northbridge
ADDR 37d216600
Northbridge RAM Chipkill ECC error
Chipkill ECC syndrome = bf41
bit46 = corrected ecc error
bit62 = error overflow (multiple errors)
bus error 'local node response, request didn't time out
generic read mem transaction
memory access, level generic'
STATUS d420c000bf080a13 MCGSTATUS 0
MCGCAP 106 APICID 0 SOCKETID 0
CPUID Vendor AMD Family 16 Model 4
HARDWARE ERROR. This is *NOT* a software problem!
Please contact your hardware vendor
CPU 4 4 northbridge
ADDR b977f1170
Northbridge RAM Chipkill ECC error
Chipkill ECC syndrome = 8fd1
bit46 = corrected ecc error
bit62 = error overflow (multiple errors)
bus error 'local node response, request didn't time out
generic read mem transaction
memory access, level generic'
STATUS d468c0008f080a13 MCGSTATUS 0
MCGCAP 106 APICID 4 SOCKETID 0
CPUID Vendor AMD Family 16 Model 4

Надо отметить, что перед моментом перезагрузки или выключением сервера таких ошибок не возникало ни разу.

В какую сторону копать?
Если это проблемы с памятью, то как можно идентифицировать проблемную планку?

Вернуться в «Серверы - Решение проблем»

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и 10 гостей