Как правильно тестировать серверную память?

Как создать сервер оптимальной конфигурации.

Модераторы: Trinity admin`s, Free-lance moderator`s

Ответить
User776
Junior member
Сообщения: 3
Зарегистрирован: 27 окт 2014, 12:54

Как правильно тестировать серверную память?

Сообщение User776 » 17 июн 2016, 12:50

Добрый день.
Имеется сервер etegro ETRS230G4 c двумя процессорами Xeon(R) CPU E5-2670 и 8x8 Гб DDR3 FB-DIMM памяти.

Память установена в слоты :
DIMM A0
DIMM A1
DIMM B0
DIMM B1
DIMM G0
DIMM G1
DIMM H0
DIMM H1

Тестировали память с помощью memtest86+ 5.01 , ошибок не было.
После месяца эксплуатации появились записи в BMC и в лога системы ( centos 6.7 x64 )

>CPU 1: Machine Check Exception: 0 Bank 9: 8c00004f000800c1
>TSC 0 ADDR 3c3a9a000 MISC 9085c001c001e8c PROCESSOR 0:206d7 TIME 1466067483 SOCKET 0 APIC 2
>EDAC MC0: CE row 1, channel 0, label "CPU_SrcID#0_Channel#0_DIMM#1": 3 Unknown error(s): memory scrubbing on FATAL area OVERFLOW: cpu=0 Err=0008:00c1 (ch=1), addr = 0x3c3a9b000 => socket=0, Channel=0(mask=1), rank=5
>EDAC MC0: CE row 1, channel 0, label "CPU_SrcID#0_Channel#0_DIMM#1": 3 Unknown error(s): memory scrubbing on FATAL area OVERFLOW: cpu=2 Err=0008:00c1 (ch=1), addr = 0x3c3a9b000 => socket=0, Channel=0(mask=1), rank=5
>EDAC MC0: CE row 1, channel 0, label "CPU_SrcID#0_Channel#0_DIMM#1": 1 Unknown error(s): memory scrubbing on FATAL area : cpu=2 Err=0008:00c1 (ch=1), addr = 0x3c3a9b000 => socket=0, Channel=0(mask=1), rank=5
>EDAC MC0: CE row 1, channel 0, label "CPU_SrcID#0_Channel#0_DIMM#1": 1 Unknown error(s): memory scrubbing on FATAL area : cpu=2 Err=0008:00c1 (ch=1), addr = 0x3c3a9b000 => socket=0, Channel=0(mask=1), rank=5

Судя по логам ошибки продолжались около 3х часов.

Оставили на ночь memtest86+ 5.01 ошибок опять нету.

Как правилось организовать стресс тест памяти ? Я как понимаю memtest86+ 5.01 не определяет ошибок ECC ?

Аватара пользователя
Tert
Advanced member
Сообщения: 4233
Зарегистрирован: 19 янв 2003, 08:09
Откуда: Москва
Контактная информация:

Re: Как правильно тестировать серверную память?

Сообщение Tert » 17 июн 2016, 14:33

User776
Зачем вам уже что то тестировать, если уже выдаются ошибки на конкретный модуль памяти?

А результаты работы MemTest смотрите не только в программе, но и в логах BIOS/IPMI материнской платы.

P.S. Попробуйте вынуть модули памяти и почистить у них контакты. Часто из-за простого окисления возникают ошибки.

User776
Junior member
Сообщения: 3
Зарегистрирован: 27 окт 2014, 12:54

Re: Как правильно тестировать серверную память?

Сообщение User776 » 17 июн 2016, 14:39

Tert писал(а):User776
Зачем вам уже что то тестировать, если уже выдаются ошибки на конкретный модуль памяти?

>А результаты работы MemTest смотрите не только в программе, но и в логах BIOS/IPMI материнской платы.
>P.S. Попробуйте вынуть модули памяти и почистить у них контакты. Часто из-за простого окисления возникают ошибки.
После memtest в логах BMC было пусто...
Правильно ли я понимаю , что если во время memtest произойдут ошибки , и они скоректируются , я их смогу увидеть только в BIOS/IPMI/BMC ?

Аватара пользователя
Tert
Advanced member
Сообщения: 4233
Зарегистрирован: 19 янв 2003, 08:09
Откуда: Москва
Контактная информация:

Re: Как правильно тестировать серверную память?

Сообщение Tert » 17 июн 2016, 16:55

User776
MemTest86+ - это довольно старая программа, которая плохо работает с процессором в вашем сервере.
Поэтому и не ловит ошибки ECC. Ставьте и гоняйте более современный MemTest86.

Ответить

Вернуться в «Серверы - Конфигурирование»

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и 23 гостя