Как правильно тестировать серверную память?
Модераторы: Trinity admin`s, Free-lance moderator`s
Как правильно тестировать серверную память?
Добрый день.
Имеется сервер etegro ETRS230G4 c двумя процессорами Xeon(R) CPU E5-2670 и 8x8 Гб DDR3 FB-DIMM памяти.
Память установена в слоты :
DIMM A0
DIMM A1
DIMM B0
DIMM B1
DIMM G0
DIMM G1
DIMM H0
DIMM H1
Тестировали память с помощью memtest86+ 5.01 , ошибок не было.
После месяца эксплуатации появились записи в BMC и в лога системы ( centos 6.7 x64 )
>CPU 1: Machine Check Exception: 0 Bank 9: 8c00004f000800c1
>TSC 0 ADDR 3c3a9a000 MISC 9085c001c001e8c PROCESSOR 0:206d7 TIME 1466067483 SOCKET 0 APIC 2
>EDAC MC0: CE row 1, channel 0, label "CPU_SrcID#0_Channel#0_DIMM#1": 3 Unknown error(s): memory scrubbing on FATAL area OVERFLOW: cpu=0 Err=0008:00c1 (ch=1), addr = 0x3c3a9b000 => socket=0, Channel=0(mask=1), rank=5
>EDAC MC0: CE row 1, channel 0, label "CPU_SrcID#0_Channel#0_DIMM#1": 3 Unknown error(s): memory scrubbing on FATAL area OVERFLOW: cpu=2 Err=0008:00c1 (ch=1), addr = 0x3c3a9b000 => socket=0, Channel=0(mask=1), rank=5
>EDAC MC0: CE row 1, channel 0, label "CPU_SrcID#0_Channel#0_DIMM#1": 1 Unknown error(s): memory scrubbing on FATAL area : cpu=2 Err=0008:00c1 (ch=1), addr = 0x3c3a9b000 => socket=0, Channel=0(mask=1), rank=5
>EDAC MC0: CE row 1, channel 0, label "CPU_SrcID#0_Channel#0_DIMM#1": 1 Unknown error(s): memory scrubbing on FATAL area : cpu=2 Err=0008:00c1 (ch=1), addr = 0x3c3a9b000 => socket=0, Channel=0(mask=1), rank=5
Судя по логам ошибки продолжались около 3х часов.
Оставили на ночь memtest86+ 5.01 ошибок опять нету.
Как правилось организовать стресс тест памяти ? Я как понимаю memtest86+ 5.01 не определяет ошибок ECC ?
Имеется сервер etegro ETRS230G4 c двумя процессорами Xeon(R) CPU E5-2670 и 8x8 Гб DDR3 FB-DIMM памяти.
Память установена в слоты :
DIMM A0
DIMM A1
DIMM B0
DIMM B1
DIMM G0
DIMM G1
DIMM H0
DIMM H1
Тестировали память с помощью memtest86+ 5.01 , ошибок не было.
После месяца эксплуатации появились записи в BMC и в лога системы ( centos 6.7 x64 )
>CPU 1: Machine Check Exception: 0 Bank 9: 8c00004f000800c1
>TSC 0 ADDR 3c3a9a000 MISC 9085c001c001e8c PROCESSOR 0:206d7 TIME 1466067483 SOCKET 0 APIC 2
>EDAC MC0: CE row 1, channel 0, label "CPU_SrcID#0_Channel#0_DIMM#1": 3 Unknown error(s): memory scrubbing on FATAL area OVERFLOW: cpu=0 Err=0008:00c1 (ch=1), addr = 0x3c3a9b000 => socket=0, Channel=0(mask=1), rank=5
>EDAC MC0: CE row 1, channel 0, label "CPU_SrcID#0_Channel#0_DIMM#1": 3 Unknown error(s): memory scrubbing on FATAL area OVERFLOW: cpu=2 Err=0008:00c1 (ch=1), addr = 0x3c3a9b000 => socket=0, Channel=0(mask=1), rank=5
>EDAC MC0: CE row 1, channel 0, label "CPU_SrcID#0_Channel#0_DIMM#1": 1 Unknown error(s): memory scrubbing on FATAL area : cpu=2 Err=0008:00c1 (ch=1), addr = 0x3c3a9b000 => socket=0, Channel=0(mask=1), rank=5
>EDAC MC0: CE row 1, channel 0, label "CPU_SrcID#0_Channel#0_DIMM#1": 1 Unknown error(s): memory scrubbing on FATAL area : cpu=2 Err=0008:00c1 (ch=1), addr = 0x3c3a9b000 => socket=0, Channel=0(mask=1), rank=5
Судя по логам ошибки продолжались около 3х часов.
Оставили на ночь memtest86+ 5.01 ошибок опять нету.
Как правилось организовать стресс тест памяти ? Я как понимаю memtest86+ 5.01 не определяет ошибок ECC ?
- Tert
- Advanced member
- Сообщения: 4233
- Зарегистрирован: 19 янв 2003, 08:09
- Откуда: Москва
- Контактная информация:
Re: Как правильно тестировать серверную память?
User776
Зачем вам уже что то тестировать, если уже выдаются ошибки на конкретный модуль памяти?
А результаты работы MemTest смотрите не только в программе, но и в логах BIOS/IPMI материнской платы.
P.S. Попробуйте вынуть модули памяти и почистить у них контакты. Часто из-за простого окисления возникают ошибки.
Зачем вам уже что то тестировать, если уже выдаются ошибки на конкретный модуль памяти?
А результаты работы MemTest смотрите не только в программе, но и в логах BIOS/IPMI материнской платы.
P.S. Попробуйте вынуть модули памяти и почистить у них контакты. Часто из-за простого окисления возникают ошибки.
Re: Как правильно тестировать серверную память?
После memtest в логах BMC было пусто...Tert писал(а):User776
Зачем вам уже что то тестировать, если уже выдаются ошибки на конкретный модуль памяти?
>А результаты работы MemTest смотрите не только в программе, но и в логах BIOS/IPMI материнской платы.
>P.S. Попробуйте вынуть модули памяти и почистить у них контакты. Часто из-за простого окисления возникают ошибки.
Правильно ли я понимаю , что если во время memtest произойдут ошибки , и они скоректируются , я их смогу увидеть только в BIOS/IPMI/BMC ?
- Tert
- Advanced member
- Сообщения: 4233
- Зарегистрирован: 19 янв 2003, 08:09
- Откуда: Москва
- Контактная информация:
Re: Как правильно тестировать серверную память?
User776
MemTest86+ - это довольно старая программа, которая плохо работает с процессором в вашем сервере.
Поэтому и не ловит ошибки ECC. Ставьте и гоняйте более современный MemTest86.
MemTest86+ - это довольно старая программа, которая плохо работает с процессором в вашем сервере.
Поэтому и не ловит ошибки ECC. Ставьте и гоняйте более современный MemTest86.
Кто сейчас на конференции
Сейчас этот форум просматривают: нет зарегистрированных пользователей и 27 гостей