Подвисает сервер Supermicro

У вас сложности? Наши специалисты постараются помочь вам. Если вы сами сталкивались с похожими проблемами - поделитесь опытом.

Модераторы: Trinity admin`s, Free-lance moderator`s

Ответить
mmu
Junior member
Сообщения: 7
Зарегистрирован: 06 ноя 2013, 19:58
Откуда: Москва

Подвисает сервер Supermicro

Сообщение mmu » 06 ноя 2013, 20:07

Всем доброго дня.

Сервер Trinity (2013 года)
2U Supermicro chassis + 2 БП
Системная плата X9DR3-F
Процессор Intel Xeon E5-2620 – 2 шт
Модуль памяти 4GB, ECC Reg, DDR3-1333, Single Rank, x4 – 8 шт
Контроллер RAID LSI MegaRAID SAS 9271-8i + BBU LSIiBBU09
Жесткий диск SAS Hitachi Ultrastar 15K600, 600GB – 8 шт
RAID-10 из 6 дисков
Прошивки для всего последние
Установлен VMWare ESXi 5.1 Сервер пока без нагрузки, только подготавливается к переносу ресурсов со старого железа. Развернуто несколько виртуальных машин.
Проработал без нареканий 2 недели и на днях подвис. Помог только reset.
При подключении по IPMI в Server Health - Event Log ошибка, как раз в то время
OEM CPLD CATERR - asserted
Ребята из Тринити порекомендовали отключить direct cache access в настройках биоса.
Пока не смотрел данную опцию, может она и не включена. Учитывая, что ошибка пока больше не повторялась, то хотелось бы сперва ее снова выявить (повторить), а потом менять настройки и проверять.
Как раз собирался переносить ресурсы на новый сервер …
Может кто сталкивался с подобной проблемой или что подскажите?

Всем спасибо.

Аватара пользователя
Tert
Advanced member
Сообщения: 4233
Зарегистрирован: 19 янв 2003, 08:09
Откуда: Москва
Контактная информация:

Re: Подвисает сервер Supermicro

Сообщение Tert » 07 ноя 2013, 06:31

CATERR - это catastrophic errors в процессоре.
В Xeon E5 иногда в определенный момент при работе DCA и DMA может генерироваться такое сообщение.
Поэтому мы и посоветовали такой вариант решения проблемы.

Может быть еще такой вариант:
Due to this erratum, under a complex set of conditions, Intel QPI uncorrectable errors
may cause a deadlock between the processor and PCH (Platform Controller Hub). The
deadlock will cause a processor internal timeout error as indicated by
IA32_MCi_STATUS.MCACOD of 0000_0100_0000_0000, CATERR# assertion and a
Shutdown transaction being sent to the PCH. Depending on the platform
implementation, this will result in reset being asserted to the PCH. This deadlock
persists, causing the PCH to timeout on the reset request. Reacting to the reset request
timeout, the PCH powers down the system.

Если отключение DCA не поможет, то есть вероятность что по шине QPI идут данные с ошибками. В этом случае скорее всего надо менять плату или процессор (хотя иногда процессору достаточно почистить контактные площадки).



Ну и напоследок:
Question
I have a X9DRD-iF rev 1.02 board and my system freezes with CATERR error in IPMI SEL when LSI
MegaRAID SAS 9240-4i AOC is used. If I remove the AC power and reboot, the system works again.
What is causing this error?
Answer
If the LSI card is using fw 10M09P18 or 10M09P29, please update the fw on the card to 10M09P35 or
later and this will resolve the issue.

mmu
Junior member
Сообщения: 7
Зарегистрирован: 06 ноя 2013, 19:58
Откуда: Москва

Re: Подвисает сервер Supermicro

Сообщение mmu » 08 ноя 2013, 03:23

Спасибо за советы.
Пробовал понагружать RAID, пока обычным копированием. Ошибка не повторялась.
Затем проверил DCA, был включен. Отключил.
Буду наблюдать.

mmu
Junior member
Сообщения: 7
Зарегистрирован: 06 ноя 2013, 19:58
Откуда: Москва

Re: Подвисает сервер Supermicro

Сообщение mmu » 12 ноя 2013, 13:46

Проблема повторилась.
Сначала посыпались ошибки OEM Memory Correctable Memory ECC – Asserted, затем OEM CPLD CATERR – asserted
Сегодня отвезу в сервис.

Аватара пользователя
gs
Сотрудник Тринити
Сотрудник Тринити
Сообщения: 16650
Зарегистрирован: 23 авг 2002, 17:34
Откуда: Москва
Контактная информация:

Re: Подвисает сервер Supermicro

Сообщение gs » 12 ноя 2013, 15:17

Ну вот и правильно.

mmu
Junior member
Сообщения: 7
Зарегистрирован: 06 ноя 2013, 19:58
Откуда: Москва

Re: Подвисает сервер Supermicro

Сообщение mmu » 23 ноя 2013, 14:35

В сервисе заменили один модуль памяти, сказали причина была в нем.
Пока проблем нет.

mmu
Junior member
Сообщения: 7
Зарегистрирован: 06 ноя 2013, 19:58
Откуда: Москва

Re: Подвисает сервер Supermicro

Сообщение mmu » 04 дек 2013, 12:18

Проблема снова повторилась.

Сначала посыпались ошибки OEM Memory Correctable Memory ECC – Asserted, затем OEM CPLD CATERR – asserted
Буду настаивать, чтобы заменили мать, процы и память.

Аватара пользователя
Tert
Advanced member
Сообщения: 4233
Зарегистрирован: 19 янв 2003, 08:09
Откуда: Москва
Контактная информация:

Re: Подвисает сервер Supermicro

Сообщение Tert » 05 дек 2013, 00:39

mmu
Привозите к нам в сервис.
Все же наибольшая вероятность, что проблема в процессоре.

mmu
Junior member
Сообщения: 7
Зарегистрирован: 06 ноя 2013, 19:58
Откуда: Москва

Re: Подвисает сервер Supermicro

Сообщение mmu » 05 дек 2013, 11:27

Сервер в работе. Привезти не могу. Договариваюсь о замене на месте, все таки Москва (не очень далеко от Вас). Готов Вашего инженера забрать и отвезти.
Во вложении ошибка из BIOS, если модуль тот-же, что и меняли, может быть проблемы с материнской платой? Хочу поменять материнскую плату, процессор и память.
Вложения
BIOS_ERROR_P1_DIMMB1.jpg

Аватара пользователя
gs
Сотрудник Тринити
Сотрудник Тринити
Сообщения: 16650
Зарегистрирован: 23 авг 2002, 17:34
Откуда: Москва
Контактная информация:

Re: Подвисает сервер Supermicro

Сообщение gs » 05 дек 2013, 12:18

Ну так Вы напрямую сервисерам звоните, так оно быстрее будет.

mmu
Junior member
Сообщения: 7
Зарегистрирован: 06 ноя 2013, 19:58
Откуда: Москва

Re: Подвисает сервер Supermicro

Сообщение mmu » 05 дек 2013, 13:52

Сразу им звонил. Вопрос решается. Тут пишу чтобы узнать от других о похожей проблеме, может быть еще кому поможет.

idxi
Junior member
Сообщения: 1
Зарегистрирован: 15 дек 2013, 15:45
Откуда: Cbx

Re: Подвисает сервер Supermicro

Сообщение idxi » 15 дек 2013, 15:51

mmu писал(а):Сразу им звонил. Вопрос решается. Тут пишу чтобы узнать от других о похожей проблеме, может быть еще кому поможет.
что в итоге выяснилось?
как удалось решить проблему?

KAI
Advanced member
Сообщения: 450
Зарегистрирован: 10 окт 2006, 18:35
Откуда: Киев
Контактная информация:

Re: Подвисает сервер Supermicro

Сообщение KAI » 25 дек 2013, 18:37

гм... обычно меняют модуль памяти и все нормализуется :yo:

Ответить

Вернуться в «Серверы - Решение проблем»

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и 25 гостей