Подвисает сервер Supermicro
Модераторы: Trinity admin`s, Free-lance moderator`s
Подвисает сервер Supermicro
Всем доброго дня.
Сервер Trinity (2013 года)
2U Supermicro chassis + 2 БП
Системная плата X9DR3-F
Процессор Intel Xeon E5-2620 – 2 шт
Модуль памяти 4GB, ECC Reg, DDR3-1333, Single Rank, x4 – 8 шт
Контроллер RAID LSI MegaRAID SAS 9271-8i + BBU LSIiBBU09
Жесткий диск SAS Hitachi Ultrastar 15K600, 600GB – 8 шт
RAID-10 из 6 дисков
Прошивки для всего последние
Установлен VMWare ESXi 5.1 Сервер пока без нагрузки, только подготавливается к переносу ресурсов со старого железа. Развернуто несколько виртуальных машин.
Проработал без нареканий 2 недели и на днях подвис. Помог только reset.
При подключении по IPMI в Server Health - Event Log ошибка, как раз в то время
OEM CPLD CATERR - asserted
Ребята из Тринити порекомендовали отключить direct cache access в настройках биоса.
Пока не смотрел данную опцию, может она и не включена. Учитывая, что ошибка пока больше не повторялась, то хотелось бы сперва ее снова выявить (повторить), а потом менять настройки и проверять.
Как раз собирался переносить ресурсы на новый сервер …
Может кто сталкивался с подобной проблемой или что подскажите?
Всем спасибо.
Сервер Trinity (2013 года)
2U Supermicro chassis + 2 БП
Системная плата X9DR3-F
Процессор Intel Xeon E5-2620 – 2 шт
Модуль памяти 4GB, ECC Reg, DDR3-1333, Single Rank, x4 – 8 шт
Контроллер RAID LSI MegaRAID SAS 9271-8i + BBU LSIiBBU09
Жесткий диск SAS Hitachi Ultrastar 15K600, 600GB – 8 шт
RAID-10 из 6 дисков
Прошивки для всего последние
Установлен VMWare ESXi 5.1 Сервер пока без нагрузки, только подготавливается к переносу ресурсов со старого железа. Развернуто несколько виртуальных машин.
Проработал без нареканий 2 недели и на днях подвис. Помог только reset.
При подключении по IPMI в Server Health - Event Log ошибка, как раз в то время
OEM CPLD CATERR - asserted
Ребята из Тринити порекомендовали отключить direct cache access в настройках биоса.
Пока не смотрел данную опцию, может она и не включена. Учитывая, что ошибка пока больше не повторялась, то хотелось бы сперва ее снова выявить (повторить), а потом менять настройки и проверять.
Как раз собирался переносить ресурсы на новый сервер …
Может кто сталкивался с подобной проблемой или что подскажите?
Всем спасибо.
- Tert
- Advanced member
- Сообщения: 4233
- Зарегистрирован: 19 янв 2003, 08:09
- Откуда: Москва
- Контактная информация:
Re: Подвисает сервер Supermicro
CATERR - это catastrophic errors в процессоре.
В Xeon E5 иногда в определенный момент при работе DCA и DMA может генерироваться такое сообщение.
Поэтому мы и посоветовали такой вариант решения проблемы.
Может быть еще такой вариант:
Due to this erratum, under a complex set of conditions, Intel QPI uncorrectable errors
may cause a deadlock between the processor and PCH (Platform Controller Hub). The
deadlock will cause a processor internal timeout error as indicated by
IA32_MCi_STATUS.MCACOD of 0000_0100_0000_0000, CATERR# assertion and a
Shutdown transaction being sent to the PCH. Depending on the platform
implementation, this will result in reset being asserted to the PCH. This deadlock
persists, causing the PCH to timeout on the reset request. Reacting to the reset request
timeout, the PCH powers down the system.
Если отключение DCA не поможет, то есть вероятность что по шине QPI идут данные с ошибками. В этом случае скорее всего надо менять плату или процессор (хотя иногда процессору достаточно почистить контактные площадки).
Ну и напоследок:
Question
I have a X9DRD-iF rev 1.02 board and my system freezes with CATERR error in IPMI SEL when LSI
MegaRAID SAS 9240-4i AOC is used. If I remove the AC power and reboot, the system works again.
What is causing this error?
Answer
If the LSI card is using fw 10M09P18 or 10M09P29, please update the fw on the card to 10M09P35 or
later and this will resolve the issue.
В Xeon E5 иногда в определенный момент при работе DCA и DMA может генерироваться такое сообщение.
Поэтому мы и посоветовали такой вариант решения проблемы.
Может быть еще такой вариант:
Due to this erratum, under a complex set of conditions, Intel QPI uncorrectable errors
may cause a deadlock between the processor and PCH (Platform Controller Hub). The
deadlock will cause a processor internal timeout error as indicated by
IA32_MCi_STATUS.MCACOD of 0000_0100_0000_0000, CATERR# assertion and a
Shutdown transaction being sent to the PCH. Depending on the platform
implementation, this will result in reset being asserted to the PCH. This deadlock
persists, causing the PCH to timeout on the reset request. Reacting to the reset request
timeout, the PCH powers down the system.
Если отключение DCA не поможет, то есть вероятность что по шине QPI идут данные с ошибками. В этом случае скорее всего надо менять плату или процессор (хотя иногда процессору достаточно почистить контактные площадки).
Ну и напоследок:
Question
I have a X9DRD-iF rev 1.02 board and my system freezes with CATERR error in IPMI SEL when LSI
MegaRAID SAS 9240-4i AOC is used. If I remove the AC power and reboot, the system works again.
What is causing this error?
Answer
If the LSI card is using fw 10M09P18 or 10M09P29, please update the fw on the card to 10M09P35 or
later and this will resolve the issue.
Re: Подвисает сервер Supermicro
Спасибо за советы.
Пробовал понагружать RAID, пока обычным копированием. Ошибка не повторялась.
Затем проверил DCA, был включен. Отключил.
Буду наблюдать.
Пробовал понагружать RAID, пока обычным копированием. Ошибка не повторялась.
Затем проверил DCA, был включен. Отключил.
Буду наблюдать.
Re: Подвисает сервер Supermicro
Проблема повторилась.
Сначала посыпались ошибки OEM Memory Correctable Memory ECC – Asserted, затем OEM CPLD CATERR – asserted
Сегодня отвезу в сервис.
Сначала посыпались ошибки OEM Memory Correctable Memory ECC – Asserted, затем OEM CPLD CATERR – asserted
Сегодня отвезу в сервис.
- gs
- Сотрудник Тринити
- Сообщения: 16650
- Зарегистрирован: 23 авг 2002, 17:34
- Откуда: Москва
- Контактная информация:
Re: Подвисает сервер Supermicro
Ну вот и правильно.
Re: Подвисает сервер Supermicro
В сервисе заменили один модуль памяти, сказали причина была в нем.
Пока проблем нет.
Пока проблем нет.
Re: Подвисает сервер Supermicro
Проблема снова повторилась.
Сначала посыпались ошибки OEM Memory Correctable Memory ECC – Asserted, затем OEM CPLD CATERR – asserted
Буду настаивать, чтобы заменили мать, процы и память.
Сначала посыпались ошибки OEM Memory Correctable Memory ECC – Asserted, затем OEM CPLD CATERR – asserted
Буду настаивать, чтобы заменили мать, процы и память.
- Tert
- Advanced member
- Сообщения: 4233
- Зарегистрирован: 19 янв 2003, 08:09
- Откуда: Москва
- Контактная информация:
Re: Подвисает сервер Supermicro
mmu
Привозите к нам в сервис.
Все же наибольшая вероятность, что проблема в процессоре.
Привозите к нам в сервис.
Все же наибольшая вероятность, что проблема в процессоре.
Re: Подвисает сервер Supermicro
Сервер в работе. Привезти не могу. Договариваюсь о замене на месте, все таки Москва (не очень далеко от Вас). Готов Вашего инженера забрать и отвезти.
Во вложении ошибка из BIOS, если модуль тот-же, что и меняли, может быть проблемы с материнской платой? Хочу поменять материнскую плату, процессор и память.
Во вложении ошибка из BIOS, если модуль тот-же, что и меняли, может быть проблемы с материнской платой? Хочу поменять материнскую плату, процессор и память.
- gs
- Сотрудник Тринити
- Сообщения: 16650
- Зарегистрирован: 23 авг 2002, 17:34
- Откуда: Москва
- Контактная информация:
Re: Подвисает сервер Supermicro
Ну так Вы напрямую сервисерам звоните, так оно быстрее будет.
Re: Подвисает сервер Supermicro
Сразу им звонил. Вопрос решается. Тут пишу чтобы узнать от других о похожей проблеме, может быть еще кому поможет.
Re: Подвисает сервер Supermicro
что в итоге выяснилось?mmu писал(а):Сразу им звонил. Вопрос решается. Тут пишу чтобы узнать от других о похожей проблеме, может быть еще кому поможет.
как удалось решить проблему?
-
- Advanced member
- Сообщения: 450
- Зарегистрирован: 10 окт 2006, 18:35
- Откуда: Киев
- Контактная информация:
Re: Подвисает сервер Supermicro
гм... обычно меняют модуль памяти и все нормализуется
Кто сейчас на конференции
Сейчас этот форум просматривают: нет зарегистрированных пользователей и 25 гостей