Проблема с Supermicro X9DAi (SYS-7037a-i)

У вас сложности? Наши специалисты постараются помочь вам. Если вы сами сталкивались с похожими проблемами - поделитесь опытом.

Модераторы: Trinity admin`s, Free-lance moderator`s

Ответить
SciMan
Junior member
Сообщения: 10
Зарегистрирован: 10 янв 2017, 22:44

Проблема с Supermicro X9DAi (SYS-7037a-i)

Сообщение SciMan » 10 янв 2017, 22:57

Здравствуйте.

В наличии есть рабочая станция на базе Supermicro X9DAi, в корпусе SYS-7037a-i, версия BIOS = 3.0а

Сама станция подключена к бесперебойнику, до недавнего времени все было хорошо (полгода с запуска), а сегодня внезапно начался следующий глюк: включаю питание с передней панели - стартуют кулеры, шумят секунд 5, и мигает красный индикатор "i" - "информация". Потом станция внезапно прерывает запуск и выключается, не показав ничего на экране. Через несколько секунд (примерно 3 сек.) внезапно включает питание и продолжает запуск с нуля. В мане об индикации LED "i" не сказано ничего, там вместо него обозначен индикатор температуры, означает проверить помещение на перегрев, или мешает ли что-то вентиляторам. Разобрал корпус, прочистил его, собрал обратно, проблема осталась.

Некоторое время погуглив, нашел еще вариант источника проблемы - возможно, ошибки в памяти: на борту 128 ГБ Reg-ECC, работал на Force speed 1600, сейчас в BIOS переставил на Auto (стало 1333). Проблема не исчезла. На ночь поставлю Memtest, в нем, кстати, ECC=off. В логах BIOS есть ошибка Smbios 0x01 SINGLE ECC-BIT ERROR. Но в логах она уже очень давно, а проблема началась сегодня.

Подскажите пожалуйста, в чем может быть проблема. Прошивку BIOS обновлял летом, по способу в readme с офсайта Supermicro, все встало без проблем.

Спасибо.

Аватара пользователя
Stranger03
Сотрудник Тринити
Сотрудник Тринити
Сообщения: 12979
Зарегистрирован: 14 ноя 2003, 16:25
Откуда: СПб, Екатеринбург
Контактная информация:

Re: Проблема с Supermicro X9DAi (SYS-7037a-i)

Сообщение Stranger03 » 11 янв 2017, 13:15

SciMan писал(а):В наличии есть рабочая станция на базе Supermicro X9DAi, в корпусе SYS-7037a-i, версия BIOS = 3.0а
На плате IPMI к сожалению отсутствует, поэтому в логах особо не покопаться. Вариантов масса. Придется проверять методом тыка. Начните с проверки напряжения с блоков питания 5 и 12 Вольт. Внимательно осмотрите плату на предмет горелостей, вздутия конденсаторов. Далее методом исключения память, проц.
С уважением Геннадий
ICQ 116164373
eburg@trinitygroup.ru

SciMan
Junior member
Сообщения: 10
Зарегистрирован: 10 янв 2017, 22:44

Re: Проблема с Supermicro X9DAi (SYS-7037a-i)

Сообщение SciMan » 11 янв 2017, 14:09

Добрый день, большое спасибо за ответ.

Более-менее внимательное разглядывание платы не выявило никаких видимых повреждений. На станции стоит 2 ОС: Win7+Ubuntu. Описанный эффект наблюдается только при перезагрузки из-под Win7, при перезагрузке из-под Ubuntu процесс происходит гладко. На этом форуме было что-то примерно похожее описано в топике http://3nity.ru/viewtopic.php?f=2&t=23790, и, учитывая, что мерцание красного диода сопряжено со стартовым/финальным перед ребутом шорохом HDD, я могу предположить, что дело как-то связано с контроллером SATA.
Поэтому начал с переустановки драйверов SATA/AHCI и еще могу потом попробовать переустановить ОСи, оборудование пока дороже данных.
Интересным еще показался топик https://ubuntuforums.org/showthread.php?t=2024096, вроде бы тоже проблемы из-за дискового контроллера.

Аватара пользователя
Tert
Advanced member
Сообщения: 4233
Зарегистрирован: 19 янв 2003, 08:09
Откуда: Москва
Контактная информация:

Re: Проблема с Supermicro X9DAi (SYS-7037a-i)

Сообщение Tert » 11 янв 2017, 15:07

SciMan
Попробуйте другой блок питания.
Также попробуйте вынуть процессор из сокета и почистить резинкой на нем контактные площадки.

SciMan
Junior member
Сообщения: 10
Зарегистрирован: 10 янв 2017, 22:44

Re: Проблема с Supermicro X9DAi (SYS-7037a-i)

Сообщение SciMan » 25 янв 2017, 21:55

Tert писал(а): Попробуйте другой блок питания.
Спасибо за ответ! Я попробовал. Ничего не изменилось, к сожалению. Взял новый БП, на киловатт, вставил, перезагрузился - и снова то же самое все.
Теперь надежда на контактные площадки ЦП.
А кстати, это не могло быть из-за высохшей термопасты? ЦП перегрелся, в винде режим завершения работ не такой как в убунте, последняя, возможно, меньше кипятит ЦП, в итоге они не перегреваются при перезагрузке, а в винде - да... Такое может быть?

Аватара пользователя
Stranger03
Сотрудник Тринити
Сотрудник Тринити
Сообщения: 12979
Зарегистрирован: 14 ноя 2003, 16:25
Откуда: СПб, Екатеринбург
Контактная информация:

Re: Проблема с Supermicro X9DAi (SYS-7037a-i)

Сообщение Stranger03 » 26 янв 2017, 10:06

SciMan
Возьмите заведомо рабочий процессор и попробуйте.
С уважением Геннадий
ICQ 116164373
eburg@trinitygroup.ru

SciMan
Junior member
Сообщения: 10
Зарегистрирован: 10 янв 2017, 22:44

Re: Проблема с Supermicro X9DAi (SYS-7037a-i)

Сообщение SciMan » 03 фев 2017, 11:02

Здравствуйте.
Проблема решилась путем переустановки Windows 7. Теперь все работает как надо, за исключением того, что в диспетчере устройств пропали COM-порты. И из-за этого не могу общаться с ИБП.
Как можно восстановить порты в ОС? Драйверы чипсета и дополнительные драйверы Intel на материнскую плату уже стоят.
Теоретически, могу написать свой драйвер COM-порта, но не знаю как определить его PID. если он не виден. Порт в биос включен.

Аватара пользователя
Tert
Advanced member
Сообщения: 4233
Зарегистрирован: 19 янв 2003, 08:09
Откуда: Москва
Контактная информация:

Re: Проблема с Supermicro X9DAi (SYS-7037a-i)

Сообщение Tert » 03 фев 2017, 14:49

SciMan
Попробуйте сделать CLEAR CMOS и потом выставить параметры BIOS по умолчанию.

SciMan
Junior member
Сообщения: 10
Зарегистрирован: 10 янв 2017, 22:44

Re: Проблема с Supermicro X9DAi (SYS-7037a-i)

Сообщение SciMan » 07 фев 2017, 16:08

Tert писал(а):SciMan
Попробуйте сделать CLEAR CMOS и потом выставить параметры BIOS по умолчанию.
Здравствуйте.
Да, спасибо, это помогло. Все порты видны, после установки драйверов - заработало как положено.
Теперь есть проблемы вылета другого типа (шина PCI вернула неверный ID дочернего устройства), я пытаюсь дампы читать ("Компьютер был перезагружен после критической ошибки. Код ошибки: 0x00000019 (0x0000000000000022, 0xfffffa80641ee000, 0x0000000000000000, 0x0000000000000000)").
Вообще, переустановка ОС, конечно, привела к невероятным хлопотам, удивительно, особенно если учесть, что Windows 7 Enterprise лицензионная.

Аватара пользователя
Stranger03
Сотрудник Тринити
Сотрудник Тринити
Сообщения: 12979
Зарегистрирован: 14 ноя 2003, 16:25
Откуда: СПб, Екатеринбург
Контактная информация:

Re: Проблема с Supermicro X9DAi (SYS-7037a-i)

Сообщение Stranger03 » 08 фев 2017, 11:02

SciMan писал(а):Вообще, переустановка ОС, конечно, привела к невероятным хлопотам, удивительно, особенно если учесть, что Windows 7 Enterprise лицензионная.
По факту эта плата серверная, лучше бы использовать серверную ОСь. На худой конец Варь ESXi, а внутри уже виртуалку с Вин7.
С уважением Геннадий
ICQ 116164373
eburg@trinitygroup.ru

SciMan
Junior member
Сообщения: 10
Зарегистрирован: 10 янв 2017, 22:44

Re: Проблема с Supermicro X9DAi (SYS-7037a-i)

Сообщение SciMan » 13 фев 2017, 11:45

Stranger03 писал(а): По факту эта плата серверная, лучше бы использовать серверную ОСь. На худой конец Варь ESXi, а внутри уже виртуалку с Вин7.
Да, я постепенно привыкаю к такой мысли, придется переставить, когда досчитаю пару задач. Хотя на сайте Supermicro написана совместимость с Win 7 и все такое.
Теперь возник новый вопрос, для меня пока совершенно неразрешимый - у меня в распоряжении появился ускоритель Intel Xeon Phi 7120A 2016 г. выпуска. Для его включения на этой машине необходимо включить режим Above 4G decoding, который доступен в опциях BIOS. Однако, при его включении случился конфликт с видеокартой Tesla C2050, на которой видеовыход висит, помимо всего прочего, и просто гигантский артефакт на экране вместо изображения. Меня интересует, нужно ли какую-то другую видеокарту поставить, или можно поднастроить что-то еще в BIOS (MMCFG, или еще что-нибудь?) и как это тогда сделать, вчера попытками подстройки едва систему в кирпич не превратил.

Аватара пользователя
Stranger03
Сотрудник Тринити
Сотрудник Тринити
Сообщения: 12979
Зарегистрирован: 14 ноя 2003, 16:25
Откуда: СПб, Екатеринбург
Контактная информация:

Re: Проблема с Supermicro X9DAi (SYS-7037a-i)

Сообщение Stranger03 » 13 фев 2017, 11:53

"SciMan"
Можно попробовать поставить карту в другой слот. Возможен какой-то конфликт.
С уважением Геннадий
ICQ 116164373
eburg@trinitygroup.ru

SciMan
Junior member
Сообщения: 10
Зарегистрирован: 10 янв 2017, 22:44

Re: Проблема с Supermicro X9DAi (SYS-7037a-i)

Сообщение SciMan » 21 мар 2017, 19:52

Докладываю о результатах:
конфликт со стоявшей видеокартой NVIDIA Tesla C2050. Наверное, можно было поменять видеокарту и ускоритель местами, но я просто поставил старенькую ATI с пассивным охлаждением вместо Tesla, накатил драйвера и все работает как положено.

Спасибо большое за помощь.

SciMan
Junior member
Сообщения: 10
Зарегистрирован: 10 янв 2017, 22:44

Re: Проблема с Supermicro X9DAi (SYS-7037a-i)

Сообщение SciMan » 22 фев 2024, 16:32

UPD: спустя 7 лет
Пишу это сообщение, на случай, если кто-то опять столкнётся с подобной проблемой: внезапные вылеты, внезапное выключение сервера, не стартует сервер, сервер на X9DAi включается через раз и т.д. За эти годы проблема вернулась вновь, и никакие уже испробованные средства (перестановка карт в PCIe слотах, протирки контактов у карт расширения и планок памяти, обновление и даунгрейд BIOS и т.д.) не помогали. Произошло следующее: однажды, отчаявшись исправить, я снова разобрал системный блок и начал снимать уже установленные компоненты на материнскую плату. И при внимательном осмотре оказалось, что в одном из слотов оперативной памяти, в самой щели слота, виден крохотный лоскуток фольги из белого металла (!) площадью в 2-3 кв.мм, возможно, алюминий. Он частично заходил под сам пластик слота памяти и вытряхнуть его было нельзя, и случайно он выпасть не мог -- он был достаточно хорошо прижат слотом к поверхности материнской платы. Видимо, он коротил какие-то контакты одной из планок памяти, а может, и саму материнскую плату, на что, возможно, мне пытался указать Memtest. К счастью, жена смогла лабораторным очень тонким пинцетом достать этот фрагмент фольги, не разорвав. В итоге, уже года 2 как машина стабильно работает, считает, и сейчас стоит под нагрузкой с климатическим расчётом и готовится принять на борт Xeon Phi.

Мораль: при возникновении непонятных, трудновоспроизводимых проблем с железом -- тщательно разбирайте и очень внимательно, с пристрастием осматривайте оборудование -- снова и снова, тщательно прочищайте и продувайте узкие места при осмотре (не забывайте про заземление и статическое электричество), прежде чем заниматься обновлениями прошивок и прочим. Спасибо форуму за помощь!

Изображение
Изображение

Ответить

Вернуться в «Серверы - Решение проблем»

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и 19 гостей