AP #2 (PHY# 6) failed

У вас сложности? Наши специалисты постараются помочь вам. Если вы сами сталкивались с похожими проблемами - поделитесь опытом.

Модераторы: Trinity admin`s, Free-lance moderator`s

Ответить
ahk
Advanced member
Сообщения: 50
Зарегистрирован: 11 мар 2004, 12:46
Откуда: VTC SPbU

AP #2 (PHY# 6) failed

Сообщение ahk » 12 дек 2006, 23:18

Добрый день!

Начались проблемы с сервером на базе Supermicro (работает под FreeBSD). Вчера было как минимум два (а возможно и три) самопроизвольных перезапуска без всяких следов в логах. Ранее такого не наблюдалось.

Сегодня начали разбираться. Дисковая подсистема работает нормально, вентиляторы проверили визуально и через BIOS.

А вот вечером после перезагрузки система не смогла встать и выдала диагностику:

AP #2 (PHY# 6) failed

Грешить на процессор??? Порекомендуете какой тест, чтобы можно было загрузиться с CD и проверить железо?

Аватара пользователя
setar
Site Admin
Site Admin
Сообщения: 1990
Зарегистрирован: 22 авг 2002, 12:03
Откуда: St. Petersburg

Сообщение setar » 14 дек 2006, 10:59

Рекомендую начать с теста памяти (memtest, с бутовой дискетки)
Процессара иногда горят, но таких за свой 10летний опыт работы видел штук 5 из них 3 выгорели по причине проблемм с питанием.

ahk
Advanced member
Сообщения: 50
Зарегистрирован: 11 мар 2004, 12:46
Откуда: VTC SPbU

Сообщение ahk » 14 дек 2006, 11:04

Спасибо за рекомендацию!

К сожалению, сервер под нагрузкой, так что удалось отключить всего лишь на 10 минут. Прогнал memtest. Ошибок за это время выявлено не было. Как думаете, это достаточный период для оценки работоспособности памяти или нет?

С питанием проблем быть не должно, т.к. все подключено через online UPS и надежно заземлено.

Сейчас сервер работает нормально. Видимо займем выжидательную позицию, а в случае еще одного глюка (перезагрузка, остановка, непонятное падение процесса) выведем из эксплуатации...

Аватара пользователя
setar
Site Admin
Site Admin
Сообщения: 1990
Зарегистрирован: 22 авг 2002, 12:03
Откуда: St. Petersburg

Сообщение setar » 14 дек 2006, 11:14

время тестирования зависит от количества памяти в сервере и типа материнской платы.
для беглой оценки прогоните хотя бы 3 цикла (30мин - 2 часа)
для нормального тестирования нужно часов 6-10.
Ну а плавающае деффекты иногда выявляются после нескольких суток тестирования, но это крайне редко.

ahk
Advanced member
Сообщения: 50
Зарегистрирован: 11 мар 2004, 12:46
Откуда: VTC SPbU

Сообщение ahk » 14 дек 2006, 11:18

К сожалению, отключиться на такой срок невозможно.
Если найду новый сервер, то просто перенесу все на него, а потом уже буду разбираться с этим...

Не знаете, под FreeBSD есть ли тесты, которые можно запустить в процессе нормальной работы сервера?

Собираюсь сейчас запустить make world!-) Если память действительно сбоит, то есть шансы, что это проявится в процессе...

Аватара пользователя
Stranger03
Сотрудник Тринити
Сотрудник Тринити
Сообщения: 12979
Зарегистрирован: 14 ноя 2003, 16:25
Откуда: СПб, Екатеринбург
Контактная информация:

Сообщение Stranger03 » 14 дек 2006, 11:30

Два варианта:
1. дисковая система. БСД не смогла сбросить логи из-за ошибок на дисках. Проверить все диски родными утилитами на предмет ошибок. Посмотреть состояние СМАРТ-а.
2. память. если есть похожая память, просто махните в этом сервере либо прогоните тесты часов на 6-8.
3. процессора мало вероятно, поскольку логи должны были сохранится. Но, возможен перегрев и внезапная остановка. Проверьте радиаторы, положите новую смазку. Посмотрите, что в логах биоса. Может там что есть.

Аватара пользователя
Tert
Advanced member
Сообщения: 4233
Зарегистрирован: 19 янв 2003, 08:09
Откуда: Москва
Контактная информация:

Сообщение Tert » 14 дек 2006, 11:33

ahk
Материнская плата обычно сама ведет лог аппаратных сбоев. Посмотрите в BIOS'е в разделе, вроде "DMI Event Logging", есть ли какие-нибудь сообщения об ошибках.

Аватара пользователя
art
free-lance moderator
Сообщения: 653
Зарегистрирован: 15 май 2003, 11:25
Откуда: SPb

Сообщение art » 18 дек 2006, 15:28

ahk писал(а): Не знаете, под FreeBSD есть ли тесты, которые можно запустить в процессе нормальной работы сервера?
/usr/ports/sysutils/cpuburn

burnP6 - для памяти
burnMMX - для CPU

посмотрите на разные параметры.
Если тестирование на объем памяти, близкий к свободному (N копия burnP6 с ключем P) за 10-15 минут не вызывает проблем -  увеличьте температуру в серверной на 4-5 градусов.

Ответить

Вернуться в «Серверы - Решение проблем»

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и 21 гость