AP #2 (PHY# 6) failed
Модераторы: Trinity admin`s, Free-lance moderator`s
AP #2 (PHY# 6) failed
Добрый день!
Начались проблемы с сервером на базе Supermicro (работает под FreeBSD). Вчера было как минимум два (а возможно и три) самопроизвольных перезапуска без всяких следов в логах. Ранее такого не наблюдалось.
Сегодня начали разбираться. Дисковая подсистема работает нормально, вентиляторы проверили визуально и через BIOS.
А вот вечером после перезагрузки система не смогла встать и выдала диагностику:
AP #2 (PHY# 6) failed
Грешить на процессор??? Порекомендуете какой тест, чтобы можно было загрузиться с CD и проверить железо?
Начались проблемы с сервером на базе Supermicro (работает под FreeBSD). Вчера было как минимум два (а возможно и три) самопроизвольных перезапуска без всяких следов в логах. Ранее такого не наблюдалось.
Сегодня начали разбираться. Дисковая подсистема работает нормально, вентиляторы проверили визуально и через BIOS.
А вот вечером после перезагрузки система не смогла встать и выдала диагностику:
AP #2 (PHY# 6) failed
Грешить на процессор??? Порекомендуете какой тест, чтобы можно было загрузиться с CD и проверить железо?
Спасибо за рекомендацию!
К сожалению, сервер под нагрузкой, так что удалось отключить всего лишь на 10 минут. Прогнал memtest. Ошибок за это время выявлено не было. Как думаете, это достаточный период для оценки работоспособности памяти или нет?
С питанием проблем быть не должно, т.к. все подключено через online UPS и надежно заземлено.
Сейчас сервер работает нормально. Видимо займем выжидательную позицию, а в случае еще одного глюка (перезагрузка, остановка, непонятное падение процесса) выведем из эксплуатации...
К сожалению, сервер под нагрузкой, так что удалось отключить всего лишь на 10 минут. Прогнал memtest. Ошибок за это время выявлено не было. Как думаете, это достаточный период для оценки работоспособности памяти или нет?
С питанием проблем быть не должно, т.к. все подключено через online UPS и надежно заземлено.
Сейчас сервер работает нормально. Видимо займем выжидательную позицию, а в случае еще одного глюка (перезагрузка, остановка, непонятное падение процесса) выведем из эксплуатации...
К сожалению, отключиться на такой срок невозможно.
Если найду новый сервер, то просто перенесу все на него, а потом уже буду разбираться с этим...
Не знаете, под FreeBSD есть ли тесты, которые можно запустить в процессе нормальной работы сервера?
Собираюсь сейчас запустить make world!-) Если память действительно сбоит, то есть шансы, что это проявится в процессе...
Если найду новый сервер, то просто перенесу все на него, а потом уже буду разбираться с этим...
Не знаете, под FreeBSD есть ли тесты, которые можно запустить в процессе нормальной работы сервера?
Собираюсь сейчас запустить make world!-) Если память действительно сбоит, то есть шансы, что это проявится в процессе...
- Stranger03
- Сотрудник Тринити
- Сообщения: 12979
- Зарегистрирован: 14 ноя 2003, 16:25
- Откуда: СПб, Екатеринбург
- Контактная информация:
Два варианта:
1. дисковая система. БСД не смогла сбросить логи из-за ошибок на дисках. Проверить все диски родными утилитами на предмет ошибок. Посмотреть состояние СМАРТ-а.
2. память. если есть похожая память, просто махните в этом сервере либо прогоните тесты часов на 6-8.
3. процессора мало вероятно, поскольку логи должны были сохранится. Но, возможен перегрев и внезапная остановка. Проверьте радиаторы, положите новую смазку. Посмотрите, что в логах биоса. Может там что есть.
1. дисковая система. БСД не смогла сбросить логи из-за ошибок на дисках. Проверить все диски родными утилитами на предмет ошибок. Посмотреть состояние СМАРТ-а.
2. память. если есть похожая память, просто махните в этом сервере либо прогоните тесты часов на 6-8.
3. процессора мало вероятно, поскольку логи должны были сохранится. Но, возможен перегрев и внезапная остановка. Проверьте радиаторы, положите новую смазку. Посмотрите, что в логах биоса. Может там что есть.
/usr/ports/sysutils/cpuburnahk писал(а): Не знаете, под FreeBSD есть ли тесты, которые можно запустить в процессе нормальной работы сервера?
burnP6 - для памяти
burnMMX - для CPU
посмотрите на разные параметры.
Если тестирование на объем памяти, близкий к свободному (N копия burnP6 с ключем P) за 10-15 минут не вызывает проблем - увеличьте температуру в серверной на 4-5 градусов.
Кто сейчас на конференции
Сейчас этот форум просматривают: нет зарегистрированных пользователей и 38 гостей