Supermicro SuperServer 6024H-82 проблема с питанием

У вас сложности? Наши специалисты постараются помочь вам. Если вы сами сталкивались с похожими проблемами - поделитесь опытом.

Модераторы: Trinity admin`s, Free-lance moderator`s

Ответить
konstanteen
Junior member
Сообщения: 4
Зарегистрирован: 10 янв 2008, 23:24
Откуда: Рига, Латвия

Supermicro SuperServer 6024H-82 проблема с питанием

Сообщение konstanteen » 11 янв 2008, 00:32

Имеется Supermicro SuperServer 6024H-82  в следующей конфигурации:
CPU: 2 x Intel Xeon 3,0Ghz Irwindale
RAM: 2 x Kingston 1024Mb DDR2 200Mhz with ECC in Dual channel mode
M/B: Supermiro X6DH8, BIOS ver.6.0 30/11/2005
HDD: 4 x Seagate 36Gb U320 из них три в RAID-5, один в Hot-Spare
RAID controller: Supermicro All-In-One-ZCR Card AOC-LPZCR1(перед установкой системы не решился обновить фирмварь, стоит второй релиз )
Power supply: один на 550W

На сервере установленно:
ОС: Microsoft Windows Server 2003 R2 Enterprise Edition x86
Обновления: все до сегоднешнего дня включая IE7
Антивирус: не установлен
Брендмауэр: выключен(среда работы - только интранет)
База данных: Microsoft SQL Server 2005 with SP2, объём - 70Мб, прирост в день 4-50Мб, клиентов около 1000, активных одновременных подключений клиентов не более 30.
Офисный пакет: Microsoft Office Professional Edition 2003 with SP3
Кроме этого на сервере больше никакого ПО нет.

Введение: Сервер установлен и отработал 24/7 в течение 3 недель. Находится в серверной стойке, запитан от УПСа, на котором живут еще 2 сервера аналогичной конфигурации.

Проблема: за последние 20 часов - 2 самопроизвольных выключения:
в 3:30 когда активность сотавляет 1-4 клиента в SQLе
в 18:00 когда активность около средней 10-14 клиентов в SQLе

В первый раз на ввод с клавиатуры, подключена непосредственно к серверу, никак не реагировал, в сети тоже не был виден. Вентиляторы внутренние/болк питания крутились, жесткие диски крутились. Был "разбужен" РЕСЕТОМ.

Во второй раз на ввод с клавиатуры, подключена непосредственно к серверу, никак не реагировал, в сети тоже не был виден. Вентиляторы внутренние/болк питания крутились, жесткие диски крутились. Был вынут Hot-Spare диск, на что сервер ругнулся непрекращающися писком и соответствующей индикацией на панели(red:on, green:on). После установки диска обратно, через 40-60 секунд писк и индикация пропали. Опять был "разбужен" РЕСЕТОМ.

Исследование:
Логи ОС:
1.The previous system shutdown at 3:27:03 on 10.01.2008 was unexpected.
2.The previous system shutdown at 17:59:59 on 10.01.2008 was unexpected.
- Кроме этих записей, ничего ни до ни после обнаружить не удалось - пусто.

Логи УПСа:
Никаких проблем с электричеством не зарегистрировано.

Мои выводы: поведение во время второго инцидента - нормальная реакция РАИДа в нормальном рабочем состоянии. По-моему проблема с железом - блок питания.

Сервер максимум может быть отключен на 1 час раз 1 раз в неделю во время минимальной активности для проведения профилактики.

Помогите, пожалуйста, советом! В какую сторону копать, что проверять, в гарантийку отдать сразу не могу, т.к. рабочая система(и вопрос гарантии туманен в виду того, что много воды с даты покупки утекло), параллельно ищу другой сервер на замену этому глюкозавру.

Аватара пользователя
setar
Site Admin
Site Admin
Сообщения: 1990
Зарегистрирован: 22 авг 2002, 12:03
Откуда: St. Petersburg

Сообщение setar » 11 янв 2008, 14:01

мысли вслух.
Самое первое действие которое судя по всему не было сделано - установка и контроль за показаниями СуперДоктора (SuperDoctor) из комплекта драйверов материнской платы.
Возможно имеет место банальный перегрев.

Прошивки все прошить до последней версии, обязательно перед этим сделать бакап данных.
С вероятностью в 30% прошивки могут исправить ситуацию.



Т.к. не очень ясна ситуация имеет ли место программное зависание или аппаратная проблемма (а из вышеописанного выводов однозначных сделать нельзя), то рекомендую попробовать отключить в биосе режим ACPI и всё что связано с энергосбережением. Может иметь место некорректрая работа драйворов связанных с ACPI.

P.S. проблемма с БП маловероятна т.к. если я всё правильно понял имело место не отключение питания а скорее "зависание"

Аватара пользователя
gs
Сотрудник Тринити
Сотрудник Тринити
Сообщения: 16650
Зарегистрирован: 23 авг 2002, 17:34
Откуда: Москва
Контактная информация:

Сообщение gs » 11 янв 2008, 15:59

Я бы еще память прогнал мемтестом. Инекспектед и пустота в логах - это на нее очень похоже.

konstanteen
Junior member
Сообщения: 4
Зарегистрирован: 10 янв 2008, 23:24
Откуда: Рига, Латвия

Сообщение konstanteen » 11 янв 2008, 21:29

Спасибо за советы, из всего выходит план:
- ASAP: установить и проконтролировать показания СуперДоктора (SuperDoctor) из комплекта драйверов материнской платы.
- Во время первого обслуживания:
а) протестить память;
б) прошивки все прошить до последней версии.

Под мемтестом подразумевается вот это http://www.memtest.org/#downiso ?

Прошивки обновлять на всём(мать/РАИД контроллер)?

Поможет ли стандартный Windows ASR backup воссатновить систему после прошивки RAID контроллера/матери или лучше воспользоваться Ghost'ом/чем-то другим?

А не вызовет ли отключение в биосе режима ACPI и всё что связано с энергосбережением изменение HALa? И соотвтетственно невозможность загрузки ОС как таковой?

P.S. после второго зависания серверу было обеспечено свободное пространство снизу и сверху по одному Ю + сняты боковые стенки и дверь рака.
P.S.S. последние 26 часов полет нормальный.

konstanteen
Junior member
Сообщения: 4
Зарегистрирован: 10 янв 2008, 23:24
Откуда: Рига, Латвия

Продолжение истории...

Сообщение konstanteen » 05 июл 2008, 16:13

С того самого момента сервер подобным образом "умирал" 3 раза:
1-ый раз 23.02.2008 в 18:17- тогда я всё-таки списал это на температуру, потому как она была завышеной, делались отчеты, сервер был сильно загружен.
2-ой раз 04.07.2008 в 3:18
3-ий раз 05.07.2008 в 10:28
В общем пришлось вернуться к поиску истинной проблемы.
Опять были перелопачены логи SuperoDoctor'а, операционной системы, SQL серврера - ноль. Снова проверена память - ноль.
gs писал(а):Я бы еще память прогнал мемтестом. Инекспектед и пустота в логах - это на нее очень похоже.
И всё-таки, похоже вы были правы. При проверке DMI Event Log'а оказалось, на каждое из 5 зависаний(2 что описал в январе, февральское и 2 июльских) приходится по строчке следующего содержания:
Single-Bit ECC Errors in Memory Bank 1.

За 7 месяцев эксплуатации системы проблема всплыла 5 раз. memtest ничего не нашел, но проблема очевидно в памяти, с модулем установленным в первый слот. Что сделать, чтобы убедиться на 100% в том что виноват он?

Плюс к этому намечается ещё одна проблема с этим сервером.
На нём ежедневно происходит backup'а SQL сервера.
С конца апреля в самом конце backup процесса в логах сервера стала появляется ошибка:
Event Type: Error
Event Source: dpti2o
Event Category: None
Event ID: 9
Date: 29.06.2008
Time: 8:01:54
User: N/A
Computer: DBSRV
Description:
The device, \Device\Scsi\dpti2o1, did not respond within the timeout period.

For more information, see Help and Support Center at http://go.microsoft.com/fwlink/events.asp.
Data:
0000: 00 00 10 00 01 00 66 00   ......f.
0008: 00 00 00 00 09 00 04 c0   .......À
0010: 01 01 00 50 00 00 00 00   ...P....
0018: 00 00 00 00 00 00 00 00   ........
0020: 00 00 00 00 00 00 00 00   ........
0028: 00 00 00 00 00 00 00 00   ........
0030: 00 00 00 00 07 00 00 00   ........

при этом ошибка проявляется нерегулярно:
29.06.2008
25.06.2008
23.06.2008
22.06.2008
17.06.2008
12.06.2008
11.06.2008
09.06.2008
08.06.2008
05.06.2008
04.06.2008
03.06.2008
02.06.2008
01.06.2008
29.05.2008
27.05.2008
26.05.2008
24.05.2008
23.05.2008
20.05.2008
18.05.2008
17.05.2008
14.05.2008
13.05.2008
12.05.2008
10.05.2008
07.05.2008
03.05.2008
29.04.2008
то есть 29 раз во время 68 backup'ов. Размер базы 1,2 Гб. Backup'ится менее чем за 2 минуты. Куда копать?

konstanteen
Junior member
Сообщения: 4
Зарегистрирован: 10 янв 2008, 23:24
Откуда: Рига, Латвия

Сообщение konstanteen » 07 июл 2008, 09:59

После ещё одного зависания 6-ого в 17:42:36 05.07.2008, с тем же самым симптомом - Single-Bit ECC Errors in Memory Bank 1, поменял память местами на такую же из соседнего сервера (с ним за последний год ничего подобного не приключалось).
Так как мера временная и вынужденная ждём-с предложений.  :cry:

Ответить

Вернуться в «Серверы - Решение проблем»

Кто сейчас на конференции

Сейчас этот форум просматривают: Google [Bot] и 19 гостей