Перезагрузка сервера на intel se7520bd2

У вас сложности? Наши специалисты постараются помочь вам. Если вы сами сталкивались с похожими проблемами - поделитесь опытом.

Модераторы: Trinity admin`s, Free-lance moderator`s

Ответить
Merchant
Junior member
Сообщения: 14
Зарегистрирован: 02 июл 2007, 10:34
Откуда: Красноярск

Перезагрузка сервера на intel se7520bd2

Сообщение Merchant » 02 июл 2007, 14:00

Имеем в наличии такую систему:
- INTEL SE7520BD2SCSI,
- XEON-2x (L2-1Mb) 3200,
- память: 2x - Transcend PC2700 ECC Reg 1Gb (слот 1А и 1В)
           : 2х - Kingston PC3200 DDR400 ECC 1Gb  (слот 2А и 2В)      
- винчестеры в 5-ом RAID'e на INTEL srczcrx (U320SCSI Seagate Cheetah 10K - 3 шт.),
- UPS - Ippon smart power 2000,
- все это дело в SC5300 600 W.

По софту: Win2003 sp.1.
По прошивкам: SDR 6.6.6, BIOS 8.2, mBMC 2.40, IPMI 1.5.

А проблема вот в чем: где-то раз в 13-15 дней сервер самопроизвольно перезагружается. Ни в каких логах ничего не пишет криминального. На support. intel.com похожего не нашел. Не BSoD, так как дампа памяти не делает. Какие будут мысли?
Последний раз редактировалось Merchant 02 июл 2007, 21:23, всего редактировалось 1 раз.

KLIM_SPb
Сотрудник Тринити
Сотрудник Тринити
Сообщения: 421
Зарегистрирован: 06 май 2006, 16:33
Откуда: СПб
Контактная информация:

Сообщение KLIM_SPb » 02 июл 2007, 14:10

Причину будет сложно найти.
Это плавающий глюк
Проверить память программой MemTest 1.7+

Merchant
Junior member
Сообщения: 14
Зарегистрирован: 02 июл 2007, 10:34
Откуда: Красноярск

Сообщение Merchant » 02 июл 2007, 14:30

Несколько дополнений:
1. С открытой боковой стенкой срок аптайма ~ 13-15 дней; с закрытой ~ неделя, причем от нагрузки не зависит(ресетился как в пиковые моменты, так и ночью);
2. Перегрева не наблюдается: по данным ISM 8.40 температура от 40 до 55 C в пик.
3. Когда в BIOS стояло выключение в случае критического состояния, при включении ISM писал в лог Proc 1: Thermal Trip. После того, как значение было изменено на "Перезагрузка", подобного рода сообщения пропали.

Память проверить получится только в выходные.

Аватара пользователя
Tert
Advanced member
Сообщения: 4233
Зарегистрирован: 19 янв 2003, 08:09
Откуда: Москва
Контактная информация:

Сообщение Tert » 02 июл 2007, 16:27

Merchant
Попробуйте обновить FRU/SDR до версии 6.6.G. В одной из промежуточных версий от 6.6.6 до 6.6.G исправлялась похожая проблема с выключением сервера с событием Thermal Trip.
Кроме того, заодно обновите и BIOS платы до версии 9.0.

Ну и, конечно же, убедитесь, что у вас все в порядке с охлаждением :D

Merchant
Junior member
Сообщения: 14
Зарегистрирован: 02 июл 2007, 10:34
Откуда: Красноярск

Сообщение Merchant » 09 июл 2007, 06:55

KLIM_SPb писал(а):Причину будет сложно найти.
Это плавающий глюк
Проверить память программой MemTest 1.7+
MemTest + 1.70 ошибок не показал: время - 22 часа, число проходов - 8, ошибок - 0.


По поводу Thermal Trip'a: судя по описанию, было исправление в bd 6.6.2:
Readme.txt писал(а): BD-6.6.2
1. Corrected defect number 19978. CBC device locator record error.
2. Corrected FRU header issue with Intel(R) Management Module installed.
3. Modified threshold for CPU1 and CPU2 fans for Intel Entry Server Chassis SC5275-E,
  SC5295-E and others.
4. Corrected defect number 19996: SEL events generated when viewing log from web console.
5. Corrected defect number 74735: Thermal Trip is not generated by the mBMC.
6. Corrected defect: PROCHOT is not generated by the mBMC.
Кстати, а что может вызывать данного рода сообщение? Из доки к материнской плате в разделе Onboard Platform Instrumentation using the mBMC следующее:

Sensor Name: Proc1 Thermal Trip
Sensor #: 23h
Sensor Type: Processor 07h

и двумя строками ниже:
Sensor Name: Proc1 Thermal Control
Sensor #: 25h
Sensor Type: Temp 01h

Насколько я понимаю, за температурный контроль отвечает второй датчик. Интересно, за что отвечает первый. Или может быть документация есть какая с расшифровками. Искал - не нашел...

Merchant
Junior member
Сообщения: 14
Зарегистрирован: 02 июл 2007, 10:34
Откуда: Красноярск

Сообщение Merchant » 23 авг 2007, 15:14

В общем: поменяли полность память, делали проверку массива check consistency, все лишние винты вынуты. Ничего не помогло. Характерно, что последние пару раз стал просто зависать: то бишь, вентиляторы крутят, лампочки горят, а вот на экране - темнота, плюс не реагирует на кнопки питания - выключать приходится упс.
По массиву - на одном из дисков non-media error: 1. SMART, правда, молчит.
Есть ли смысл задумывать перепрошивку (если так, то в какой последовательности это лучше организовать) или принимать решение о покупке нового БП (или матери?)?

Ответить

Вернуться в «Серверы - Решение проблем»

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и 21 гость