Сервер cse-825tq-r740lpb + X10DRL-i + LSI 9361-8i (RAID1=2xSSD, RAID6=6xSAS)+ intel 520da2 под ESXI 6.0
После сборки раз в 1,5-2 недели начал странно повисать (сервисы отваливаются, но пинг ходит) - выяснилось, что отваливался рэйд наживую, после перезагрузки рэйд контроллер полностью отсутствовал в системе, требовалось выключение и включение - появлялся вновь. Прошивку обновляли, не помогло.
Для исключения перегрева разнесли подальше LSI 9361-8i и intel 520da2, правда для этого пришлось LSI поставить в x16 слот - температура под нагрузкой была от 50 до 60С, после тестов (копирование внутри массива RAID6 и через сеть около 20ТБ) решили, что проблема ушла и был перегрев, но через 2 месяца проблема повторилась опять.
В логах после каждого сбоя такое:
"13 seconds from reboot Fatal: Controller cache discarded due to memory/battery problems"
далее
"65 seconds from reboot Information: Controller operating temperature within normal range, full operation restored"
но такая запись есть в логах и на других серверах, и ничего больше, что бы как-то свидетельствовало о перегреве - вроде бы нет. Температура под нагрузкой 45-55С, другие серверы с таким же контроллером работают и при 75С. Полный лог в аттаче, с 06.03 по 26.04 контроллер работал стабильно, до этого переставляли в другую систему для прошивки, отключали батарею.
Еще один странный момент, на этом контроллере BBU оказался пр-ва 2013 года версии 26766-01, на других от 2017 и 2019 версии 6071-04А, но при этом remaining capacity с 2013 года - 269 Joules, у остальных 239 и 250 соответственно.
Саппорт броадкома изучил логи и вынес вердикт о том, что вероятно надо менять CV, и контроллер вообще ОЕМ от супермикро - это смущает больше всего, т.к. контроллер был в заклееной ритэйл упаковке. Так же говорят о возможной проблеме из-за х16 слота, но там по компоновке выбор достаточно ограничен.
Может кто-то из уважаемых участников форума сталкивался с подобной проблемой?
И самый большой вопрос - чем устроить стресс тест контроллеру и кэшу, чтобы не ждать проявления проблемы 2 месяца?
Например, в последний раз (26.04) с 5 до 10 утра был бэкап 1.2Тб, контроллер отвалился через 7 часов после его окончания, и судя по логам сервера нагрузки после бэкапа не было вообще. До этого аналогичный бэкап проводился каждую неделю, в течение 4х недель и проблем не было.
LSI9361-8i пропадает из системы периодически. Стресс тесты?
Модераторы: Trinity admin`s, Free-lance moderator`s
LSI9361-8i пропадает из системы периодически. Стресс тесты?
- Вложения
-
- FOX_LOG.txt
- (428.96 КБ) 232 скачивания
Кто сейчас на конференции
Сейчас этот форум просматривают: нет зарегистрированных пользователей и 31 гость