LSI9361-8i пропадает из системы периодически. Стресс тесты?

Конфигурирование, планирование RAID систем, возможности, технологии, теория. Qlogic, LSI Logic, Adaptec ...

Модераторы: Trinity admin`s, Free-lance moderator`s

Ответить
Аватара пользователя
netflix
Junior member
Сообщения: 2
Зарегистрирован: 26 сен 2014, 23:19

LSI9361-8i пропадает из системы периодически. Стресс тесты?

Сообщение netflix » 08 май 2020, 10:43

Сервер cse-825tq-r740lpb + X10DRL-i + LSI 9361-8i (RAID1=2xSSD, RAID6=6xSAS)+ intel 520da2 под ESXI 6.0
После сборки раз в 1,5-2 недели начал странно повисать (сервисы отваливаются, но пинг ходит) - выяснилось, что отваливался рэйд наживую, после перезагрузки рэйд контроллер полностью отсутствовал в системе, требовалось выключение и включение - появлялся вновь. Прошивку обновляли, не помогло.

Для исключения перегрева разнесли подальше LSI 9361-8i и intel 520da2, правда для этого пришлось LSI поставить в x16 слот - температура под нагрузкой была от 50 до 60С, после тестов (копирование внутри массива RAID6 и через сеть около 20ТБ) решили, что проблема ушла и был перегрев, но через 2 месяца проблема повторилась опять.

В логах после каждого сбоя такое:

"13 seconds from reboot Fatal: Controller cache discarded due to memory/battery problems"

далее

"65 seconds from reboot Information: Controller operating temperature within normal range, full operation restored"

но такая запись есть в логах и на других серверах, и ничего больше, что бы как-то свидетельствовало о перегреве - вроде бы нет. Температура под нагрузкой 45-55С, другие серверы с таким же контроллером работают и при 75С. Полный лог в аттаче, с 06.03 по 26.04 контроллер работал стабильно, до этого переставляли в другую систему для прошивки, отключали батарею.

Еще один странный момент, на этом контроллере BBU оказался пр-ва 2013 года версии 26766-01, на других от 2017 и 2019 версии 6071-04А, но при этом remaining capacity с 2013 года - 269 Joules, у остальных 239 и 250 соответственно.

Саппорт броадкома изучил логи и вынес вердикт о том, что вероятно надо менять CV, и контроллер вообще ОЕМ от супермикро - это смущает больше всего, т.к. контроллер был в заклееной ритэйл упаковке. Так же говорят о возможной проблеме из-за х16 слота, но там по компоновке выбор достаточно ограничен.

Может кто-то из уважаемых участников форума сталкивался с подобной проблемой?

И самый большой вопрос - чем устроить стресс тест контроллеру и кэшу, чтобы не ждать проявления проблемы 2 месяца?
Например, в последний раз (26.04) с 5 до 10 утра был бэкап 1.2Тб, контроллер отвалился через 7 часов после его окончания, и судя по логам сервера нагрузки после бэкапа не было вообще. До этого аналогичный бэкап проводился каждую неделю, в течение 4х недель и проблем не было.
Вложения
slots_.jpg
FOX_LOG.txt
(428.96 КБ) 21 скачивание

Ответить

Вернуться в «Массивы - RAID технологии.»