Внезапная проблема с Linux на Adaptec 3405 (+)

У вас сложности? Наши специалисты постараются помочь вам. Если вы сами сталкивались с похожими проблемами - поделитесь опытом.

Модераторы: Trinity admin`s, Free-lance moderator`s

Ответить
nickolay
member
Сообщения: 29
Зарегистрирован: 18 янв 2009, 18:30
Откуда: Санкт-Петербург

Внезапная проблема с Linux на Adaptec 3405 (+)

Сообщение nickolay » 29 янв 2009, 20:38

Добрый день!

Все работало без проблем почти 3 месяца.
Иногда были проблемы с питанием и сервер аварийно выключался, но он всегда был подключен через ИБП.
И вот, после очередной перезагрузки сервер начал то подвисать, то сам перезагружаться.
Ядро показывает то kernel panic, то kernel oops.
Сервер одноюнитовый, установлено четыре SATAII винчестера в RAID-5, создано два луна, 100G для загрузки, и 2.9Т для данных.
Заметил, что если не монтировать раздел с данными, то сервер не подвисает и все работает нормально.
Попробовал смонтировать его в другое место и читать с него, проблем тоже нет.
Так что скорее всего проблемы начинаются при записи(сейчас делаю backup поэтому проверить не могу).
Вот скриншоты ядерных паник:
http://195.2.241.39/images/oops.jpg
http://195.2.241.39/images/oops2.jpg
http://195.2.241.39/images/oops4.jpg

У меня два одинаковых сервера.
Поэтому в первую очередь я решил взять контроллеры и винты поменять местами!
И какова же было мое удивление, когда проблема стала появляться и на другом сервере!
То есть, проблема локализована до контроллера и винтов.

Конфигурация сервера:
Супермикро Суперсервер 1-юнитовый
Процессоры: 2 x E5405
Памяти: 8G
Adaptec 3405
Винты SATAII Western Digitall 1000FYPS.

Аватара пользователя
gs
Сотрудник Тринити
Сотрудник Тринити
Сообщения: 16650
Зарегистрирован: 23 авг 2002, 17:34
Откуда: Москва
Контактная информация:

Re: Внезапная проблема с Linux на Adaptec 3405 (+)

Сообщение gs » 29 янв 2009, 20:47

Что в логах контроллера?
Что выдает верификация массива?
Какая (свежая ли) прошивка контроллера?
Есть ли эти диски в HCL контроллера? А то ВД в серверах практически не применяются.

nickolay
member
Сообщения: 29
Зарегистрирован: 18 янв 2009, 18:30
Откуда: Санкт-Петербург

Re: Внезапная проблема с Linux на Adaptec 3405 (+)

Сообщение nickolay » 29 янв 2009, 21:01

Логи контроллера:

root@colo_45:/usr/StorMan# ./arcconf getlogs 1 event
Controllers found: 1
<ControllerLog controllerID="0" type="6" time="1233252037">
<eventlog>
<event Date="1233252037" eventType="FSA_EM_CONTAINER_CHANGE" eventCode="0x20" controllerID="0" logicalDriveID="0"/>
<event Date="1233252037" eventType="FSA_EM_EXPANDED_EVENT" eventCode="0x10000000" groupType="FSA_EXE_CONTAINER_GROUP" groupCode="3" priority="3" subType="FSA_EXE_CT_PPI_UPDATE" subTypeCode="3" age="491" controllerID="0"/>
<event Date="1233252037" eventType="FSA_EM_EXPANDED_EVENT" eventCode="0x10000000" groupType="FSA_EXE_CONTAINER_GROUP" groupCode="3" priority="3" subType="FSA_EXE_CT_PPI_UPDATE" subTypeCode="3" age="492" controllerID="0"/>
<event Date="1233252037" eventType="FSA_EM_BATTERY_CHANGE" eventCode="0x4000" batteryEventType="FSA_BATTERY_DEAD" batteryEventCode="1" priorState="0" currentState="0" controllerID="0"/>
<event Date="1233252037" eventType="FSA_EM_EXPANDED_EVENT" eventCode="0x10000000" groupType="FSA_EXE_CONTAINER_GROUP" groupCode="3" priority="3" subType="FSA_EXE_CT_PPI_UPDATE" subTypeCode="3" age="493" controllerID="0"/>
<event Date="1233252037" eventType="FSA_EM_EXPANDED_EVENT" eventCode="0x10000000" groupType="FSA_EXE_CONTAINER_GROUP" groupCode="3" priority="3" subType="FSA_EXE_CT_PPI_UPDATE" subTypeCode="3" age="494" controllerID="0"/>
<event Date="1233252037" eventType="FSA_EM_BATTERY_CHANGE" eventCode="0x4000" batteryEventType="FSA_BATTERY_DEAD" batteryEventCode="1" priorState="0" currentState="0" controllerID="0"/>
<event Date="1233252037" eventType="FSA_EM_EXPANDED_EVENT" eventCode="0x10000000" groupType="FSA_EXE_CONTAINER_GROUP" groupCode="3" priority="3" subType="FSA_EXE_CT_PPI_UPDATE" subTypeCode="3" age="495" controllerID="0"/>
<event Date="1233252037" eventType="FSA_EM_EXPANDED_EVENT" eventCode="0x10000000" groupType="FSA_EXE_CONTAINER_GROUP" groupCode="3" priority="3" subType="FSA_EXE_CT_PPI_UPDATE" subTypeCode="3" age="496" controllerID="0"/>
<event Date="1233252037" eventType="FSA_EM_BATTERY_CHANGE" eventCode="0x4000" batteryEventType="FSA_BATTERY_DEAD" batteryEventCode="1" priorState="0" currentState="0" controllerID="0"/>
<event Date="1233252037" eventType="FSA_EM_EXPANDED_EVENT" eventCode="0x10000000" groupType="FSA_EXE_CONTAINER_GROUP" groupCode="3" priority="3" subType="FSA_EXE_CT_PPI_UPDATE" subTypeCode="3" age="497" controllerID="0"/>
<event Date="1233252037" eventType="FSA_EM_EXPANDED_EVENT" eventCode="0x10000000" groupType="FSA_EXE_CONTAINER_GROUP" groupCode="3" priority="3" subType="FSA_EXE_CT_PPI_UPDATE" subTypeCode="3" age="498" controllerID="0"/>
<event Date="1233252037" eventType="FSA_EM_BATTERY_CHANGE" eventCode="0x4000" batteryEventType="FSA_BATTERY_DEAD" batteryEventCode="1" priorState="0" currentState="0" controllerID="0"/>
<event Date="1233252037" eventType="FSA_EM_CONTAINER_CHANGE" eventCode="0x20" controllerID="0" logicalDriveID="0"/>
<event Date="1233252037" eventType="FSA_EM_EXPANDED_EVENT" eventCode="0x10000000" groupType="FSA_EXE_CONTAINER_GROUP" groupCode="3" priority="3" subType="FSA_EXE_CT_PPI_UPDATE" subTypeCode="3" age="499" controllerID="0"/>
<event Date="1233252037" eventType="FSA_EM_EXPANDED_EVENT" eventCode="0x10000000" groupType="FSA_EXE_CONTAINER_GROUP" groupCode="3" priority="3" subType="FSA_EXE_CT_PPI_UPDATE" subTypeCode="3" age="500" controllerID="0"/>
<event Date="1233252037" eventType="FSA_EM_BATTERY_CHANGE" eventCode="0x4000" batteryEventType="FSA_BATTERY_DEAD" batteryEventCode="1" priorState="0" currentState="0" controllerID="0"/>
<event Date="1233252037" eventType="FSA_EM_EXPANDED_EVENT" eventCode="0x10000000" groupType="FSA_EXE_CONTAINER_GROUP" groupCode="3" priority="3" subType="FSA_EXE_CT_PPI_UPDATE" subTypeCode="3" age="501" controllerID="0"/>
<event Date="1233252037" eventType="FSA_EM_EXPANDED_EVENT" eventCode="0x10000000" groupType="FSA_EXE_CONTAINER_GROUP" groupCode="3" priority="3" subType="FSA_EXE_CT_PPI_UPDATE" subTypeCode="3" age="502" controllerID="0"/>
<event Date="1233252037" eventType="FSA_EM_BATTERY_CHANGE" eventCode="0x4000" batteryEventType="FSA_BATTERY_DEAD" batteryEventCode="1" priorState="0" currentState="0" controllerID="0"/>
<event Date="1233252037" eventType="FSA_EM_EXPANDED_EVENT" eventCode="0x10000000" groupType="FSA_EXE_CONTAINER_GROUP" groupCode="3" priority="3" subType="FSA_EXE_CT_PPI_UPDATE" subTypeCode="3" age="503" controllerID="0"/>
<event Date="1233252037" eventType="FSA_EM_EXPANDED_EVENT" eventCode="0x10000000" groupType="FSA_EXE_CONTAINER_GROUP" groupCode="3" priority="3" subType="FSA_EXE_CT_PPI_UPDATE" subTypeCode="3" age="504" controllerID="0"/>
<event Date="1233252037" eventType="FSA_EM_BATTERY_CHANGE" eventCode="0x4000" batteryEventType="FSA_BATTERY_DEAD" batteryEventCode="1" priorState="0" currentState="0" controllerID="0"/>
<event Date="1233252037" eventType="FSA_EM_ADAPTER_PAUSED" eventCode="0x400" controllerID="0"/>
<event Date="1233252037" eventType="FSA_EM_EXPANDED_EVENT" eventCode="0x10000000" groupType="FSA_EXE_CONTAINER_GROUP" groupCode="3" priority="3" subType="FSA_EXE_CT_PPI_UPDATE" subTypeCode="3" age="505" controllerID="0"/>
<event Date="1233252037" eventType="FSA_EM_ADAPTER_RESUMED" eventCode="0x800" controllerID="0"/>
<event Date="1233252037" eventType="FSA_EM_CONFIG_CHANGE" eventCode="0x4" controllerID="0"/>
</eventlog>
</ControllerLog>

nickolay
member
Сообщения: 29
Зарегистрирован: 18 янв 2009, 18:30
Откуда: Санкт-Петербург

Re: Внезапная проблема с Linux на Adaptec 3405 (+)

Сообщение nickolay » 29 янв 2009, 21:08

BIOS контроллера последний.
Винтов в compatibility нет. Так как винты совсем свежие.
Статус массива: OPTIMAL.

Аватара пользователя
Stranger03
Сотрудник Тринити
Сотрудник Тринити
Сообщения: 12979
Зарегистрирован: 14 ноя 2003, 16:25
Откуда: СПб, Екатеринбург
Контактная информация:

Re: Внезапная проблема с Linux на Adaptec 3405 (+)

Сообщение Stranger03 » 30 янв 2009, 08:44

nickolay писал(а):2.9Т для данных.
Могу ошибаться, но в логах вроде все чисто. ИМХО проблема в вашем томе на 2.9ТБ. Это скорее к Сетару. Посмотрите в логах линукса, возможно драйвер контроллера сыпет ошибками.

KLIM_SPb
Сотрудник Тринити
Сотрудник Тринити
Сообщения: 421
Зарегистрирован: 06 май 2006, 16:33
Откуда: СПб
Контактная информация:

Re: Внезапная проблема с Linux на Adaptec 3405 (+)

Сообщение KLIM_SPb » 30 янв 2009, 11:16

Выложите саппорт лог

nickolay
member
Сообщения: 29
Зарегистрирован: 18 янв 2009, 18:30
Откуда: Санкт-Петербург

Re: Внезапная проблема с Linux на Adaptec 3405 (+)

Сообщение nickolay » 31 янв 2009, 04:44

KLIM_SPb писал(а):Выложите саппорт лог
А что это за саппорт лог? Где его взять? :-/

nickolay
member
Сообщения: 29
Зарегистрирован: 18 янв 2009, 18:30
Откуда: Санкт-Петербург

Re: Внезапная проблема с Linux на Adaptec 3405 (+)

Сообщение nickolay » 31 янв 2009, 04:45

Обнаружил, что если монтировать раздел в режиме только для чтения, то все работает отлично, файлы читаются.
Но стоит только смонтировать в режиме чтения/записи, то тут же вылетают kernel panic-и в разных местах.

KLIM_SPb
Сотрудник Тринити
Сотрудник Тринити
Сообщения: 421
Зарегистрирован: 06 май 2006, 16:33
Откуда: СПб
Контактная информация:

Re: Внезапная проблема с Linux на Adaptec 3405 (+)

Сообщение KLIM_SPb » 31 янв 2009, 13:57

http://www.adaptec.com/en-US/downloads/ ... +RAID+3405
Устанавливаем ASM.
В окне программы, справой стороны, правой кнопкой по имени сервера и выбираем пункт сохранить саппорт лог

nickolay
member
Сообщения: 29
Зарегистрирован: 18 янв 2009, 18:30
Откуда: Санкт-Петербург

Re: Внезапная проблема с Linux на Adaptec 3405 (+)

Сообщение nickolay » 31 янв 2009, 14:26

KLIM_SPb писал(а):http://www.adaptec.com/en-US/downloads/ ... +RAID+3405
Устанавливаем ASM.
В окне программы, справой стороны, правой кнопкой по имени сервера и выбираем пункт сохранить саппорт лог
Выложил сюда: http://195.2.240.181/images/Support.zip

nickolay
member
Сообщения: 29
Зарегистрирован: 18 янв 2009, 18:30
Откуда: Санкт-Петербург

Re: Внезапная проблема с Linux на Adaptec 3405 (+)

Сообщение nickolay » 31 янв 2009, 14:35

У меня создано два луна.
Первый лун маленький, под систему.
Сейчас в него пишутся логи. Проблем нет.
Но стоит только перемонтировать раздел на втором луне в режиме чтения/записи, то в течении 5-10 минут после того как начнутся писаться данные сервер подвисает.
Судя по kernel panic-ам, бьется память, но память менял, даже сервер менял(у меня два одинаковых), перетыкал контроллер + винты из одного сервера в другой.

KLIM_SPb
Сотрудник Тринити
Сотрудник Тринити
Сообщения: 421
Зарегистрирован: 06 май 2006, 16:33
Откуда: СПб
Контактная информация:

Re: Внезапная проблема с Linux на Adaptec 3405 (+)

Сообщение KLIM_SPb » 31 янв 2009, 18:02

А есть возможность перенести данные на другой сервер (сделать backup)
И проверить каждый диск по отдельности (MHDD 4.6)
Еще было бы не плохо включить функцию Background consistency check, сейчас она выключена.

Или как вариант привезти сервер к нам, наши сотрудники разберутся в чем проблема

nickolay
member
Сообщения: 29
Зарегистрирован: 18 янв 2009, 18:30
Откуда: Санкт-Петербург

Re: Внезапная проблема с Linux на Adaptec 3405 (+)

Сообщение nickolay » 31 янв 2009, 18:42

KLIM_SPb писал(а):А есть возможность перенести данные на другой сервер (сделать backup)
И проверить каждый диск по отдельности (MHDD 4.6)
Еще было бы не плохо включить функцию Background consistency check, сейчас она выключена.

Или как вариант привезти сервер к нам, наши сотрудники разберутся в чем проблема
Сервер под огромной нагрузкой, и я сейчас как раз занимаюсь переносом данных на другой сервер.
Как только я закончу перенос данных, я смогу попробовать включить background consistency check.
Хотя, учитывая то, что у меня наблюдаются не ошибки файловой системы, а kernel panic-и в случайных местах, то у меня большие подозрения на сам контроллер Adaptec, который имеет прямой доступ к памяти, умеет захватывать шину, и соответственно имеет возможность гадить в память.

Аватара пользователя
CrazyFrog
Advanced member
Сообщения: 210
Зарегистрирован: 16 авг 2005, 23:09
Откуда: Мурманск

Re: Внезапная проблема с Linux на Adaptec 3405 (+)

Сообщение CrazyFrog » 02 фев 2009, 01:48

какая версия ядра?

Если с этого большого раздела читать не через файловую систему, а прямо с диска, то тоже паник вылезает? То есть, dd if=/dev/dsk/xx of=/dev/null bs=1048576 skip=много

меня смущает наличие функции piix_init в стеке.

Ответить

Вернуться в «Серверы - Решение проблем»

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и 17 гостей