aacraid, debian и rejecting I/O to offline device

Поломалось, посыпалось, не работает...

Модераторы: Trinity admin`s, Free-lance moderator`s

Данила Ш.
Junior member
Сообщения: 17
Зарегистрирован: 02 май 2007, 08:38
Откуда: Екатеринбург
Контактная информация:

aacraid, debian и rejecting I/O to offline device

Сообщение Данила Ш. » 23 июн 2009, 15:52

Есть у нас сервер. Работает как сервер статики для одного веб-проекта. Фотографии, виде, музыка, все раздается через lighthttpd.

Там Adaptec RAID 3805/256
Стоит 8 винтов в raid5ee

Судя по всему, начал помирать один из винтов - периодически уходит в аут.

Проблема в том, что debian в момент ухода в аут этого винта уходит за ним следом, сообщая

Код: Выделить всё

Jun 22 06:55:55 82.193.141.166 kernel: aacraid: Host adapter reset request. SCSI hang ?
Jun 22 06:56:56 82.193.141.166 syslogd: /var/log/kern.log: Input/output error
Jun 22 06:56:56 82.193.141.166 kernel: aacraid: SCSI bus appears hung
Jun 22 06:56:56 82.193.141.166 syslogd: /var/log/messages: Input/output error
Jun 22 06:56:56 82.193.141.166 sendmail[29503]: n5M0u1VZ029503: SYSERR(converter): collect: Cannot write ./dfn5M0u1VZ029503 (fsync, uid=1005, gid=105): Input/output error
Jun 22 06:56:56 82.193.141.166 syslogd: /var/log/mail.warn: Cannot allocate memory
Jun 22 06:56:56 82.193.141.166 syslogd: /var/log/mail.err: Input/output error
Jun 22 06:56:56 82.193.141.166 sendmail[29503]: n5M0u1VZ029503: SYSERR(converter): queueup: cannot create queue file ./qfn5M0u1VZ029503, euid=1005, fd=-1, fp=0x0: Read-only file system
Jun 22 06:56:56 82.193.141.166 kernel: end_request: I/O error, dev sda, sector 4294966779
Jun 22 06:56:56 82.193.141.166 kernel: sd 0:0:0:0: rejecting I/O to offline device
И далее постоянно сыплет сообщениями о rejecting I/O to offline device.

Может быть кто-то сталкивался с таким моментом?
Как решать? Новое ядро, какие-то другие драйвера, может?

На сервере стоит debian etch, aacraid as is.

Все что нашлось в интернетах похожего - говорит о старых багах в aacraid которые были поправлены три-четыре года назад и все патчи давно есть в ядрах, более старых, чем 2.6.18 из etch. Ума не приложу, что делать.

Больше года серверу, работал все время в одном и том же режиме, единственное что менялось - росла нагрузка вместе с ростом проекта.

Аватара пользователя
gs
Сотрудник Тринити
Сотрудник Тринити
Сообщения: 16650
Зарегистрирован: 23 авг 2002, 17:34
Откуда: Москва
Контактная информация:

Re: aacraid, debian и rejecting I/O to offline device

Сообщение gs » 23 июн 2009, 15:55

А что говорит ASM?

Данила Ш.
Junior member
Сообщения: 17
Зарегистрирован: 02 май 2007, 08:38
Откуда: Екатеринбург
Контактная информация:

Re: aacraid, debian и rejecting I/O to offline device

Сообщение Данила Ш. » 23 июн 2009, 16:06

Сложно сказать, система стоит на этом самом диске и к моменту, когда хочется посмотреть - уже в ауте, внешние соединения рубит, залогиниться не дает.

После перезагрузки BIOS контроллера обычно рапортует про Status: OPTIMAL.

Аватара пользователя
gs
Сотрудник Тринити
Сотрудник Тринити
Сообщения: 16650
Зарегистрирован: 23 авг 2002, 17:34
Откуда: Москва
Контактная информация:

Re: aacraid, debian и rejecting I/O to offline device

Сообщение gs » 23 июн 2009, 16:10

Надо ставить ASM и смотреть, что там происходит.

Аватара пользователя
gs
Сотрудник Тринити
Сотрудник Тринити
Сообщения: 16650
Зарегистрирован: 23 авг 2002, 17:34
Откуда: Москва
Контактная информация:

Re: aacraid, debian и rejecting I/O to offline device

Сообщение gs » 23 июн 2009, 16:11

Верификацию массива гоняли?
А то как бы не это: http://3nity.ru/viewtopic.php?f=24&t=12433

Данила Ш.
Junior member
Сообщения: 17
Зарегистрирован: 02 май 2007, 08:38
Откуда: Екатеринбург
Контактная информация:

Re: aacraid, debian и rejecting I/O to offline device

Сообщение Данила Ш. » 23 июн 2009, 16:20

Спасибо, напугали.
Будем внимательно посмотреть.

Black-Dragon
Advanced member
Сообщения: 507
Зарегистрирован: 17 апр 2009, 00:49
Откуда: Yerevan

Re: aacraid, debian и rejecting I/O to offline device

Сообщение Black-Dragon » 23 июн 2009, 17:32

Данила Ш. писал(а): Стоит 8 винтов в raid5ee
+
Судя по всему, начал помирать один из винтов - периодически уходит в аут.
IMHO, у вас какая-то совершенно другая проблема. Ибо каким образом на рейд5ее ОС может узнать, что есть проблема с одним винтом?! Это ОС не видно (если контроллер исправный, драйвера и прошивка нормальные и других проблем нет).
Так что, либо проблема совершенно иная, либо она совмещается ещё с какой-то дополнительной.

buggzy
Junior member
Сообщения: 14
Зарегистрирован: 24 июн 2009, 05:32
Откуда: Екатеринбург

Re: aacraid, debian и rejecting I/O to offline device

Сообщение buggzy » 24 июн 2009, 05:52

Уже минимум четвертый день подряд в промежуток с 6-50 по 6-55 драйвер перестает видеть контроллер (логи каждый раз примерно такие же, как выложенные). В asm не нашлось ничего примечательного, кроме bad stripes, которые, конечно, очень неприятно, но должен ли от них виснуть драйвер?

По agent action -> view event log за пару часов, предшествующих сбою, никаких записей не отображается. background consistency check запретил вчера (после изменений систему не ребутил) - все равно повис. По configure->tasks отображается только одна задача, ежемесячная, время старта 10-08 AM (не очень похоже на 6-50).

Что делать - понятно. Непонятно, что вообще происходит, почему драйвер виснет и почему оно виснет именно в это время и только раз в сутки. Да, забыл сказать, в планировщике OS задачи "завесить драйвер" тоже нет :)

Данила Ш.
Junior member
Сообщения: 17
Зарегистрирован: 02 май 2007, 08:38
Откуда: Екатеринбург
Контактная информация:

Re: aacraid, debian и rejecting I/O to offline device

Сообщение Данила Ш. » 24 июн 2009, 06:26

Мы с buggzy об одном сервере говорим.

buggzy
Junior member
Сообщения: 14
Зарегистрирован: 24 июн 2009, 05:32
Откуда: Екатеринбург

Re: aacraid, debian и rejecting I/O to offline device

Сообщение buggzy » 24 июн 2009, 06:39

Да, еще уточню, что проблема не с "одним" винтом. Один винт уже точно сдох полностью, его контроллер не видит даже.

buggzy
Junior member
Сообщения: 14
Зарегистрирован: 24 июн 2009, 05:32
Откуда: Екатеринбург

Re: aacraid, debian и rejecting I/O to offline device

Сообщение buggzy » 24 июн 2009, 07:09

На одном из винтов ST350032 показывает ненулевой счетчик aborted commands. Это не та же ситуация?

http://3nity.ru/viewtopic.php?f=2&t=11869

Black-Dragon
Advanced member
Сообщения: 507
Зарегистрирован: 17 апр 2009, 00:49
Откуда: Yerevan

Re: aacraid, debian и rejecting I/O to offline device

Сообщение Black-Dragon » 24 июн 2009, 10:50

buggzy писал(а):Непонятно, что вообще происходит, почему драйвер виснет и почему оно виснет именно в это время и только раз в сутки. Да, забыл сказать, в планировщике OS задачи "завесить драйвер" тоже нет
Если виснет всегда в одно и то же время, а в планировщике нет задания "убить драйвер", значит есть другое, которое запускает нечто, что конфликтует с драйвером. Каким бы безобидным оно не казалось. Снимайте\переместите всё, что стартует в это время, чтобы убедиться в этом ли дело.
Либо, драйвер не может корректно отработать некое специфичное состояние массива, что очень маловероятно, ибо почему в одно и то же время?!
В общем, обновите драйвер и уберите всё из планировщика.

И ещё, что есть в Event Viewer ОС? Там наверняка найдется кое-что интересное, коли драйвер стопуется.

and3008
Заслуженный сетевик
Сообщения: 1109
Зарегистрирован: 03 янв 2004, 23:30
Откуда: Н.Новгород

Re: aacraid, debian и rejecting I/O to offline device

Сообщение and3008 » 24 июн 2009, 11:30

Подтверждаю такое поведение. Попробуйте заменить прошивку. А главное! Попробуйте заменить кабель от контроллера к диску. Я такое наблюдал на хлипких SATA-шных кабелях. Мне поставщик даже их на силикон приклеивал. Один фиг не спасло, через пол года массив развалился и восстановлению не поддался, благо была резервная копия.

После этого купили нормальную дисковую полку и работает это успешно уже года два-три.

buggzy
Junior member
Сообщения: 14
Зарегистрирован: 24 июн 2009, 05:32
Откуда: Екатеринбург

Re: aacraid, debian и rejecting I/O to offline device

Сообщение buggzy » 24 июн 2009, 11:38

Black-Dragon писал(а):Если виснет всегда в одно и то же время, а в планировщике нет задания "убить драйвер", значит есть другое, которое запускает нечто, что конфликтует с драйвером. Каким бы безобидным оно не казалось. Снимайте\переместите всё, что стартует в это время, чтобы убедиться в этом ли дело.
В планировщике этого хоста на это время ничего нет. Завтра еще специально посмотрю, какие процессы перед смертью стартуют, благо, время смерти уже заранее известно :) Но, думаю, ничего так не найду.

Более того. Скорее всего, никаких изменений в конфигурации не производилось последний месяц. Однако, падает неделю стабильно каждый день, а до этого несколько месяцев работало без перезагрузок даже.
Black-Dragon писал(а):Либо, драйвер не может корректно отработать некое специфичное состояние массива, что очень маловероятно, ибо почему в одно и то же время?!
Хороший вопрос.
buggzy писал(а):И ещё, что есть в Event Viewer ОС? Там наверняка найдется кое-что интересное, коли драйвер стопуется.
OS linux, там не event, а обычные логи. И ничего в них нет, т.к. они пишутся на тот самый раздел, который дохнет. Настроено, чтобы евенты отсылались на удаленную машину, логи этого - в первом сообщении.

buggzy
Junior member
Сообщения: 14
Зарегистрирован: 24 июн 2009, 05:32
Откуда: Екатеринбург

Re: aacraid, debian и rejecting I/O to offline device

Сообщение buggzy » 24 июн 2009, 11:40

and3008 писал(а):Подтверждаю такое поведение. Попробуйте заменить прошивку. А главное! Попробуйте заменить кабель от контроллера к диску. Я такое наблюдал на хлипких SATA-шных кабелях. Мне поставщик даже их на силикон приклеивал. Один фиг не спасло, через пол года массив развалился и восстановлению не поддался, благо была резервная копия.

После этого купили нормальную дисковую полку и работает это успешно уже года два-три.
Заменить диски, сменить прошивку, подергать кабели, попинать по колесам :) Может быть, что-нибудь из списка и поможет. Надеюсь. Но ситуация остается непонятной. А хотелось бы не надежды, а уверенности :)

Ответить

Вернуться в «Массивы - Технические вопросы, решение проблем.»

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и 24 гостя