ошибка со scsi-контроллером Adaptec 3960D в Linux

На доскональное знание данной темы, не может претендовать, пожалуй ни один спец, из ныне живущих на земле. ;-)
Так поможем друг другу.

Модераторы: Trinity admin`s, Free-lance moderator`s

Ответить
Mark Silinio
Advanced member
Сообщения: 67
Зарегистрирован: 31 май 2006, 09:03
Откуда: Самара

ошибка со scsi-контроллером Adaptec 3960D в Linux

Сообщение Mark Silinio » 24 май 2007, 08:39

смотрю сервак максимум на пинги отвечает, перезагрузил(cold reboot) и гляжу в логи, там:
kernel: sd 0:0:0:0: Attempting to queue an ABORT message
kernel: CDB: 0x2a 0x0 0x2 0xf4 0xf6 0xdc 0x0 0x0 0x58 0x0
kernel: scsi0: At time of recovery, card was not paused
kernel: >>>>>>>>>>>>>>>>>> Dump Card State Begins <<<<<<<<<<<<<<<<<
...пропущено..
kernel: <<<<<<<<<<<<<<<<< Dump Card State Ends >>>>>>>>>>>>>>>>>>
kernel: (scsi0:A:0:0): Device is disconnected, re-queuing SCB
kernel: Recovery code sleeping
kernel: (scsi0:A:0:0): Abort Tag Message Sent
kernel: (scsi0:A:0:0): SCB 26 - Abort Tag Completed.
kernel: Recovery SCB completes
kernel: Recovery code awake
kernel: aic7xxx_abort returns 0x2002
kernel: sd 0:0:0:0: Attempting to queue an ABORT message
kernel: CDB: 0x2a 0x0 0x2 0xf4 0xf7 0x3c 0x0 0x0 0x28 0x0
kernel: sd 0:0:0:0: Command not found
kernel: aic7xxx_abort returns 0x2002
kernel: sd 0:0:0:0: Attempting to queue an ABORT message
kernel: CDB: 0x2a 0x0 0x0 0x0 0x7f 0x47 0x0 0x0 0x78 0x0
kernel: sd 0:0:0:0: Command not found
kernel: aic7xxx_abort returns 0x2002



---

smartctl -t long /dev/sda не показывает никаких ошибок

Аватара пользователя
apelsin
Advanced member
Сообщения: 470
Зарегистрирован: 09 окт 2004, 12:32

Сообщение apelsin » 25 май 2007, 09:55

:confused: что за линукс, версия ядра, фирмвари контроллера, что подключено к данному контроллеру и как.  конфигурация сервера какая

Mark Silinio
Advanced member
Сообщения: 67
Зарегистрирован: 31 май 2006, 09:03
Откуда: Самара

Сообщение Mark Silinio » 25 май 2007, 10:09

apelsin писал(а)::confused: что за линукс, версия ядра, фирмвари контроллера, что подключено к данному контроллеру и как.  конфигурация сервера какая
HP Proliant ML350G3
Adaptec 3960D, в корзине подключено 5 scsi дисков на 36Gb, тот который косячит подключен отдельно шлейфом к контроллеру

тот диск  - IBM IC35L036UWD210-0 Version: S5BS

Gentoo Linux, kernel 2.6.20

Mark Silinio
Advanced member
Сообщения: 67
Зарегистрирован: 31 май 2006, 09:03
Откуда: Самара

Сообщение Mark Silinio » 25 май 2007, 10:09

похоже началось:
smartctl -a /dev/sda
....
SMART Self-test log
Num  Test              Status                 segment  LifeTime  LBA_first_err [SK ASC ASQ]
    Description                              number   (hours)
# 1  Background short  Failed in segment -->       5   35199          66723178 [0x3 0x11 0x0]

Аватара пользователя
apelsin
Advanced member
Сообщения: 470
Зарегистрирован: 09 окт 2004, 12:32

Сообщение apelsin » 25 май 2007, 21:29

kernel: >>>>>>>>>>>>>>>>>> Dump Card State Begins <<<<<<<<<<<<<<<<<
такое бывает с контроллерами адаптка, когда в них происходит сбой, навроде "перезагрузки" фирмвари.  Почему произошел сбой в данном случае сказать тажело,  как правило такое происходит из-за багов драйвера/фирмвари или какой либо их комбинации.  Инициатором ситуации в вашем случае возможно является scsi диск.

В вашем случае я бы начал со смены диска, хотя бы временно, чтоб посмотреть что происходит.  Далее (раз уж у вас джента) можно попробовать обновить кернел последней kernel.org версии собранного с опциаями scsi-debug, протестироварьть и судя по результатам обратится в лист рассылки linux-scsi@   ... Или  перейти на линукс который поддерживает HP для своих серверов ...

У мня   такое было со scsi сканнером от фуджитсу.  Определенные операции со сканнером вызывали зависание контроллера адаптека к которомы был подключен сканнер, при этом в логах появлялась куча сообщений + "> Dump Card State Begins <<" личилось только перезагрузкой сервера, что не устаривало.  Вылечилось насвегда покупкой скази контроллера от LSI.

and3008
Заслуженный сетевик
Сообщения: 1109
Зарегистрирован: 03 янв 2004, 23:30
Откуда: Н.Новгород

Сообщение and3008 » 26 май 2007, 00:16

MegaRAID 4xx так же в Линуксе падают когда диск из массива  валится.

А владелец сего чуда теперь LSI. Так что не все LSI одинаково полезны. :)

Ответить

Вернуться в «Серверы - ПО, Unix подобные системы»

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и 22 гостя