проблема с adaptec 3405

lesha · Сообщение **lesha** » 27 май 2009, 19:13

Суть проблемы: два совершенно одинаковых сервера под freebsd 7 с контроллерами adaptec 3405. К контроллерам подключено по три SATA диска: два в зеркало и третий под горячую замену. Диски были сигейт паршивой партии и от греха подальше решили их заменить. Одному из дисков в зеркале командой arcconf говорилось чтобы он стал принудительно fail, после чего диск вынимался и на его место вставлялся другой.
На одном из серверов данная операция проходит как и ожидается, без каких либо проблем. На втором сервере контроллер после принудительного перевода одного из дисков в состояние failed просто уходит сам в себя. На консоли появляются записи вида:

Код: Выделить всё

aac0: COMMAND 0xffffff80002374e0 TIMEOUT AFTER 75 SECONDS.

Пробовал несколько раз, результат одинаковый. Либо машина в конце концов сама перезагружается, либо мои нервы не выдерживают ждать (сервер шибко рабочий) и перезагрузку инициирую я. Сама перезагрузка не всегда проходит, иногда приходилось выключать физически машину и потом включать заново. Никакие ресеты не помогали.

После перезагрузки картина примерно однинаковая, тот диск которому говорилось стать failed остаётся в массиве и на него начинается rebuilding. Диск стоявший в hot spare становится failed. Обычно так.

Грешил на всё, поменял прошивки контроллеров, обновил операционку. Всё осталось как и было. При последней такой "плановой" перезагрузке зашёл в биос контроллера. Там состояние дисков как и в предыдущие разы (hot spare стал failed, кому говорили fail стал rebuilding). Сказал контроллеру пересканировать подключённые диски, после этого всё стало как и должно было стать. Диск кому сказали fail стал failed, а hot spare стал rebuilding.

Вопрос: контроллер менять надо или что-то можно/нужно в нём покрутить? Я не переживу, если машина встанет колом при реальном отказе одного из дисков.

Сообщение gs » 28 май 2009, 13:47

А что мешает просто выдрать диск на горячую?

lesha · Сообщение **lesha** » 28 май 2009, 13:56

Собственно говоря, я именно так в самый первый раз и сделал и получил то, что уже описал. Посыпались в консоль сообщения о таймаутах и машина повисла намертво. После этого решался только на принудительный перевод в failed с тем же результатом.

Значит контроллер на замену? Только очень не хочется везти всю машину в тринити

Сообщение gs » 28 май 2009, 14:00

А, так машина наша?
Просто позвоните в сервис - разберутся.

проблема с adaptec 3405

проблема с adaptec 3405

Re: проблема с adaptec 3405

Re: проблема с adaptec 3405

Re: проблема с adaptec 3405

Кто сейчас на конференции