переодические отвалы стораджа

Технологии постороения кластеров (вычислительных и отказоустойчивых), настройка терминал серверов,
SAN , NAS, FibreChannel, Infiniband

Модераторы: Trinity admin`s, Free-lance moderator`s

Ответить
gli-ok
member
Сообщения: 25
Зарегистрирован: 26 сен 2007, 15:12
Откуда: SPb

переодические отвалы стораджа

Сообщение gli-ok » 26 сен 2008, 14:36

Заметил тут что в логах переодически стали появляться сообщения об отвалах стораджа. Конфиг такой. 32 блэйда HP с двух портовыми HBA, два MDS 9509, + парочка серверов. Сторадж 3par S400 4 потра FC. все сервера видят сразу 4 порта. В логах стало проскакивать следующее:


Sep 22 09:20:02 ora kernel: device-mapper: dm-multipath: Failing path 8:32.
Sep 22 09:20:02 ora multipathd: 8:32: mark as failed
Sep 22 09:20:02 ora multipathd: mpath1: remaining active paths: 3
Sep 22 09:20:03 ora kernel: device-mapper: dm-multipath: Failing path 8:16.
Sep 22 09:20:03 ora multipathd: 8:16: mark as failed
Sep 22 09:20:03 ora multipathd: mpath1: remaining active paths: 2
Sep 22 09:20:11 ora multipathd: 8:32: tur checker reports path is up
Sep 22 09:20:11 ora multipathd: 8:32: reinstated
Sep 22 09:20:11 ora multipathd: mpath1: remaining active paths: 3
Sep 22 09:20:12 ora multipathd: 8:16: tur checker reports path is up
Sep 22 09:20:12 ora multipathd: 8:16: reinstated
Sep 22 09:20:12 ora multipathd: mpath1: remaining active paths: 4
Sep 22 09:23:16 ora kernel: device-mapper: dm-multipath: Failing path 8:32.
Sep 22 09:23:16 ora multipathd: 8:32: mark as failed
Sep 22 09:23:16 ora multipathd: mpath1: remaining active paths: 3
Sep 22 09:23:16 ora kernel: device-mapper: dm-multipath: Failing path 8:16.
Sep 22 09:23:17 ora multipathd: 8:16: mark as failed
Sep 22 09:23:17 ora multipathd: mpath1: remaining active paths: 2
Sep 22 09:23:23 ora multipathd: 8:32: tur checker reports path is up
Sep 22 09:23:23 ora multipathd: 8:32: reinstated
Sep 22 09:23:23 ora multipathd: mpath1: remaining active paths: 3
Sep 22 09:23:24 ora multipathd: 8:16: tur checker reports path is up
Sep 22 09:23:24 ora multipathd: 8:16: reinstated
Sep 22 09:23:24 ora multipathd: mpath1: remaining active paths: 4

Нашел еще один сервер с таким же сообщением в то же время. Что интересно, что отвалы происходят не на одном и том же порту стораджа или циске, а на абсолютно разных путях. Чем может быть вызвано? Таймауты в конфигах такие:

Execution Throttle: 32
LUNs per target: 256
Enable LIP Reset: Yes
Enable LIP Full Login: Yes
Enable Target Reset: Yes
Login Retry Count: 8
Port Down Retry Count: 1
Link Down Time-out: 30
Extended Error Logging: Disabled


параметры драверов:

[root@ora ~]# cat /sys/module/qla2xxx/parameters/ql2xmaxqdepth
32
[root@ora ~]# cat /sys/module/qla2xxx/parameters/qlport_down_retry
1



В чем может быть причина и как избежать таких косяков? Уменьшать размер очереди? Или увеличить таймауты? Происходит это не часто. В основном встречаются такие ошибки на оракловых серверах. В среднем раз в 5-7 дней.

Вернуться в «Кластеры, Аппаратная часть»

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и 20 гостей