HBA под нагрузкой теряет коннект на несколько секунд

Технологии постороения кластеров (вычислительных и отказоустойчивых), настройка терминал серверов,
SAN , NAS, FibreChannel, Infiniband

Модераторы: Trinity admin`s, Free-lance moderator`s

Ответить
ruslan_ka
Junior member
Сообщения: 8
Зарегистрирован: 27 авг 2010, 13:54
Откуда: Moscow

HBA под нагрузкой теряет коннект на несколько секунд

Сообщение ruslan_ka » 27 авг 2010, 15:04

Добрый день.

У нас построена система из 3 Xyratex 5412E (RS-1220-F4-5412E-2048-DL2), свитча Qlogic 5600, и 4х серверов.
В 3х серверах установлены HBA Qlogic 2560, в одном - 2460. НВА однопортовые, подключены к свичу.
В корзинке 2 контроллера по 2 порта каждый, все подключены к свичу.
На 2х серверах установлен CitrixXen Server 5.6, на других двух - FreeBSD amd64 8.x

До недавнего времени все было нормально, но под увеличивающейся нагрузкой стали происходить 'потери связи'.
При более-менее активной записи (~80Гб/мин.), что из под FreeBSD, что из под Citrix - отваливаются активные LUN'ы.
Причем, изначально был настроен multipath - отваливались сразу все 4 пути (это больше для эксперимента, все равно HBA 1 портовые), но и без него происходит тоже самое.
Выглядит это так (выдернуто из разных кусков логов):

FreeBSD

Код: Выделить всё

Aug 27 10:36:28 quattro kernel: (da27:isp0:0:3:1): lost device
Aug 27 10:36:28 quattro kernel: (da27:isp0:0:3:1): removing device entry
Aug 27 10:36:28 quattro kernel: (da28:isp0:0:3:2): lost device
Aug 27 10:36:28 quattro kernel: (da28:isp0:0:3:2): removing device entry
Aug 27 10:36:28 quattro kernel: (da29:isp0:0:3:3): lost device
Aug 27 10:36:28 quattro kernel: (da29:isp0:0:3:3): removing device entry
Aug 27 10:36:28 quattro kernel: (da30:isp0:0:3:4): lost device
Aug 27 10:36:28 quattro kernel: (da30:isp0:0:3:4): removing device entry
Aug 27 10:36:28 quattro kernel: (da31:isp0:0:3:5): lost device
Aug 27 10:36:28 quattro kernel: (da31:isp0:0:3:5): removing device entry
Aug 27 10:36:28 quattro kernel: (da32:GEOM_MULTIPATH: da32 orphaned in lun6isp0:0:
Aug 27 10:36:28 quattro kernel: GEOM_MULTIPATH: da32 removed from lun63:
Aug 27 10:36:28 quattro kernel: 6): GEOM_MULTIPATH: da32a orphaned in lun6lost device
Aug 27 10:36:28 quattro kernel: GEOM_MULTIPATH: da32a removed from lun6
Aug 27 10:36:28 quattro kernel: (da32:
Aug 27 10:36:28 quattro kernel: isp0:0:3:6): removing device entry
Aug 27 10:36:28 quattro kernel: (da33:GEOM_MULTIPATH: da33 orphaned in lun7isp0:0:
Aug 27 10:36:28 quattro kernel: GEOM_MULTIPATH: da33 removed from lun73:
Aug 27 10:36:28 quattro kernel: 7): lost device
Aug 27 10:36:28 quattro kernel: (da33:isp0:0:3:7): removing device entry
Aug 27 10:36:28 quattro kernel: (da34:GEOM_MULTIPATH: da34 orphaned in lun8isp0:0:
Aug 27 10:36:28 quattro kernel: GEOM_MULTIPATH: da34 removed from lun83:
Aug 27 10:36:28 quattro kernel: 8): lost device
Aug 27 10:36:28 quattro kernel: (da34:isp0:0:3:8): removing device entry
Aug 27 10:36:28 quattro kernel: (da35:GEOM_MULTIPATH: da35 orphaned in lun9isp0:0:
Aug 27 10:36:28 quattro kernel: GEOM_MULTIPATH: da35 removed from lun93:
Aug 27 10:36:28 quattro kernel: 9): lost device
Aug 27 10:36:28 quattro kernel: (da35:isp0:0:3:9): removing device entry
CitrixXen Server

Код: Выделить всё

Aug 26 16:10:21 due kernel: end_request: I/O error, dev sdo, sector 32
Aug 26 16:10:21 due kernel: end_request: I/O error, dev sdo, sector 8001536
Aug 26 16:10:21 due kernel: end_request: I/O error, dev sdo, sector 16003072
Aug 26 16:10:21 due kernel: end_request: I/O error, dev sdt, sector 32
Aug 26 16:10:21 due kernel: end_request: I/O error, dev sdt, sector 8001536
Aug 26 16:10:21 due kernel: end_request: I/O error, dev sdt, sector 16003072
Aug 26 16:10:21 due kernel: end_request: I/O error, dev sde, sector 32
Aug 26 16:10:21 due kernel: end_request: I/O error, dev sde, sector 8001536
Aug 26 16:10:21 due kernel: end_request: I/O error, dev sde, sector 16003072
Aug 26 16:10:21 due kernel: end_request: I/O error, dev sdj, sector 32
Aug 26 16:10:21 due kernel: end_request: I/O error, dev sde, sector 16003072
Aug 26 16:10:21 due kernel: end_request: I/O error, dev sdj, sector 32
Aug 26 16:10:21 due kernel: end_request: I/O error, dev sdj, sector 8001536
Aug 26 16:10:21 due kernel: end_request: I/O error, dev sdj, sector 16003072
Aug 26 16:10:21 due kernel: end_request: I/O error, dev sdo, sector 32
Aug 26 16:10:21 due kernel: end_request: I/O error, dev sdo, sector 8001536
Aug 26 16:10:21 due kernel: end_request: I/O error, dev sdo, sector 16003072
Aug 26 16:10:21 due kernel: end_request: I/O error, dev sdt, sector 32
<....>
Aug 27 10:37:17 due TAPDISK[15905]: ERROR: errno -5 at __tapdisk_vbd_complete_td_request: req 30: write 0x0020 secs to 0xaa0be720
Aug 27 10:37:17 due TAPDISK[15905]: ERROR: errno -5 at vhd_complete: /dev/VG_XenStorage-62e67fd9-9029-bdad-2ea1-38ffd58c2ea3/VHD-a2811413-2e80-40ed-afeb-e3ffbbfeb6ae: op: 3, lsec: 2853281792, secs: 1, nbytes: 512, blk: 696602, blk_offset: 31839079
Aug 27 10:37:17 due TAPDISK[15905]: ERROR: errno -5 at __tapdisk_vbd_complete_td_request: req 25: write 0x0020 secs to 0xaa11a4c0
Aug 27 10:37:17 due TAPDISK[15905]: ERROR: errno -5 at vhd_complete: /dev/VG_XenStorage-62e67fd9-9029-bdad-2ea1-38ffd58c2ea3/VHD-a2811413-2e80-40ed-afeb-e3ffbbfeb6ae: op: 3, lsec: 2853658624, secs: 1, nbytes: 512, blk: 696694, blk_offset: 31843183
Aug 27 10:37:17 due TAPDISK[15905]: ERROR: errno -5 at __tapdisk_vbd_complete_td_request: req 12: write 0x0020 secs to 0xaa176260
Aug 27 10:37:17 due TAPDISK[15905]: ERROR: errno -5 at vhd_complete: /dev/VG_XenStorage-62e67fd9-9029-bdad-2ea1-38ffd58c2ea3/VHD-a2811413-2e80-40ed-afeb-e3ffbbfeb6ae: op: 2, lsec: 2849896992, secs: 32, nbytes: 16384, blk: 695775, blk_offset: 31802143
Aug 27 10:37:17 due TAPDISK[15905]: ERROR: errno -5 at __tapdisk_vbd_complete_td_request: req 26: write 0x0020 secs to 0xa9ddfa20
Aug 27 10:37:17 due TAPDISK[15905]: ERROR: errno -5 at vhd_complete: /dev/VG_XenStorage-62e67fd9-9029-bdad-2ea1-38ffd58c2ea3/VHD-a2811413-2e80-40ed-afeb-e3ffbbfeb6ae: op: 3, lsec: 2854035456, secs: 1, nbytes: 512, blk: 696786, blk_offset: 31851391
Aug 27 10:37:17 due TAPDISK[15905]: ERROR: errno -5 at __tapdisk_vbd_complete_td_request: req 3: write 0x0020 secs to 0xaa1d2000
Aug 27 10:37:17 due TAPDISK[15905]: ERROR: errno -5 at vhd_complete: /dev/VG_XenStorage-62e67fd9-9029-bdad-2ea1-38ffd58c2ea3/VHD-a2811413-2e80-40ed-afeb-e3ffbbfeb6ae: op: 3, lsec: 2854408192, secs: 1, nbytes: 512, blk: 696877, blk_offset: 31855495
Aug 27 10:37:17 due TAPDISK[15905]: ERROR: errno -5 at __tapdisk_vbd_complete_td_request: req 28: write 0x0020 secs to 0xaa22dda0
Aug 27 10:37:17 due TAPDISK[15905]: ERROR: errno -5 at vhd_complete: /dev/VG_XenStorage-62e67fd9-9029-bdad-2ea1-38ffd58c2ea3/VHD-a2811413-2e80-40ed-afeb-e3ffbbfeb6ae: op: 3, lsec: 2854785024, secs: 1, nbytes: 512, blk: 696969, blk_offset: 31859599
Aug 27 10:37:17 due TAPDISK[15905]: ERROR: errno -5 at __tapdisk_vbd_complete_td_request: req 4: write 0x0020 secs to 0xaa289b40
Aug 27 10:37:17 due TAPDISK[15905]: ERROR: errno -5 at vhd_complete: /dev/VG_XenStorage-62e67fd9-9029-bdad-2ea1-38ffd58c2ea3/VHD-a2811413-2e80-40ed-afeb-e3ffbbfeb6ae: op: 2, lsec: 2849144544, secs: 32, nbytes: 16384, blk: 695591, blk_offset: 31793935
Aug 27 10:37:17 due TAPDISK[15905]: ERROR: errno -5 at __tapdisk_vbd_complete_td_request: req 27: write 0x0020 secs to 0xa9d27ee0
Aug 27 10:37:17 due TAPDISK[15905]: ERROR: errno -5 at vhd_complete: /dev/VG_XenStorage-62e67fd9-9029-bdad-2ea1-38ffd58c2ea3/VHD-a2811413-2e80-40ed-afeb-e3ffbbfeb6ae: op: 3, lsec: 2855161856, secs: 1, nbytes: 512, blk: 697061, blk_offset: 31863703
Aug 27 10:37:17 due TAPDISK[15905]: ERROR: errno -5 at __tapdisk_vbd_complete_td_request: req 13: write 0x0020 secs to 0xaa2e58e0
Aug 27 10:37:17 due TAPDISK[15905]: ERROR: errno -5 at vhd_complete: /dev/VG_XenStorage-62e67fd9-9029-bdad-2ea1-38ffd58c2ea3/VHD-a2811413-2e80-40ed-afeb-e3ffbbfeb6ae: op: 3, lsec: 2855538688, secs: 1, nbytes: 512, blk: 697153, blk_offset: 31867807
Qlogic5600

Код: Выделить всё

1	Fri Aug 27 10:31:01 MSD 2010	SANbox	Port	[8600.001E][Port: 7]PortID 0x10700 PortWWN 21:00:00:24:ff:03:c6:1a logged out of nameserver.
1	Fri Aug 27 10:31:01 MSD 2010	SANbox	Port	[8600.0020][Port: 7]SYNC_LOSS
1	Fri Aug 27 10:31:13 MSD 2010	SANbox	Port	[8600.001F][Port: 7]SYNC_ACQ
1	Fri Aug 27 10:31:13 MSD 2010	SANbox	Port	[8600.001D][Port: 7]PortID 0x10700 PortWWN 21:00:00:24:ff:03:c6:1a logged into nameserver.
1	Fri Aug 27 10:32:01 MSD 2010	SANbox	Port	[8600.001E][Port: 7]PortID 0x10700 PortWWN 21:00:00:24:ff:03:c6:1a logged out of nameserver.
1	Fri Aug 27 10:32:01 MSD 2010	SANbox	Port	[8600.0020][Port: 7]SYNC_LOSS
1	Fri Aug 27 10:32:02 MSD 2010	SANbox	Port	[8600.001F][Port: 7]SYNC_ACQ
1	Fri Aug 27 10:32:02 MSD 2010	SANbox	Port	[8600.001D][Port: 7]PortID 0x10700 PortWWN 21:00:00:24:ff:03:c6:1a logged into nameserver.
1	Fri Aug 27 10:36:20 MSD 2010	SANbox	Port	[8600.001E][Port: 3]PortID 0x10300 PortWWN 22:00:00:50:cc:20:57:ae logged out of nameserver.
1	Fri Aug 27 10:36:20 MSD 2010	SANbox	Port	[8600.0020][Port: 3]SYNC_LOSS
1	Fri Aug 27 10:36:27 MSD 2010	SANbox	Port	[8600.001F][Port: 3]SYNC_ACQ
1	Fri Aug 27 10:36:27 MSD 2010	SANbox	Port	[8600.001D][Port: 3]PortID 0x10300 PortWWN 21:00:00:1b:32:11:07:f8 logged into nameserver.
1	Fri Aug 27 10:36:37 MSD 2010	SANbox	Port	[8600.001E][Port: 3]PortID 0x10300 PortWWN 21:00:00:1b:32:11:07:f8 logged out of nameserver.
Xyratex - Сообщений об ошибках нет.

Естественно, все это приводит к самым печальным последствиям.

Может быть кто-то сталкивался с такой проблемой и подскажет где найти и как устранить причину проблемы...

Заранее благодарен,
Руслан.

ruslan_ka
Junior member
Сообщения: 8
Зарегистрирован: 27 авг 2010, 13:54
Откуда: Moscow

Re: HBA под нагрузкой теряет коннект на несколько секунд

Сообщение ruslan_ka » 30 авг 2010, 12:43

Предпринимаемые действия:
  • Перепрошил все компоненты системы, HBA, switch, Xyratex - не помогло.
  • Увеличил таймауты (Loop reset delay = 30)
  • Принудительно понизил скорость порта (до 2G/s)
  • Выделил на свиче отдельную зону - один target, один инициатор.
  • Подключил сервер напрямую к адаптеру Xyratex
  • Выполнил все тесты порта из BIOS адаптера, на свиче, в SANsurfer - все без ошибок.
Ничего не помогает.
Последняя идея - несовместимость FW дисков - может проблема возникать из-за того, что массив построен частично на моделях не входящих в список рекомендованных?

Да - в логах самого контроллера Xyratex нашел вот такие события:

Код: Выделить всё

A LIP has occurred on Host Loop 1. Reason: LIP generated because a loop failure has been detected. This LIP was repeated 0 times.
Host Loop 1 is now up at data rate 4 Gb/sec.
A LIP has occurred on Host Loop 0. Reason: LIP generated because a loop failure has been detected. This LIP was repeated 0 times.
Host Loop 0 is now up at data rate 4 Gb/sec.
Что еще можно потестировать, что бы локализовать проблему?

С уважением,
Руслан.

Аватара пользователя
gs
Сотрудник Тринити
Сотрудник Тринити
Сообщения: 16650
Зарегистрирован: 23 авг 2002, 17:34
Откуда: Москва
Контактная информация:

Re: HBA под нагрузкой теряет коннект на несколько секунд

Сообщение gs » 30 авг 2010, 12:45

Невалидированные винты - плохо.
Еще мысль вслух - уменьшить глубину очереди на HBA.

ruslan_ka
Junior member
Сообщения: 8
Зарегистрирован: 27 авг 2010, 13:54
Откуда: Moscow

Re: HBA под нагрузкой теряет коннект на несколько секунд

Сообщение ruslan_ka » 30 авг 2010, 12:54

gs писал(а):Невалидированные винты - плохо.
Как раз сейчас ищем, где купить 2Tб SATA с подходящей FW.
gs писал(а): Еще мысль вслух - уменьшить глубину очереди на HBA.
Спасибо, обязательно попробую сегодня.

Offtop: Можно ли у вас приобрести лицензию на StorView для Xyratex (активировать SNMP и email-alert) и ключ активации еще 4х портов на Qlogic?

Аватара пользователя
exLH
Сотрудник Тринити
Сотрудник Тринити
Сообщения: 5061
Зарегистрирован: 11 фев 2004, 15:49
Откуда: Москва
Контактная информация:

Re: HBA под нагрузкой теряет коннект на несколько секунд

Сообщение exLH » 30 авг 2010, 12:59

ruslan_ka писал(а):Можно ли у вас приобрести лицензию на StorView для Xyratex (активировать SNMP и email-alert) и ключ активации еще 4х портов на Qlogic?
Можно.

Что за диски?
И SFP поперетыкайте...
Почтовый адрес для связи: a.ivanov@trinitygroup.ru | ICQ: 112586598

ruslan_ka
Junior member
Сообщения: 8
Зарегистрирован: 27 авг 2010, 13:54
Откуда: Moscow

Re: HBA под нагрузкой теряет коннект на несколько секунд

Сообщение ruslan_ka » 30 авг 2010, 14:36

exLH писал(а):
ruslan_ka писал(а):Можно ли у вас приобрести лицензию на StorView для Xyratex (активировать SNMP и email-alert) и ключ активации еще 4х портов на Qlogic?
Можно.
Ок, свяжусь по почте.
Что за диски?
  • Массив 1:
    ST3300656SS 6 шт. (5 + 1 HotSpare). Показывает, что fw - 0004, в списке рекомендованных есть эта модель, но с другой версией прошивки, хотя мне кажется, что Xyratex что-то неправильно отображает.
  • Массив 2:
    4 WD2002FYPS-01U1B с прошивкой 5G05 + 2 WD2003FYYS-02W0B с прошивкой 1D01 (Тоже 5+1). В списках рекомендованных нет.
И SFP поперетыкайте...
Эх, сервера в ДЦ, самого в гермозону не пустят, а местным, не то что бы не доверяю - просто сам когда делаешь - надежнее :).
И тесты соединения, вроде как, проходят нормально, да и сразу 10 SFP'шек из 2х разных партий - не могут же все одновременно быть битыми?..

С уважением,
Руслан.

Аватара пользователя
exLH
Сотрудник Тринити
Сотрудник Тринити
Сообщения: 5061
Зарегистрирован: 11 фев 2004, 15:49
Откуда: Москва
Контактная информация:

Re: HBA под нагрузкой теряет коннект на несколько секунд

Сообщение exLH » 30 авг 2010, 15:53

И заодно еще попробуйте Overload Management в disable поставить, если сейчас как-то иначе...
Почтовый адрес для связи: a.ivanov@trinitygroup.ru | ICQ: 112586598

ruslan_ka
Junior member
Сообщения: 8
Зарегистрирован: 27 авг 2010, 13:54
Откуда: Moscow

Re: HBA под нагрузкой теряет коннект на несколько секунд

Сообщение ruslan_ka » 02 сен 2010, 01:52

exLH писал(а):И заодно еще попробуйте Overload Management в disable поставить, если сейчас как-то иначе...
Огромнейшеее спасибо!!!
Помогло!

Теперь осталось понять, почему это происходило, для полноты картины. Не проясните, в чем смысл данной настройки?

Аватара пользователя
exLH
Сотрудник Тринити
Сотрудник Тринити
Сообщения: 5061
Зарегистрирован: 11 фев 2004, 15:49
Откуда: Москва
Контактная информация:

Re: HBA под нагрузкой теряет коннект на несколько секунд

Сообщение exLH » 02 сен 2010, 08:32

ruslan_ka писал(а):Не проясните, в чем смысл данной настройки?
В принципе там в пояснениях даже все написано.
Если очередь контроллера переполнена, то контроллер может сказать что-то в ответ серверу (например BUSY). Но вопрос в том как сервер будет откликаться на это BUSY и к чему это приведет. В Вашем случае это ни к чему хорошему не приводит.

P.S. заказанные диски можно забирать...
Почтовый адрес для связи: a.ivanov@trinitygroup.ru | ICQ: 112586598

Ответить

Вернуться в «Кластеры, Аппаратная часть»

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и 12 гостей