Xyratex F5402E - отваливаются LUNы

Поломалось, посыпалось, не работает...

Модераторы: Trinity admin`s, Free-lance moderator`s

Ответить
anmi
Junior member
Сообщения: 7
Зарегистрирован: 08 июл 2011, 14:14
Откуда: Тольятти

Xyratex F5402E - отваливаются LUNы

Сообщение anmi » 08 июл 2011, 14:25

Всем привет!
Есть файловый сервер Windows Server 2008 SP2 x64 подключенный с помощью двух HBA QLogic QLA2440 к дисковому массиву Xyratex F5402 c SATA-дисками. Сама файлопомойка находится на данном СХД - три LUNa и соответственно три дополнительных диска у Windows.

В качестве мультпаса (Failover\Failback) используется Xyratex Storview Pathmanager 6.00.5016.14, Microsoft MPIO Driver 6.0.6002.18005 (Xyratex рекомендует все операции мультипаса со своими СХД делать через эту софтину вместо стандартного мультипаса Windows Server 2008). Причем настроено все так что по умолчанию все три диска подключены по трем разным путям.

Все это хозяйство исправно работало с 2008-го, но примерно с начала этого года начались странные проблемы: иногда ни с того ни с сего от Windows отваливается один-два LUNа, соответственно из сети пропадают все ресурсы, которые были на нем. С СХД все нормально - все тома там функционируют, никаких ошибок в логах. В логах винды вот такие сообщения в системном журнале:

EventID: 515, Source: xyrsp200 (Xyratex F5402E Multi-Path Device Specific Module). The path for logical drive [SN: 60050CC00020188D0000000000000007] has failed over to [0005 4:0:1:2] because of a path error.

EventID: 23, Source: mpio. Ошибки во всех путях. \Device\MPIODisk2 будет удален.

EvetID: 260, Source: xyrsp200 The active path on logical drive [SN: 60050CC00020188D0000000000000007] has been switched to the preferred path on [0005 5:0:0:2].

EventID: 15, Source: диск. Доступ к устройству \Device\Harddisk5\DR5 пока невозможен.

и дальше ошибки отложенной записи...

Рескан с диспетчере дисков не помогает, приходится перегружать сервер, чтобы этот том подцепился снова. После перезагрузки все работает как будто ничего и не было до следующего такого случая.

Самое интересное, что отваливаются не все LUNы сразу. Отвалиться может один, другие причем будут функицонировать нормально.

Никто ничего не подскажет по этой проблеме ?

anmi
Junior member
Сообщения: 7
Зарегистрирован: 08 июл 2011, 14:14
Откуда: Тольятти

Re: Xyratex F5402E - отваливаются LUNы

Сообщение anmi » 12 июл 2011, 11:18

В дополнение.
Для мониторинга активности дисков созадл группы сборщиков данных для каждого диска на SAN в которые включил: %активности диска при записи и чтении, средний размер одного чтения и одной записи (байт), средняя длина очереди чтения и записи и текущая длина очереди диска.

Вот буквально десять минут назад произошел такой отвал, посмотрел последний отчет: перед тем как отвалиться у диска резко возрасли очереди

средняя очередь при записи: 6,75

средляя очередь при чтении: 6,95

текущая очередь диска: 6.00

также был резкий всплеск среднего размера одной записи на диск (байт) и %активности дисков при записи и чтении.

Напрашивается вывод, что диск просто не выдержал нагрузки (хотя странно - Fiber-Chaneell, дисковая полка правда с SATA-дисками). В связи с этим вопрос: может быть в Windows как-то можно оптимизировать операции работы с дисками, чтобы не было таких отвалов. И как узнать что конкретно такое большое писалось на диск что он отвалился?




--------------------------------------------------------------------------------

Bormoto
Advanced member
Сообщения: 253
Зарегистрирован: 06 июл 2007, 22:20
Откуда: спб

Re: Xyratex F5402E - отваливаются LUNы

Сообщение Bormoto » 12 июл 2011, 12:47

Ну, можно предложить обычное:
1. Проверить версии компонентов firmware и убедиться в том, что используются последние доступные версии (offtop: этого совета уже достаточно, чтобы работать в техподдержке вендора или интегратора :D )

2. Использовать Microsoft MPIO и, как обычно, SAN Mapping на стороне хранилища. Win2008 MPIO прекрасно работает с Xyratex. С политиками начать с "Round Robin", закончив, imho, на "Least Queue Depth".

3. Рекомендации самого же Xyratex:
HKEY_LOCAL_MACHINE/SYSTEM/CurrentControlSet/Services/Disk/TimeOutValue = от 90 до 240 (по умолчанию 60, все числа в формате numeric, естественно)
HKEY_LOCAL_MACHINE/System/CurrentControlSet/Services/ql2300/Parameters/Device/MaximumSGList = FF

4. Какое значение execution throttle в свойствах FC HBA? Может быть, его существенно уменьшить, например до 8-12 единиц, и потом постепенно наращивать? Это может оградить хранилище от перегрузок, но прибавит ему "задумчивости" по счетчикам I/O.

5. Перебрать хотфиксы.
Не забыть про существенный для родного MPIO http://support.microsoft.com/kb/958912/

Ничего не написано про сами массивы (тип массива, сколько дисков, конкретный тип дисков). Такая длина очереди сама по себе неприятно велика, но еще не критична, чтобы все рушилось. Какие параметры стоят в Performance Options на хранилище? Какой chunk size?

anmi
Junior member
Сообщения: 7
Зарегистрирован: 08 июл 2011, 14:14
Откуда: Тольятти

Re: Xyratex F5402E - отваливаются LUNы

Сообщение anmi » 12 июл 2011, 13:12

>3. Рекомендации самого же Xyratex:
> HKEY_LOCAL_MACHINE/SYSTEM/CurrentControlSet/Services/Disk/TimeOutValue = от 90 до 240 (по умолчанию 60, все числа в формате numeric, естественно)
было 60, установил 90

>HKEY_LOCAL_MACHINE/System/CurrentControlSet/Services/ql2300/Parameters/Device/MaximumSGList = FF
это так и было

>5. Перебрать хотфиксы.
>Не забыть про существенный для родного MPIO http://support.microsoft.com/kb/958912/
На сервере SP2 стоит, этот хотфикс по ходу в его состав входит

>Ничего не написано про сами массивы (тип массива, сколько дисков, конкретный тип дисков). Такая длина очереди сама по себе неприятно велика, но еще не критична, чтобы все >рушилось. Какие параметры стоят в Performance Options на хранилище? Какой chunk size?[/quote]
Тип массива RAID5, 5 дисков SATA Seagate ST31000524NS 1Tb (всего в полке 12 дисков, по 5 в каждом массиве RAID5, два в глобал спейре).
Chunk Size: 256Kb
Stripe Size: 1024
Read-Ahead Cache: Futomatic
Writeback Cache: 16Mb

anmi
Junior member
Сообщения: 7
Зарегистрирован: 08 июл 2011, 14:14
Откуда: Тольятти

Re: Xyratex F5402E - отваливаются LUNы

Сообщение anmi » 12 июл 2011, 13:17

>2. Использовать Microsoft MPIO и, как обычно, SAN Mapping на стороне хранилища. Win2008 MPIO прекрасно работает с Xyratex. С политиками начать с "Round Robin", закончив, imho, >на "Least Queue Depth".

В StorView Path Manager Administrator's Guide все операции с полкой рекомендуют делать именно через неге не через MS MPIO. Не обращать внимания на данные рекомендации ?
И еще одна деталь.
В свойствах диска (Windows) в политике было включено "Разрешить кэширование записи на диск", но был выключен "Включить повышенную производительность" - включил

Bormoto
Advanced member
Сообщения: 253
Зарегистрирован: 06 июл 2007, 22:20
Откуда: спб

Re: Xyratex F5402E - отваливаются LUNы

Сообщение Bormoto » 12 июл 2011, 18:47

anmi писал(а): В StorView Path Manager Administrator's Guide все операции с полкой рекомендуют делать именно через неге не через MS MPIO. Не обращать внимания на данные рекомендации ?
И еще одна деталь.
В свойствах диска (Windows) в политике было включено "Разрешить кэширование записи на диск", но был выключен "Включить повышенную производительность" - включил
1. Да, попробуйте использовать родное MPIO от MS.
2. "Включить повышенную производительность" - думаю, не имеет смысла.
3. Попробуйте увеличить размер кэша на запись до максимального.
4. Повторюсь. Что у вас стоит в Performance options ? По всем пунктам (стр. 92-95 документа ftp://ftp.xyratex.com/pub/_Current_Prod ... AID_UG.pdf)
5. Повторюсь. Какое значение execution throttle на FC HBA ?
6. Новый вопрос. Еще! Из ваших записей не ясно, как сервер присоединен к стойке? Через два однопортовых FC HBA напрямую, но как вы пишете про три пути? Или через FC-свитч? Но откуда три пути?

Массивы, конечно, выглядят уныло. Лучше бы один RAID6 из 11 дисков и одно hotspare. Если RAID10 неприемлем по емкости.

anmi
Junior member
Сообщения: 7
Зарегистрирован: 08 июл 2011, 14:14
Откуда: Тольятти

Re: Xyratex F5402E - отваливаются LUNы

Сообщение anmi » 13 июл 2011, 11:38

>4. Повторюсь. Что у вас стоит в Performance options ? По всем пунктам (стр. 92-95 документа >ftp://ftp.xyratex.com/pub/_Current_Pro ... AID_UG.pdf)
UG перечитаю по новой. Поскольку запускал все это делов 2007-08 годах и до этого года все работало и не падало, теорию подзабыл
Perfomance Options:
Syncronize Cache Writes to Disk - On
Target command thread balance - Off
Overload management - Enabled
Queue Full Timeout - 4

>5. Повторюсь. Какое значение execution throttle на FC HBA ?
Насколько я помню - это в PROM HBA надо смотреть. Помню что при настройке выставлял этот параметр в соответствии с руководством Xyratex, какое значение не помню. Посмотреть нет возможности, поскольку перегружать сервер можно разве что ночью.

>6. Новый вопрос. Еще! Из ваших записей не ясно, как сервер присоединен к стойке? Через два однопортовых FC >HBA напрямую, но как вы пишете про три пути? Или через FC-свитч? Но откуда три пути?
Полка подключена через два FC-свитча Brocade SW200E (одна HBA к одному свитчу, другая - к другому). На свитчах настроены соответствующие зоны.

>Массивы, конечно, выглядят уныло. Лучше бы один RAID6 из 11 дисков и одно hotspare. Если RAID10 неприемлем >по емкости.[/quote]
Эти массивы планировались под файлопомойку и резервные копии (есть еще одна F5402 c SAS-дисками, где располагаются базы и логи транзакций MS SQL - там 10 дисков в RAID10, два - в спейре). Как я уже говорил с ними не было проблем до недавнего времени.
И вот еще что - изначально в полке стояли диски 500Гб SATA. В начале этого года их заменили на 1Тб сигейты SATA NS (писал про них), поскольку 500-ки уже 3 года отходили и гарантия на них кончилась.
Может начавшиеся отвалы связаны с этой заменой ?

Bormoto
Advanced member
Сообщения: 253
Зарегистрирован: 06 июл 2007, 22:20
Откуда: спб

Re: Xyratex F5402E - отваливаются LUNы

Сообщение Bormoto » 13 июл 2011, 16:56

anmi писал(а):И вот еще что - изначально в полке стояли диски 500Гб SATA. В начале этого года их заменили на 1Тб сигейты SATA NS (писал про них), поскольку 500-ки уже 3 года отходили и гарантия на них кончилась.Может начавшиеся отвалы связаны с этой заменой ?
1. Очень может быть. Что-то ваших дисков, ST31000524NS, не видно в списке совместимости и разных файлах типа ftp://ftp.xyratex.com/pub/_Current_Prod ... tes-v1.doc
Вы их через платы MUX подключаете или напрямую?

2. Если у вас на контроллерах BBU еще живы и UPS тоже хороший, то в Performance Options можно выставить: Synchronize Cache Writes to Disk = off
Это существенно оживит.
Для клиентского файлового сервера:
Target Command Thread Balance = off
Sequential Write Optimization = Low
Можно поэкспериментировать с Queue Full Timeout. Пока я сам остановился на значении в 10 единиц.

3. Если вы ставили execution throttle по рекомендации Xyratex, то это значение 256. Если ничего не получится и найти диски из HCL для какого-нибудь Xyratex не удастся, то попробуйте выставить для этого параметра значение где-то 8-16 и постепенно увеличивайте. На сайте Qlogic в downloads для адаптеров есть ссылки на утилиты, которые позволяют сделать это без захода в биос при перезагрузке. Если есть MPIO, то изменения можно делать и под нагрузкой.

Ответить

Вернуться в «Массивы - Технические вопросы, решение проблем.»

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и 71 гость