Подвисание при копировании на СХД DS3512

Поломалось, посыпалось, не работает...

Модераторы: Trinity admin`s, Free-lance moderator`s

Ch_DV
member
Сообщения: 22
Зарегистрирован: 16 янв 2013, 10:35
Откуда: Волгодонск

Подвисание при копировании на СХД DS3512

Сообщение Ch_DV » 16 янв 2013, 13:58

Добрый день.
Для построения кластера Hyper-V было приобретено следующее железо:
2 дисковых массива IBM System Storage DS3512 Express Dual Controller Storage System. В каждом дисковом массиве установлено по 12 IBM 600GB SAS 15k rpm Hot-Plug LFF (3.5-inch). На каждый контроллер установлено IBM DS3500 FC 4x 8Gb Daughter Card.
3 Сервер IBM x3550 M4, 2 Xeon 6C E5-2640 2.5GHz/128 Гб 1600MHz/300Гб 2.5 HS SAS/SATA, SR M5110. В каждый сервер установлен IBM Qlogic Dual Port PCI-e 8 Gbps FC Host Bus Adapter.
2 Коммутатор IBM System Networking SAN24B-5.

В дисковом массиве создан RAID 5 из 11 дисков, + 1 диск Hot spare standby. На массиве созданы 3 луна
600Гб, 3.5Тб и 1.5Тб. Все луны презентованы серверам. Для каждого луна включено Enable read caching, Enable dynamic cache read prefetch, Enable Write caching, Enable write caching with mirroring. Обе СХД опцией Enhanced Remote mirroring зеркалируются между собой. Для управления используется IBM System Storage DS Storage Manager 10.84.G5.30.На всех контроллерах Controller firmware обновлен до версии 7.84.44.00
Для связи СХД – Коммутатор – Сервер используется FC 8 Gbps с избыточными путями. Каждый порт сервера подключен к двум коммутаторам, каждый контроллер СХД подключен к двум коммутаторам. Зонирование настроено по принципу 1 порт СХД 1 порт Сервера. Созданы зоны для всех возможных путей, проходящих через коммутатор. Версия Fabric OS коммутатора 7.0.2a.
На серверах установлена Windows Server 2012 St x64. Установлен SMIA-WinX64-01.03.1305.0013 (MPIO DSM). Установлены все доступные обновления. Конфигурация Qlogic FC HBA по умолчанию.
На Windows Server 2012 St x64 создан кластер Hyper-V. К кластеру подключен лун 3.5Тб и представлен как том CSV. На этом томе планируется размещать кластерные виртуальные машины. Для тестирование системы на этом общем томе расположили 1 виртуальную машину с установленным в ней SQL сервером. Сервер SQL используется под 1С. Количество пользователей около 40. Все прошивки и драйвера актуальны на текущую дату для всего оборудования.
Проблема заключается в том, что в процессе работы через произвольные промежутки времени происходит зависание виртуальной системы на 10-15 секунд с полным отсутствием дисковой активности. Убрали виртуальную машину с СХД, тестировали том CSV. Для тестов был взят файл ISO объёмом 4 Гб и копировался в эту же папку. Метод копирования: копируем файл и тут же его вставляем, дожидаемся окончание копирования и повторяем операцию, после произвольного количества повторений наблюдается падение скорости вплоть до полной остановки копирования (0 Мб/с) на 1-3 минуты. Пробовал отключать Enable read caching, Enable dynamic cache read prefetch, Enable Write caching, Enable write caching with mirroring на СХД и все сразу и выборочно. Наличие зеркалирования на СХД ни как на это не влияет, пробовали без зеркалирования – результат тот же. Подключали вторую СХД, с нуля создавали разделы, давали время пройти инициализацию для разделов, не настраивали зеркало – результат тот же. Тестирование проводили как на томе CSV, так и просто подключили другой лун как диск. Уменьшали объём луна, подключали на прямую, минуя коммутатор - Результаты те же.
Подскажите, в чем может быть проблема.

Bormoto
Advanced member
Сообщения: 253
Зарегистрирован: 06 июл 2007, 22:20
Откуда: спб

Re: Подвисание при копировании на СХД DS3512

Сообщение Bormoto » 16 янв 2013, 15:39

Если все описанное сделано безошибочно, попробуйте еще (подробности - гугл в помощь):
1. В реестре OS
HKEY_LOCAL_MACHINE\SYSTEM\CurrentControlSet\Services\ql2300\Parameters\Device
MaximumSGList = 0xff
NumberOfRequests = 0xff
HKEY_LOCAL_MACHINE\SYSTEM\CurrentControlSet\Services\ds4dsm\Parameters
SynchTimeOut = 0x78
DisableLunRebalance = 0x03
HKEY_LOCAL_MACHINE\SYSTEM\CurrentControlSet\Services\Disk
TimeOutValue = 0x78

2. В BIOS FC HBA:
LoopResetDelay = 8
ExecutionThrottle = 256 (для начала)
EnableTargetReset = Yes
LoginRetryCount = 30
LinkDownTime = 60

Ch_DV
member
Сообщения: 22
Зарегистрирован: 16 янв 2013, 10:35
Откуда: Волгодонск

Re: Подвисание при копировании на СХД DS3512

Сообщение Ch_DV » 16 янв 2013, 16:53

Bormoto писал(а):Если все описанное сделано безошибочно, попробуйте еще (подробности - гугл в помощь):
1. В реестре OS
HKEY_LOCAL_MACHINE\SYSTEM\CurrentControlSet\Services\ql2300\Parameters\Device
MaximumSGList = 0xff
NumberOfRequests = 0xff
HKEY_LOCAL_MACHINE\SYSTEM\CurrentControlSet\Services\ds4dsm\Parameters
SynchTimeOut = 0x78
DisableLunRebalance = 0x03
HKEY_LOCAL_MACHINE\SYSTEM\CurrentControlSet\Services\Disk
TimeOutValue = 0x78
Попробую
Bormoto писал(а):2. В BIOS FC HBA:
LoopResetDelay = 8
ExecutionThrottle = 256 (для начала)
EnableTargetReset = Yes
LoginRetryCount = 30
LinkDownTime = 60
Пробывал похожые параметры

LoopResetDelay = 5
ExecutionThrottle = 256
EnableTargetReset = Yes
LoginRetryCount = 8
LinkDownTime = 10

а так же

LoopResetDelay = 8
ExecutionThrottle = 256
EnableTargetReset = Yes
LoginRetryCount = 30
LinkDownTime = 30

Результат: При копировании файла в 4Гб копирование происходит на скорости в среднем 5МБ/с, через 5 мин копирования происходит остановка, скорость падает до 0МБ/с и так держится около 2 мин, потом повторятся таже картина. Скорость чтения по монитору ресурсов 3600000 б\с.


Тестировал другие варианты
LoopResetDelay = 5
ExecutionThrottle = 100
EnableTargetReset = Yes
LoginRetryCount = 8
LinkDownTime = 10

Результат: При копировании файла в 4Гб копирование происходит на скорости в среднем 3,4МБ/с, через 50 сек копирования происходит остановка копирования скорость падает до 0МБ/с и так держится около 2 мин, потом повторятся таже картина.. Скорость чтения по монитору ресурсов 3000000 б\с.

и

LoopResetDelay = 5
ExecutionThrottle = 512
EnableTargetReset = Yes
LoginRetryCount = 8
LinkDownTime = 10

Результат: При копировании файла в 4Гб копирование происходит на скорости в среднем 8МБ/с, копирование происходит скачкообразно. Скорость чтения по монитору ресурсов 5600000 - 7000000 б\с.

Сейчас установлены параметры по умолчанию для HBA Qlogic 2562

LoopResetDelay = 5
ExecutionThrottle = 65535
EnableTargetReset = Yes
LoginRetryCount = 8
LinkDownTime = 30

Результат: При копировании файла в 4Гб копирование происходит на скоростях в среднем от 15 до 800МБ/с, копирование происходит скачкообразно. Если последовательно выполнять копирование файла в туже папку то чере какоето время (закономерность и время не выявил) происходит остановка копирования с падением скорости до 0 так продолжается от 30 сек до 3 мин. Виртуальная машина работающая на этом луне в среднем раз 10 в день замораживается гдето на 10-20 сек.

Bormoto
Advanced member
Сообщения: 253
Зарегистрирован: 06 июл 2007, 22:20
Откуда: спб

Re: Подвисание при копировании на СХД DS3512

Сообщение Bormoto » 17 янв 2013, 00:13

Кстати, а оптические трансиверы и соединительные оптические кабели у вас правильные? Какие маркировки на тех и других? Менять кабели не пробовали?

Ch_DV
member
Сообщения: 22
Зарегистрирован: 16 янв 2013, 10:35
Откуда: Волгодонск

Re: Подвисание при копировании на СХД DS3512

Сообщение Ch_DV » 17 янв 2013, 08:16

Bormoto писал(а):Кстати, а оптические трансиверы и соединительные оптические кабели у вас правильные? Какие маркировки на тех и других? Менять кабели не пробовали?
Трансиверы и кабеля - все брендовое IBM, с этим вроде как не должно быть проблем
- Трансивер IBM SFP+ Transceiver 16 Gbps SW 8-Pack (98Y2177) (Brocade 16G SW)
- Кабель Additional cables : 5m Fiber Optic Cable LC-LC (39M5697)

Кабель на другой пока не пробывали менять, есть другие трансиверы, шли в комплекте с хранилкой и HBA FC - попробую поменять позже.

yuri-
Advanced member
Сообщения: 87
Зарегистрирован: 22 мар 2003, 18:23
Откуда: Салехард

Re: Подвисание при копировании на СХД DS3512

Сообщение yuri- » 17 янв 2013, 09:42

Скорее всего в RAID5 проблема.

Ch_DV
member
Сообщения: 22
Зарегистрирован: 16 янв 2013, 10:35
Откуда: Волгодонск

Re: Подвисание при копировании на СХД DS3512

Сообщение Ch_DV » 17 янв 2013, 10:24

Произвел тестирование дисковой подсистемы программой Iometer 2006.07.27
Параметры тестирования:
В кластере поднят отказоустойчивый файловый сервер (лун 1,5 Тб), папку с этого сервера подключил как сетевой диск, на нем и производил тесты.
Параметры Iometer
Maximum Disk Size: 16777216
Паттерн: 32К 100% Read 0, % Random
Cycle # Outstanding IOs
Exponential Stepping.

Тестирование показало несколько значений, которые сменяли друг друга:

Total I/O per Second 754
Total MBs per Second 23
Average I/O Response Time (ms) 1.32
Maximum I/O Response Time (ms) 6.02
Total Error Count 0

Total I/O per Second 658
Total MBs per Second 20.57
Average I/O Response Time (ms) 1.51
Maximum I/O Response Time (ms) 237.74
Total Error Count 0

В какой-то момент значения стали
Total I/O per Second 0
Total MBs per Second 0
Average I/O Response Time (ms) 0.00
Maximum I/O Response Time (ms) 0.0
Total Error Count 0

На СХД в этот момент в Performance Monitor какая либо активность отсутствовала.

И в таком состоянии пребывали где-то 60-90 сек, после чего значения вернулись в прежние состояния

Нашел описание, как произвести расчет IOPS, сделал согласно описания расчет.
Источник: Пост IOPS — что это такое, и как его считать (http://habrahabr.ru/post/164325/)

Получилось

Total Raw IOPS = 170*11 = 1870 IOPS (один 15K RPM диск может выдать в среднем 170 IOPS)

Для RAID-5
80%Write 20%Read Functional IOPS = (((1870*0.8 ))/(4))+(1870*0.2 ) = 748 IOPS
20%Write 80%Read Functional IOPS = (((1870*0.2 ))/(4))+(1870*0.8 ) = 1589 IOPS

Я так понимаю IOPS я свои получаю, а вот с нестабильным временем задержки и полним отсутствием активности (в некоторые моменты) есть проблема. Тестирование проводилось в условиях отсутствия любой другой нагрузки на СХД.

Аватара пользователя
Stranger03
Сотрудник Тринити
Сотрудник Тринити
Сообщения: 12979
Зарегистрирован: 14 ноя 2003, 16:25
Откуда: СПб, Екатеринбург
Контактная информация:

Re: Подвисание при копировании на СХД DS3512

Сообщение Stranger03 » 17 янв 2013, 11:13

На хоботе отписывал, :).
С уважением Геннадий
ICQ 116164373
eburg@trinitygroup.ru

Ch_DV
member
Сообщения: 22
Зарегистрирован: 16 янв 2013, 10:35
Откуда: Волгодонск

Re: Подвисание при копировании на СХД DS3512

Сообщение Ch_DV » 17 янв 2013, 16:11

Stranger03 писал(а):На хоботе отписывал, :).
Решаю проблему уже около месяца, поэтому пошел всеми путями сразу.

Ранее эту же проблему ранее описывал на другой человек на habrahabr.ru
http://habrahabr.ru/qa/30815/

Ch_DV
member
Сообщения: 22
Зарегистрирован: 16 янв 2013, 10:35
Откуда: Волгодонск

Re: Подвисание при копировании на СХД DS3512

Сообщение Ch_DV » 17 янв 2013, 16:56

Bormoto писал(а):Если все описанное сделано безошибочно, попробуйте еще (подробности - гугл в помощь):
1. В реестре OS
HKEY_LOCAL_MACHINE\SYSTEM\CurrentControlSet\Services\ql2300\Parameters\Device
MaximumSGList = 0xff
NumberOfRequests = 0xff
В этой ветке реестра HKEY_LOCAL_MACHINE\SYSTEM\CurrentControlSet\Services\ql2300\Parameters\Device
таких ключей нет
MaximumSGList = 0xff
NumberOfRequests = 0xff

ОС Win Server 2012 St, так и должно быть или их нужно создать. Гугл подсказал что это за значения и для чего они нужны, но не сказал должны ли они уже быть WinServ2012 или их нужно создать самому.

Нашел такую информацию:
Windows supports the NumberOfRequests registry parameter to specify the maximum number of outstanding requests per adapter. When you install the QLogic driver, the system automatically updates the registry for this parameter by setting its value to 150 (0x96).
WARNING: DO NOT increase this parameter above 150. Doing so can result in a system failure.

NumberOfRequests = 0xff больше 0x96, 0xff проверенные значения?

Bormoto
Advanced member
Сообщения: 253
Зарегистрирован: 06 июл 2007, 22:20
Откуда: спб

Re: Подвисание при копировании на СХД DS3512

Сообщение Bormoto » 17 янв 2013, 17:58

Ch_DV писал(а):
В этой ветке реестра HKEY_LOCAL_MACHINE\SYSTEM\CurrentControlSet\Services\ql2300\Parameters\Device
таких ключей нет
MaximumSGList = 0xff
NumberOfRequests = 0xff

ОС Win Server 2012 St, так и должно быть или их нужно создать. Гугл подсказал что это за значения и для чего они нужны, но не сказал должны ли они уже быть WinServ2012 или их нужно создать самому.

Нашел такую информацию:
Windows supports the NumberOfRequests registry parameter to specify the maximum number of outstanding requests per adapter. When you install the QLogic driver, the system automatically updates the registry for this parameter by setting its value to 150 (0x96).
WARNING: DO NOT increase this parameter above 150. Doing so can result in a system failure.

NumberOfRequests = 0xff больше 0x96, 0xff проверенные значения?
Однозначно не испортит MaximumSGList = 0xff (это рекомендуют и LSI, и IBM, и Xyratex, и Qlogic применительно к MS).
В NumberOfRequests мнения расходятся. В наблюдаемой мною конфигурации все нормально, но найденное вами замечание тоже верно.

Ch_DV
member
Сообщения: 22
Зарегистрирован: 16 янв 2013, 10:35
Откуда: Волгодонск

Re: Подвисание при копировании на СХД DS3512

Сообщение Ch_DV » 17 янв 2013, 22:20

Bormoto писал(а):Если все описанное сделано безошибочно, попробуйте еще (подробности - гугл в помощь):
1. В реестре OS
HKEY_LOCAL_MACHINE\SYSTEM\CurrentControlSet\Services\ql2300\Parameters\Device
MaximumSGList = 0xff
NumberOfRequests = 0xff
HKEY_LOCAL_MACHINE\SYSTEM\CurrentControlSet\Services\ds4dsm\Parameters
SynchTimeOut = 0x78
DisableLunRebalance = 0x03
HKEY_LOCAL_MACHINE\SYSTEM\CurrentControlSet\Services\Disk
TimeOutValue = 0x78
Добавил / изменил указанные ключи ситуация изменилась в лучшую сторону. В общем скорость копирования по данным стандартного окна копирования стала более стабильна - 500 МБ/с. Пробывал копировать сразу 18 файлов по 4Гб - скорость до 50% была 500МБ/с потом упала и колебалась 30-150МБ/с, изредка скорость палада до 0% но это длилось не более секунды, после чего возвращалась в предыдущее положение. Так же пробывал методом последовательной вставки файлов, создавая очередь из копируемых файлов, гдето на 35-37 вставке окно копирования появилось но файл не копировался, произвел еще одну вставку файла, так же появилось окно но копирование не производилось спустя гдето одну минуту начал копироватся сначала один файл и через несколько секунд и другой файл. Тут я наверное перестарался с тестированием, как-никак около 140 гигабайт было скопированно.
Пока велось тестирование наблюдал за Монитором ресурсов - Работа диска. Все операции по копированию файла скапливались в очередь, общая скорость работы с дисковой подсистемой (дисковый ввод-вывод) показывал скорость 250-300 МБ/с. Я так понял задержка при копировании при втором тесте образовалась из за того что слишком много набралось операций фонового копирования.

Если судить по монитору ресурсов - Работа диска то дисковая постоянная скорость копирования 300МБ/с. Скажите, данная скорость является нормальной для данной системы, или раскрыт не весь потенциал СХД. А то что касается IOPS вроде разобрался, какое значение должно быть для данной конфигурации в IOPS. А вот какое значение МБ/с должно соответсвовать моей конфигурации.

Ch_DV
member
Сообщения: 22
Зарегистрирован: 16 янв 2013, 10:35
Откуда: Волгодонск

Re: Подвисание при копировании на СХД DS3512

Сообщение Ch_DV » 18 янв 2013, 10:25

Сегодня утром начал тестировать снова, прописал эти ключи реестра на другом сервере, перегрузил сервер, на втором сервере скопировал файлик C:\ClusterStorage\Volume1 обьемом 4 Гб делаю вставку первый раз, копирование идет на скоростях 60-170 МБ/с, не дожидаясь завершения делаю еще одну вставку, копируется на скорости 480МБ/с, В итогевторой скопировался в несколько раз быстрее чем первый. Запустил копирование 3 файлов по 4Гб на обоих серверах в разных папках сначало копирование проходило на скоростях 90-150 на обоих серверах, после упало до 30-60, иногда подвисало на 1-2 секунды.

Стоит ли экспериментировать с настройками FC HBA:
LoopResetDelay = 8
ExecutionThrottle = 256
EnableTargetReset = Yes
LoginRetryCount = 30
LinkDownTime = 60

Даст ли это какой-нибуть результат с учетом внесенных изменеией в реестр.

Ch_DV
member
Сообщения: 22
Зарегистрирован: 16 янв 2013, 10:35
Откуда: Волгодонск

Re: Подвисание при копировании на СХД DS3512

Сообщение Ch_DV » 21 янв 2013, 10:35

Тестировался настройками FC HBA:
LoopResetDelay = 8
ExecutionThrottle = 256
EnableTargetReset = Yes
LoginRetryCount = 30
LinkDownTime = 60

Скорость копирования 2МБ/с изредко поднимается по 5 МБ/с

Ch_DV
member
Сообщения: 22
Зарегистрирован: 16 янв 2013, 10:35
Откуда: Волгодонск

Re: Подвисание при копировании на СХД DS3512

Сообщение Ch_DV » 21 янв 2013, 14:15

Подскажите у меня в настройках HBA установлено значение Connect Options равное 2. Loop Preferred, Otherwise Point to Point в некоторых конфигурациях найденных сной в интернете установлено значение 1. Point to Point Only. Скажите каким должно быть значение Connection Options при использовании канала связи FC и коммутаторах FC.

Ответить

Вернуться в «Массивы - Технические вопросы, решение проблем.»

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и 26 гостей