Большое время ответа

Конфигурирование, планирование RAID систем, возможности, технологии, теория. Qlogic, LSI Logic, Adaptec ...

Модераторы: Trinity admin`s, Free-lance moderator`s

Ответить
blacksmithov
Junior member
Сообщения: 7
Зарегистрирован: 31 май 2016, 11:21
Откуда: Екатеринбург

Большое время ответа

Сообщение blacksmithov » 13 июн 2016, 11:53

Здравствуйте.
Появилась проблема: на серверах включенных в сановскую сеть время ответа от дисков в системе стало достигать в пиковых значениях несколько секунд. Точно такая же сеть организована в другом здании и все работает нормально (только в другом здании хостов немного больше). Изначально думал проблема в прошивках и драйверах на серверах: установка тестового сервера с последними прошивками, драйверами- не помогло.
Итак в общих словах об организации SAN:
Каждый хост (IBM blade 7873 и 7870, в основном все на ОС Windows Server) соединен с СХД (storwise v7000/4 FS порта-8 Gbps) через 4 FC свитча (2хBrocade 5470/8 Gbps и 2xBrocade 300/8 Gbps). Организованы две фабрики (А и B). Полгода назад ставили последние прошивки на все - хосты, схд, свитчи.
Месяца два назад настроил мониторинг (stor2rrd) - ошибок не нашел, не силен в данной области.
Прошу знатоков помочь с диагностикой и выявлением проблемы, если нужна схема, то смогу попозже нарисовать и выложить.

Аватара пользователя
Umlyaut
Advanced member
Сообщения: 370
Зарегистрирован: 09 июл 2010, 11:23
Откуда: Москва

Хм-ммм...

Сообщение Umlyaut » 14 июн 2016, 00:42

Проверьте состояние носителей - это, пожалуй, единственный элемент системы, которому "положено" деградировать со временем.
Скажем, какой-то из них ещё недостаточно "всё", чтобы его отверг контроллер, но уже достаточно поёрзан для того, чтобы давать задержку, тормозящую весь том или рейд-группу (бо принцип "по последнему" для латентности никто не отменял).

blacksmithov
Junior member
Сообщения: 7
Зарегистрирован: 31 май 2016, 11:21
Откуда: Екатеринбург

Re: Хм-ммм...

Сообщение blacksmithov » 14 июн 2016, 06:22

Umlyaut писал(а):Проверьте состояние носителей.
Дело в том что тормозит на разных томах размещенных на разных дисках:ssd/10k/15k. Не подскажите способ проверки?

Аватара пользователя
Stranger03
Сотрудник Тринити
Сотрудник Тринити
Сообщения: 12979
Зарегистрирован: 14 ноя 2003, 16:25
Откуда: СПб, Екатеринбург
Контактная информация:

Re: Большое время ответа

Сообщение Stranger03 » 14 июн 2016, 08:37

blacksmithov писал(а):соединен с СХД (storwise v7000/4 FS порта-8 Gbps) через 4 FC свитча (2хBrocade 5470/8 Gbps и 2xBrocade 300/8 Gbps). Организованы две фабрики (А и B). Полгода назад ставили последние прошивки на все - хосты, схд, свитчи.
1. Зачем 4-е свича?
2. Как подключен Сторвайз
3. Есть ли ошибки в логах Сторвайза?
4. Посмотрите ошибки в логах винды, может там что интересного найдете

П.С. укажите город в профиле.
С уважением Геннадий
ICQ 116164373
eburg@trinitygroup.ru

blacksmithov
Junior member
Сообщения: 7
Зарегистрирован: 31 май 2016, 11:21
Откуда: Екатеринбург

Re: Большое время ответа

Сообщение blacksmithov » 15 июн 2016, 07:10

Stranger03 писал(а):
blacksmithov писал(а):соединен с СХД (storwise v7000/4 FS порта-8 Gbps) через 4 FC свитча (2хBrocade 5470/8 Gbps и 2xBrocade 300/8 Gbps). Организованы две фабрики (А и B). Полгода назад ставили последние прошивки на все - хосты, схд, свитчи.
1. Зачем 4-е свича?
2. Как подключен Сторвайз
3. Есть ли ошибки в логах Сторвайза?
4. Посмотрите ошибки в логах винды, может там что интересного найдете

П.С. укажите город в профиле.
извиняюсь за долгие ответы... город указал.
1. Схема чуть больше чем я описал + в сторвайзе я мало портов указал (не 4, а 8 ). Через brocade 300 дополнительно цепляется еще одна СХД (но она не учувствует в описанной мною проблеме, так как с нее тома не посылаются на эти сервера). Схема изначально составлена для максимального резервирования работы сановской сети.
2. сторвайз подключен к двум Brocade 300 всеми 8-мью линками. каждый контролер имеет по два линка в каждую из двух фабрик.
3. ошибок на сторвайзе нет, но заметили вчера ошибки на одном из портов свитча который установлен в блэйд. отключили порт- понаблюдаем за системой (crc errors -14316558).
4. смотрели уже - ничего не нашли.
http://pixs.ru/showimage/1jpg_7089499_22347017.jpg
http://pixs.ru/showimage/2jpg_6892196_22347022.jpg
на схеме зеленые линии- фабрика а, синие-фабрика b

Вчера мысль появилась, что может быть мы не учитываем какую-то дополнительную нагрузку на сторвайз. Но как это сделать я не знаю. Возможно все проще - СХД не справляется. Стандартный мониторинг в сторвайзе как мне кажется убог, а в stor2rdd куда смотреть и как анализировать я не пойму.

Аватара пользователя
Stranger03
Сотрудник Тринити
Сотрудник Тринити
Сообщения: 12979
Зарегистрирован: 14 ноя 2003, 16:25
Откуда: СПб, Екатеринбург
Контактная информация:

Re: Большое время ответа

Сообщение Stranger03 » 15 июн 2016, 07:47

blacksmithov писал(а):Вчера мысль появилась, что может быть мы не учитываем какую-то дополнительную нагрузку на сторвайз. Но как это сделать я не знаю. Возможно все проще - СХД не справляется. Стандартный мониторинг в сторвайзе как мне кажется убог, а в stor2rdd куда смотреть и как анализировать я не пойму.
У вас много чего может быть. От банально не правильной настройки фабрик и сегментации (хоть я и не понимаю, зачем она вам в этой схеме), до проблем с софтом, драйверами и так далее. Не видя общую картину, нам очень сложно что-то посоветовать. Может проще поговорить с нашими ребятами по телефону? По любому надо делать комплексную диагностику.
По поводу мониторинга Сторвайза - задам вопрос Егору. Он подскажет как, где и что смотреть.
По поводу мониторинга серверов, неплохо бы собрать счетчики и посмотреть, что у вас там происходит. Для начала можно посмотреть вот тут: http://3nity.ru/viewtopic.php?f=28&t=13388
С уважением Геннадий
ICQ 116164373
eburg@trinitygroup.ru

Аватара пользователя
Don_Fear
Сотрудник Тринити
Сотрудник Тринити
Сообщения: 70
Зарегистрирован: 28 авг 2013, 16:35
Откуда: Екатеринбург

Re: Большое время ответа

Сообщение Don_Fear » 15 июн 2016, 09:06

Если на портах SAN коммутатора "много" ошибок, то проблема может скрываться за "испорченной" SFP или кабелем. Эти элементы выходят из строя крайне редко, если их не "передёргивают", но всё же бывает.

Мониторинг производительности на сторвайзе - довольно не простое дело. Как вы могли заметить, то счетчики из web-интерфейса дают довольно общую картину, со стороны СХД. Чуть более расширенную картину можно получить через CLI. Но при стоит учитывать, что сторвайз не хранит логи производительности. Поэтому нам доступно только 5 прошедших минут (кажется именно столько).

Поэтому проще и надежнее анализировать производительность дисковой системы косвенным путём, через логи производительности ОС.

blacksmithov
Junior member
Сообщения: 7
Зарегистрирован: 31 май 2016, 11:21
Откуда: Екатеринбург

Re: Большое время ответа

Сообщение blacksmithov » 15 июн 2016, 09:14

Don_Fear писал(а):Если на портах SAN коммутатора "много" ошибок, то проблема может скрываться за "испорченной" SFP или кабелем. Эти элементы выходят из строя крайне редко, если их не "передёргивают", но всё же бывает.

Мониторинг производительности на сторвайзе - довольно не простое дело. Как вы могли заметить, то счетчики из web-интерфейса дают довольно общую картину, со стороны СХД. Чуть более расширенную картину можно получить через CLI. Но при стоит учитывать, что сторвайз не хранит логи производительности. Поэтому нам доступно только 5 прошедших минут (кажется именно столько).

Поэтому проще и надежнее анализировать производительность дисковой системы косвенным путём, через логи производительности ОС.
Это порт свитча вставленного в блэйд - здесь патч-корда точно нет, а передергивание происходить лишь во время изымания и вставления сервера-лезвия в шасси.

Поэтому и настроили сервис stor2rrd, который по CLI выдергивает каждые пять минут инфу и сохраняет у себя. Через вэб-интерфейс мы потом смотрим на графики/таблицы.

Аватара пользователя
Don_Fear
Сотрудник Тринити
Сотрудник Тринити
Сообщения: 70
Зарегистрирован: 28 авг 2013, 16:35
Откуда: Екатеринбург

Re: Большое время ответа

Сообщение Don_Fear » 15 июн 2016, 09:23

А логи производительности сторвайза можете скинуть?

blacksmithov
Junior member
Сообщения: 7
Зарегистрирован: 31 май 2016, 11:21
Откуда: Екатеринбург

Re: Большое время ответа

Сообщение blacksmithov » 15 июн 2016, 09:33

Don_Fear писал(а):А логи производительности сторвайза можете скинуть?
Это которые показываются в самом сторвайзе?

Аватара пользователя
Stranger03
Сотрудник Тринити
Сотрудник Тринити
Сообщения: 12979
Зарегистрирован: 14 ноя 2003, 16:25
Откуда: СПб, Екатеринбург
Контактная информация:

Re: Большое время ответа

Сообщение Stranger03 » 15 июн 2016, 09:36

blacksmithov
Don_Fear
Да созвонитесь уже через Андрея Латыпова, :)
С уважением Геннадий
ICQ 116164373
eburg@trinitygroup.ru

Аватара пользователя
Don_Fear
Сотрудник Тринити
Сотрудник Тринити
Сообщения: 70
Зарегистрирован: 28 авг 2013, 16:35
Откуда: Екатеринбург

Re: Большое время ответа

Сообщение Don_Fear » 15 июн 2016, 09:37

На сколько я понял, наш менеджер, Андрей, с вами уже связался. Могли бы вы ему выслать логи производительности.
Лучше, раз вы их собираете через stor2rrd, то в момент "пиковой" нагрузки.

Ответить

Вернуться в «Массивы - RAID технологии.»

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и 20 гостей