Форум Тринити

Открытый технический форум по серверам и системам хранения данных, кластерным решениям, SAN, NAS.
Microsemi infortrend storage
Текущее время: 13 дек 2018, 15:42

Часовой пояс: UTC + 3 часа [ Летнее время ]




Начать новую тему Ответить на тему  [ Сообщений: 12 ] 
Автор Сообщение
 Заголовок сообщения: Низкая производительность LSI9260-16i
СообщениеДобавлено: 27 ноя 2018, 12:38 
Не в сети
Advanced member

Зарегистрирован: 23 апр 2009, 16:44
Сообщения: 169
Откуда: Москва
Приветствую.

Столкнулся с проблемой на конфигурации с контролерами LSI
Массив из 4 дисков в стайпе, показывает очень низкую производительность по сравнению с интеловым контроллером на том же чипе, RAID Controller RS2BL040
На RAID Controller RS2BL040 fio на линейной записи показывает:
Код:
Jobs: 1 (f=1): [W] [100.0% done] [0KB/489.6MB/0KB /s] [0/1958/0 iops] [eta 00m:00s]
write: (groupid=0, jobs=1): err= 0: pid=32679: Tue Nov 27 11:31:15 2018
  write: io=16383MB, bw=483332KB/s, iops=1888, runt= 34710msec
    slat (usec): min=16, max=2055, avg=30.31, stdev=18.40
    clat (msec): min=1, max=227, avg=16.39, stdev=17.09
     lat (msec): min=1, max=227, avg=16.42, stdev=17.09

Это при том что на этом девайсе есть прослойка из DRBD
На 9260
Код:
^Cbs: 1 (f=1): [W] [0.4% done] [0KB/224.3MB/0KB /s] [0/448/0 iops] [eta 01h:17m:03s]
write: (groupid=0, jobs=1): err= 0: pid=25590: Tue Nov 27 12:33:07 2018
  write: io=4313.6MB, bw=231052KB/s, iops=451, runt= 19117msec
    slat (usec): min=72, max=296, avg=188.01, stdev=18.36
    clat (msec): min=3, max=246, avg=68.48, stdev=29.43
     lat (msec): min=3, max=246, avg=68.67, stdev=29.44

скорость в два раза ниже, и ужасная латенси
Батарейка мертвая, но на первом она тоже аналогично, настройки Интелового
Код:
Virtual Drive: 1 (Target Id: 1)
Name                :
RAID Level          : Primary-0, Secondary-0, RAID Level Qualifier-0
Size                : 16.0 GB
Sector Size         : 512
Is VD emulated      : No
Parity Size         : 0
State               : Optimal
Strip Size          : 256 KB
Number Of Drives    : 4
Span Depth          : 1
Default Cache Policy: WriteBack, ReadAhead, Direct, No Write Cache if Bad BBU
Current Cache Policy: WriteBack, ReadAhead, Direct, No Write Cache if Bad BBU
Default Access Policy: Read/Write
Current Access Policy: Read/Write
Disk Cache Policy   : Disabled
Encryption Type     : None


Вернуться к началу
 Профиль  
 
СообщениеДобавлено: 27 ноя 2018, 12:56 
Не в сети
Advanced member

Зарегистрирован: 23 апр 2009, 16:44
Сообщения: 169
Откуда: Москва
На пациенте
Код:
Virtual Drive: 0 (Target Id: 0)
Name                :
RAID Level          : Primary-0, Secondary-0, RAID Level Qualifier-0
Size                : 100.0 GB
Sector Size         : 512
Is VD emulated      : No
Parity Size         : 0
State               : Optimal
Strip Size          : 64 KB
Number Of Drives    : 4
Span Depth          : 1
Default Cache Policy: WriteBack, ReadAhead, Cached, Write Cache OK if Bad BBU
Current Cache Policy: WriteBack, ReadAhead, Cached, Write Cache OK if Bad BBU
Default Access Policy: Read/Write
Current Access Policy: Read/Write
Disk Cache Policy   : Disabled
Encryption Type     : None
Is VD Cached: No

Кеш включен принудительно.


Вернуться к началу
 Профиль  
 
СообщениеДобавлено: 27 ноя 2018, 14:26 
Не в сети
Advanced member
Аватара пользователя

Зарегистрирован: 09 июл 2010, 11:23
Сообщения: 325
Откуда: Москва
Ну начать с того, что у LSI его 16 портов обеспечиваются наличием на борту чипа экспандера, тогда как у интелового носители подключены директом к RoC 2108.

ХЗ, может тут собака порылась.

Далее, из описания не очень понятно, какие носители использовались в тестах - одни и те же на обоих контроллерах, или разные?
В идеале при тестах надо менять только контроллер, оставляя всё остальное прежним - как сам сервер, так и носители с кабелями (sic!).
А то у Вас, может, хард или кабель сбойнутые есть на LSI (латенси просто так не взлетает, в рейд-группе как в армии - "зачёт по последнему").

Кроме того из описания настроек R0 видно, что в тестах использовался разный размер Strip Size - на интеле 256, а на LSI - 64.
Попробуйте перетестировать LSI с Strip Size=256 и скажите, что выйдет.

В общем, вкратце так.


Вернуться к началу
 Профиль  
 
СообщениеДобавлено: 27 ноя 2018, 14:31 
Не в сети
Advanced member

Зарегистрирован: 23 апр 2009, 16:44
Сообщения: 169
Откуда: Москва
Umlyaut писал(а):
Ну начать с того, что у LSI его 16 портов обеспечиваются наличием на борту чипа экспандера, тогда как у интелового носители подключены директом к RoC 2108.

Думал об этом, но экспандер подключен минимум 4 линиями, а возможно и всеми 8-ю.

Насчет Strip Size, думал об этом, менял на другом луне, результат тот же.
Набор дисков, одинаковый, только в проблемном еще пара ссд под кешкод, ну и платформы разные, проблемная на паре e5, эталонная e3


Вернуться к началу
 Профиль  
 
СообщениеДобавлено: 27 ноя 2018, 14:42 
Не в сети
Advanced member
Аватара пользователя

Зарегистрирован: 09 июл 2010, 11:23
Сообщения: 325
Откуда: Москва
Клясться не буду, но все массовые ВНЕШНИЕ экспандеры - карты или бэкплейны - на чипах LSI подключаются к контроллеру по 4-м линиям. Сомневаюсь, что встроенный в 16i экспандер "разведён" до RоC по-другому.

Ну и даже так номинально получается 4 линии против 4-х (на интеле и на LSI) - я больше топил за то, что косячить может сам экспандер, мало ли?

Не очень понятно "менял на другом луне"? Это на том, что на LSI? Если да, то, возможно, не в этом пар-ре дело, да.

"одинаковый" набор дисков - это не "тот же самый"

вот если Вы к "беспроблемным" дискам ставите вместо интела LSI и показатели ухудшаются, то соака порылась в контроллере - единственном заменённом в схеме элементе

а иначе может быть и так, что один, или несколько "одинаковых" дисков - или кабелей, - будучи некошерными, тормозят весь лун

а то, выходит, Вы сравниваете не контроллеры, а всю дисковую систему, да ещё с различными условиями/пар-рами сравнения


Вернуться к началу
 Профиль  
 
СообщениеДобавлено: 27 ноя 2018, 15:31 
Не в сети
Advanced member

Зарегистрирован: 23 апр 2009, 16:44
Сообщения: 169
Откуда: Москва
Umlyaut писал(а):
"одинаковый" набор дисков - это не "тот же самый"

Диски одной модели, одной прошивки
Нет возможности дергать контроллеры и диски туда сюда, возможно и с дисками чтото не то, возможно кабель, так как на нем кабеля китайские
Отключил на его близнеце кешкод, прогнал фио на страйпе из ссд,
Код:
Jobs: 1 (f=1): [R(1)][100.0%][r=863MiB/s,w=0KiB/s][r=3451,w=0 IOPS][eta 00m:00s]
read: (groupid=0, jobs=1): err= 0: pid=9869: Tue Nov 27 14:00:34 2018
   read: IOPS=3527, BW=882MiB/s (925MB/s)(223GiB/258987msec)
    slat (usec): min=22, max=321, avg=36.49, stdev= 9.24
    clat (usec): min=962, max=41013, avg=8748.42, stdev=3306.50
     lat (usec): min=1003, max=41048, avg=8785.23, stdev=3306.27

На пациенте
Код:
Jobs: 1 (f=1): [R] [100.0% done] [929.0MB/0KB/0KB /s] [3716/0/0 iops] [eta 00m:00s]
read: (groupid=0, jobs=1): err= 0: pid=8195: Tue Nov 27 15:22:55 2018
  read : io=455856MB, bw=955495KB/s, iops=3732, runt=488539msec
    slat (usec): min=17, max=579, avg=32.98, stdev= 3.56
    clat (usec): min=3324, max=21146, avg=8268.88, stdev=343.51
     lat (usec): min=3358, max=21179, avg=8302.78, stdev=343.23

Так что отметаем экспандер, конфигурацию сервера и PCIe слот


Вернуться к началу
 Профиль  
 
СообщениеДобавлено: 27 ноя 2018, 16:15 
Не в сети
Advanced member

Зарегистрирован: 23 апр 2009, 16:44
Сообщения: 169
Откуда: Москва
Мда уж
Пациент
Код:
Starting 1 process
Jobs: 1 (f=1): [R] [100.0% done] [197.8MB/0KB/0KB /s] [791/0/0 iops] [eta 00m:00s]
read: (groupid=0, jobs=1): err= 0: pid=16203: Tue Nov 27 16:08:16 2018
  read : io=4095.0MB, bw=337841KB/s, iops=1319, runt= 12412msec
    slat (usec): min=26, max=413, avg=36.43, stdev= 8.69
    clat (usec): min=163, max=146942, avg=23439.18, stdev=17173.46
     lat (usec): min=198, max=146978, avg=23476.55, stdev=17173.90

Близнец, с рабочей батарейкой.
Код:
read: (groupid=0, jobs=1): err= 0: pid=3264: Tue Nov 27 14:50:57 2018
   read: IOPS=964, BW=241MiB/s (253MB/s)(15.5GiB/65911msec)
    slat (usec): min=19, max=496, avg=40.31, stdev=14.26
    clat (usec): min=1149, max=611096, avg=32092.72, stdev=30678.19
     lat (usec): min=1188, max=611147, avg=32133.41, stdev=30677.71

Интеловый контроллер, с мертвой ББУ
Код:
Starting 1 process
Jobs: 1 (f=1): [R] [100.0% done] [524.0MB/0KB/0KB /s] [2096/0/0 iops] [eta 00m:00s]
read: (groupid=0, jobs=1): err= 0: pid=17811: Tue Nov 27 15:09:21 2018
  read : io=16383MB, bw=526386KB/s, iops=2056, runt= 31871msec
    slat (usec): min=18, max=528, avg=25.79, stdev= 6.31
    clat (msec): min=1, max=1577, avg=15.05, stdev=24.80
     lat (msec): min=1, max=1577, avg=15.07, stdev=24.80


Вернуться к началу
 Профиль  
 
СообщениеДобавлено: 27 ноя 2018, 18:41 
Не в сети
Advanced member

Зарегистрирован: 23 апр 2009, 16:44
Сообщения: 169
Откуда: Москва
Что самое интересное, храмает именно линейная запись, рандомная, вполне эталонная
Линейная
Код:
Jobs: 1 (f=1): [W] [100.0% done] [0KB/119.0MB/0KB /s] [0/476/0 iops] [eta 00m:00s]
write: (groupid=0, jobs=1): err= 0: pid=8815: Tue Nov 27 18:36:13 2018
  write: io=16384MB, bw=148985KB/s, iops=581, runt=112610msec
    slat (usec): min=34, max=644, avg=57.03, stdev=13.58
    clat (msec): min=1, max=259, avg=53.21, stdev=28.16
     lat (msec): min=1, max=259, avg=53.26, stdev=28.16

Рандомная
Код:
randwrite: (groupid=0, jobs=1): err= 0: pid=9830: Tue Nov 27 18:38:42 2018
  write: io=121728KB, bw=7921.4KB/s, iops=990, runt= 15367msec
    slat (usec): min=8, max=62, avg=15.81, stdev= 5.55
    clat (usec): min=282, max=302970, avg=31278.37, stdev=47139.47
     lat (usec): min=295, max=302983, avg=31294.46, stdev=47139.53


Вернуться к началу
 Профиль  
 
СообщениеДобавлено: 27 ноя 2018, 18:54 
Не в сети
Advanced member

Зарегистрирован: 23 апр 2009, 16:44
Сообщения: 169
Откуда: Москва
А в чем отличие:
Код:
Default Cache Policy: WriteBack, ReadAhead, Direct, No Write Cache if Bad BBU
Current Cache Policy: WriteBack, ReadAhead, Direct, No Write Cache if Bad BBU
Default Access Policy: Read/Write
Current Access Policy: Read/Write

и

Код:
Default Cache Policy: WriteBack, ReadAhead, Direct, No Write Cache if Bad BBU
Current Cache Policy: WriteThrough, ReadAhead, Direct, No Write Cache if Bad BBU
Default Access Policy: Read/Write
Current Access Policy: Read/Write


Вернуться к началу
 Профиль  
 
СообщениеДобавлено: 27 ноя 2018, 18:55 
Не в сети
Advanced member

Зарегистрирован: 23 апр 2009, 16:44
Сообщения: 169
Откуда: Москва
и так
Код:
Default Cache Policy: WriteBack, ReadAhead, Direct, Write Cache OK if Bad BBU
Current Cache Policy: WriteBack, ReadAhead, Direct, Write Cache OK if Bad BBU
Default Access Policy: Read/Write
Current Access Policy: Read/Write

Но это уже позор какойто
Код:
^Cbs: 1 (f=1): [W] [21.2% done] [0KB/70656KB/0KB /s] [0/276/0 iops] [eta 02m:06s]
fio: terminating on signal 2

write: (groupid=0, jobs=1): err= 0: pid=14474: Tue Nov 27 18:56:47 2018
  write: io=3420.6MB, bw=105297KB/s, iops=411, runt= 33264msec
    slat (usec): min=34, max=140, avg=54.50, stdev=14.24
    clat (msec): min=1, max=296, avg=75.30, stdev=43.65
     lat (msec): min=1, max=296, avg=75.36, stdev=43.65


Вернуться к началу
 Профиль  
 
СообщениеДобавлено: 27 ноя 2018, 22:56 
Не в сети
Advanced member

Зарегистрирован: 23 апр 2009, 16:44
Сообщения: 169
Откуда: Москва
В общем, посмотрел я на всех серверах с этим контроллером и этими дисками, печально
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
Код:
  1 Raw_Read_Error_Rate     0x000b   096   096   016    Pre-fail  Always       -       458753
  2 Throughput_Performance  0x0005   135   135   054    Pre-fail  Offline      -       96
  3 Spin_Up_Time            0x0007   121   121   024    Pre-fail  Always       -       314 (Average 314)
  4 Start_Stop_Count        0x0012   100   100   000    Old_age   Always       -       36
  5 Reallocated_Sector_Ct   0x0033   100   100   005    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x000b   100   100   067    Pre-fail  Always       -       0
  8 Seek_Time_Performance   0x0005   136   136   020    Pre-fail  Offline      -       32
  9 Power_On_Hours          0x0012   098   098   000    Old_age   Always       -       17552
 10 Spin_Retry_Count        0x0013   100   100   060    Pre-fail  Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       35
192 Power-Off_Retract_Count 0x0032   100   100   000    Old_age   Always       -       87
193 Load_Cycle_Count        0x0012   100   100   000    Old_age   Always       -       87
194 Temperature_Celsius     0x0002   253   253   000    Old_age   Always       -       23 (Min/Max 13/35)
196 Reallocated_Event_Count 0x0032   100   100   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0022   100   100   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0008   100   100   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x000a   200   200   000    Old_age   Always       -       0


Везде, на всех Raw_Read_Error_Rate от нескольких сот тысяч до нескольких миллионов, при этом, на эталоне и других(всех) его близнецах, с ними все нормально.
Код:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000b   100   100   016    Pre-fail  Always       -       0
  2 Throughput_Performance  0x0005   136   136   054    Pre-fail  Offline      -       92
  3 Spin_Up_Time            0x0007   134   134   024    Pre-fail  Always       -       294 (Average 269)
  4 Start_Stop_Count        0x0012   100   100   000    Old_age   Always       -       47
  5 Reallocated_Sector_Ct   0x0033   100   100   005    Pre-fail  Always       -       0
  7 Seek_Error_Rate         0x000b   100   100   067    Pre-fail  Always       -       0
  8 Seek_Time_Performance   0x0005   140   140   020    Pre-fail  Offline      -       30
  9 Power_On_Hours          0x0012   093   093   000    Old_age   Always       -       51890
 10 Spin_Retry_Count        0x0013   100   100   060    Pre-fail  Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       47
192 Power-Off_Retract_Count 0x0032   100   100   000    Old_age   Always       -       109
193 Load_Cycle_Count        0x0012   100   100   000    Old_age   Always       -       109
194 Temperature_Celsius     0x0002   214   214   000    Old_age   Always       -       28 (Min/Max 16/36)
196 Reallocated_Event_Count 0x0032   100   100   000    Old_age   Always       -       0
197 Current_Pending_Sector  0x0022   100   100   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0008   100   100   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x000a   200   200   000    Old_age   Always       -       0


Вернуться к началу
 Профиль  
 
СообщениеДобавлено: 05 дек 2018, 17:53 
Не в сети
Advanced member

Зарегистрирован: 23 апр 2009, 16:44
Сообщения: 169
Откуда: Москва
А ну его в помойку,
Страйп из пары ССД, линейная запись.
Код:
write: (groupid=0, jobs=1): err= 0: pid=8357: Wed Dec  5 16:31:47 2018
  write: IOPS=898, BW=449MiB/s (471MB/s)(57.9GiB/132009msec)
    slat (usec): min=45, max=470, avg=101.55, stdev=18.20
    clat (usec): min=5330, max=96697, avg=34410.98, stdev=18575.34
     lat (usec): min=5501, max=96789, avg=34513.01, stdev=18578.61
    clat percentiles (usec):

Откуда латенси 35?


Вернуться к началу
 Профиль  
 
Показать сообщения за:  Поле сортировки  
Начать новую тему Ответить на тему  [ Сообщений: 12 ] 

Часовой пояс: UTC + 3 часа [ Летнее время ]


Кто сейчас на конференции

Сейчас этот форум просматривают: Google [Bot] и гости: 3


Вы не можете начинать темы
Вы не можете отвечать на сообщения
Вы не можете редактировать свои сообщения
Вы не можете удалять свои сообщения
Вы не можете добавлять вложения

Найти:
Перейти:  
Создано на основе phpBB® Forum Software © phpBB Group
Русская поддержка phpBB