Проблема с LSI 9260-8i при интенсивной однопоточной записи
Модераторы: Trinity admin`s, Free-lance moderator`s
Проблема с LSI 9260-8i при интенсивной однопоточной записи
Здравствуйте.
Имеется сервер бэкапов на S5520UR, в нём стоит LSI 9260-8i, к нему подключены 6*HUS724040ALS640, из них собран raid 5, на дисковом пространстве установлена WS2012R2
А предыстория такая: купили 6 больших дисков, но не смогли с ходу заставить ос грузиться с gpt-диска, из 5-и сделали raid-5, 6-й убрали про запас, вместо него воткнули диск поменьше и поставили на него операционку. Всё было хорошо, пока не настало время сделать, как и планировали (boot-раздел положили на mbr-раздел usb-флешки)
В 5-ом рэйде из 6 дисков при интенсивной записи на скорости около 220МБ/с примерно на 500 гигабайтах (если файлы большие - диски виртуалок) или на 1500 гигабайтах (если файлы поменьше - бэкапы баз sql) система уходит в перезагрузку, в логах ошибка Fatal firmware error: Line 621 in ../../raid/1078main.c
Прошивка контроллера была 12.15.0-0205_SAS_2108_Fw_Image_APP_2.130.403.3835, на новой 12.15.0-0239_MR_2108_SAS_FW_2.130.403-4660 то же самое, только строчка другая: Fatal firmware error: Line 624 in ../../raid/1078main.c.
Такое ощущение, что контроллер забирает данные быстрее, чем успевает записать на диски.
Что подскажете? Менять диск? Контроллер? Дождаться окончания инициализации?
Конфигурация тома по-умолчанию, только отключены дисковые кэши.
Пробовал разные размеры strip, на умолчальном в 256к кажется, перезагрузки случаются чуть пореже.
UPD
Поменял на ночь IO Policy на cached, и бэкапы вернулись на место без перезагрузок.
Cледом успешно прошли новые бэкапы.
И уже под утро началось:
ID = 47
SEQUENCE NUMBER = 85460
TIME = 29-11-2016 05:37:18
LOCALIZED MESSAGE = Controller ID: 0 Background Initialization corrected medium error: ( VD 0 Location 0x278351bba, PD -:-:5 Location 0x278351bba)
ID = 110
SEQUENCE NUMBER = 85459
TIME = 29-11-2016 05:37:18
LOCALIZED MESSAGE = Controller ID: 0 Corrected medium error during recovery: PD -:-:5 Location 0x278351bb9
и закончилось вот чем:
ID = 51
SEQUENCE NUMBER = 88458
TIME = 29-11-2016 06:31:12
LOCALIZED MESSAGE = Controller ID: 0 Background Initialization failed on VD: 0
ID = 251
SEQUENCE NUMBER = 88457
TIME = 29-11-2016 06:31:12
LOCALIZED MESSAGE = Controller ID: 0 VD is now DEGRADED VD 0
ID = 81
SEQUENCE NUMBER = 88456
TIME = 29-11-2016 06:31:12
LOCALIZED MESSAGE = Controller ID: 0 State change on VD: 0 Previous = Optimal Current = Degraded
ID = 114
SEQUENCE NUMBER = 88455
TIME = 29-11-2016 06:31:12
LOCALIZED MESSAGE = Controller ID: 0 State change: PD = -:-:5 Previous = Online Current = Failed
у диска medium error count: 6074 и Pred fail count:1
Всё-таки диск, да?
Имеется сервер бэкапов на S5520UR, в нём стоит LSI 9260-8i, к нему подключены 6*HUS724040ALS640, из них собран raid 5, на дисковом пространстве установлена WS2012R2
А предыстория такая: купили 6 больших дисков, но не смогли с ходу заставить ос грузиться с gpt-диска, из 5-и сделали raid-5, 6-й убрали про запас, вместо него воткнули диск поменьше и поставили на него операционку. Всё было хорошо, пока не настало время сделать, как и планировали (boot-раздел положили на mbr-раздел usb-флешки)
В 5-ом рэйде из 6 дисков при интенсивной записи на скорости около 220МБ/с примерно на 500 гигабайтах (если файлы большие - диски виртуалок) или на 1500 гигабайтах (если файлы поменьше - бэкапы баз sql) система уходит в перезагрузку, в логах ошибка Fatal firmware error: Line 621 in ../../raid/1078main.c
Прошивка контроллера была 12.15.0-0205_SAS_2108_Fw_Image_APP_2.130.403.3835, на новой 12.15.0-0239_MR_2108_SAS_FW_2.130.403-4660 то же самое, только строчка другая: Fatal firmware error: Line 624 in ../../raid/1078main.c.
Такое ощущение, что контроллер забирает данные быстрее, чем успевает записать на диски.
Что подскажете? Менять диск? Контроллер? Дождаться окончания инициализации?
Конфигурация тома по-умолчанию, только отключены дисковые кэши.
Пробовал разные размеры strip, на умолчальном в 256к кажется, перезагрузки случаются чуть пореже.
UPD
Поменял на ночь IO Policy на cached, и бэкапы вернулись на место без перезагрузок.
Cледом успешно прошли новые бэкапы.
И уже под утро началось:
ID = 47
SEQUENCE NUMBER = 85460
TIME = 29-11-2016 05:37:18
LOCALIZED MESSAGE = Controller ID: 0 Background Initialization corrected medium error: ( VD 0 Location 0x278351bba, PD -:-:5 Location 0x278351bba)
ID = 110
SEQUENCE NUMBER = 85459
TIME = 29-11-2016 05:37:18
LOCALIZED MESSAGE = Controller ID: 0 Corrected medium error during recovery: PD -:-:5 Location 0x278351bb9
и закончилось вот чем:
ID = 51
SEQUENCE NUMBER = 88458
TIME = 29-11-2016 06:31:12
LOCALIZED MESSAGE = Controller ID: 0 Background Initialization failed on VD: 0
ID = 251
SEQUENCE NUMBER = 88457
TIME = 29-11-2016 06:31:12
LOCALIZED MESSAGE = Controller ID: 0 VD is now DEGRADED VD 0
ID = 81
SEQUENCE NUMBER = 88456
TIME = 29-11-2016 06:31:12
LOCALIZED MESSAGE = Controller ID: 0 State change on VD: 0 Previous = Optimal Current = Degraded
ID = 114
SEQUENCE NUMBER = 88455
TIME = 29-11-2016 06:31:12
LOCALIZED MESSAGE = Controller ID: 0 State change: PD = -:-:5 Previous = Online Current = Failed
у диска medium error count: 6074 и Pred fail count:1
Всё-таки диск, да?
- Stranger03
- Сотрудник Тринити
- Сообщения: 12979
- Зарегистрирован: 14 ноя 2003, 16:25
- Откуда: СПб, Екатеринбург
- Контактная информация:
Re: Проблема с LSI 9260-8i при интенсивной однопоточной запи
Очень похоже, что диску каюк. Вытащите его, подключите к обычному САТА и прогоните тестами.yu_mor писал(а):Всё-таки диск, да?
П.С. не очень понял, зачем вы так извращались. Почему нельзя было сделать пару лунов, один под ОСь, второй под данные.
Re: Проблема с LSI 9260-8i при интенсивной однопоточной запи
а кабель может в теории?Stranger03 писал(а):подключите к обычному САТА
сасный он, а свободного (ака запасного) сас-контроллера нет под рукой, тест на другой машине снял бы вопрос про шлейф
а вот ни одному из шести человек как-то не пришло в голову, что можно сделать больше одного lun. )Stranger03 писал(а):вы так извращались.
- gs
- Сотрудник Тринити
- Сообщения: 16650
- Зарегистрирован: 23 авг 2002, 17:34
- Откуда: Москва
- Контактная информация:
Re: Проблема с LSI 9260-8i при интенсивной однопоточной запи
Бэды на одном диске, даже в таком количестве, не должны приводить к краху системы.
Там явно что-то еще.
Ну а диску похоже кранты, да. Как минимум одному
А подергать провода - это первое, что всегда приходит в голову
Там явно что-то еще.
Ну а диску похоже кранты, да. Как минимум одному
А подергать провода - это первое, что всегда приходит в голову
Re: Проблема с LSI 9260-8i при интенсивной однопоточной запи
Поменял я диск на тот, что оказался под рукой - wdcwd60efrx68l. Новый.
Без особых изменений.
Залез в кишки сервера, поменял провод (им когда-то подключали сас-диск напрямую, была срезана одна боковая стенка коннектора)
Опять то же самое.
Осталось только подозрение на плату от ASR2500SIXDRV (http://www.regard.ru/catalog/tovar25552.htm), но без него не подать питание на диск
Попадалось кому такое?
Без особых изменений.
Залез в кишки сервера, поменял провод (им когда-то подключали сас-диск напрямую, была срезана одна боковая стенка коннектора)
Опять то же самое.
Осталось только подозрение на плату от ASR2500SIXDRV (http://www.regard.ru/catalog/tovar25552.htm), но без него не подать питание на диск
Попадалось кому такое?
Кто сейчас на конференции
Сейчас этот форум просматривают: нет зарегистрированных пользователей и 23 гостя