MegaRAID 320-1, Linux - странные тормоза.

Поломалось, посыпалось, не работает...

Модераторы: Trinity admin`s, Free-lance moderator`s

Oldayn
Junior member
Сообщения: 6
Зарегистрирован: 14 дек 2004, 20:52
Откуда: SPb
Контактная информация:

MegaRAID 320-1, Linux - странные тормоза.

Сообщение Oldayn » 14 дек 2004, 21:24

Есть сервер на SuperServer 6013P-8+ с LSI MegaRAID 320-1, тремя дисками в RAID5 и одним в HotSpare. Стоит на нем Linux Slackware 10.
При работе возникают странные тормоза - вот например список последовательных выполнений скриптика, который дважды пишет на диск файлик со случайными данными размером 64 мегабайта и читает его, а потом ждет 10 секунд и все сначала:
16.331s
4.313s
4.691s
16.008s
4.829s
5.017s
4.958s
28.511s
4.987s
(получено примерно так: while true; do time slow 1 64 && sleep 10; done и из сохраненного вывода уже грепом время вытащено).
Slow - это программа на C, второй параметр - размер файла, исходник упомянут тут:
http://www.namesys.com/benchmarks.html# ... .6.8.1-mm3
взят отсюда:
http://www.jburgess.uklinux.net/slow.c
обсуждался тут:
http://marc.theaimsgroup.com/?l=linux-k ... 608384&w=2


То время, которое около 5 секунд - нормальное. При таких запусках огоньки на трех дисках горят все время записи, на HotSpare ничего не горит.

Когда время 16 и 28 секунд происходит следующее: некоторое время могут гореть такие же 3 LED'а, потом они гаснут и некоторое время ничего не происходит. С точки зрения ОС процессы выполняются, те, которые пытаются обращаться к диску висят в WAIT, огоньки не мигают, диски не шуршат, чтения-записи на диски с точки зрения ОС не происходит.
Потом мигают все четыре (!) LED'а (и HotSpare тоже! - как при начальной инициализации контроллера при включении сервера) и после небольшой задержки начинают гореть обычные 3 LED'а, данные передаются, все работает.
Если писать более крупными блоками, это может произойти несколько раз. Иногда может "повезти" и более крупный блок запишется без тормозов. Однако вероятность такой записи блока размером, например, 512 мегабайт - не более 1%.

Сначала думали, что дело в ОС. Когда-то стояло ядро 2.4 с неким старым драйвером, потом стояло 2.6.7 с новым драйвером, потом этот новый драйвер включили в ядро в октябре этого года - поставили 2.6.9 уже с ним, сейчас в ноябре в 2.6.10.pre появилась новый вариант драйвера и стоит как раз ядро с таким, последним вариантом.
До перехода на 2.6.9 подобных тормозов было совсем много, сейчас стало немного лучше, но нормальной работой это все равно не назовешь. :(
Разнообразные варианты файловых систем тоже пробовали, везде одна и таже картина. В логах ничего, как будто никаких проблем, устройство просто "думает". Общая скорость (ориентировочно) 25 мегабайт в "нормальном случае" и 5 мегабайт в случае с тормозами (в секунду). Увы, такая разница для нас критична.

Пробовали FreeBSD (Live CD, newfs на один из разделов, копирование туда больших файликов) - таже картина, иногда тормозит, иногда нормально копирует, такая же картина с LED'ами.

Перерыли инет, есть упоминание:
https://lists.sdsc.edu/pipermail/npaci- ... 01846.html
о похожих проблемах с этим контроллером и "елкой" (Riser Card), но материнка и "елка" там другие. К сожалению, в наше шасси без елки контроллер не влезает, мешает разъем сети на материнке.

Любые попытки найти концы в логах ни к чему не привели. Массив "мониторим" MegaMGRом (аналогом того, что в bios), никаких проблем, все Optimal, Online, отключение HotSpare никаких изменений не принесло.

Информация по котроллеру и драйверу:
megaraid cmm: 2.20.2.2 (Release Date: Thu Nov  4 17:46:29 EST 2004)        
megaraid: 2.20.4.1 (Release Date: Thu Nov  4 17:44:59 EST 2004)            
megaraid: probe new device 0x1000:0x1960:0x1000:0x0520: bus 2:slot 1:func 0
ACPI: PCI interrupt 0000:02:01.0[A] -> GSI 48 (level, low) -> IRQ 48      
megaraid: fw version:[1L37] bios version:[G119]                            
scsi0 : LSI Logic MegaRAID driver                                          
scsi[0]: scanning scsi channel 0 [Phy 0] for non-raid devices              
 Vendor: SUPER     Model: GEM318            Rev: 0                        
 Type:   Processor                          ANSI SCSI revision: 02        
scsi[0]: scanning scsi channel 1 [virtual] for logical drives              
 Vendor: MegaRAID  Model: LD0 RAID5 70004R  Rev: 1L37                    
 Type:   Direct-Access                      ANSI SCSI revision: 02        


Единственная идея, которая еще осталось - убить все, поставить винду и посмотреть, как оно будет вести себя под ней. Но на сервере в любом случае должен будет стоять Linux, так что такие эксперименты хочется оставить напоследок.

Может быть кто-нибудь сталкивался с подобными проблемами или может истолковать, что может означать такое поведение контроллера, или посоветовать какие-нибудь еще методики тестирования или отладки, которые позволят получить информацию о происходящем и найти решение?

Аватара пользователя
setar
Site Admin
Site Admin
Сообщения: 1990
Зарегистрирован: 22 авг 2002, 12:03
Откуда: St. Petersburg

Сообщение setar » 15 дек 2004, 16:18

Я не уверен, но чую что собирая raid вы делали fast init ;)

Если так, то во время пауз контроллер инитит фоново неразмеченные области.

Аватара пользователя
a_shats
Advanced member
Сообщения: 5010
Зарегистрирован: 27 авг 2002, 10:55
Откуда: Москва
Контактная информация:

Сообщение a_shats » 15 дек 2004, 17:00

Верно, проверьте Background tasks (м.б. Fast Init, Check Consistency, Rebuild или еще что в таком же духе). И - пишите сюда.

Oldayn
Junior member
Сообщения: 6
Зарегистрирован: 14 дек 2004, 20:52
Откуда: SPb
Контактная информация:

Сообщение Oldayn » 15 дек 2004, 20:27

setar:
Массив собирали мы не сами.  :roll:
Нам он был показан с виндой и отдан, мы ставили линукс.
Когда я некоторое время назад начал сам разбираться с контроллером,
Fast Init был выключен и я его включил. Соответственно, логично предположить, что ранее он был все время выключен. Но полной уверенности нет. Кстати, сейчас я что-то не могу найти того пункта, где он включается, наверное только из BIOSа контроллера (Ctrl-M) он доступен.
И потом, RAID был собран где-то в сентябре.
Потом, в начале октября его долго мучали переставляли, в конце октября привели софт в более-менее рабочее состояние и поставили в стойку. Но описанные проблемы с "тормозами" остались. А сейчас вернулись к этим проблемам и хотим найти решение. Думаете, за три месяца оно не успело отинититься в фоне? ;)

a_shats:
В megamgr захожу в меню Initialize, выбираю единственный существующий Logical Drive 1. Внизу экрана подсказка о возможностях: F6/F7 - View Init/CC-BI Prog
При нажатии F6 получаю:
No Logical Drive Is Currently In Initialization State
При нажатии F7 получаю:
No Logical Drive Is Currently In Check Consistency or Background Init State
В меню Objects выбираю Physical Drive, на любом диске View Rebuild Progress, получаю:
No Drive is in Rebuild State.

Добавлю, что про каждый физический диск:
No Predictive Failures
Media Errors 0
Other Errors 0

Итак, в качестве одного из путей поиска решения есть идея проверить, что Fast Init отключен и провести инициализацию массива заново. Но это еще более деструктивно, чем установка винды, так что с такой проверкой хочется подождать немного...

Может быть будут еще идеи?
С какой бы стати ему мигать всеми лампочками при этих тормозах?
Это происходит, даже если один из дисков в состоянии Ready (выведен из HotSpare), правда мы еще не пробовали физически его вытащить из корзины. В нормальной работе контроллер так мигает только при включении? То есть знает ли кто-нибудь что может означать такое мигание?

Oldayn
Junior member
Сообщения: 6
Зарегистрирован: 14 дек 2004, 20:52
Откуда: SPb
Контактная информация:

Сообщение Oldayn » 15 дек 2004, 20:38

Еще одна деталь, насчет Check Consistency - запустил я ее как-то на работающем массиве (при помощи той же утилиты megamgr, не из BIOS). Машинка простояла около 30 часов, за это время движок сдвинулся на 21 процент. Диски по 36 гигов, таким образом, размер логического массива 72 гига. Что-то мне не кажется такая скорость нормальной.
При этом мигание лампочек выглядело точно также и повторялось с завидной частотой.
Извините, что пишу так пространно, с такой кучей деталей и мелочей, но вдруг это поможет найти решение...

Аватара пользователя
exLH
Сотрудник Тринити
Сотрудник Тринити
Сообщения: 5061
Зарегистрирован: 11 фев 2004, 15:49
Откуда: Москва
Контактная информация:

Сообщение exLH » 15 дек 2004, 21:26

Стандартные советы для экспериментов:
1. снесите сервер GAM, если устанавливали;
2. откатитесь на прошивку L26 у контроллера;
3. играйте с версией драйверов.
Разумеется, это все не одновременно, а по-очереди.

Oldayn
Junior member
Сообщения: 6
Зарегистрирован: 14 дек 2004, 20:52
Откуда: SPb
Контактная информация:

Сообщение Oldayn » 15 дек 2004, 22:50

GAM устанавливали, но так и не настроили. Снесли.
С версиями драйверов играемся как можем, и старые, и самый разнообразный cutting-edge из kernel-scsi пробуем - разницы нет, поведение примерно одинаковое.
С прошивкой контроллера ничего не делали.

Если не сложно, ткните носом в url с прошивкой и описанием процедуры её обновления, а то что-то так, на вскидку не находится, а упоминания о том, что от нее может зависеть стабильность работы встречаются...

Аватара пользователя
exLH
Сотрудник Тринити
Сотрудник Тринити
Сообщения: 5061
Зарегистрирован: 11 фев 2004, 15:49
Откуда: Москва
Контактная информация:

Сообщение exLH » 15 дек 2004, 23:02

Прошлые прошивки с сайта уже убрали. Файл с версией L26 ушел почтой.

Oldayn
Junior member
Сообщения: 6
Зарегистрирован: 14 дек 2004, 20:52
Откуда: SPb
Контактная информация:

Сообщение Oldayn » 15 дек 2004, 23:11

Спасибо огромное, получил.
Пошел прошивать...

Oldayn
Junior member
Сообщения: 6
Зарегистрирован: 14 дек 2004, 20:52
Откуда: SPb
Контактная информация:

Сообщение Oldayn » 16 дек 2004, 10:43

УРА!!!
Помогло!
Спасибо за идею и за прошивку.
Всю ночь крутилась моя "test suite" - ни одного запуска более 5 секунд. Надеюсь, теперь с этим сервером все будет в порядке.

Ergil
Junior member
Сообщения: 1
Зарегистрирован: 26 янв 2005, 21:58

Сообщение Ergil » 26 янв 2005, 22:00

exLH писал(а):Прошлые прошивки с сайта уже убрали. Файл с версией L26 ушел почтой.
А можно тоже старую прошивочку на ernillew [at] gmail dot com?
Проблема аналогичная, может и решение поможет?

Аватара пользователя
a_shats
Advanced member
Сообщения: 5010
Зарегистрирован: 27 авг 2002, 10:55
Откуда: Москва
Контактная информация:

Сообщение a_shats » 27 янв 2005, 11:49

Отправлено

votuanr
Advanced member
Сообщения: 176
Зарегистрирован: 11 янв 2005, 17:15
Откуда: MSK
Контактная информация:

Сообщение votuanr » 27 янв 2005, 14:45

что-то у меня косяк с этим рейдом... зеркалка на 2 x seagate18 Gb U160
но при копировании банального файла (с IDE диска на зеркалку) имею скорость 5-6мег в секунду... Сдается мне что это не совсем правильно... где посмотреть?

да, простое "чтение" с зеркалки дает ~45мег/с, что видимо приемлимо.
Подозреваю что чтото с  кешированием записи в рейде. Выход - включить и поставить батарейку на raid. Так?
Последний раз редактировалось votuanr 27 янв 2005, 14:52, всего редактировалось 2 раза.

Аватара пользователя
gs
Сотрудник Тринити
Сотрудник Тринити
Сообщения: 16650
Зарегистрирован: 23 авг 2002, 17:34
Откуда: Москва
Контактная информация:

Сообщение gs » 27 янв 2005, 14:49

write-back кэш включен?
виндовый файловый кэш включен? а то актив директори его рубит

votuanr
Advanced member
Сообщения: 176
Зарегистрирован: 11 янв 2005, 17:15
Откуда: MSK
Контактная информация:

Сообщение votuanr » 27 янв 2005, 14:52

уже изменил пост предыдущий.

AD стоит на IDE винте вместе с системой

Ответить

Вернуться в «Массивы - Технические вопросы, решение проблем.»

Кто сейчас на конференции

Сейчас этот форум просматривают: Majestic-12 [Bot] и 39 гостей