Деградация RAID массива SOHO класса ;)))

Поломалось, посыпалось, не работает...

Модераторы: Trinity admin`s, Free-lance moderator`s

Ответить
Greenlynx
Junior member
Сообщения: 8
Зарегистрирован: 18 ноя 2007, 21:21
Откуда: Москва

Деградация RAID массива SOHO класса ;)))

Сообщение Greenlynx » 10 авг 2008, 12:45

Дело это было давно уже, году так в 2002-2003. В небольшой московской конторе использовалась CRM система (GoldMine – скорее всего, это Вам ни о чем не говорит).  Спецификой документооборота в данной конторе была интеграция большого количества фотографий (jpeg & bmp) в данную CRM, с привязкой к текстовым документам и всяким там бухгалтерским скучностям.  Приличную долю графических файлов составляли сканированные бумажки (сертификаты, лицензии, запросы), которые в силу определенных особенностей не переводились в текстовый формат, а так  и оставались лежать картинками. Сканирование выполняла секретарша, неспешно, переводя в «джипеги» ну максимум 10-15 листочков в день.  Точкой отсчета данного повествования будет день, когда руководство приобрело парочку быстрых сканнеров с autoload. Было решено бумажной архив, занимающий стеллажи в отдельной комнате, прогнать через сканнеры и включить в базу данных CRM системы. За месяц объем базы данных удесятирился (я не шучу), составив, приблизительно, +40 гигабайт.    Под это дело было принято решение собрать новый «сервер» целиком из SOHO компонентов. Мне будет трудно сейчас вспомнить технические подробности, машина состояла из домашней mb Asus под 4… socket, 512 Мб памяти, интегрированного видеоадаптера, CD-RW, 5 жестких дисков. Корпус Inwin BigTower с 500 ваттным блоком питания. Отдельное внимание к дисковой подсистеме, так как именно проблемы с HDD и стали причиной написания этого текста. Система (Win2k server sp2) – разместилась на подключенному к штатному IDE контроллеру винчестере.  К отдельному PCI RAID контроллеру (Promise TX… SATA 4 port сейчас не вспомню точное название модели) были подключены 4 диска WD (тоже не помню моделей) объемом 80 Гб каждый, сформированные в RAID зеркала. Таким образом были получены два массива по 80 Гб каждый. Файловая система NTFS.  На одном из зеркал располагалась база данных CRM, другое зеркало было предназначено для бекапов, которые выполнялись при помощи Acronis true image server. В шедулере Acronis   было настроено инкрементное копирование всего дискового массива с базой данных в ночное время. Бекапы по сети периодически сбрасывались в другое место во избежании переполнения второго «зеркала». Сервер «поднят», база данных «перелита» на новые диски, работа пошла! В CRM одновременно работали до 10 человек, активно используя все это множество отсканированных документов. Сама CRM была построена по классической «клиент-серверной» технологии, без использования SQL или других сторонних СУБД (использование SQL технически возможно, но за  отдельную плату разработчикам CRM).  
Через несколько дней началась деградация «зеркала» с базой данных.  По ночам… Днем все хорошо, утром «зеркало» с БД недоступно, Acronis сообщает о незавершенном копировании вследствие ошибки чтения с источника. Promise Array manager сообщает, что один из дисков failed. Заменили этот диск. Запускаем ребилд – не проходит до конца, пишет про ошибку. Пересобираем «зеркало», заливаем вчерашний образ, офис работает с потерей данных за один день.  Через пару-тройку дней ситуация повторяется.
Начинаем подробный разбор полетов. Поврежденные диски не имеют никаких физических повреждений, «на-ура» проходят тесты MHDD, после форматирования полностью рабочие. Перегрев? Поставили самодельные вентиляторы перед 5 дюймовыми отсеками корпуса, где диски были закреплены на «П» образных скобках, мерили температуру электронным термометром с выносным датчиком (программ, способных контролировать температуру дисков в RAID массиве я не нашел) – 45 максимум. К этому времени было подмечено, что чаще всего деградация массива происходит ночью, при бэкапе. Питание? Прикрутили второй  500 ваттный блок питания, нагруженный только на эти 4 диска. Не помогло. Глючный контроллер? Заменили на двухканальный Tecram на чипе SilImage, все то же самое. Мать не меняли, но RAID контроллеры  ставили в разные PCI слоты. Память? (естественно, на МВ, использованные нами контроллеры кеш памяти не имели) TestMem ошибок не выдает.
Не справились мы тогда с проблемой... Купили brandname server на SCSI и забыли про поломки, как про страшный сон. Анализируя проблему сейчас, прихожу к следующему «научному выводу». Бытовые диски не справлялись с нагрузкой в виде «записи-чтения» большого количества мелких файлов. Бытовой контроллер не обладает способностью к оптимизации потока (даже NCQ не было, не говоря об алгоритмах, реализованных в SCSI и  SAS). А почему массив сыпался во время бекапа, когда с него только чтение проводилось – тоже не понятно.
Все вышеизложенное, помимо академического интереса, является аргументом на поле боя очередной маленькой «холивар», которая в виде отдельных постов на форумах вспыхивает то тут то там – «купил дорогущий контроллер и диск на 15 тыщ оборотов,  система быстрее грузиться не стала, игрушки быстрее не пошли – МЕНЯ ОБМАНУЛИ!!!» или «даст мне что нибудь  дома SCSI/SAS?». Так за что же пахнущие пивом сисадмины платят приличные деньги, приобретая Адаптеки и Триваре?
Кстати, диски из того злополучного массива спокойно крутятся (6 лет уже!!!) по одному в рабочих станциях пользователей, не думая сыпаться.
Хотелось бы услышать Ваше мнение?

Аватара пользователя
gs
Сотрудник Тринити
Сотрудник Тринити
Сообщения: 16650
Зарегистрирован: 23 авг 2002, 17:34
Откуда: Москва
Контактная информация:

Сообщение gs » 10 авг 2008, 12:56

Т.е. Вы хотите, чтобы мы это прочитали???

Greenlynx
Junior member
Сообщения: 8
Зарегистрирован: 18 ноя 2007, 21:21
Откуда: Москва

Сообщение Greenlynx » 10 авг 2008, 13:22

Ну Вы же прочитали:))) Вполне допускаю перемещение данной темы в раздел "приколы", именно так я это сейчас и воспринимаю. Тем не менее, кому то это может послужить уроком.

Ответить

Вернуться в «Массивы - Технические вопросы, решение проблем.»

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и 29 гостей