Отпали 8 дисков из корзины

Конфигурирование, планирование RAID систем, возможности, технологии, теория. Qlogic, LSI Logic, Adaptec ...

Модераторы: Trinity admin`s, Free-lance moderator`s

Ответить
merlin3334
Junior member
Сообщения: 5
Зарегистрирован: 29 окт 2016, 20:03
Откуда: Челябинск
Контактная информация:

Отпали 8 дисков из корзины

Сообщение merlin3334 » 29 окт 2016, 21:27

Приветствую всех!

Имеем сервер:
Intel® Server Board S2600WT2
Intel® Server Chassis R2312WTXXX
Жесткий диск HGST SATA-III 4Tb HUS726040ALE614 ULTRASTAR - 8 штук
Intel® RAID Controller RS3DC080
Intel® RAID Maintenance Free Backup AXXRMFBU4
Intel® SSD DC S3700 Series - 2 штуки
два SSD Intel 500 серии - 2 штуки
Экспандер Intel

Из SSD Intel 500 - собрано зеркало под систему
Из 6 HGST SATA - собран диск в рейд 6 под хранение виртуальных машин
Из SSD DC S3700 - зеркало для Write Back Кеш

В один прекрасный момент потухли все виртуальные машины, которые размещались на Raid 6 массиве
По приходу к серверу, я обнаружил что красным горят 8 дисков из 12... хотя сейчас перечитал логи... там вообще все к хренам отвалилось походу:(
В консоли Raid контроллера было написано напротив них Foreign-BAD
Я тут же их пометил как Unconfigured good, после перезагрузки контроллер определил, что найдена конфигурация, после чего РЕЙД собрался
И все поднялось

Но был настроен WriteBack кеш, данные из которого я так понимаю были потеряны

Вопросов несколько:
1. Как так отвалились 8 дисков? (или больше...)?
2. может ли это быть последствием пыли и статики? помещение серверной находится рядом с автомобильным ангаром, не сказать что прям заваливает пылью - но поверхности прокачивающие воздух покрыты налетом, пачкающим руки)
3. Если был включен Write-Back - получается был потерян кусок кеша размером до 186 Гигобайт?

В сервере так же установлена два блока питания и он запитан к электросети через онлайн APC бесперебойник

п.с. Сегодня, 29 октября, через 3 дня после описанных событий вывалился диск один из RAID 6 массива, HOT Spare подтянулся, и массив ушел в REBUILD, который обещает закончить за 7-8 дней (наверное мы ему мешаем немного своими сейчас уже слегка бесполезными бекапами и копошениями)

Заранее спасибо за ответы
Вложения
shd01_10_28_2016.txt
Логи сервера
(182.66 КБ) 630 скачиваний

Аватара пользователя
Tert
Advanced member
Сообщения: 4233
Зарегистрирован: 19 янв 2003, 08:09
Откуда: Москва
Контактная информация:

Re: Отпали 8 дисков из корзины

Сообщение Tert » 31 окт 2016, 17:50

merlin3334
Я так понимаю, что у вас активирован CacheCade на контроллере.
Это не кеширование, а многоуровневое хранение данных. Контроллер анализирует частоту обращений к блоку данных и в зависимости от статистики перемещает этот блок либо на SSD, либо на медленные диски. В любой момент времени блок (за исключением периода перемещения) хранится либо на SSD, либо на HDD. Сбой питания на эти данные не оказывает влияние.
Но надо учесть, что данные, которые хранятся на массивах из HDD, кешируются в памяти контроллера. Сбой питания может привести к потере этих данных.
Как так отвалились 8 дисков? (или больше...)?
Возможен сбой управляющего контроллера на бекплейне, возможен сбой самого контроллера.
может ли это быть последствием пыли и статики? помещение серверной находится рядом с автомобильным ангаром, не сказать что прям заваливает пылью - но поверхности прокачивающие воздух покрыты налетом, пачкающим руки)
Такая пыль вообще может приводить к поломке сервера. Либо ставьте фильтры, либо чистите регулярно сервер.

merlin3334
Junior member
Сообщения: 5
Зарегистрирован: 29 окт 2016, 20:03
Откуда: Челябинск
Контактная информация:

Re: Отпали 8 дисков из корзины

Сообщение merlin3334 » 31 окт 2016, 18:30

На контроллере стоит батарейка, покупали сразу

Насчет пыли я понял, сервер почистить, воздух фильтровать

Аватара пользователя
Umlyaut
Advanced member
Сообщения: 370
Зарегистрирован: 09 июл 2010, 11:23
Откуда: Москва

Re: Отпали 8 дисков из корзины

Сообщение Umlyaut » 20 ноя 2016, 02:18

Tert писал(а):merlin3334
Я так понимаю, что у вас активирован CacheCade на контроллере.
Это не кеширование, а многоуровневое хранение данных. Контроллер анализирует частоту обращений к блоку данных и в зависимости от статистики перемещает этот блок либо на SSD, либо на медленные диски. В любой момент времени блок (за исключением периода перемещения) хранится либо на SSD, либо на HDD. Сбой питания на эти данные не оказывает влияние.
Хм-мммм...
Если говорить о СС(read) - v1 - то там не совсем так: "горячие" данные НЕ перемещаются на SSD, А копируются - для последующего чтения с них.
То есть там не tiering в полном смысле этого слова.
Собственно, оттого CC(read) делается на R0 из ssd (когда их в СС больше одного) - при вылете из СС-массива ssd контроллер просто будет использовать для кеширования чтения оставшиеся ssd, скопировав на них (согласно своей статистике "горячих" блоков данных) данные с HDD по новой.

С СС(write) сложнее - там ssd-том собирается размерностью R1 или R10, как раз с целью исключить потерю блоков (кешируемых на ssd перед тем, как окончательно уехать на HDD) при вылете ssd из CC-группы.
Но и при СС(write) tiering отсутствует.

Ответить

Вернуться в «Массивы - RAID технологии.»

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и 25 гостей