Ошибка чтения RAID-5 на контроллере LSI

Поломалось, посыпалось, не работает...

Модераторы: Trinity admin`s, Free-lance moderator`s

Ответить
dolly
Power member
Сообщения: 39
Зарегистрирован: 28 ноя 2005, 20:42
Откуда: Санкт-Петербург

Ошибка чтения RAID-5 на контроллере LSI

Сообщение dolly » 07 авг 2013, 14:08

Всем доброе время суток!

Вопрос у меня следующий. Имеется сервер БД на платформе Intel SR6850HW4, 4CPU Xeon 3.16GHz, 4GB DDR3. В качестве дисковой подсистемы используется RAID 5 из 8-ми дисков Seagate Cheetah 15K.4 36Gb U320SCSI на встроенном в плату контроллере Intel/LSI. Каждую ночь на сервере проводится резервное копирование базы данных - создается файл backup'а и копируется по ftp на другой сервер, где выполняется тестовое восстановление базы данных из резервной копии. И вот однажды одновременно произошло два события - восстановление из backup'а не получилось и из массива вылетел один диск. Я логично предположил, что между здесь существует какая-то взаимосвязь. Проверка показала, что сам файл скачался с основного сервера с ошибкой - повторная перекачка прошла успешно, как и тестовое восстановление. Ошибок на сетевых интерфейсах показано не было, да и случаев подобных ранее не отмечалось. Я все-таки склонен предположить, что это как-то связано с работой RAID в момент отключения диска (возможно, это как раз и произошло в момент перекачки файла). Хотя сами файлы на сервере не повредились, мне кажется, что данное функционирование контроллера не совсем нормально. Можете высказать предположения, c чем может быть это связано? При необходимости могу сообщить настройки контроллера и самого массива. Заранее благодарен за ответы.
Последний раз редактировалось dolly 02 сен 2013, 16:01, всего редактировалось 1 раз.

Аватара пользователя
Tert
Advanced member
Сообщения: 4233
Зарегистрирован: 19 янв 2003, 08:09
Откуда: Москва
Контактная информация:

Re: Ошибка чтения RAID-5 на контроллере LSI

Сообщение Tert » 07 авг 2013, 17:00

dolly
А как часто у вас выполняется проверка целостности массива средствами RAID контроллера?

dolly
Power member
Сообщения: 39
Зарегистрирован: 28 ноя 2005, 20:42
Откуда: Санкт-Петербург

Re: Ошибка чтения RAID-5 на контроллере LSI

Сообщение dolly » 07 авг 2013, 18:12

Tert писал(а):dolly
А как часто у вас выполняется проверка целостности массива средствами RAID контроллера?
Приблизительно раз в полгода непосредственно из RAID BIOS. Какие-либо автоматические проверки не
включены.

Аватара пользователя
Tert
Advanced member
Сообщения: 4233
Зарегистрирован: 19 янв 2003, 08:09
Откуда: Москва
Контактная информация:

Re: Ошибка чтения RAID-5 на контроллере LSI

Сообщение Tert » 07 авг 2013, 23:43

dolly
Система уже старая (современная однопроцессорная система на Xeon E5-1650 будет точно быстрее) . Я бы делал проверку целостности массива хотя бы раз в месяц.

Вполне возможно, что в массиве возник логический сбой, который привел к копированию данных с ошибкой при отказе диска. Надо смотреть логи контроллера.

dolly
Power member
Сообщения: 39
Зарегистрирован: 28 ноя 2005, 20:42
Откуда: Санкт-Петербург

Re: Ошибка чтения RAID-5 на контроллере LSI

Сообщение dolly » 08 авг 2013, 23:26

Tert писал(а):dolly
Система уже старая (современная однопроцессорная система на Xeon E5-1650 будет точно быстрее) . Я бы делал проверку целостности массива хотя бы раз в месяц.

Вполне возможно, что в массиве возник логический сбой, который привел к копированию данных с ошибкой при отказе диска. Надо смотреть логи контроллера.
Что касается логов, то в Intel RAID BIOS Console я не вижу подраздела Events (как я понимаю, это есть в следующих версиях контроллеров). В Web Console тоже ничего интересного не нашел. Не подскажете, есть ли возможность где-то увидеть логи?
fw version:[514K] bios version:[H429]

Аватара пользователя
gs
Сотрудник Тринити
Сотрудник Тринити
Сообщения: 16650
Зарегистрирован: 23 авг 2002, 17:34
Откуда: Москва
Контактная информация:

Re: Ошибка чтения RAID-5 на контроллере LSI

Сообщение gs » 12 авг 2013, 18:18

1. Когда-то давно (как раз во времена этих машин :)) я видел очень похожую ситуацию - виноват был драйвер сетевухи. Пакеты бились, а в логах тишина.
2. Теоретически, в любой системе есть ненулевая вероятность невыявимых ошибок (в минус какой-то степени, но CRC имеет свои пределы). Второй раз прочитали, а ошибка поверхности была мимолетная, на грани чувствительности головы. Возможно, что из этой оперы.
3. Ну а может просто это тонкий намек, что аппарату пора на пенсию...

Ответить

Вернуться в «Массивы - Технические вопросы, решение проблем.»

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и 12 гостей