Нужен совет по Адаптек 51645

Поломалось, посыпалось, не работает...

Модераторы: Trinity admin`s, Free-lance moderator`s

Artyom78
Junior member
Сообщения: 10
Зарегистрирован: 24 янв 2011, 02:02
Откуда: Москва

Нужен совет по Адаптек 51645

Сообщение Artyom78 » 24 янв 2011, 21:09

Приветствую.
Есть проблема с рейд-массивом 6 уровня.
Система в корпусе Supermicro 836TQ-R800B, блоки питания заменены на 1,2КВт
Адаптек 51645 прошивка апрельская на момент проблем
16 дисков Seagate Barracuda ES.2 прошивка SN06
Два 6-х рейда на 15-ти дисках и один диск hot spare.
Vista Ultimate x64
Работает 24х7 уже года 1,5

Проблема в следующем:
Переодически отваливались диски по одному, в этот момент система работала,
но доступ к массивам был затруднен и запись была с ошибками.
После перезагрузки, диск либо был доступен, либо появлялся только после выключения/включения машины.
ребилд делался на хот спаре, хот спаре становился отвалившийся/востанновившийся диск
При этом ошибки файловой системы были только там где была запись в момент проблемы, в остальных местах проблем
Один диск умер - был заменен.

6-го января последовательно отвалились два диска, после первого успел отребилдится только маленький системный массив,
большой отребилдился после перезагрузки на второй диск.
Я выдергивал эти два диска в надежде отребилдить оба массива на один диск, не получилось.
Решил уже было пересобрать маленький массив с системой, но обнаружилось, что на большом массиве процентов 80 файлов битые.
Ошибок ни система, ни адаптек при ребилде не выдавали.

Сейчас стоит вопрос - как вовремя обнаружить битые файлы?
Стоит ли восстанавливать сервер на этой машине?
И что делать с дисками :
hdd.txt
(392 байт) 628 скачиваний

Artyom78
Junior member
Сообщения: 10
Зарегистрирован: 24 янв 2011, 02:02
Откуда: Москва

Re: Нужен совет по Адаптек 51645

Сообщение Artyom78 » 24 янв 2011, 21:11

Забыл добавить:
BBU есть, кэш дисков отключен, вот данные ASM:
Support.zip
(175.33 КБ) 318 скачиваний

Аватара пользователя
exLH
Сотрудник Тринити
Сотрудник Тринити
Сообщения: 5061
Зарегистрирован: 11 фев 2004, 15:49
Откуда: Москва
Контактная информация:

Re: Нужен совет по Адаптек 51645

Сообщение exLH » 24 янв 2011, 23:53

Сервер приобретался у нас?
Почтовый адрес для связи: a.ivanov@trinitygroup.ru | ICQ: 112586598

Artyom78
Junior member
Сообщения: 10
Зарегистрирован: 24 янв 2011, 02:02
Откуда: Москва

Re: Нужен совет по Адаптек 51645

Сообщение Artyom78 » 25 янв 2011, 02:38

Нет, оборудование приобреталось не у Вас.
Если Вы по вопросу о дисках, то имелось ввиду стоит ли их дальше использовать в рейде или ненулевое aborted commands означает профнепригодность диска.

Аватара пользователя
exLH
Сотрудник Тринити
Сотрудник Тринити
Сообщения: 5061
Зарегистрирован: 11 фев 2004, 15:49
Откуда: Москва
Контактная информация:

Re: Нужен совет по Адаптек 51645

Сообщение exLH » 25 янв 2011, 09:31

Имеет смысл заменить диски 9QJ4L4EP и 9QJ31SPK, а также кабели.
Обновить драйверы на актуальные для используемой прошивки, а лучше обновить и то, и то до последней версии.
И какая плата используется?
Почтовый адрес для связи: a.ivanov@trinitygroup.ru | ICQ: 112586598

Artyom78
Junior member
Сообщения: 10
Зарегистрирован: 24 янв 2011, 02:02
Откуда: Москва

Re: Нужен совет по Адаптек 51645

Сообщение Artyom78 » 25 янв 2011, 15:18

Кабель заменил осенью для 12-14 слотов, после этого отвалы дисков из этой группы прекратились.
Плата INTEL S5000XVNSATAR
Диски сняты с производства.
Вопрос заменять только два или на подходе еще - например 9QJ2HBX5 и 9QJ24HF3 ?
Как соотносится параметр aborted commands и профпригодность для рейда диска?
Почему адаптек не выдал ошибку при ребилде? Он ведь, получается, отребилдился с ошибками.
Заранее спасибо за ответы.

Аватара пользователя
exLH
Сотрудник Тринити
Сотрудник Тринити
Сообщения: 5061
Зарегистрирован: 11 фев 2004, 15:49
Откуда: Москва
Контактная информация:

Re: Нужен совет по Адаптек 51645

Сообщение exLH » 25 янв 2011, 16:49

Я думаю, что большинство этих вопросов нужно задать непосредственно производителю сервера...
Почтовый адрес для связи: a.ivanov@trinitygroup.ru | ICQ: 112586598

Artyom78
Junior member
Сообщения: 10
Зарегистрирован: 24 янв 2011, 02:02
Откуда: Москва

Re: Нужен совет по Адаптек 51645

Сообщение Artyom78 » 25 янв 2011, 17:31

Сервер самосборный. :roll:
Просьба, по возможности, ответить на общие вопросы:
По вашему опыту, при каком количестве aborted commands диск непригоден для рейда?
При вылете двух дисков из 6-го рейда проверка целостности данных на массиве адаптеком не возможна?
То есть в этом случае лучше массив пересоздать, а данные восстановить из бекапа?
Спасибо.

Valentin
Power member
Сообщения: 48
Зарегистрирован: 28 июн 2007, 14:14
Откуда: Donetsk
Контактная информация:

Re: Нужен совет по Адаптек 51645

Сообщение Valentin » 25 янв 2011, 20:59

Artyom78 писал(а):Сервер самосборный
В таком случае можно предположить, что блок питания поставлен не серверный, а десктопный, подавляющая часть мощности которого предназначена для питания (скорее всего четырех!) видеокарт. Нужно перепаять разъемы таким образом, чтобы каналы 12В питания нагружались более-менее равномерно из расчета 2,5-3 А на винт (не меньше 2А!) и уж наверняка имели минимальную нагрузку. На разъемах для видеокарт нет 5в, потому взять его надо оттуда, где есть, но не перегружая провода.
далее прошить адаптек свежей прошивкой (августовская у меня решила остатки проблем несовместимости с самсунгами, хотя и без того уже год проблем не было), купить один нормальный хитачи и .... собственно, мыслею по древу можно долго растекаться -)

Artyom78
Junior member
Сообщения: 10
Зарегистрирован: 24 янв 2011, 02:02
Откуда: Москва

Re: Нужен совет по Адаптек 51645

Сообщение Artyom78 » 25 янв 2011, 21:28

Блоки питания supermicro, точнее два серверных модуля питания с горячей заменой.

Valentin
Power member
Сообщения: 48
Зарегистрирован: 28 июн 2007, 14:14
Откуда: Donetsk
Контактная информация:

Re: Нужен совет по Адаптек 51645

Сообщение Valentin » 26 янв 2011, 09:34

А как эти строчки с вашего архива:
October 17, 2010 1:38:49 AM MSD WRN Serv Medium error: controller 1, channel 0, SCSI device ID 3, LUN 0, start LBA 12c8c00, end LBA 12c8dff, bad block recovery possible
October 17, 2010 1:38:49 AM MSD WRN Serv An error occurred while accessing the logical device: controller 1, logical device 0
October 17, 2010 1:38:49 AM MSD WRN Serv An error occurred while accessing the logical device: controller 1, logical device 1
October 17, 2010 1:38:49 AM MSD INF Serv Drive in a RAID-6 set failed: controller 1, logical device 0

Диск 3 что-то такое вытворяет с шиной или питанием (подклинивает), что теряется доступ к соседним дискам на этом шлейфе.

Artyom78
Junior member
Сообщения: 10
Зарегистрирован: 24 янв 2011, 02:02
Откуда: Москва

Re: Нужен совет по Адаптек 51645

Сообщение Artyom78 » 26 янв 2011, 12:14

Я так понимаю
October 17, 2010 1:38:49 AM MSD WRN Serv An error occurred while accessing the logical device: controller 1, logical device 0
October 17, 2010 1:38:49 AM MSD WRN Serv An error occurred while accessing the logical device: controller 1, logical device 1
это LUN1 и LUN2, а не физические диски.
Стало еще интереснее - сегодня отвалился, а потом при ребилде посыпался еще один, причем с нулевым количеством ошибок
Получается интересная статистика, за год с небольшим из 17 дисков ST31000340NS:
1 умер совсем
3 с medium error (то есть посыпались?)
2 имеют aborted commands 173 и 282 без medium error (наверное скоро посыпятся)
6 имеют aborted commands менее 50 без medium error
5 имеют нулевые значения

Valentin
Power member
Сообщения: 48
Зарегистрирован: 28 июн 2007, 14:14
Откуда: Donetsk
Контактная информация:

Re: Нужен совет по Адаптек 51645

Сообщение Valentin » 26 янв 2011, 14:00

точно, логические, прощелкал -)
Ну хорошо, с дисками ST31000340NS вибрация может быть, износ, на сектора разучились сразу попадать. Может быть, для сата-дисков отключить кэш бывает еще хуже, чем включить, если диски не очень дружат с контроллером? Сравни число медиаэрроров с реллокатедом в смарте. Диск может быть вообще исправен. Абортед комманд означают, что диск вовремя не ответил, и все.
Прошивка SN16:
http://seagate.custkb.com/seagate/crm/s ... 63&Hilite=
Может быть придется прошивать насильно по способу:
http://niallbest.com/seagate-2tb-st3200 ... e-upgrade/
51645 сего месяца прошивка на адаптеке. Ну а там как повезет -)

Artyom78
Junior member
Сообщения: 10
Зарегистрирован: 24 янв 2011, 02:02
Откуда: Москва

Re: Нужен совет по Адаптек 51645

Сообщение Artyom78 » 27 янв 2011, 00:12

спасибо за советы.
диски с medium error сегодня отдал гарантийщикам, посмотрим, что они скажут.
Вернут - буду прошивать, если не поможет, на стену прибью :mrgreen:

Artyom78
Junior member
Сообщения: 10
Зарегистрирован: 24 янв 2011, 02:02
Откуда: Москва

Re: Нужен совет по Адаптек 51645

Сообщение Artyom78 » 27 янв 2011, 23:04

После общения с гарантией получается:
2 умерло совсем
2 с medium error имеют бэд-блоки, но еще откликаются, скорее всего признают гарантией
2 имеют aborted commands 173 и 282 без medium error (наверное скоро посыпятся)
6 имеют aborted commands менее 50 без medium error
5 имеют нулевые значения

остается 13 дисков, новые взять негде.
Какими дисками можно заменить недостающие три, а в переспективе и больше?
Можно ли этими:
HDD 2 TB SATA-II 300 Hitachi Deskstar 7K2000 <HDS722020ALA330> 7200rpm 32Mb
или
HDD 2 Tb SATA-II 300 Seagate Barracuda LP <ST32000542AS> 5900rpm 32Mb
или
HDD 1 Tb SAS Seagate Barracuda ES.2 <ST31000640SS> 7200rpm 16Mb

Ответить

Вернуться в «Массивы - Технические вопросы, решение проблем.»

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и 18 гостей