Статус ECC-ERROR

Garf · Сообщение **Garf** » 30 ноя 2015, 01:51

Доброго времени суток.
Контроллер 3ware 9690SA.
В логе появилось сообщение такого типа:

ERROR (0x04:0x0025): Cache flush failed; some data lost: unit=0
ERROR (0x04:0x0026): Drive ECC error reported: phy=0
WARNING (0x04:0x0023): Sector repair completed: phy=0

Статус одного из дисков поменялся на ECC-ERROR:

Unit UnitType Status %RCmpl %V/I/M Stripe Size(GB) Cache AVrfy
------------------------------------------------------------------------------
u0 RAID-5 OK - - 256K 1676.35 Ri ON
u1 SPARE OK - - - 558.903 - OFF

VPort Status Unit Size Type Phy Encl-Slot Model
------------------------------------------------------------------------------
p0 ECC-ERROR u0 558.91 GB SAS 0 - HITACHI HUS156060VL
p1 OK u0 558.91 GB SAS 1 - HITACHI HUS156060VL
p2 OK u0 558.91 GB SAS 2 - HITACHI HUS156060VL
p3 OK u0 558.91 GB SAS 3 - HITACHI HUS156060VL
p4 OK u1 558.91 GB SAS 4 - HITACHI HUS156060VL

Посмотрел в инете и документации - как я понял был ошибочный или сбойный сектор которые были успешно исправлены - якобы такое иногда бывает, также рекомендуется проводить проверку целостности (она переодически проводится по расписанию) В свойствах диска - Reallocated Sectors 0
Правильно ли я все понял?
Насколько это критично и нужно ли как-то исправлять эту ошибку?

Сообщение gs » 30 ноя 2015, 15:41

Да кто ж уже помнит эти контроллеры...

Если речь действительно о скорректированном бэд блоке, то это не смертельно - если только не начнется их размножение.
Прогоните верификацию - если все ок, то и ладно.

Garf · Сообщение **Garf** » 01 дек 2015, 15:31

Хорошо. Спасибо!

Сообщение **Stranger03** » 01 дек 2015, 15:38

Garf писал(а):Хорошо. Спасибо!

Город в профиле укажите пож.

Garf · Сообщение **Garf** » 17 дек 2015, 17:21

В общем иногда сообщения все же повторяются. Надо подготовиться к замене диска. С рейдами в подобных ситуациях дела не имел, потому возникает много вопросов - прошу помочь разобраться, чтобы не напортачить )
Итак...
Подбор диска - как я понимаю диск нужен такой же, как все остальные, если вдруг я его не найду, как быть? Где можно посмотреть список поддерживаемых моделей?
Бэкап перед заменой - можно делать обычным софтом типа встроенного бэкапа в win или acronis? Или лучше чем-то другим? (порекомендуйте пожалуйста)
Определение диска в корзине - как идентифицировать проблемный винт? (галочка отвечающая за индикацию в программе засвечена, корзина наверно не поддерживает функцию)
Замена диска - как лучше делать с выключением сервера или на горячую? (Тут желательно подробнее по пунктам... нужно ли переводить в оффлайн, потом новый инициализировать, делать просто замену или вначале ставить как Hot swap в свободную карзину) Сейчас один диск подключен как Hot swap, как будет правильнее сделать - его вводить в работу, а новый ставить в резерв или новый в работу ставить?
Еще вопрос по BBU сколько часов минимально он должен держать? т.е в какой момент его надо менять? Поддерживает ли он просто смену аккумулятора или нужно менять весь модуль?

Сообщение **Stranger03** » 22 дек 2015, 17:04

Garf писал(а):Подбор диска - как я понимаю диск нужен такой же, как все остальные, если вдруг я его не найду, как быть?

Если нет такого же диска, можно пробовать одного производителя, но лучше заменить все диски.

Где можно посмотреть список поддерживаемых моделей?

В HCL контроллера

Бэкап перед заменой - можно делать обычным софтом типа встроенного бэкапа в win или acronis? Или лучше чем-то другим? (порекомендуйте пожалуйста)

Как угодно, главное, чтобы вы понимали, как будете восстанавливать данные.

Определение диска в корзине - как идентифицировать проблемный винт? (галочка отвечающая за индикацию в программе засвечена, корзина наверно не поддерживает функцию)

Печалька, даж не знаю, видимо смотреть на номера корзин. И как корзины с дисками подключены к контроллеру.

Замена диска - как лучше делать с выключением сервера или на горячую? (Тут желательно подробнее по пунктам... нужно ли переводить в оффлайн, потом новый инициализировать, делать просто замену или вначале ставить как Hot swap в свободную карзину) Сейчас один диск подключен как Hot swap, как будет правильнее сделать - его вводить в работу, а новый ставить в резерв или новый в работу ставить?

Зависит от корзин. Если они хот-свап, то выдернул, вставил новый, зашел в настройки контроллера, проинитил диск, сказал на нем ребилд, ждать окончания. Потом следующий.

Еще вопрос по BBU сколько часов минимально он должен держать?

36 часов

т.е в какой момент его надо менять?

когда скажет, что зарядка батарейки ниже 50% и дальше не может заряжаться. Видно в логах контроллера

Поддерживает ли он просто смену аккумулятора или нужно менять весь модуль?

Что за модуль? Там батарейка и есть модуль с одним проводом.

Garf · Сообщение **Garf** » 02 янв 2016, 14:45

Всех с Новым Годом! Счастья, добра, мира!

За это время ситуация ухудшилась с массивом:
Вылетел диск p0 и вместо него в работу встал p4 (который стоял в горячей замене) а после еще и p2 вылетел.
Были также обновления в связи с чем была перезагрузка сервера.
после этого, p0 похоже включился но так как был замещен другим диском, то теперь видется в составе u1 как часть рейда.

Выглядит это так:
Unit Maintenance (Controller ID 0)

Unit 0 4 drives RAID 5
RAID5 1.64 TB REBUILDING 0% (paused)
VPort 4 HITACHI HUS156060VL SAS 558.91 GB OK
VPort 1 HITACHI HUS156060VL SAS 558.91 GB OK
VPort 2 HITACHI HUS156060VL SAS 558.91 GB DEGRADED [Remove Drive]
VPort 3 HITACHI HUS156060VL SAS 558.91 GB OK

Unit 1 4 drives RAID 5
RAID5 1.64 TB INOPERABLE
VPort 0 HITACHI HUS156060VL SAS 558.91 GB OK
-- -- -- -- NOT PRESENT
-- -- -- -- NOT PRESENT
-- -- -- -- NOT PRESENT

Unit UnitType Status %RCmpl %V/I/M Stripe Size(GB) Cache AVrfy
------------------------------------------------------------------------------
u0 RAID-5 REBUILD-PAUSED 0% - 256K 1676.35 Ri ON
u1 RAID-5 INOPERABLE - - 256K 1676.35 Ri ON

VPort Status Unit Size Type Phy Encl-Slot Model
------------------------------------------------------------------------------
p0 OK u1 558.91 GB SAS 0 - HITACHI HUS156060VL
p1 OK u0 558.91 GB SAS 1 - HITACHI HUS156060VL
p2 DEGRADED u0 558.91 GB SAS 2 - HITACHI HUS156060VL
p3 OK u0 558.91 GB SAS 3 - HITACHI HUS156060VL
p4 OK u0 558.91 GB SAS 4 - HITACHI HUS156060VL

в Unit Information есть также такие строки:
Status REBUILDING 0% (paused)
Type RAID 5 (not initialized)

Правильно ли я понимаю, что инициалиазация не проходит и ребилд встал на паузу из за того, что реально рабочих диска в массиве всего 3 вместо 4x? И после установки диска все востановится? Диски уже жду... Что делать с этими двумя проблемными дисками? отключить через tw_cli? Или лучше не трогать, дождаться новые диски и потом сделать замену?

Сообщение **Stranger03** » 11 янв 2016, 11:32

Garf
А что за

Код: Выделить всё

Unit 1 4 drives	RAID 5

?

Garf · Сообщение **Garf** » 11 янв 2016, 14:28

Stranger03 писал(а):Garf
А что за
Код: Выделить всё
Unit 1 4 drives	RAID 5
?

Это диск который изначально был в Unit 0 p0 и на котором были ошибки с секторами, контроллер его забраковал и поставил вместо него p4 диск, который стоял в "горячей замене"
Я так понял после перезагрузки он вновь увидел этот диск но так как он был ранее выкинут из рейда а на нем видимо данные остались, что он принадлежит к RAID5 вот он его так и отображает, как часть массива, как быть с этим диском? попробывать удалить это unit и подключить диск снова, как "горячая замена" или дождаться новые винты и просто вместо него один из них вставить?

И еще - инициализация массива все-же прошла и сделался ребилд на тот второй диск p2 который ранее тоже выкидывал контроллер. т.е. сейчас массив на 4х дисках работает и статус ОК.
Вот как это выглядит сейчас:

Unit Maintenance (Controller ID 0)
Unit 0 4 drives RAID 5
RAID5 1.64 TB OK
VPort 4 HITACHI HUS156060VL SAS 558.91 GB OK [Remove Drive]
VPort 1 HITACHI HUS156060VL SAS 558.91 GB OK [Remove Drive]
VPort 2 HITACHI HUS156060VL SAS 558.91 GB OK [Remove Drive]
VPort 3 HITACHI HUS156060VL SAS 558.91 GB OK [Remove Drive]

Unit 1 4 drives RAID 5
RAID5 1.64 TB INOPERABLE
VPort 0 HITACHI HUS156060VL SAS 558.91 GB OK
-- -- -- -- NOT PRESENT
-- -- -- -- NOT PRESENT
-- -- -- -- NOT PRESENT

Даже незнаю почему диски снова получили статус ОК после перезагрузки. Может где контакты не очень. Наверно, как придут диски отключу сервер, проверю все соеденения и надо будет заменить эти два диска на новые. Как думаете?

Сообщение **Stranger03** » 11 янв 2016, 14:56

Garf писал(а):Даже незнаю почему диски снова получили статус ОК после перезагрузки. Может где контакты не очень. Наверно, как придут диски отключу сервер, проверю все соеденения и надо будет заменить эти два диска на новые. Как думаете?

Данные то сейчас доступны? Если да, то сделать бекап, вылетевший диск вынуть, на том, что пытался встать вместо вылетевшего сказать ребилд. Возможно оживет.

Garf · Сообщение **Garf** » 11 янв 2016, 16:03

Даные доступны, бекап переодически делается. Ребилд же уже прошел и верификация тоже проходила нормально уже на 4х дисках Unit0. Т.е. пока что нормально все.
В Unit1 сейчас диск который был ранее в составе Unit0, И у всех дисков сейчас статус Ок. т.е. как будто с дисками и проблем не было. Unit1 наверно надо удалить, чтоб он высвободил диск (p0), чтоб можно было бы перевести в горячую замену? Незнаю стоит это делать или нет.

Сообщение **Stranger03** » 12 янв 2016, 09:45

Garf писал(а):Незнаю стоит это делать или нет.

Я правильно понял, что у вас Р5 на 5-ти дисках + был один хотспаре, который толком не встал на место?

Garf · Сообщение **Garf** » 12 янв 2016, 12:58

Stranger03 писал(а):
Garf писал(а):Незнаю стоит это делать или нет.
Я правильно понял, что у вас Р5 на 5-ти дисках + был один хотспаре, который толком не встал на место?

Нет.. Raid5 на 4-х дисках + один хотспаре. Сейчас получается, что диск который ранее стоял в хотспаре встал в unit0 вместо диска 0 который был в массиве и давал ошибки секторов. А диск 0 в свою очередь теперь болтается в unit1. т.е. он по сути не учавствует сейчас в работе и его можно либо убрать и поменять на другой или поставить как хотспаре временно.

Сообщение **Stranger03** » 12 янв 2016, 13:03

Garf писал(а):Нет.. Raid5 на 4-х дисках + один хотспаре. Сейчас получается, что диск который ранее стоял в хотспаре встал в unit0 вместо диска 0 который был в массиве и давал ошибки секторов. А диск 0 в свою очередь теперь болтается в unit1. т.е. он по сути не учавствует сейчас в работе и его можно либо убрать и поменять на другой или поставить как хотспаре временно.

Ну удалите тогда сбойный диск в мусорное ведро и ждите дисков на замену. Я бы поставил 5-ть новых дисков с новым рейдом.

Статус ECC-ERROR

Статус ECC-ERROR

Re: Статус ECC-ERROR

Re: Статус ECC-ERROR

Re: Статус ECC-ERROR

Re: Статус ECC-ERROR

Re: Статус ECC-ERROR

Re: Статус ECC-ERROR

Re: Статус ECC-ERROR

Re: Статус ECC-ERROR

Re: Статус ECC-ERROR

Re: Статус ECC-ERROR

Re: Статус ECC-ERROR

Re: Статус ECC-ERROR

Re: Статус ECC-ERROR

Кто сейчас на конференции