Статус ECC-ERROR
Модераторы: Trinity admin`s, Free-lance moderator`s
Статус ECC-ERROR
Доброго времени суток.
Контроллер 3ware 9690SA.
В логе появилось сообщение такого типа:
ERROR (0x04:0x0025): Cache flush failed; some data lost: unit=0
ERROR (0x04:0x0026): Drive ECC error reported: phy=0
WARNING (0x04:0x0023): Sector repair completed: phy=0
Статус одного из дисков поменялся на ECC-ERROR:
Unit UnitType Status %RCmpl %V/I/M Stripe Size(GB) Cache AVrfy
------------------------------------------------------------------------------
u0 RAID-5 OK - - 256K 1676.35 Ri ON
u1 SPARE OK - - - 558.903 - OFF
VPort Status Unit Size Type Phy Encl-Slot Model
------------------------------------------------------------------------------
p0 ECC-ERROR u0 558.91 GB SAS 0 - HITACHI HUS156060VL
p1 OK u0 558.91 GB SAS 1 - HITACHI HUS156060VL
p2 OK u0 558.91 GB SAS 2 - HITACHI HUS156060VL
p3 OK u0 558.91 GB SAS 3 - HITACHI HUS156060VL
p4 OK u1 558.91 GB SAS 4 - HITACHI HUS156060VL
Посмотрел в инете и документации - как я понял был ошибочный или сбойный сектор которые были успешно исправлены - якобы такое иногда бывает, также рекомендуется проводить проверку целостности (она переодически проводится по расписанию) В свойствах диска - Reallocated Sectors 0
Правильно ли я все понял?
Насколько это критично и нужно ли как-то исправлять эту ошибку?
Контроллер 3ware 9690SA.
В логе появилось сообщение такого типа:
ERROR (0x04:0x0025): Cache flush failed; some data lost: unit=0
ERROR (0x04:0x0026): Drive ECC error reported: phy=0
WARNING (0x04:0x0023): Sector repair completed: phy=0
Статус одного из дисков поменялся на ECC-ERROR:
Unit UnitType Status %RCmpl %V/I/M Stripe Size(GB) Cache AVrfy
------------------------------------------------------------------------------
u0 RAID-5 OK - - 256K 1676.35 Ri ON
u1 SPARE OK - - - 558.903 - OFF
VPort Status Unit Size Type Phy Encl-Slot Model
------------------------------------------------------------------------------
p0 ECC-ERROR u0 558.91 GB SAS 0 - HITACHI HUS156060VL
p1 OK u0 558.91 GB SAS 1 - HITACHI HUS156060VL
p2 OK u0 558.91 GB SAS 2 - HITACHI HUS156060VL
p3 OK u0 558.91 GB SAS 3 - HITACHI HUS156060VL
p4 OK u1 558.91 GB SAS 4 - HITACHI HUS156060VL
Посмотрел в инете и документации - как я понял был ошибочный или сбойный сектор которые были успешно исправлены - якобы такое иногда бывает, также рекомендуется проводить проверку целостности (она переодически проводится по расписанию) В свойствах диска - Reallocated Sectors 0
Правильно ли я все понял?
Насколько это критично и нужно ли как-то исправлять эту ошибку?
- gs
- Сотрудник Тринити
- Сообщения: 16650
- Зарегистрирован: 23 авг 2002, 17:34
- Откуда: Москва
- Контактная информация:
Re: Статус ECC-ERROR
Да кто ж уже помнит эти контроллеры...
Если речь действительно о скорректированном бэд блоке, то это не смертельно - если только не начнется их размножение.
Прогоните верификацию - если все ок, то и ладно.
Если речь действительно о скорректированном бэд блоке, то это не смертельно - если только не начнется их размножение.
Прогоните верификацию - если все ок, то и ладно.
Re: Статус ECC-ERROR
Хорошо. Спасибо!
- Stranger03
- Сотрудник Тринити
- Сообщения: 12979
- Зарегистрирован: 14 ноя 2003, 16:25
- Откуда: СПб, Екатеринбург
- Контактная информация:
Re: Статус ECC-ERROR
Город в профиле укажите пож.Garf писал(а):Хорошо. Спасибо!
Re: Статус ECC-ERROR
В общем иногда сообщения все же повторяются. Надо подготовиться к замене диска. С рейдами в подобных ситуациях дела не имел, потому возникает много вопросов - прошу помочь разобраться, чтобы не напортачить )
Итак...
Подбор диска - как я понимаю диск нужен такой же, как все остальные, если вдруг я его не найду, как быть? Где можно посмотреть список поддерживаемых моделей?
Бэкап перед заменой - можно делать обычным софтом типа встроенного бэкапа в win или acronis? Или лучше чем-то другим? (порекомендуйте пожалуйста)
Определение диска в корзине - как идентифицировать проблемный винт? (галочка отвечающая за индикацию в программе засвечена, корзина наверно не поддерживает функцию)
Замена диска - как лучше делать с выключением сервера или на горячую? (Тут желательно подробнее по пунктам... нужно ли переводить в оффлайн, потом новый инициализировать, делать просто замену или вначале ставить как Hot swap в свободную карзину) Сейчас один диск подключен как Hot swap, как будет правильнее сделать - его вводить в работу, а новый ставить в резерв или новый в работу ставить?
Еще вопрос по BBU сколько часов минимально он должен держать? т.е в какой момент его надо менять? Поддерживает ли он просто смену аккумулятора или нужно менять весь модуль?
Итак...
Подбор диска - как я понимаю диск нужен такой же, как все остальные, если вдруг я его не найду, как быть? Где можно посмотреть список поддерживаемых моделей?
Бэкап перед заменой - можно делать обычным софтом типа встроенного бэкапа в win или acronis? Или лучше чем-то другим? (порекомендуйте пожалуйста)
Определение диска в корзине - как идентифицировать проблемный винт? (галочка отвечающая за индикацию в программе засвечена, корзина наверно не поддерживает функцию)
Замена диска - как лучше делать с выключением сервера или на горячую? (Тут желательно подробнее по пунктам... нужно ли переводить в оффлайн, потом новый инициализировать, делать просто замену или вначале ставить как Hot swap в свободную карзину) Сейчас один диск подключен как Hot swap, как будет правильнее сделать - его вводить в работу, а новый ставить в резерв или новый в работу ставить?
Еще вопрос по BBU сколько часов минимально он должен держать? т.е в какой момент его надо менять? Поддерживает ли он просто смену аккумулятора или нужно менять весь модуль?
- Stranger03
- Сотрудник Тринити
- Сообщения: 12979
- Зарегистрирован: 14 ноя 2003, 16:25
- Откуда: СПб, Екатеринбург
- Контактная информация:
Re: Статус ECC-ERROR
Если нет такого же диска, можно пробовать одного производителя, но лучше заменить все диски.Garf писал(а):Подбор диска - как я понимаю диск нужен такой же, как все остальные, если вдруг я его не найду, как быть?
В HCL контроллераГде можно посмотреть список поддерживаемых моделей?
Как угодно, главное, чтобы вы понимали, как будете восстанавливать данные.Бэкап перед заменой - можно делать обычным софтом типа встроенного бэкапа в win или acronis? Или лучше чем-то другим? (порекомендуйте пожалуйста)
Печалька, даж не знаю, видимо смотреть на номера корзин. И как корзины с дисками подключены к контроллеру.Определение диска в корзине - как идентифицировать проблемный винт? (галочка отвечающая за индикацию в программе засвечена, корзина наверно не поддерживает функцию)
Зависит от корзин. Если они хот-свап, то выдернул, вставил новый, зашел в настройки контроллера, проинитил диск, сказал на нем ребилд, ждать окончания. Потом следующий.Замена диска - как лучше делать с выключением сервера или на горячую? (Тут желательно подробнее по пунктам... нужно ли переводить в оффлайн, потом новый инициализировать, делать просто замену или вначале ставить как Hot swap в свободную карзину) Сейчас один диск подключен как Hot swap, как будет правильнее сделать - его вводить в работу, а новый ставить в резерв или новый в работу ставить?
36 часовЕще вопрос по BBU сколько часов минимально он должен держать?
когда скажет, что зарядка батарейки ниже 50% и дальше не может заряжаться. Видно в логах контроллерат.е в какой момент его надо менять?
Что за модуль? Там батарейка и есть модуль с одним проводом.Поддерживает ли он просто смену аккумулятора или нужно менять весь модуль?
Re: Статус ECC-ERROR
Всех с Новым Годом! Счастья, добра, мира!
За это время ситуация ухудшилась с массивом:
Вылетел диск p0 и вместо него в работу встал p4 (который стоял в горячей замене) а после еще и p2 вылетел.
Были также обновления в связи с чем была перезагрузка сервера.
после этого, p0 похоже включился но так как был замещен другим диском, то теперь видется в составе u1 как часть рейда.
Выглядит это так:
Unit Maintenance (Controller ID 0)
Unit 0 4 drives RAID 5
RAID5 1.64 TB REBUILDING 0% (paused)
VPort 4 HITACHI HUS156060VL SAS 558.91 GB OK
VPort 1 HITACHI HUS156060VL SAS 558.91 GB OK
VPort 2 HITACHI HUS156060VL SAS 558.91 GB DEGRADED [Remove Drive]
VPort 3 HITACHI HUS156060VL SAS 558.91 GB OK
Unit 1 4 drives RAID 5
RAID5 1.64 TB INOPERABLE
VPort 0 HITACHI HUS156060VL SAS 558.91 GB OK
-- -- -- -- NOT PRESENT
-- -- -- -- NOT PRESENT
-- -- -- -- NOT PRESENT
Unit UnitType Status %RCmpl %V/I/M Stripe Size(GB) Cache AVrfy
------------------------------------------------------------------------------
u0 RAID-5 REBUILD-PAUSED 0% - 256K 1676.35 Ri ON
u1 RAID-5 INOPERABLE - - 256K 1676.35 Ri ON
VPort Status Unit Size Type Phy Encl-Slot Model
------------------------------------------------------------------------------
p0 OK u1 558.91 GB SAS 0 - HITACHI HUS156060VL
p1 OK u0 558.91 GB SAS 1 - HITACHI HUS156060VL
p2 DEGRADED u0 558.91 GB SAS 2 - HITACHI HUS156060VL
p3 OK u0 558.91 GB SAS 3 - HITACHI HUS156060VL
p4 OK u0 558.91 GB SAS 4 - HITACHI HUS156060VL
в Unit Information есть также такие строки:
Status REBUILDING 0% (paused)
Type RAID 5 (not initialized)
Правильно ли я понимаю, что инициалиазация не проходит и ребилд встал на паузу из за того, что реально рабочих диска в массиве всего 3 вместо 4x? И после установки диска все востановится? Диски уже жду... Что делать с этими двумя проблемными дисками? отключить через tw_cli? Или лучше не трогать, дождаться новые диски и потом сделать замену?
За это время ситуация ухудшилась с массивом:
Вылетел диск p0 и вместо него в работу встал p4 (который стоял в горячей замене) а после еще и p2 вылетел.
Были также обновления в связи с чем была перезагрузка сервера.
после этого, p0 похоже включился но так как был замещен другим диском, то теперь видется в составе u1 как часть рейда.
Выглядит это так:
Unit Maintenance (Controller ID 0)
Unit 0 4 drives RAID 5
RAID5 1.64 TB REBUILDING 0% (paused)
VPort 4 HITACHI HUS156060VL SAS 558.91 GB OK
VPort 1 HITACHI HUS156060VL SAS 558.91 GB OK
VPort 2 HITACHI HUS156060VL SAS 558.91 GB DEGRADED [Remove Drive]
VPort 3 HITACHI HUS156060VL SAS 558.91 GB OK
Unit 1 4 drives RAID 5
RAID5 1.64 TB INOPERABLE
VPort 0 HITACHI HUS156060VL SAS 558.91 GB OK
-- -- -- -- NOT PRESENT
-- -- -- -- NOT PRESENT
-- -- -- -- NOT PRESENT
Unit UnitType Status %RCmpl %V/I/M Stripe Size(GB) Cache AVrfy
------------------------------------------------------------------------------
u0 RAID-5 REBUILD-PAUSED 0% - 256K 1676.35 Ri ON
u1 RAID-5 INOPERABLE - - 256K 1676.35 Ri ON
VPort Status Unit Size Type Phy Encl-Slot Model
------------------------------------------------------------------------------
p0 OK u1 558.91 GB SAS 0 - HITACHI HUS156060VL
p1 OK u0 558.91 GB SAS 1 - HITACHI HUS156060VL
p2 DEGRADED u0 558.91 GB SAS 2 - HITACHI HUS156060VL
p3 OK u0 558.91 GB SAS 3 - HITACHI HUS156060VL
p4 OK u0 558.91 GB SAS 4 - HITACHI HUS156060VL
в Unit Information есть также такие строки:
Status REBUILDING 0% (paused)
Type RAID 5 (not initialized)
Правильно ли я понимаю, что инициалиазация не проходит и ребилд встал на паузу из за того, что реально рабочих диска в массиве всего 3 вместо 4x? И после установки диска все востановится? Диски уже жду... Что делать с этими двумя проблемными дисками? отключить через tw_cli? Или лучше не трогать, дождаться новые диски и потом сделать замену?
- Stranger03
- Сотрудник Тринити
- Сообщения: 12979
- Зарегистрирован: 14 ноя 2003, 16:25
- Откуда: СПб, Екатеринбург
- Контактная информация:
Re: Статус ECC-ERROR
Garf
А что за?
А что за
Код: Выделить всё
Unit 1 4 drives RAID 5
Re: Статус ECC-ERROR
Это диск который изначально был в Unit 0 p0 и на котором были ошибки с секторами, контроллер его забраковал и поставил вместо него p4 диск, который стоял в "горячей замене"Stranger03 писал(а):Garf
А что за?Код: Выделить всё
Unit 1 4 drives RAID 5
Я так понял после перезагрузки он вновь увидел этот диск но так как он был ранее выкинут из рейда а на нем видимо данные остались, что он принадлежит к RAID5 вот он его так и отображает, как часть массива, как быть с этим диском? попробывать удалить это unit и подключить диск снова, как "горячая замена" или дождаться новые винты и просто вместо него один из них вставить?
И еще - инициализация массива все-же прошла и сделался ребилд на тот второй диск p2 который ранее тоже выкидывал контроллер. т.е. сейчас массив на 4х дисках работает и статус ОК.
Вот как это выглядит сейчас:
Unit Maintenance (Controller ID 0)
Unit 0 4 drives RAID 5
RAID5 1.64 TB OK
VPort 4 HITACHI HUS156060VL SAS 558.91 GB OK [Remove Drive]
VPort 1 HITACHI HUS156060VL SAS 558.91 GB OK [Remove Drive]
VPort 2 HITACHI HUS156060VL SAS 558.91 GB OK [Remove Drive]
VPort 3 HITACHI HUS156060VL SAS 558.91 GB OK [Remove Drive]
Unit 1 4 drives RAID 5
RAID5 1.64 TB INOPERABLE
VPort 0 HITACHI HUS156060VL SAS 558.91 GB OK
-- -- -- -- NOT PRESENT
-- -- -- -- NOT PRESENT
-- -- -- -- NOT PRESENT
Даже незнаю почему диски снова получили статус ОК после перезагрузки. Может где контакты не очень. Наверно, как придут диски отключу сервер, проверю все соеденения и надо будет заменить эти два диска на новые. Как думаете?
- Stranger03
- Сотрудник Тринити
- Сообщения: 12979
- Зарегистрирован: 14 ноя 2003, 16:25
- Откуда: СПб, Екатеринбург
- Контактная информация:
Re: Статус ECC-ERROR
Данные то сейчас доступны? Если да, то сделать бекап, вылетевший диск вынуть, на том, что пытался встать вместо вылетевшего сказать ребилд. Возможно оживет.Garf писал(а):Даже незнаю почему диски снова получили статус ОК после перезагрузки. Может где контакты не очень. Наверно, как придут диски отключу сервер, проверю все соеденения и надо будет заменить эти два диска на новые. Как думаете?
Re: Статус ECC-ERROR
Даные доступны, бекап переодически делается. Ребилд же уже прошел и верификация тоже проходила нормально уже на 4х дисках Unit0. Т.е. пока что нормально все.
В Unit1 сейчас диск который был ранее в составе Unit0, И у всех дисков сейчас статус Ок. т.е. как будто с дисками и проблем не было. Unit1 наверно надо удалить, чтоб он высвободил диск (p0), чтоб можно было бы перевести в горячую замену? Незнаю стоит это делать или нет.
В Unit1 сейчас диск который был ранее в составе Unit0, И у всех дисков сейчас статус Ок. т.е. как будто с дисками и проблем не было. Unit1 наверно надо удалить, чтоб он высвободил диск (p0), чтоб можно было бы перевести в горячую замену? Незнаю стоит это делать или нет.
- Stranger03
- Сотрудник Тринити
- Сообщения: 12979
- Зарегистрирован: 14 ноя 2003, 16:25
- Откуда: СПб, Екатеринбург
- Контактная информация:
Re: Статус ECC-ERROR
Я правильно понял, что у вас Р5 на 5-ти дисках + был один хотспаре, который толком не встал на место?Garf писал(а):Незнаю стоит это делать или нет.
Re: Статус ECC-ERROR
Нет.. Raid5 на 4-х дисках + один хотспаре. Сейчас получается, что диск который ранее стоял в хотспаре встал в unit0 вместо диска 0 который был в массиве и давал ошибки секторов. А диск 0 в свою очередь теперь болтается в unit1. т.е. он по сути не учавствует сейчас в работе и его можно либо убрать и поменять на другой или поставить как хотспаре временно.Stranger03 писал(а):Я правильно понял, что у вас Р5 на 5-ти дисках + был один хотспаре, который толком не встал на место?Garf писал(а):Незнаю стоит это делать или нет.
- Stranger03
- Сотрудник Тринити
- Сообщения: 12979
- Зарегистрирован: 14 ноя 2003, 16:25
- Откуда: СПб, Екатеринбург
- Контактная информация:
Re: Статус ECC-ERROR
Ну удалите тогда сбойный диск в мусорное ведро и ждите дисков на замену. Я бы поставил 5-ть новых дисков с новым рейдом.Garf писал(а):Нет.. Raid5 на 4-х дисках + один хотспаре. Сейчас получается, что диск который ранее стоял в хотспаре встал в unit0 вместо диска 0 который был в массиве и давал ошибки секторов. А диск 0 в свою очередь теперь болтается в unit1. т.е. он по сути не учавствует сейчас в работе и его можно либо убрать и поменять на другой или поставить как хотспаре временно.
Кто сейчас на конференции
Сейчас этот форум просматривают: нет зарегистрированных пользователей и 13 гостей