Алгоритм замены умершего диска для SRCS14L

Поломалось, посыпалось, не работает...

Модераторы: Trinity admin`s, Free-lance moderator`s

Ответить
Trivial
Advanced member
Сообщения: 62
Зарегистрирован: 06 окт 2004, 13:26

Алгоритм замены умершего диска для SRCS14L

Сообщение Trivial » 22 дек 2004, 14:52

Умер диск в RAID-10 из 4х Seagate ST3160023AS дисков на SRCS14L.
:?
Подскажите точный алгоритм замены умершего диска...

Аватара пользователя
a_shats
Advanced member
Сообщения: 5010
Зарегистрирован: 27 авг 2002, 10:55
Откуда: Москва
Контактная информация:

Сообщение a_shats » 22 дек 2004, 16:43

Вынули умерший (должен выглядеть с т.з. контроллера как Offline), вставили новый на тот же самый канал, вручную (из StorCon или BIOS контроллера) пнули контроллер, чтоб ребилдился на этот винт. Все.
В этом случае нельзя в принципе делать Make Online - вот так можно почти гарантированно убить информацию на массиве.

Trivial
Advanced member
Сообщения: 62
Зарегистрирован: 06 окт 2004, 13:26

Сообщение Trivial » 22 дек 2004, 18:16

a_shats писал(а):Вынули умерший (должен выглядеть с т.з. контроллера как Offline), вставили новый на тот же самый канал, вручную (из StorCon или BIOS контроллера) пнули контроллер, чтоб ребилдился на этот винт. Все.
В этом случае нельзя в принципе делать Make Online - вот так можно почти гарантированно убить информацию на массиве.
Да, в принципе все понятно, спасибо. Но есть некая тонкость, предшествующая замене. Дело в том, что до этого момента RAID фунциклировал полноценно. Затем случилось следующее, внезапно (судя по логам) диск как будто бы отсоединился и тут же присоединился (лог: auto hotswap started). Начинается Rebuild, но уже на 3 оставшихся диска массива. При этом массив работает в degraded mode. Rebuild заканчивается, выпавший диск физически видется, но не в массиве. Делаю ему add, он добавляется, массив опять уходит в rebuild, уже с 50%. Через 5 часов rebuild заканчивается, все работает (опять же судя по логам) еще 4 часа, и в логе появляется след. запись - Controller error. Массив перестает видеться, после reboot контроллер говорит, что нет ни одного логического устройства (при этом физика на месте и ОК). Меняю шлейфы, ничего не меняется, но со стороны корзины слышны непонятные звуки скрежета голов винта. После 3-4 ребутов все встает на место, контроллер видит логическое устройтво и даже не пытается делать rebuild. Гружу систему, всё файло на местах, за исключением 11 из 24 баз SQL, которые ушли в suspend... Поднимаю базы (там ессно ошибки) руками. (Одну так и не получилось поднять). Сейчас все работает, ошибок нет уже 12 часов. Вот и не знаю, что теперь делать.......  :cry:  :?  :shock:

Да, и еще, за день до этого в офисе отрубалось электричество, и вышибло батарею 1000ватного УПС. Сервак работает напрямую от электросети с пониженным (195-200 вольт) напряжением :((((((((
Последний раз редактировалось Trivial 22 дек 2004, 18:28, всего редактировалось 1 раз.

Аватара пользователя
a_shats
Advanced member
Сообщения: 5010
Зарегистрирован: 27 авг 2002, 10:55
Откуда: Москва
Контактная информация:

Сообщение a_shats » 22 дек 2004, 18:20

Действительно бред какой-то... По-человечески, отвалившийся винт контроллер до замены/пинка трогать вообще не должен в принципе...

Аватара пользователя
gs
Сотрудник Тринити
Сотрудник Тринити
Сообщения: 16650
Зарегистрирован: 23 авг 2002, 17:34
Откуда: Москва
Контактная информация:

Сообщение gs » 22 дек 2004, 18:22

Ууу! Сливайте данные и разбирайтесь плотно с контроллером и винтами. Это действительно полный бред. Как бы дальше кривая не понеслась...

Trivial
Advanced member
Сообщения: 62
Зарегистрирован: 06 окт 2004, 13:26

Сообщение Trivial » 22 дек 2004, 18:32

gs писал(а):Ууу! Сливайте данные и разбирайтесь плотно с контроллером и винтами. Это действительно полный бред. Как бы дальше кривая не понеслась...
Разборки с контроллером:

До этого на этом-же сервере стоял контроллер Promise SATA150 TX4, RAID5

В течение 3 месяцев на нем 5 раз происходила след. ситуация - один винт ужодит во free. произвольно, самостоятельно. 5 раз переливали контент, в конце концов заменили контроллер на SRCS14L. Перебил всё на RAID10. работало месяц без глюков. единственное различие, что диски просто лежали на корпусе плашмя, сейчас я их смонтировал в корзинку ребром. вот так.


Винты = 4x Barracuda 7200.7 ST3160023AS

Trivial
Advanced member
Сообщения: 62
Зарегистрирован: 06 окт 2004, 13:26

Сообщение Trivial » 22 дек 2004, 18:40

Мне вот интересно, чем бы диски основательно, но не деструктивно потрогать.... ?

Аватара пользователя
gs
Сотрудник Тринити
Сотрудник Тринити
Сообщения: 16650
Зарегистрирован: 23 авг 2002, 17:34
Откуда: Москва
Контактная информация:

Сообщение gs » 22 дек 2004, 18:44

Во-первых, проверить Seatools Enterprise - только не на рэйде.
А нагрузить "на убой" можно иометром, поставив сотню outstanding IOs.

Trivial
Advanced member
Сообщения: 62
Зарегистрирован: 06 окт 2004, 13:26

Сообщение Trivial » 23 дек 2004, 10:56

Итог всего:

На вчера на 20:00 поставил Acronis TrueImage Server 8 на бекап всего рейда. Отбекапилось... Ночью рейд успешно снова упал. Заменил диск, как он предложил на канале B1. Заорал канал A1... Выдрал рейд к едрене фене. Воткнул второй IDE диск на 200Gb, сейчас восстанавливаюсь c образа....  Вся надежда на товарища Акрониса  :shock:

Аватара пользователя
gs
Сотрудник Тринити
Сотрудник Тринити
Сообщения: 16650
Зарегистрирован: 23 авг 2002, 17:34
Откуда: Москва
Контактная информация:

Сообщение gs » 23 дек 2004, 11:47

Проверяйте винты!!!
Контроллеру - clear config и load defaults, после чего все создать с нуля.
И электрику посмотрите - это весьма вероятный источник геморроя.

Trivial
Advanced member
Сообщения: 62
Зарегистрирован: 06 окт 2004, 13:26

Сообщение Trivial » 24 дек 2004, 12:28

gs писал(а):Во-первых, проверить Seatools Enterprise - только не на рэйде.
Enterprise не катит. Он SATA не чекает....

Аватара пользователя
Kirill Tkachev
Advanced member
Сообщения: 481
Зарегистрирован: 08 июл 2004, 13:37
Откуда: Saint-Petersburg
Контактная информация:

Сообщение Kirill Tkachev » 24 дек 2004, 13:12

От плохого электоропитания можно не только глюков наловить, но и дохлого железа (тьфу, тьфу, тьфу). Для хоть какого то улучшения ситуации, пока UPS не восстановите, купите за 60 баксов что нить типа APC Line-R 1200VA Automatic Voltage Regulator. Это позволит исключить плохое электропитание из расследования глюков. Да и вообще штука полезная в хозяйстве - не на все оборудование надо UPS  :wink:
http://www.apc.com/resource/include/tec ... ku=LE1200I

Trivial
Advanced member
Сообщения: 62
Зарегистрирован: 06 окт 2004, 13:26

Сообщение Trivial » 24 дек 2004, 13:27

Кстати, пока плотненько занят проверкой дисков, проконсультируйте плиз... В моем случае не будет ли преимуществом заменить мои четыре Seagate ST3160023AS на WesternDigital WD1600SD???

Прочитал про них разное:
В накопителях семейства RAID Edition реализована технология Time Limited Error Recovery (TLER), улучшающая совместимость с RAID-адаптерами и предотвращающая выход из рабочего состояния винчестеров, вызванного процессом устранения ошибок.
Разумеется, что в обойму мер, направленных на увеличение срока безотказной работы жестких дисков, входит и проверенная временем технология Data Lifeguard Tools. Данный набор программно-аппаратных средств облегчает установку, работу и диагностику накопителей. Ко всему вышесказанному можно добавить, что в накопителях семейства RAID Edition уже по традиции используются гидродинамические подшипники, которые помимо улучшения акустических характеристик и снижения тепловыделения также способствуют и повышению надежности жестких дисков. Высокая производительность винчестеров достигается за счет скорости вращения шпинделя 7200 об./мин. и буфера объемом 8 мегабайт

Не лучше ли они будут?

Аватара пользователя
gs
Сотрудник Тринити
Сотрудник Тринити
Сообщения: 16650
Зарегистрирован: 23 авг 2002, 17:34
Откуда: Москва
Контактная информация:

Сообщение gs » 24 дек 2004, 13:32

По поводу WD - я как раз сейчас имею взрослый секс. Дело в том, что они (согласно официальному письму их суппорта) без предупреждения меняют не только прошивки, но и электронику дисков, поставляемых под одним названием. В результате, суем новый диск взамен сдохшего - а он в рэйде просто не работает со старыми!!! И никаких прошивок - ничего. Только менять ВСЕ винты массива!!!

Trivial
Advanced member
Сообщения: 62
Зарегистрирован: 06 окт 2004, 13:26

Сообщение Trivial » 24 дек 2004, 14:08

gs писал(а):По поводу WD - я как раз сейчас имею взрослый секс. Дело в том, что они (согласно официальному письму их суппорта) без предупреждения меняют не только прошивки, но и электронику дисков, поставляемых под одним названием. В результате, суем новый диск взамен сдохшего - а он в рэйде просто не работает со старыми!!! И никаких прошивок - ничего. Только менять ВСЕ винты массива!!!
C "Рапторами" такая-же ситуация?

PS: Seagate Seatools_Desktop протестировал 2 диска по которым контроллер сказал "бэд"... Ничего не нашел - all ok...  :shock:

Что теперь делать-то? Явных доказательств битости дисков нет. Хотя один иногда хрумтит достаточно громко.... :(

Ответить

Вернуться в «Массивы - Технические вопросы, решение проблем.»

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и 24 гостя