Алгоритм замены умершего диска для SRCS14L
Модераторы: Trinity admin`s, Free-lance moderator`s
Алгоритм замены умершего диска для SRCS14L
Умер диск в RAID-10 из 4х Seagate ST3160023AS дисков на SRCS14L.
Подскажите точный алгоритм замены умершего диска...
Подскажите точный алгоритм замены умершего диска...
- a_shats
- Advanced member
- Сообщения: 5010
- Зарегистрирован: 27 авг 2002, 10:55
- Откуда: Москва
- Контактная информация:
Вынули умерший (должен выглядеть с т.з. контроллера как Offline), вставили новый на тот же самый канал, вручную (из StorCon или BIOS контроллера) пнули контроллер, чтоб ребилдился на этот винт. Все.
В этом случае нельзя в принципе делать Make Online - вот так можно почти гарантированно убить информацию на массиве.
В этом случае нельзя в принципе делать Make Online - вот так можно почти гарантированно убить информацию на массиве.
Да, в принципе все понятно, спасибо. Но есть некая тонкость, предшествующая замене. Дело в том, что до этого момента RAID фунциклировал полноценно. Затем случилось следующее, внезапно (судя по логам) диск как будто бы отсоединился и тут же присоединился (лог: auto hotswap started). Начинается Rebuild, но уже на 3 оставшихся диска массива. При этом массив работает в degraded mode. Rebuild заканчивается, выпавший диск физически видется, но не в массиве. Делаю ему add, он добавляется, массив опять уходит в rebuild, уже с 50%. Через 5 часов rebuild заканчивается, все работает (опять же судя по логам) еще 4 часа, и в логе появляется след. запись - Controller error. Массив перестает видеться, после reboot контроллер говорит, что нет ни одного логического устройства (при этом физика на месте и ОК). Меняю шлейфы, ничего не меняется, но со стороны корзины слышны непонятные звуки скрежета голов винта. После 3-4 ребутов все встает на место, контроллер видит логическое устройтво и даже не пытается делать rebuild. Гружу систему, всё файло на местах, за исключением 11 из 24 баз SQL, которые ушли в suspend... Поднимаю базы (там ессно ошибки) руками. (Одну так и не получилось поднять). Сейчас все работает, ошибок нет уже 12 часов. Вот и не знаю, что теперь делать....... :? :shock:a_shats писал(а):Вынули умерший (должен выглядеть с т.з. контроллера как Offline), вставили новый на тот же самый канал, вручную (из StorCon или BIOS контроллера) пнули контроллер, чтоб ребилдился на этот винт. Все.
В этом случае нельзя в принципе делать Make Online - вот так можно почти гарантированно убить информацию на массиве.
Да, и еще, за день до этого в офисе отрубалось электричество, и вышибло батарею 1000ватного УПС. Сервак работает напрямую от электросети с пониженным (195-200 вольт) напряжением (((((((
Последний раз редактировалось Trivial 22 дек 2004, 18:28, всего редактировалось 1 раз.
Разборки с контроллером:gs писал(а):Ууу! Сливайте данные и разбирайтесь плотно с контроллером и винтами. Это действительно полный бред. Как бы дальше кривая не понеслась...
До этого на этом-же сервере стоял контроллер Promise SATA150 TX4, RAID5
В течение 3 месяцев на нем 5 раз происходила след. ситуация - один винт ужодит во free. произвольно, самостоятельно. 5 раз переливали контент, в конце концов заменили контроллер на SRCS14L. Перебил всё на RAID10. работало месяц без глюков. единственное различие, что диски просто лежали на корпусе плашмя, сейчас я их смонтировал в корзинку ребром. вот так.
Винты = 4x Barracuda 7200.7 ST3160023AS
Итог всего:
На вчера на 20:00 поставил Acronis TrueImage Server 8 на бекап всего рейда. Отбекапилось... Ночью рейд успешно снова упал. Заменил диск, как он предложил на канале B1. Заорал канал A1... Выдрал рейд к едрене фене. Воткнул второй IDE диск на 200Gb, сейчас восстанавливаюсь c образа.... Вся надежда на товарища Акрониса :shock:
На вчера на 20:00 поставил Acronis TrueImage Server 8 на бекап всего рейда. Отбекапилось... Ночью рейд успешно снова упал. Заменил диск, как он предложил на канале B1. Заорал канал A1... Выдрал рейд к едрене фене. Воткнул второй IDE диск на 200Gb, сейчас восстанавливаюсь c образа.... Вся надежда на товарища Акрониса :shock:
- Kirill Tkachev
- Advanced member
- Сообщения: 481
- Зарегистрирован: 08 июл 2004, 13:37
- Откуда: Saint-Petersburg
- Контактная информация:
От плохого электоропитания можно не только глюков наловить, но и дохлого железа (тьфу, тьфу, тьфу). Для хоть какого то улучшения ситуации, пока UPS не восстановите, купите за 60 баксов что нить типа APC Line-R 1200VA Automatic Voltage Regulator. Это позволит исключить плохое электропитание из расследования глюков. Да и вообще штука полезная в хозяйстве - не на все оборудование надо UPS
http://www.apc.com/resource/include/tec ... ku=LE1200I
http://www.apc.com/resource/include/tec ... ku=LE1200I
Кстати, пока плотненько занят проверкой дисков, проконсультируйте плиз... В моем случае не будет ли преимуществом заменить мои четыре Seagate ST3160023AS на WesternDigital WD1600SD???
Прочитал про них разное:
Не лучше ли они будут?
Прочитал про них разное:
В накопителях семейства RAID Edition реализована технология Time Limited Error Recovery (TLER), улучшающая совместимость с RAID-адаптерами и предотвращающая выход из рабочего состояния винчестеров, вызванного процессом устранения ошибок.
Разумеется, что в обойму мер, направленных на увеличение срока безотказной работы жестких дисков, входит и проверенная временем технология Data Lifeguard Tools. Данный набор программно-аппаратных средств облегчает установку, работу и диагностику накопителей. Ко всему вышесказанному можно добавить, что в накопителях семейства RAID Edition уже по традиции используются гидродинамические подшипники, которые помимо улучшения акустических характеристик и снижения тепловыделения также способствуют и повышению надежности жестких дисков. Высокая производительность винчестеров достигается за счет скорости вращения шпинделя 7200 об./мин. и буфера объемом 8 мегабайт
Не лучше ли они будут?
- gs
- Сотрудник Тринити
- Сообщения: 16650
- Зарегистрирован: 23 авг 2002, 17:34
- Откуда: Москва
- Контактная информация:
По поводу WD - я как раз сейчас имею взрослый секс. Дело в том, что они (согласно официальному письму их суппорта) без предупреждения меняют не только прошивки, но и электронику дисков, поставляемых под одним названием. В результате, суем новый диск взамен сдохшего - а он в рэйде просто не работает со старыми!!! И никаких прошивок - ничего. Только менять ВСЕ винты массива!!!
C "Рапторами" такая-же ситуация?gs писал(а):По поводу WD - я как раз сейчас имею взрослый секс. Дело в том, что они (согласно официальному письму их суппорта) без предупреждения меняют не только прошивки, но и электронику дисков, поставляемых под одним названием. В результате, суем новый диск взамен сдохшего - а он в рэйде просто не работает со старыми!!! И никаких прошивок - ничего. Только менять ВСЕ винты массива!!!
PS: Seagate Seatools_Desktop протестировал 2 диска по которым контроллер сказал "бэд"... Ничего не нашел - all ok... :shock:
Что теперь делать-то? Явных доказательств битости дисков нет. Хотя один иногда хрумтит достаточно громко....
Кто сейчас на конференции
Сейчас этот форум просматривают: нет зарегистрированных пользователей и 27 гостей