Поясните новичку, плиз... (возвращение hdd в массив)
Модераторы: Trinity admin`s, Free-lance moderator`s
-
- Junior member
- Сообщения: 19
- Зарегистрирован: 20 янв 2004, 10:05
- Откуда: Тула
Поясните новичку, плиз... (возвращение hdd в массив)
Имеем сервер American Megatrends с встроенным RAID-ом из 6 дисков. Корзина 6 дисковая. Hot Spare дисков нет. Все диски - члены RAIDа. OS - Novell Netware 4.11. С некоторых пор периодически (обычно при "хорошей" загрузке сервера) "вылетает" то один, то другой диск. Некоторые прямо завсегдатаи. Почему они вылетают - это отдельный вопрос. Хотя если подскажите возможные варианты - буду благодарен. Но сейчас другой вопрос. Нас кто-то научил "вылетевший" диск возвращать в статус ONLINE. И мы каждый раз имеем разрушение данных, в той или иной степени. Но почитавши книжку, я усомнился. И подумал, а не нужно ли "вылетевшему" диску сделать предварительно REBUILD? Может тогда мы перестанем терять данные? Или наоборот все убьется глобально? Просветите и не пинайте - новичек я в RAID-ах.
В вашей ситуации поднимать диск в online нельзя ни в коем случае,
т.к. мы имеем не рассыпавшийся массив а вылетивший диск, информация на нём отстала!
В рабочее состояние его переводить нужно только через rebuild, никаких дополнительных online после этой процедуры не потребуется.
P.S. А вообще ищите причину вылета из массива hdd это может быть:
* неисправность терминатора или проводов, неправильная scsi топология.
* разные прошивки на hdd (или сами hdd разные )
* неисправность чего либо
т.к. мы имеем не рассыпавшийся массив а вылетивший диск, информация на нём отстала!
В рабочее состояние его переводить нужно только через rebuild, никаких дополнительных online после этой процедуры не потребуется.
P.S. А вообще ищите причину вылета из массива hdd это может быть:
* неисправность терминатора или проводов, неправильная scsi топология.
* разные прошивки на hdd (или сами hdd разные )
* неисправность чего либо
Последний раз редактировалось setar 20 янв 2004, 11:39, всего редактировалось 1 раз.
-
- Junior member
- Сообщения: 19
- Зарегистрирован: 20 янв 2004, 10:05
- Откуда: Тула
1. Спасибо. Я так и думал. Просто мне пока это все в новинку и уж слишком много сразу всего приходится читать. Пухну быстро.
2.По причинам неисправности:
а) Там корзина с винтами и с обратной стороны большая плата. Как там смотреть неисправность терминаторов или проводов - ума не приложу. Плату эту снимать что-ли? Страшно!
Насчет scsi-технологии вряд ли. Сервер (кстати он называется Gateway ALR 8200) отпахал без вопросов 2 года. Потом началось. Потом все чаще... Сейчас регулярно от 1 раза в 2 месяца, до 2 раз в месяц. Бывает еще интересный глюк. Если сервер вдруг завис (RAID при этом с виду выглядит нормально, выпавших дисков не кажет и не пищит) - NW 4.11 может найти ошибки на томах и пофиксить их vrepair-ом, но после монтирования на томах в базах каша.
Не может контроллер так глючить?
б) Винты там и правда разные, но они разные давно... Хотя может тогда все и началось?... Теперь наверное и не проверишь...
в) самое интересное как искать неисправность чего-либо
2.По причинам неисправности:
а) Там корзина с винтами и с обратной стороны большая плата. Как там смотреть неисправность терминаторов или проводов - ума не приложу. Плату эту снимать что-ли? Страшно!


б) Винты там и правда разные, но они разные давно... Хотя может тогда все и началось?... Теперь наверное и не проверишь...
в) самое интересное как искать неисправность чего-либо


У нас на нём крутится БД - отличная машина.
Очень не хочется лезть и разбирать его, попробую вспомнить по памяти.
там простейшая корзина точнее даже встроенная в корпус совокупность салазок и бэкплейна (платы подключения).
Кажется бэкплейн не имеет своей терминации, терминатор внешний, вешается на выходе этой платы - удостовертесь что он вообще на месте.
Припоминаю ппроблему когда меж проводом scsi и корпусом скопилась пыль - собирала статику и сильно мешала нормальной работе scsi шине. Проверте это.
Рекомендую в биосе контроллера (вход при згрузке или через утилиту управления) посмотреть - какого типа ошибки. На HDD они или шине scsi, можно попробовать снизить скорость шины.
-
- Junior member
- Сообщения: 19
- Зарегистрирован: 20 янв 2004, 10:05
- Откуда: Тула
То, что старый это точно. Но в последнее время недобрый он
.
Бэкплейн таки имеет свою терминацию. Задается сие свитчами. Свичи выставлены согласно доке. Да и не трогал их никто со времен запуска сервера (года 3 точно). Так что если не в лом, сними стеночку одну и посмотри у себя на корзину. У меня терминируется все свичами.
Пыль попробую в выходные пропылесосить. Но визуально ее там нет. Ну не стерильно конечно, но вполне терпимо...
Что порекомендуешь в качестве утилиты управления контроллером, напомню у меня NW4.11. И еще, можно ли ей активно пользоваться, когда сервер в боевом режиме крутит базы? Где там смотреть тип ошибок?

Бэкплейн таки имеет свою терминацию. Задается сие свитчами. Свичи выставлены согласно доке. Да и не трогал их никто со времен запуска сервера (года 3 точно). Так что если не в лом, сними стеночку одну и посмотри у себя на корзину. У меня терминируется все свичами.
Пыль попробую в выходные пропылесосить. Но визуально ее там нет. Ну не стерильно конечно, но вполне терпимо...
Что порекомендуешь в качестве утилиты управления контроллером, напомню у меня NW4.11. И еще, можно ли ей активно пользоваться, когда сервер в боевом режиме крутит базы? Где там смотреть тип ошибок?
- Dmitry
- Сотрудник Тринити
- Сообщения: 867
- Зарегистрирован: 22 авг 2002, 16:12
- Откуда: St.Petersburg
- Контактная информация:
Как рулить тем старым RAID от American Megatrends от Gateway-ALR да еще под Novell из нашей компании уже никто не вспомнит - давно это было. Мы в те времена вставляли взамен AMI, наши родные Mylex контроллеры, а под ними можно было делать все.
А добраться до сервера в ближайшее время Setar не сможет физически.
А добраться до сервера в ближайшее время Setar не сможет физически.

-
- Junior member
- Сообщения: 19
- Зарегистрирован: 20 янв 2004, 10:05
- Откуда: Тула
От, млин, обидно... А я то нос раскатал, сейчас как начну рулить РАИДом, как все заработает у меня....
Кста, в книжке на сервак есть упоминание про утилиту megamgr.nlm
Ничего не напомнит? Можно ли ей рулить и насколько? И самое главное можно ли ей пользоваться при работе сервера в боевом режиме? Ничего не поломается?
Да, и еще вопрос. Я тут на форуме порылся и немного запутался. Почему в моем случае нельзя делать диску принудительно ONLINE, а в ряде других случаев, нужно наоборот делать именно ONLINE и ни в коем разе нельзя делать REBUILD. Например, я про случай, когда вылетает более одного диска (типа 5 из 7)
Кста, в книжке на сервак есть упоминание про утилиту megamgr.nlm
Ничего не напомнит? Можно ли ей рулить и насколько? И самое главное можно ли ей пользоваться при работе сервера в боевом режиме? Ничего не поломается?
Да, и еще вопрос. Я тут на форуме порылся и немного запутался. Почему в моем случае нельзя делать диску принудительно ONLINE, а в ряде других случаев, нужно наоборот делать именно ONLINE и ни в коем разе нельзя делать REBUILD. Например, я про случай, когда вылетает более одного диска (типа 5 из 7)
- Dmitry
- Сотрудник Тринити
- Сообщения: 867
- Зарегистрирован: 22 авг 2002, 16:12
- Откуда: St.Petersburg
- Контактная информация:
Если есть утилиты - то инсталлировать можно и нужно. От одной инсталла вы ничего не запортите, а вот в самой утилите есть возможности все уничтожить, но если вы не будете выбирать диструктивных действий и подтверждать необходимость их выполнения, то будет все в порядке.
А разница когда диски поднимают в ONLINE просто или через REBUILD зависит от сихронизации информации т е от причины выхода в OFFLINE.
А разница когда диски поднимают в ONLINE просто или через REBUILD зависит от сихронизации информации т е от причины выхода в OFFLINE.
-
- Junior member
- Сообщения: 19
- Зарегистрирован: 20 янв 2004, 10:05
- Откуда: Тула
Ну а как определиться то? А то у меня один раз из 6 дисков вылетело 2, а я и не знаю даже где посмотреть в БИОС-ной утилите по какой причине они в OFFLINE вышли. Опять же по какой причине их можно REBUILD, а по какой ONLINE?Dmitry писал(а):А разница когда диски поднимают в ONLINE просто или через REBUILD зависит от сихронизации информации т е от причины выхода в OFFLINE.
P.S. сорри, если кажусь тупым, но мне это все в новинку. Только учусь, а кроме вам подсказать некому.

- gs
- Сотрудник Тринити
- Сообщения: 16650
- Зарегистрирован: 23 авг 2002, 17:34
- Откуда: Москва
- Контактная информация:
Поднимать винты вручную в онлайн можно только в том случае, если ГАРАНТИРОВАНО с момента вылета не производилось записи на массив.
Т.е. если у вас вылетел один диск, машина продолжает работать и с вероятностью, близкой к 100% какая-то запись шла. В этом случае информация на вылетевшем винте устарела и при его поднятии вы получите кашу. Такие ситуации разрешаются только через ребилд.
Если же вылетело несколько винтов, массив становится оффлайн и запись на него само собой прекращается. В этом случае ручное поднятие винтов в онлайн не только возможный, но и единственно реальный способ спасти данные. (можно конечно пересоздать массив безе инициализации - но это даст тот же эффект, но вероятность сделать что-то не так гораздо выше). Только после таких процедур ОБЯЗАТЕЛЬНО надо делать консистенси чек - велика вероятность, что винт не просто так вылетел, а действительно какие-то бэды появились.
Т.е. если у вас вылетел один диск, машина продолжает работать и с вероятностью, близкой к 100% какая-то запись шла. В этом случае информация на вылетевшем винте устарела и при его поднятии вы получите кашу. Такие ситуации разрешаются только через ребилд.
Если же вылетело несколько винтов, массив становится оффлайн и запись на него само собой прекращается. В этом случае ручное поднятие винтов в онлайн не только возможный, но и единственно реальный способ спасти данные. (можно конечно пересоздать массив безе инициализации - но это даст тот же эффект, но вероятность сделать что-то не так гораздо выше). Только после таких процедур ОБЯЗАТЕЛЬНО надо делать консистенси чек - велика вероятность, что винт не просто так вылетел, а действительно какие-то бэды появились.
-
- Junior member
- Сообщения: 19
- Зарегистрирован: 20 янв 2004, 10:05
- Откуда: Тула
Вот спасибо за столь подробное разъяснение. Как говорится: "Мигом прояснилось на доске" 
Что делать - теперь знаю.
В ближайшие выходные буду выяснять второй русский вопрос, "кто виноват".
P.S. Думаю на этом данную тему можно прикрывать. Всем помогавшим еще раз спасибо.
P.P.S. Правда в выходные полезу в сервер и посмотрю какой там контроллер стоит. Ибо задейстовано все точно не через onboard контроллер, а через какой-то PCI-ный. Но какой не видно - надо его снимать. Так что могут появиться еще вопросы

Что делать - теперь знаю.
В ближайшие выходные буду выяснять второй русский вопрос, "кто виноват".
P.S. Думаю на этом данную тему можно прикрывать. Всем помогавшим еще раз спасибо.
P.P.S. Правда в выходные полезу в сервер и посмотрю какой там контроллер стоит. Ибо задейстовано все точно не через onboard контроллер, а через какой-то PCI-ный. Но какой не видно - надо его снимать. Так что могут появиться еще вопросы

Кто сейчас на конференции
Сейчас этот форум просматривают: нет зарегистрированных пользователей и 10 гостей