Поясните новичку, плиз... (возвращение hdd в массив)

Поломалось, посыпалось, не работает...

Модераторы: Trinity admin`s, Free-lance moderator`s

Ответить
Andrei Pronin
Junior member
Сообщения: 19
Зарегистрирован: 20 янв 2004, 10:05
Откуда: Тула

Поясните новичку, плиз... (возвращение hdd в массив)

Сообщение Andrei Pronin » 20 янв 2004, 10:48

Имеем сервер American Megatrends с встроенным RAID-ом из 6 дисков. Корзина 6 дисковая. Hot Spare дисков нет. Все диски - члены RAIDа. OS - Novell Netware 4.11. С некоторых пор периодически (обычно при "хорошей" загрузке сервера) "вылетает" то один, то другой диск. Некоторые прямо завсегдатаи. Почему они вылетают - это отдельный вопрос. Хотя если подскажите возможные варианты - буду благодарен. Но сейчас другой вопрос. Нас кто-то научил "вылетевший" диск возвращать в статус ONLINE. И мы каждый раз имеем разрушение данных, в той или иной степени. Но почитавши книжку, я усомнился. И подумал, а не нужно ли "вылетевшему" диску сделать предварительно REBUILD? Может тогда мы перестанем терять данные? Или наоборот все убьется глобально? Просветите и не пинайте - новичек я в RAID-ах.

Аватара пользователя
setar
Site Admin
Site Admin
Сообщения: 1984
Зарегистрирован: 22 авг 2002, 12:03
Откуда: St. Petersburg

Сообщение setar » 20 янв 2004, 11:02

В вашей ситуации поднимать диск в online нельзя ни в коем случае,
т.к. мы имеем не рассыпавшийся массив а вылетивший диск, информация на нём отстала!
В рабочее состояние его переводить нужно только через rebuild, никаких дополнительных online после этой процедуры не потребуется.

P.S. А вообще ищите причину вылета из массива hdd это может быть:
* неисправность терминатора или проводов, неправильная scsi топология.
* разные прошивки на hdd (или сами hdd разные )
* неисправность чего либо
Последний раз редактировалось setar 20 янв 2004, 11:39, всего редактировалось 1 раз.

Andrei Pronin
Junior member
Сообщения: 19
Зарегистрирован: 20 янв 2004, 10:05
Откуда: Тула

Сообщение Andrei Pronin » 20 янв 2004, 11:33

1. Спасибо. Я так и думал. Просто мне пока это все в новинку и уж слишком много сразу всего приходится читать. Пухну быстро.
2.По причинам неисправности:
а) Там корзина с винтами и с обратной стороны большая плата. Как там смотреть неисправность терминаторов или проводов - ума не приложу. Плату эту снимать что-ли? Страшно! :) Насчет scsi-технологии вряд ли. Сервер (кстати он называется Gateway ALR 8200) отпахал без вопросов 2 года. Потом началось. Потом все чаще... Сейчас регулярно от 1 раза в 2 месяца, до 2 раз в месяц. Бывает еще интересный глюк. Если сервер вдруг завис (RAID при этом с виду выглядит нормально, выпавших дисков не кажет и не пищит) - NW 4.11 может найти ошибки на томах и пофиксить их vrepair-ом, но после монтирования на томах в базах каша. :( Не может контроллер так глючить?
б) Винты там и правда разные, но они разные давно... Хотя может тогда все и началось?... Теперь наверное и не проверишь...
в) самое интересное как искать неисправность чего-либо :)

Аватара пользователя
setar
Site Admin
Site Admin
Сообщения: 1984
Зарегистрирован: 22 авг 2002, 12:03
Откуда: St. Petersburg

Сообщение setar » 20 янв 2004, 11:57

:) Старый добрый ALR 8200
У нас на нём крутится БД - отличная машина.
Очень не хочется лезть и разбирать его, попробую вспомнить по памяти.
там простейшая корзина точнее даже встроенная в корпус совокупность салазок и бэкплейна (платы подключения).

Кажется бэкплейн не имеет своей терминации, терминатор внешний, вешается на выходе этой платы - удостовертесь что он вообще на месте.

Припоминаю ппроблему когда меж проводом scsi и корпусом скопилась пыль - собирала статику и сильно мешала нормальной работе scsi шине. Проверте это.

Рекомендую в биосе контроллера (вход при згрузке или через утилиту управления) посмотреть - какого типа ошибки. На HDD они или шине scsi, можно попробовать снизить скорость шины.

Аватара пользователя
Dmitry
Сотрудник Тринити
Сотрудник Тринити
Сообщения: 861
Зарегистрирован: 22 авг 2002, 16:12
Откуда: St.Petersburg
Контактная информация:

Сообщение Dmitry » 20 янв 2004, 13:36

Если мне не изменяет память, то бэкплейн с терминацией, но она отключаемая джамперами ( или резистивной сборкой) и соответственно отключив ее можно повесить на кабель LVD терминатор.

Andrei Pronin
Junior member
Сообщения: 19
Зарегистрирован: 20 янв 2004, 10:05
Откуда: Тула

Сообщение Andrei Pronin » 20 янв 2004, 16:49

То, что старый это точно. Но в последнее время недобрый он :).

Бэкплейн таки имеет свою терминацию. Задается сие свитчами. Свичи выставлены согласно доке. Да и не трогал их никто со времен запуска сервера (года 3 точно). Так что если не в лом, сними стеночку одну и посмотри у себя на корзину. У меня терминируется все свичами.

Пыль попробую в выходные пропылесосить. Но визуально ее там нет. Ну не стерильно конечно, но вполне терпимо...

Что порекомендуешь в качестве утилиты управления контроллером, напомню у меня NW4.11. И еще, можно ли ей активно пользоваться, когда сервер в боевом режиме крутит базы? Где там смотреть тип ошибок?

Аватара пользователя
Dmitry
Сотрудник Тринити
Сотрудник Тринити
Сообщения: 861
Зарегистрирован: 22 авг 2002, 16:12
Откуда: St.Petersburg
Контактная информация:

Сообщение Dmitry » 20 янв 2004, 18:35

Как рулить тем старым RAID от American Megatrends от Gateway-ALR да еще под Novell из нашей компании уже никто не вспомнит - давно это было. Мы в те времена вставляли взамен AMI, наши родные Mylex контроллеры, а под ними можно было делать все.
А добраться до сервера в ближайшее время Setar не сможет физически. :cry:

Andrei Pronin
Junior member
Сообщения: 19
Зарегистрирован: 20 янв 2004, 10:05
Откуда: Тула

Сообщение Andrei Pronin » 21 янв 2004, 09:37

От, млин, обидно... А я то нос раскатал, сейчас как начну рулить РАИДом, как все заработает у меня....
Кста, в книжке на сервак есть упоминание про утилиту megamgr.nlm
Ничего не напомнит? Можно ли ей рулить и насколько? И самое главное можно ли ей пользоваться при работе сервера в боевом режиме? Ничего не поломается?
Да, и еще вопрос. Я тут на форуме порылся и немного запутался. Почему в моем случае нельзя делать диску принудительно ONLINE, а в ряде других случаев, нужно наоборот делать именно ONLINE и ни в коем разе нельзя делать REBUILD. Например, я про случай, когда вылетает более одного диска (типа 5 из 7)

Аватара пользователя
Dmitry
Сотрудник Тринити
Сотрудник Тринити
Сообщения: 861
Зарегистрирован: 22 авг 2002, 16:12
Откуда: St.Petersburg
Контактная информация:

Сообщение Dmitry » 21 янв 2004, 11:22

Если есть утилиты - то инсталлировать можно и нужно. От одной инсталла вы ничего не запортите, а вот в самой утилите есть возможности все уничтожить, но если вы не будете выбирать диструктивных действий и подтверждать необходимость их выполнения, то будет все в порядке.

А разница когда диски поднимают в ONLINE просто или через REBUILD зависит от сихронизации информации т е от причины выхода в OFFLINE.

Andrei Pronin
Junior member
Сообщения: 19
Зарегистрирован: 20 янв 2004, 10:05
Откуда: Тула

Сообщение Andrei Pronin » 21 янв 2004, 12:01

Dmitry писал(а):А разница когда диски поднимают в ONLINE просто или через REBUILD зависит от сихронизации информации т е от причины выхода в OFFLINE.
Ну а как определиться то? А то у меня один раз из 6 дисков вылетело 2, а я и не знаю даже где посмотреть в БИОС-ной утилите по какой причине они в OFFLINE вышли. Опять же по какой причине их можно REBUILD, а по какой ONLINE?

P.S. сорри, если кажусь тупым, но мне это все в новинку. Только учусь, а кроме вам подсказать некому. :(

Аватара пользователя
gs
Сотрудник Тринити
Сотрудник Тринити
Сообщения: 16622
Зарегистрирован: 23 авг 2002, 17:34
Откуда: Москва
Контактная информация:

Сообщение gs » 21 янв 2004, 14:42

Поднимать винты вручную в онлайн можно только в том случае, если ГАРАНТИРОВАНО с момента вылета не производилось записи на массив.

Т.е. если у вас вылетел один диск, машина продолжает работать и с вероятностью, близкой к 100% какая-то запись шла. В этом случае информация на вылетевшем винте устарела и при его поднятии вы получите кашу. Такие ситуации разрешаются только через ребилд.

Если же вылетело несколько винтов, массив становится оффлайн и запись на него само собой прекращается. В этом случае ручное поднятие винтов в онлайн не только возможный, но и единственно реальный способ спасти данные. (можно конечно пересоздать массив безе инициализации - но это даст тот же эффект, но вероятность сделать что-то не так гораздо выше). Только после таких процедур ОБЯЗАТЕЛЬНО надо делать консистенси чек - велика вероятность, что винт не просто так вылетел, а действительно какие-то бэды появились.

Andrei Pronin
Junior member
Сообщения: 19
Зарегистрирован: 20 янв 2004, 10:05
Откуда: Тула

Сообщение Andrei Pronin » 21 янв 2004, 17:20

Вот спасибо за столь подробное разъяснение. Как говорится: "Мигом прояснилось на доске" :)
Что делать - теперь знаю.
В ближайшие выходные буду выяснять второй русский вопрос, "кто виноват".

P.S. Думаю на этом данную тему можно прикрывать. Всем помогавшим еще раз спасибо.

P.P.S. Правда в выходные полезу в сервер и посмотрю какой там контроллер стоит. Ибо задейстовано все точно не через onboard контроллер, а через какой-то PCI-ный. Но какой не видно - надо его снимать. Так что могут появиться еще вопросы :)

DSV12
Junior member
Сообщения: 1
Зарегистрирован: 11 фев 2004, 11:23

Сообщение DSV12 » 11 фев 2004, 11:43

Dmitry писал(а):Как рулить тем старым RAID от American Megatrends от Gateway-ALR да еще под Novell из нашей компании уже никто не вспомнит - давно это было.
Подскажу - есть такая утилитка, MEGAMGR.NLM называется, у меня она на двух NW4.11 с AMI MegaRAID-ами работает.

Ответить

Вернуться в «Массивы - Технические вопросы, решение проблем.»