Массивы и битая электроника.

Конфигурирование, планирование RAID систем, возможности, технологии, теория. Qlogic, LSI Logic, Adaptec ...

Модераторы: Trinity admin`s, Free-lance moderator`s

serpet
Advanced member
Сообщения: 59
Зарегистрирован: 27 фев 2006, 10:36

Массивы и битая электроника.

Сообщение serpet » 06 июн 2007, 04:57

Падал два раза у бабы scsi канал из-за подохшего винта. Решила баба купить дисковый массив sas, дабы устранить первопричину новой технологией ;)
Купили sas массив от infortrend на 12 дисков... Оказалось, там те же два scsi канала на 4 и 8 дисков. Один подох и развалил весь рейд убийством канала.
Вопрос: может известен производитель, у которого прояснение в мозгу?

Аватара пользователя
exLH
Сотрудник Тринити
Сотрудник Тринити
Сообщения: 5061
Зарегистрирован: 11 фев 2004, 15:49
Откуда: Москва
Контактная информация:

Сообщение exLH » 06 июн 2007, 10:02

Оказалось, там те же два scsi канала на 4 и 8 дисков
Что за чушь? Поясните свои слова...

serpet
Advanced member
Сообщения: 59
Зарегистрирован: 27 фев 2006, 10:36

Сообщение serpet » 06 июн 2007, 10:46

exLH писал(а):Оказалось, там те же два scsi канала на 4 и 8 дисков
Что за чушь? Поясните свои слова...
Я сам в шоке. Массив организован двумя внутренними scsi каналами. На одном канале 4 диска. На втором 8. Диск со сдохшей электроникой вешает весь канал. Массив выдает следующее сообщение: chl=5 scsi channel failure.
Замена диска на рабочий вернула канал в работу, естесственно с разваленным рейдом.

Аватара пользователя
a_shats
Advanced member
Сообщения: 5010
Зарегистрирован: 27 авг 2002, 10:55
Откуда: Москва
Контактная информация:

Сообщение a_shats » 06 июн 2007, 10:59

Эээээ... Во-первых: SAS = Serial Attached SCSI.
Во-вторых, через управление массивом Вы можете посмотреть Event Log этого самого массива - там должно быть полнее описано, что именно случилось.
В-третьих, в нем имеется средство для восстановления после подобных отказов - нечто вроде Trust Array. Суть - пересоздание/поднятие массива без инициализации.

serpet
Advanced member
Сообщения: 59
Зарегистрирован: 27 фев 2006, 10:36

Сообщение serpet » 06 июн 2007, 11:25

a_shats писал(а):Эээээ... Во-первых: SAS = Serial Attached SCSI.
Во-вторых, через управление массивом Вы можете посмотреть Event Log этого самого массива - там должно быть полнее описано, что именно случилось.
В-третьих, в нем имеется средство для восстановления после подобных отказов - нечто вроде Trust Array. Суть - пересоздание/поднятие массива без инициализации.
Вот-вот. меня тоже расшифровка SAS сильно обнадежила. Однако, суровая действительность показала, что, по крайней мере, Infortrend все равно имеет для них общую шину. Кроме это сообщения в эвентах ничего нет.
Да собственно они особо и не скрывают это, если посмотреть configuration list, то видно, что первые 4 диска - Chl:2, следующие 8 - Chl:5.
Если бы они это описали в описании девайса.... Падонки.
Trust Array там не нашел. Что он может сделать? Рейд то все равно failed.

Аватара пользователя
exLH
Сотрудник Тринити
Сотрудник Тринити
Сообщения: 5061
Зарегистрирован: 11 фев 2004, 15:49
Откуда: Москва
Контактная информация:

Сообщение exLH » 06 июн 2007, 11:51

serpet
То что вы пишете, как минимум, не соответствует действительности. Давайте будем вести предметный разговор с указанием названий конкретных моделей и конкретных конфигураций. Чтобы себя не путать, да и других тоже.

serpet
Advanced member
Сообщения: 59
Зарегистрирован: 27 фев 2006, 10:36

Сообщение serpet » 06 июн 2007, 12:03

exLH писал(а):serpet
То что вы пишете, как минимум, не соответствует действительности. Давайте будем вести предметный разговор с указанием названий конкретных моделей и конкретных конфигураций. Чтобы себя не путать, да и других тоже.
Модель Infortrend S12F-R1420. Учитывая, что у разработчиков в разных моделях обычно архитектура не шибко отличается, то с большой долей вероятности и в других моделях с SAS винтами этой фирмы тоже самое. Поэтому, Вы можете проверить данный факт на одном из своих массивов Infortrend.
Надеюсь диск с битой электроникой у вас есть ;)

Аватара пользователя
gs
Сотрудник Тринити
Сотрудник Тринити
Сообщения: 16650
Зарегистрирован: 23 авг 2002, 17:34
Откуда: Москва
Контактная информация:

Сообщение gs » 06 июн 2007, 13:00

У Вас похоже очень качественные снаряды, раз попадают в одну воронку несколько раз. Я за десять лет своей карьеры могу по пальцам одной руки сосчитать развалы массивов по ЭТОЙ причине.
Есть подозрение, что виноват рыжий чуб или hands.dll - а против них техника бессильна.

Кроме того, есть сильное подозрение, что Вы не очень поняли устройство массива (например считаете мультилейн одним портом или что-то типа того).

Аватара пользователя
exLH
Сотрудник Тринити
Сотрудник Тринити
Сообщения: 5061
Зарегистрирован: 11 фев 2004, 15:49
Откуда: Москва
Контактная информация:

Сообщение exLH » 06 июн 2007, 13:48

Модель Infortrend S12F-R1420
Уже лучше. осталось только привести конфигурацию (ее в текстовом виде можно скопировать из raidwatch) и лог ошибок.

serpet
Advanced member
Сообщения: 59
Зарегистрирован: 27 фев 2006, 10:36

Сообщение serpet » 06 июн 2007, 15:12

gs писал(а):У Вас похоже очень качественные снаряды, раз попадают в одну воронку несколько раз. Я за десять лет своей карьеры могу по пальцам одной руки сосчитать развалы массивов по ЭТОЙ причине.
Есть подозрение, что виноват рыжий чуб или hands.dll - а против них техника бессильна.

Кроме того, есть сильное подозрение, что Вы не очень поняли устройство массива (например считаете мультилейн одним портом или что-то типа того).
У меня за 10 лет карьеры это тоже всего 3-й случай.
Первые два раза на Сигейтах. Снаряды в данном случае Fujitsu max3147RC. Кто виноват неважно. Важно, что SAS в данной реализации от этого не спас, а должен.

Судя по тому, как диски описаны в системе, по сообщению об ошибке и по тому, что замена диска восстанавливает работу всех восьми на канале, ИМХО, даже неопытный человек может сказать, что один убитый диск кладет всю полку. Это не теоретический домысел, это практический факт, подтвержденный экспериментально. И не важно как это называть "мультилейн" или как-то еще. Пишет: SCSI Channel Failure. При этом каждый диск на канале имеет свой ID. Отсюда и выводы.

Цепляю конфу и лог.
2007-06-04 18:25:31 - диск начал дохнуть.
2007-06-04 18:26:41 - 8 дисков на chl:5 офлайн.
Вложения
S12F.txt
Конфа
(5.52 КБ) 912 скачиваний
S12Flog.txt
Лог
(4.57 КБ) 924 скачивания

Аватара пользователя
gs
Сотрудник Тринити
Сотрудник Тринити
Сообщения: 16650
Зарегистрирован: 23 авг 2002, 17:34
Откуда: Москва
Контактная информация:

Сообщение gs » 06 июн 2007, 15:22

Неправильные выводы. Любой рэйд контроллер может лечь при наличии канальных проблем. Неважно какой канал - если есть дребезг, контроллеру может снести крышу. От таких вещей защититься невозможно. Ну а что скази ченел - а разве там должно быть что-то иное, не скази?

А логи ща глянем.

serpet
Advanced member
Сообщения: 59
Зарегистрирован: 27 фев 2006, 10:36

Сообщение serpet » 06 июн 2007, 15:38

gs писал(а):Неправильные выводы. Любой рэйд контроллер может лечь при наличии канальных проблем. Неважно какой канал - если есть дребезг, контроллеру может снести крышу. От таких вещей защититься невозможно. Ну а что скази ченел - а разве там должно быть что-то иное, не скази?
Там должно быть последовательное скази, а не параллельное. Если бы они отказались от порочной общей шины SCSI, то и проблемы наверняка такой не возникло. Смысл городить SAS с общим скази ченелом...
Контроллера там два, redundant. Переключаются они без проблем при выходе из строя одного. Если бы не общая шина дисков, не было бы и вопроса.
Впрочем, это конечно пустой разговор, что там должно быть... Хотелось бы просто знать, у всех такая беда в массивах или только в Infortrend.

Аватара пользователя
gs
Сотрудник Тринити
Сотрудник Тринити
Сообщения: 16650
Зарегистрирован: 23 авг 2002, 17:34
Откуда: Москва
Контактная информация:

Сообщение gs » 06 июн 2007, 15:43

С чего Вы взяли, что там общая шина? На сас она не может быть по определению. Могут быть лишь экспандеры - но это совсем другая штука.
Скази - это не значит параллельная или последовательная шина. Скази - это набор стандартов, как физического, так и логического уровня. Адресация девайсов в любом случае работает по протоколу SCSI Command Set и с точки зрения фирмвари сас чип ничем не отличается от сказевого. О чем контроллер и говорит собственно.

У Вас просто проблемный диск. Он еще при инициализации ремап выдал, а потом совсем сдох. Поменять его, да и все.

serpet
Advanced member
Сообщения: 59
Зарегистрирован: 27 фев 2006, 10:36

Сообщение serpet » 06 июн 2007, 15:47

А я думал, что с ним делать... :)
А рейд улетевший, когда там будет рабочая база мне тоже поменять и все?

serpet
Advanced member
Сообщения: 59
Зарегистрирован: 27 фев 2006, 10:36

Сообщение serpet » 06 июн 2007, 15:49

Если у САС она не может быть по определению, почему тогда все 8 дисков в офлайне при наличии одного ломаного?
Я в курсе, что SAS - это serial attached scsi. Только далеко не сериал он внутри этого массивчега.

Ответить

Вернуться в «Массивы - RAID технологии.»

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и 16 гостей