Добрый день.
На этой неделе посыпался у нас массив 5-й на Adaptec 3805.
Один из 5-ти SATA дисков пропал из поля зрения контроллера, а когда появился, массив пошёл ребилдиться на него.
К сожалению HotSpare дисков в машине не оказалось.
Ребилд проходил до 50% и загибался снова.
К моменту, когда технический персонал обнаружил проблему, сервер работал. Однако, через пару часов (по какой-то непонятной мне причине) партиция этого массива отвалилась (OS - Ubuntu 12.04 LTS). Перезагрузка сервера привела к неожиданному результату. Ошибка mce модуля Some CPUs didn't answer in synchronization. Machine check: Processor context corrupt. Kernel panic - not syncing: Fatal machine check on current CPU.
Я уж стал грешить на кривую память, на проблему кэша cpu и ещё бог знает на что. Однако после добавления живого HDD и ребилда массива на него всё как бы заработало.
Отсюда вопросы к знатокам:
1. Я так понимаю это Adaptec отрубил рэйд дабы "ещё кто не загнулся". Нафига он это делает?! Как это отключить?
2. Чего это mce взбеленился, и как (если такое повторится) его грамотно успокоить?
Adaptec 3805 + RAID5 - 1 диск
Модераторы: Trinity admin`s, Free-lance moderator`s
Кто сейчас на конференции
Сейчас этот форум просматривают: нет зарегистрированных пользователей и 45 гостей