В среду (05.10.2011) утром сервер оказался в нерабочем состоянии, причем перезагружались и остальные 2 сервера, из чего я сделал вывод, что ночью снова надолго отключали электричество, и ups-ы отрубали серваки.
При загрузке на стадии инициализации raid-контроллера была ошибка
Покумекав, я решился нажать F2, и система (Win 2003) успешно загрузилась.1779 - Slot 6 Drive Array - Replacement drive(s) detected OR previosly failed drive(s) now appear to be operational:
Port 1I: Box 1:Bays 1,3
Logical drive(s) disabled due to possible data loss.
Press F1 to continue with logical drive(s) disabled
Press F2 to accept data loss and to re-enabled logical drives
Первый раз я решил, что это случайный глюк...
Ситуация повторилась на следующий день. Тогда я заказал винты на замену, понадеявшись, что до выходных сервер протянет. Ситуация повторилась еще раза 3-4, при этом между сбоями система нормально работала (на сервере висит AD, DNS, лежат общие файлы и базы 1с тоже в файловом виде). В это время слил бэкапы на другой сервер. К сожалению, не сделал образ самой системы, т.к. не хотел дополнительно вырубать сервер... В общем, суперкритичной ситуация не является, если не считать потерянного времени на восстановление Win, AD и, скорее всего, изменений в файлах и 1с за 1-2 дня.
В пятницу привезли новые диски, SEAGATE Constellation ES 1Тб, SAS, 7200об/мин [st1000nm0001] - решил, что 7200 rpm вполне хватит, т.к. пользователей немного. Ну и я начал пробовать...
За эти сутки положительных результатов не добился, кроме разве того, что загрузился с CD и через Acronis сделал образ диска C.
Периодически отваливаются диски 1 (часто),3 (очень часто) и 5 (редко). При этом после перезагрузки все диски могут гореть зеленым. В один момент я заменил диск 3 на новый, чтобы контроллер взял его в работу, но, кажется, этого не произошло.
При загрузке нередко вылезает описанная ошибка 1779 или
Когда через F8 заходишь в настройки контроллера, почти всегда статус массива и дисков ОК.1789 "Check Cables or replace the following drive(s): Port 1I:Box 1:Bay 1"
Вопросы...
Как правильно поступить дальше, с минимальными потерями времени и информации?
Каковы возможные причины выхода сразу нескольких дисков из строя?
Надо отметить, что за последние полтора года, после переезда в новое помещение, в серверной часто были проблемы с охлаждением, и сервер не раз автоматически вырубался из-за перегрева. Сейчас ситуация улучшилась, но постоянных 18 град. там все равно не бывает, всегда выше, примерно 23 град.
Может ли быть, что дело все-таки не в дисках, а в контроллере или в корзине?
Ну и какие еще мысли по теме будут...
Понимаю, что в субботу ночью вряд ли тут отпишутся сто человек, но вдруг хоть кто-то