Странная проблема с дисками

У вас сложности? Наши специалисты постараются помочь вам. Если вы сами сталкивались с похожими проблемами - поделитесь опытом.

Модераторы: Trinity admin`s, Free-lance moderator`s

Ответить
porutchik
member
Сообщения: 23
Зарегистрирован: 26 июл 2008, 17:00
Откуда: Москва

Странная проблема с дисками

Сообщение porutchik » 23 окт 2008, 14:11

В прошлую среду (15.10.2008) вечером началась довольно необычная
проблема на наших серверах. Линукс стал писать в логи

ata2.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x0
ata2.00: (irq_stat 0x40000001)
ata2.00: cmd b0/d5:01:09:4f:c2/00:00:00:00:00/00 tag 0 cdb 0x0 data 512 in
res 51/04:05:b3:4f:c2/00:00:00:00:00/00 Emask 0x1 (device error)
ata2.00: configured for UDMA/133
ata2: EH complete
SCSI device sdb: 976773168 512-byte hdwr sectors (500108 MB)
SCSI device sdb: drive cache: write back

Происходит это только на дисках WD вне зависимости от модели. В одном сервере даже стоят 2 Seagate и 1 WD. В логи пишется только о WD. SMART ошибок не показывает.

Код: Выделить всё

SMART Self-test log structure revision number 1
Num  Test_Description    Status                  Remaining  LifeTime(hours)  LBA_of_first_error
# 1  Extended offline    Completed without error       00%      1340         -
Что это может быть? Проблемы с электричеством?

and3008
Заслуженный сетевик
Сообщения: 1109
Зарегистрирован: 03 янв 2004, 23:30
Откуда: Н.Новгород

Сообщение and3008 » 23 окт 2008, 18:24

Диски подключены по SATA? Проверьте кабели. Выключите/включите их в диски.

porutchik
member
Сообщения: 23
Зарегистрирован: 26 июл 2008, 17:00
Откуда: Москва

Сообщение porutchik » 23 окт 2008, 18:29

and3008 писал(а):Диски подключены по SATA? Проверьте кабели. Выключите/включите их в диски.
Проблема одновременно появилась на 10 разных серверах в разных помещениях. Думаете в кабелях дело?

and3008
Заслуженный сетевик
Сообщения: 1109
Зарегистрирован: 03 янв 2004, 23:30
Откуда: Н.Новгород

Сообщение and3008 » 23 окт 2008, 22:59

Сегодня умерли в массиве сразу 2 диска. Даже hot-spare заюзаться не успел. Ясен пень кирдык массиву, восстанавливаем все их бакапа.

Буду смотреть что за модели дисков.

Аватара пользователя
Stranger03
Сотрудник Тринити
Сотрудник Тринити
Сообщения: 12979
Зарегистрирован: 14 ноя 2003, 16:25
Откуда: СПб, Екатеринбург
Контактная информация:

Сообщение Stranger03 » 27 окт 2008, 09:55

and3008 писал(а):Сегодня умерли в массиве сразу 2 диска.
Как правило 2-а диска сразу не умирают. На нашей практике такого не было. Если только один диск умер давно, второй потом за ним, а админ не уследил. Чаще бывает что один диск вылетает и тащит за ним второй (так называемый soft error). Но эта ситуация очень быстро восстанавливается правильной последовательностью.
По дискам, в последнее время наблюдается крайне не устойчивая работа Сегейтов серии AS с Адаптеками. Вываливаются из массива в непонятных масштабах. Лечится заменой дисков на Хитачи.

Аватара пользователя
gs
Сотрудник Тринити
Сотрудник Тринити
Сообщения: 16650
Зарегистрирован: 23 авг 2002, 17:34
Откуда: Москва
Контактная информация:

Сообщение gs » 27 окт 2008, 10:16

Поправка - проблема имеется только между сигейтами 7200.11 и адаптеками серии 5000. Остальные сочетания вроде живут исправно.

porutchik
member
Сообщения: 23
Зарегистрирован: 26 июл 2008, 17:00
Откуда: Москва

Сообщение porutchik » 27 окт 2008, 11:50

gs писал(а):Поправка - проблема имеется только между сигейтами 7200.11 и адаптеками серии 5000. Остальные сочетания вроде живут исправно.
Мы на выходных заменили в зеркалах половину WD5001ABYS на ST3500320NS. Сегодня меняем вторую половину. Рейды софтовые линуксовые.
На двух серверах слетала файловая система. Так что ошибка не безобидная.

Loco
Advanced member
Сообщения: 268
Зарегистрирован: 05 окт 2006, 12:58
Откуда: Moscow

Сообщение Loco » 27 окт 2008, 18:09

Была проблема с терабайтниками от WD, именно в такой конфе: линуксовый RAID. Выпадали из массива, или что-то подобное, точно сейчас не скажу, победили только заменой на Seagate, 120 штук заменили.

porutchik
member
Сообщения: 23
Зарегистрирован: 26 июл 2008, 17:00
Откуда: Москва

Сообщение porutchik » 27 окт 2008, 18:51

Loco писал(а):Была проблема с терабайтниками от WD, именно в такой конфе: линуксовый RAID. Выпадали из массива, или что-то подобное, точно сейчас не скажу, победили только заменой на Seagate, 120 штук заменили.
У нас вот не выпадают... Правда есть подозрение, что данные там рассинхронизировались, потому что fsck начал кучу ошибок находить.
Молюсь, чтобы это не была общая проблема, которую диски сигейт просто игнорируют :)

Аватара пользователя
Stranger03
Сотрудник Тринити
Сотрудник Тринити
Сообщения: 12979
Зарегистрирован: 14 ноя 2003, 16:25
Откуда: СПб, Екатеринбург
Контактная информация:

Сообщение Stranger03 » 28 окт 2008, 08:08

porutchik писал(а):Рейды софтовые линуксовые.
Вот это ключевая фраза.

Ответить

Вернуться в «Серверы - Решение проблем»

Кто сейчас на конференции

Сейчас этот форум просматривают: Google [Bot] и 19 гостей