Bad Block discovered ADAPTEC ASR-6405

Поломалось, посыпалось, не работает...

Модераторы: Trinity admin`s, Free-lance moderator`s

klev
Junior member
Сообщения: 17
Зарегистрирован: 14 июн 2012, 11:48
Откуда: Санкт-Петербург

Bad Block discovered ADAPTEC ASR-6405

Сообщение klev » 04 окт 2013, 00:43

Здравствуйте.
Помогите пожалуйста разобраться.
RAID контроллер ADAPTEC ASR-6405 Adaptec AFM-600, ADAPTEC Flash Module 600
2шт - 450Gb, серверный жесткий диск Seagate ST3450857SS, 15000rpm, 16Mb, SAS
Примерно две неделе назад при ошибки обновления веб проекта получилась нехватка места на диске. И сервер завис. Помогла его перезагрузка. Почистил место. Всроде все работало.
Но потом сервер опять умер. Помогла только перезагрузка. Сегодня ситуация повторилась.

В логах нашел вот такую запись
Sep 23 13:21:30 SPY Adaptec Storage Manager Agent: [418] Bad Block discovered: controller 1 (5f3f000).
Sep 23 18:11:40 SPY Adaptec Storage Manager Agent: [418] Bad Block discovered: controller 1 (4e87580).

Sep 26 04:16:01 SPY Adaptec Storage Manager Agent: [418] Bad Block discovered: controller 1 (1c8fb000).

Oct 3 21:41:25 SPY Adaptec Storage Manager Agent: [418] Bad Block discovered: controller 1 (1d0fb400).

Ниже прикрепил логи более детальные
Как я понимаю проблема с дисками?
Команда arcconf getconfig pd и ld не показывают ошибок
Если мне предстоит замена диска как понять какой менять и как правильно сделать эту процедуру. К сожалению в дата центре таких услуг мне не оказывают. Только если горячая замена. Как я понимаю горячая замена у меня возможна и должна работать. Но как точно в этом удостоверится. И возможна ли потеря данных при ней?
Заранее спасибо.

По логам вроде ошибка вот с этим диском 6SK0J5QZ0000N141K3LX
Вложения
RaidErrA.log
(760 байт) 690 скачиваний
RaidEvtA.log
(162.72 КБ) 683 скачивания

Flyer
Advanced member
Сообщения: 53
Зарегистрирован: 27 янв 2012, 15:37
Откуда: SPb

Re: Bad Block discovered ADAPTEC ASR-6405

Сообщение Flyer » 04 окт 2013, 11:55

Я бы для начала глянул
sg_map -i
и для каждого найденного физ.диска
smartctl -x /dev/sg[n]

klev
Junior member
Сообщения: 17
Зарегистрирован: 14 июн 2012, 11:48
Откуда: Санкт-Петербург

Re: Bad Block discovered ADAPTEC ASR-6405

Сообщение klev » 04 окт 2013, 13:32

Код: Выделить всё

[root@SPY ~]# sg_map -i
/dev/sg0  /dev/sda  Adaptec   raid_1            V1.0
/dev/sg1  SEAGATE   ST3450857SS       0006
/dev/sg2  SEAGATE   ST3450857SS       0006

[root@SPY ~]# smartctl -x /dev/sg0
smartctl 5.43 2012-06-30 r3573 [x86_64-linux-2.6.32-279.9.1.el6.x86_64] (local build)
Copyright (C) 2002-12 by Bruce Allen, http://smartmontools.sourceforge.net

Vendor:               Adaptec
Product:              raid_1
Revision:             V1.0
User Capacity:        449,887,338,496 bytes [449 GB]
Logical block size:   512 bytes
scsiModePageOffset: response length too short, resp_len=4 offset=4 bd_len=0
>> Terminate command early due to bad response to IEC mode page
A mandatory SMART command failed: exiting. To continue, add one or more '-T permissive' options.


[root@SPY ~]# smartctl -x /dev/sg0
smartctl 5.43 2012-06-30 r3573 [x86_64-linux-2.6.32-279.9.1.el6.x86_64] (local build)
Copyright (C) 2002-12 by Bruce Allen, http://smartmontools.sourceforge.net

Vendor:               Adaptec
Product:              raid_1
Revision:             V1.0
User Capacity:        449,887,338,496 bytes [449 GB]
Logical block size:   512 bytes
scsiModePageOffset: response length too short, resp_len=4 offset=4 bd_len=0
>> Terminate command early due to bad response to IEC mode page
A mandatory SMART command failed: exiting. To continue, add one or more '-T permissive' options.
[root@SPY ~]# ^C
[root@SPY ~]# ^C
[root@SPY ~]# smartctl -x /dev/sg1
smartctl 5.43 2012-06-30 r3573 [x86_64-linux-2.6.32-279.9.1.el6.x86_64] (local build)
Copyright (C) 2002-12 by Bruce Allen, http://smartmontools.sourceforge.net

Vendor:               SEAGATE
Product:              ST3450857SS
Revision:             0006
User Capacity:        450,098,159,616 bytes [450 GB]
Logical block size:   512 bytes
Logical Unit id:      0x5000c5003a355e47
Serial number:        6SK0HK970000N141HW22
Device type:          disk
Transport protocol:   SAS
Local Time is:        Fri Oct  4 13:48:22 2013 MSK
Device supports SMART and is Enabled
Temperature Warning Enabled
SMART Health Status: OK

Current Drive Temperature:     30 C
Drive Trip Temperature:        68 C
Elements in grown defect list: 0
Vendor (Seagate) cache information
  Blocks sent to initiator = 672535991
  Blocks received from initiator = 3118030579
  Blocks read from cache and sent to initiator = 57797565
  Number of read and write commands whose size <= segment size = 42144381
  Number of read and write commands whose size > segment size = 70
Vendor (Seagate/Hitachi) factory information
  number of hours powered up = 19704.30
  number of minutes until next internal SMART test = 31

Error counter log:
           Errors Corrected by           Total   Correction     Gigabytes    Total
               ECC          rereads/    errors   algorithm      processed    uncorrected
           fast | delayed   rewrites  corrected  invocations   [10^9 bytes]  errors
read:   22201270        0         0  22201270   22201270        344.338           0
write:         0        0         0         0          0       3815.393           0
verify:     2008        0         0      2008       2008          0.000           0

Non-medium error count:        7

[GLTSD (Global Logging Target Save Disable) set. Enable Save with '-S on']
No self-tests have been logged
Long (extended) Self Test duration: 4800 seconds [80.0 minutes]

Background scan results log
  Status: waiting until BMS interval timer expires
    Accumulated power on time, hours:minutes 19704:18 [1182258 minutes]
    Number of background scans performed: 275,  scan progress: 0.00%
    Number of background medium scans performed: 1234
Protocol Specific port log page for SAS SSP
relative target port id = 1
  generation code = 92
  number of phys = 1
  phy identifier = 0
    attached device type: end device
    attached reason: unknown
    reason: hard reset
    negotiated logical link rate: phy enabled; 6 Gbps
    attached initiator port: ssp=1 stp=1 smp=1
    attached target port: ssp=0 stp=0 smp=0
    SAS address = 0x5000c5003a355e45
    attached SAS address = 0x50000d1103a22700
    attached phy identifier = 3
    Invalid DWORD count = 0
    Running disparity error count = 0
    Loss of DWORD synchronization = 229
    Phy reset problem = 0
    Phy event descriptors:
     Invalid word count: 0
     Running disparity error count: 0
     Loss of dword synchronization count: 229
     Phy reset problem count: 0
relative target port id = 2
  generation code = 92
  number of phys = 1
  phy identifier = 1
    attached device type: no device attached
    attached reason: unknown
    reason: unknown
    negotiated logical link rate: phy enabled; 1.5 Gbps
    attached initiator port: ssp=0 stp=0 smp=0
    attached target port: ssp=0 stp=0 smp=0
    SAS address = 0x5000c5003a355e46
    attached SAS address = 0x0
    attached phy identifier = 0
    Invalid DWORD count = 0
    Running disparity error count = 0
    Loss of DWORD synchronization = 0
    Phy reset problem = 0
    Phy event descriptors:
     Invalid word count: 0
     Running disparity error count: 0
     Loss of dword synchronization count: 0
     Phy reset problem count: 0

-----------------
По второму больше выдало

 664 19437:18  000000001b98b09b  [3,11,0]   Recovered via rewrite in-place
 665 19437:18  000000001b98b09c  [3,11,0]   Recovered via rewrite in-place
 666 19437:18  000000001b98b0ad  [3,11,0]   Recovered via rewrite in-place
 667 19437:19  000000001b98b0ae  [3,11,0]   Recovered via rewrite in-place
 668 19437:19  000000001b98b0be  [3,11,0]   Recovered via rewrite in-place
 669 19437:19  000000001b98b0bf  [3,11,0]   Recovered via rewrite in-place
 670 19437:19  000000001b98b0d0  [3,11,0]   Recovered via rewrite in-place
 671 19437:19  000000001b98b0d1  [3,11,0]   Recovered via rewrite in-place
 >>>> log truncated, fetched 16124 of 50372 available bytes
Protocol Specific port log page for SAS SSP
relative target port id = 1
  generation code = 92
  number of phys = 1
  phy identifier = 0
    attached device type: end device
    attached reason: unknown
    reason: hard reset
    negotiated logical link rate: phy enabled; 6 Gbps
    attached initiator port: ssp=1 stp=1 smp=1
    attached target port: ssp=0 stp=0 smp=0
    SAS address = 0x5000c5003a367461
    attached SAS address = 0x50000d1103a22700
    attached phy identifier = 2
    Invalid DWORD count = 255
    Running disparity error count = 255
    Loss of DWORD synchronization = 28290
    Phy reset problem = 0
    Phy event descriptors:
     Invalid word count: 255
     Running disparity error count: 255
     Loss of dword synchronization count: 28290
     Phy reset problem count: 0
relative target port id = 2
  generation code = 92
  number of phys = 1
  phy identifier = 1
    attached device type: no device attached
    attached reason: unknown
    reason: unknown
    negotiated logical link rate: phy enabled; 1.5 Gbps
    attached initiator port: ssp=0 stp=0 smp=0
    attached target port: ssp=0 stp=0 smp=0
    SAS address = 0x5000c5003a367462
    attached SAS address = 0x0
    attached phy identifier = 0
    Invalid DWORD count = 0
    Running disparity error count = 0
    Loss of DWORD synchronization = 0
    Phy reset problem = 0
    Phy event descriptors:
     Invalid word count: 0
     Running disparity error count: 0
     Loss of dword synchronization count: 0
     Phy reset problem count: 0
[root@SPY ~]#
Последний раз редактировалось klev 04 окт 2013, 13:43, всего редактировалось 1 раз.

Flyer
Advanced member
Сообщения: 53
Зарегистрирован: 27 янв 2012, 15:37
Откуда: SPb

Re: Bad Block discovered ADAPTEC ASR-6405

Сообщение Flyer » 04 окт 2013, 13:41

Если отдельные физ. диски видны как /dev/sd[n] или известно, какие /dev/sg[n] им соответствуют, то не надо.
Главное, получить SMART нужных дисков.
Если диски SATA и видны только как /dev/sg[n], то ещё, возможно, придётся указать -d sat для smartctl

Но вообще-то, ST3450857SS - это SAS Cheetah 15K.7

klev
Junior member
Сообщения: 17
Зарегистрирован: 14 июн 2012, 11:48
Откуда: Санкт-Петербург

Re: Bad Block discovered ADAPTEC ASR-6405

Сообщение klev » 04 окт 2013, 13:44

Спасибо. Я честно говоря не особо в этом. Я выложил вывод команды.

Flyer
Advanced member
Сообщения: 53
Зарегистрирован: 27 янв 2012, 15:37
Откуда: SPb

Re: Bad Block discovered ADAPTEC ASR-6405

Сообщение Flyer » 04 окт 2013, 13:49

По второму, который и интересен, лог обрезан сверху.
smartctl -x /dev/sg2 >sg2.log

klev
Junior member
Сообщения: 17
Зарегистрирован: 14 июн 2012, 11:48
Откуда: Санкт-Петербург

Re: Bad Block discovered ADAPTEC ASR-6405

Сообщение klev » 04 окт 2013, 13:55

Вот он
Вложения
sg2.log
(52.91 КБ) 756 скачиваний

Flyer
Advanced member
Сообщения: 53
Зарегистрирован: 27 янв 2012, 15:37
Откуда: SPb

Re: Bad Block discovered ADAPTEC ASR-6405

Сообщение Flyer » 04 окт 2013, 14:51

А вот этот диск мне не нравится.
Лог тоже обрезан (это уже smartctl делает, я правил LOG_RESP_LONG_LEN в scsiprint.cpp, чтобы не резал), но и по тому, что есть - [3,11,0], иной раз повторяющиеся на тех же секторах - диску плохо.
Я бы уже искал возможность его заменить, доверя ему нет.

Также:
Cбэкапить с этого сервера всё ценное!!!

Прогнать smartctl -t long /dev/sg1 (лучше - при минимальной нагрузке на массив, может тормозить), дождаться окончания и посмотреть результат (т.е., убедиться, что этот диск в порядке, если нет - массив может умереть при ребилде).

Прогнать smartctl -t long /dev/sg2 - скорее всего, где-нибудь споткнётся. Если нет - принудительно почекать/отребилдить массив. Принудительно почекать/пофиксить все FS (размонтировав!, т.е., вероятно, при перезагрузке).

klev
Junior member
Сообщения: 17
Зарегистрирован: 14 июн 2012, 11:48
Откуда: Санкт-Петербург

Re: Bad Block discovered ADAPTEC ASR-6405

Сообщение klev » 04 окт 2013, 14:55

Все ценное забекапил и купил два точно таких же новых диска. Сегодня еду в датацентр и мне придется как то менять плохой диск. Что я не когда не делал... Надеюсь ребята в датацентре помогут хотя у них нет таких услуг.

Я думал поставить третий диск и постараться сделать на него образ системы. После этого вынуть плохой диск и поставить на мето него новый. По идее же adaptec сам распознает диск и запишет на него всю инфу?

Очень волнует эта процедура. Очень не хочеться по новой поднимать сервер и настраивать.

Flyer
Advanced member
Сообщения: 53
Зарегистрирован: 27 янв 2012, 15:37
Откуда: SPb

Re: Bad Block discovered ADAPTEC ASR-6405

Сообщение Flyer » 04 окт 2013, 15:24

Сначала убедиться, что с первым диском всё хорошо!

Потом (если действительно корзиной поддерживается HotSwap, если нет - то через выключение) воткнуть на свободное место новый.
Через arcconf назначть его spare, возможно, сначала проинитив, если потребуется.
(Правда, я новый диск сначала конфигурю отдельным томом и проливаю нулями, на всяк случ)
Назначить через arcconf второй диск мёртвым, при этом должен пойти ребилд массива на spare.
Дождаться, на всяк случ, завершения ребилда. После этого дёргать проблемный (опять же, возможно, через выключение).
Чтобы определить, где стоит проблемный, можно через arcconf им "поморгать".


Имей в виду, что исходная проблема могла быть не только из-за дисков, но и из-за повреждения FS.

klev
Junior member
Сообщения: 17
Зарегистрирован: 14 июн 2012, 11:48
Откуда: Санкт-Петербург

Re: Bad Block discovered ADAPTEC ASR-6405

Сообщение klev » 04 окт 2013, 15:32

СПАСИБО!

FS - файловая система?

У меня проблема началась после не удачного обновления проекта. У меня получилась не хватка место и сервер повис.

А как можно понять что это FS?
И можно ли ее вылечить?

А как через arcconf им "поморгать" ?

Flyer
Advanced member
Сообщения: 53
Зарегистрирован: 27 янв 2012, 15:37
Откуда: SPb

Re: Bad Block discovered ADAPTEC ASR-6405

Сообщение Flyer » 04 окт 2013, 15:52

FS можно почекать (лучше - размонтированную и для начала - в RO) и попытаться понять, всё ли с ней хорошо.


arcconf identify

klev
Junior member
Сообщения: 17
Зарегистрирован: 14 июн 2012, 11:48
Откуда: Санкт-Петербург

Re: Bad Block discovered ADAPTEC ASR-6405

Сообщение klev » 04 окт 2013, 16:01

Если подытожить то делать нужно по пунктам
1) Сервер принесут в специальную комнату. Я на всякий случай от рублю его от интернета. Его можно будет включать, выключать.
2) Прогнать smartctl -t long /dev/sg1 (лучше - при минимальной нагрузке на массив, может тормозить), дождаться окончания и посмотреть результат (т.е., убедиться, что этот диск в порядке, если нет - массив может умереть при ребилде).
3) Прогнать smartctl -t long /dev/sg2 - если ошибка. То диск нужно менять. Я подключу третий новый диск в свободное место и попробую сделать туда бекап утилитой dd.

4) Если ошибок нет. То диск все равно меняю. Потом просто делаю проверку его уже не в массиве. Мало ли живой. И тогда у меня будет 4 винта в место 2. Тогда возможно стоит делать рейд 10? ( Безопасно ли это будет сделать?)
5) Моргаю arcconf identify смотри по сиринику дополнительно какой диск меняю.
6) Вытаскиваю диск при выключенной системе (на всякий случай). Ставлю новый
7) Включаю. Диск должен сам определиться и встать в массив. Третий диск с бекапап можно оставить в системе?
8) Если не определился при загрузки вхожу в утилиту нахожу диск и подключаю его к массиву. Диск должен будет встать в массив.
9) Включаю проверяю что все за грузилось и снова провожу проверку smartctl -t long /dev/sg1 и smartctl -t long /dev/sg2
Если все ок то хорошо если нет то это файловая система. А какой командой можно ее починить?

Сори за много глупых вопросов, спасибо вам что помогаете
По файловой системе нашел такое руководство Поиск и исправление ошибок файловой системы CENTOS

У меня система CENTOS

Flyer
Advanced member
Сообщения: 53
Зарегистрирован: 27 янв 2012, 15:37
Откуда: SPb

Re: Bad Block discovered ADAPTEC ASR-6405

Сообщение Flyer » 04 окт 2013, 16:30

smartctl -t long /dev/sg1 - будет идти ~80 минут
smartctl -t long /dev/sg2 - если всё равно меняем, можно сделать потом, на стенде. И не только это.
Если хочется сбэкапиться dd на другой диск - сконфигурить этот диск как volume, чтобы увиделся.
Лить dd смонтированную FS - не лучшая идея. Я бы загрузился с CD или с флэшки, в крайнем случае - в single.
Литься будет от двух часов и более.
Новый диск сам подхватиться не обязан - может потребоваться его проинитить и назначить spare.
Ребилд тоже будет идти от полутора-двух часов и до...
Оставшемуся в массиве диску -t long второй раз давать смысла не много, а новому - я бы прогнал _до_ того, как ставить в массив. И нулями пролил бы.
Третий диск - главное, чтобы он нигде случайно не перепутался (например, в fstab) и не смонтировался.

man fsck
man e2fsck или что там

Flyer
Advanced member
Сообщения: 53
Зарегистрирован: 27 янв 2012, 15:37
Откуда: SPb

Re: Bad Block discovered ADAPTEC ASR-6405

Сообщение Flyer » 04 окт 2013, 16:53

fsck:
-y - не самая хорошая идея, я бы сначала глянул -n
-c - медленно и в большинстве случаев бесполезно

Ответить

Вернуться в «Массивы - Технические вопросы, решение проблем.»

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и 21 гость