Bad Block discovered ADAPTEC ASR-6405

Поломалось, посыпалось, не работает...

Модераторы: Trinity admin`s, Free-lance moderator`s

klev
Junior member
Сообщения: 17
Зарегистрирован: 14 июн 2012, 11:48
Откуда: Санкт-Петербург

Re: Bad Block discovered ADAPTEC ASR-6405

Сообщение klev » 07 окт 2013, 16:36

Когда в дата центре подключили третий новый винчестер и загрузились по лайв cd не получилось скопировать систему. Райд виделся системой но файловая система не читалась.
Я установил в сервер еще один винчестер их стало 4, включай проблемный второй.
Когда добрался до дама, сделал верификацию через биус ADAPTEC.
Проблемный винчестер ее не прошел. Я разобрал райд и форматнул через биус Adaptec проблемный винчестер. Потом сделал его верификацию по новой. Она прошла без ошибок. На всякий случай сделал верификацию всех винчестеров той же утилитой. Все прошли.
Потом я собрал райд 10 при этом делал Clear. Райд собрался.
Установил систему и сделал проверку
smartctl -t long /dev/sg1
smartctl -t long /dev/sg2
smartctl -t long /dev/sg3
smartctl -t long /dev/sg4
Все проверки прошли.
Значит ли это что у меня была проблема с файловой системой а не с винчестером, то есть можно спокойно оставить в системе проблемный винчестер номер 2?
Да еще была такая особенность, биус adaptec подвисал когда у меня был собран raid-1 c проблемной файловой системой иногда. После создания raid-10 такой проблемы не наблюдаю.

Flyer
Advanced member
Сообщения: 53
Зарегистрирован: 27 янв 2012, 15:37
Откуда: SPb

Re: Bad Block discovered ADAPTEC ASR-6405

Сообщение Flyer » 07 окт 2013, 17:22

Адаптек (таки, BIOS, а не биус) про FS не знает ничего.
Видимо, были проблемы с поверхностью, но ремапнулись.
Я бы снова смотрел логи диска. Но ничего хорошего я от него не жду.

klev
Junior member
Сообщения: 17
Зарегистрирован: 14 июн 2012, 11:48
Откуда: Санкт-Петербург

Re: Bad Block discovered ADAPTEC ASR-6405

Сообщение klev » 07 окт 2013, 17:45

Вроде же сектора были разбросаны по всему диску проблемные. Так же вроде не бывает?
За логами буду следить. Пытался проверить еще mhdd – но он под adaptec как я понимаю не видит диски нормально. Поэтому проверить ей не получилось.

А строчка Protected by Hot-Spare : No
Это что значит, не возможно менять диск по горячему?

Код: Выделить всё

[root@localhost src]# /opt/adaptec/arcconf getconfig 1 ld
Controllers found: 1
----------------------------------------------------------------------
Logical device information
----------------------------------------------------------------------
Logical device number 0
   Logical device name                      : A
   RAID level                               : 10
   Status of logical device                 : Optimal
   Size                                     : 858102 MB
   Stripe-unit size                         : 256 KB
   Read-cache mode                          : Enabled
   Write-cache mode                         : Enabled (write-back)
   Write-cache setting                      : Enabled (write-back) when protected by battery/ZMM
   Partitioned                              : Yes
   Protected by Hot-Spare                   : No
   Bootable                                 : Yes
   Failed stripes                           : No
   Power settings                           : Disabled
   --------------------------------------------------------
   Logical device segment information
   --------------------------------------------------------
   Group 0, Segment 0                       : Present (Controller:1,Connector:0,Device:0) 6SK0HK970000N141HW22
   Group 0, Segment 1                       : Present (Controller:1,Connector:0,Device:1) 6SK0J5QZ0000N141K3LX
   Group 1, Segment 0                       : Present (Controller:1,Connector:0,Device:2) 6SK25AFG0000N33942E1
   Group 1, Segment 1                       : Present (Controller:1,Connector:0,Device:3) 6SK24KJN0000N3393Z52



Command completed successfully.
Вот еще проблемный винт. Вижу там вроде ошибку

Код: Выделить всё

smartctl 5.43 2012-06-30 r3573 [x86_64-linux-2.6.32-358.el6.x86_64] (local build)
Copyright (C) 2002-12 by Bruce Allen, http://smartmontools.sourceforge.net

Vendor:               SEAGATE 
Product:              ST3450857SS     
Revision:             0006
User Capacity:        450,098,159,616 bytes [450 GB]
Logical block size:   512 bytes
Logical Unit id:      0x5000c5003a367463
Serial number:        6SK0J5QZ0000N141K3LX
Device type:          disk
Transport protocol:   SAS
Local Time is:        Sun Oct  6 14:46:24 2013 MSK
Device supports SMART and is Enabled
Temperature Warning Enabled
SMART Health Status: OK

Current Drive Temperature:     27 C
Drive Trip Temperature:        68 C
Elements in grown defect list: 0
Vendor (Seagate) cache information
  Blocks sent to initiator = 1010371006
  Blocks received from initiator = 896241020
  Blocks read from cache and sent to initiator = 17256
  Number of read and write commands whose size <= segment size = 254102
  Number of read and write commands whose size > segment size = 0
Vendor (Seagate/Hitachi) factory information
  number of hours powered up = 19735.90
  number of minutes until next internal SMART test = 22

Error counter log:
           Errors Corrected by           Total   Correction     Gigabytes    Total
               ECC          rereads/    errors   algorithm      processed    uncorrected
           fast | delayed   rewrites  corrected  invocations   [10^9 bytes]  errors
read:       8061        0         0      8061       8062          0.325           1
write:         0        0         0         0          0        458.914           0
verify:  1838685        1         0   1838686    1838687        263.582           1

Non-medium error count:       23

[GLTSD (Global Logging Target Save Disable) set. Enable Save with '-S on']

SMART Self-test log
Num  Test              Status                 segment  LifeTime  LBA_first_err [SK ASC ASQ]
     Description                              number   (hours)
# 1  Background long   Completed                   -   19725                 - [-   -    -]

Long (extended) Self Test duration: 4800 seconds [80.0 minutes]
ниже тесты всех 4 винчестеров
Вложения
sg4_test.log
(2.09 КБ) 637 скачиваний
sg3_test.log
(2.09 КБ) 630 скачиваний
sg2_test.log
(2.1 КБ) 638 скачиваний
sg1_test.log
(2.1 КБ) 637 скачиваний

Flyer
Advanced member
Сообщения: 53
Зарегистрирован: 27 янв 2012, 15:37
Откуда: SPb

Re: Bad Block discovered ADAPTEC ASR-6405

Сообщение Flyer » 07 окт 2013, 18:27

А где же Background scan results log?

klev
Junior member
Сообщения: 17
Зарегистрирован: 14 июн 2012, 11:48
Откуда: Санкт-Петербург

Re: Bad Block discovered ADAPTEC ASR-6405

Сообщение klev » 07 окт 2013, 18:37

Я вот так думал это нужно смотреть
Нужна как то по другому?

Код: Выделить всё

[root@localhost src]# smartctl -l selftest /dev/sg2
smartctl 5.43 2012-06-30 r3573 [x86_64-linux-2.6.32-358.el6.x86_64] (local build)
Copyright (C) 2002-12 by Bruce Allen, http://smartmontools.sourceforge.net


SMART Self-test log
Num  Test              Status                 segment  LifeTime  LBA_first_err [SK ASC ASQ]
     Description                              number   (hours)
# 1  Background long   Completed                   -   19725                 - [-   -    -]

Long (extended) Self Test duration: 4800 seconds [80.0 minutes]

Flyer
Advanced member
Сообщения: 53
Зарегистрирован: 27 янв 2012, 15:37
Откуда: SPb

Re: Bad Block discovered ADAPTEC ASR-6405

Сообщение Flyer » 07 окт 2013, 18:48

Иногда можно увидеть полезную инфу в -l background

klev
Junior member
Сообщения: 17
Зарегистрирован: 14 июн 2012, 11:48
Откуда: Санкт-Петербург

Re: Bad Block discovered ADAPTEC ASR-6405

Сообщение klev » 07 окт 2013, 18:53

Вот он

На всех остальных винчестерах все без Recovered via rewrite in-place

Выкидывать винт 2?

sg2 - лог большой в файле. Но может это он старые ошибки из памяти smart берет как-то?

просто строки в точности повторяют лог с первой странице

Код: Выделить всё

669 19437:19  000000001b98b0bf  [3,11,0]   Recovered via rewrite in-place
670 19437:19  000000001b98b0d0  [3,11,0]   Recovered via rewrite in-place
671 19437:19  000000001b98b0d1  [3,11,0]   Recovered via rewrite in-place
>>>> log truncated, fetched 16124 of 50372 available bytes
если я правильно понимаю то цифра 19437:19 - это время работы винчестера с запуска. То есть ошибка относиться к первоначальной..



sg1

Код: Выделить всё

smartctl 5.43 2012-06-30 r3573 [x86_64-linux-2.6.32-358.el6.x86_64] (local build)
Copyright (C) 2002-12 by Bruce Allen, http://smartmontools.sourceforge.net


Background scan results log
  Status: waiting until BMS interval timer expires
    Accumulated power on time, hours:minutes 19775:10 [1186510 minutes]
    Number of background scans performed: 277,  scan progress: 0.00%
    Number of background medium scans performed: 1234
sg3

Код: Выделить всё

smartctl 5.43 2012-06-30 r3573 [x86_64-linux-2.6.32-358.el6.x86_64] (local build)
Copyright (C) 2002-12 by Bruce Allen, http://smartmontools.sourceforge.net


Background scan results log
  Status: waiting until BMS interval timer expires
    Accumulated power on time, hours:minutes 65:26 [3926 minutes]
    Number of background scans performed: 1,  scan progress: 0.00%
    Number of background medium scans performed: 32
sg4

Код: Выделить всё

smartctl 5.43 2012-06-30 r3573 [x86_64-linux-2.6.32-358.el6.x86_64] (local build)
Copyright (C) 2002-12 by Bruce Allen, http://smartmontools.sourceforge.net


Background scan results log
  Status: waiting until BMS interval timer expires
    Accumulated power on time, hours:minutes 61:22 [3682 minutes]
    Number of background scans performed: 1,  scan progress: 0.00%
    Number of background medium scans performed: 34
Вложения
sg2_background.log
(49.69 КБ) 628 скачиваний

Flyer
Advanced member
Сообщения: 53
Зарегистрирован: 27 янв 2012, 15:37
Откуда: SPb

Re: Bad Block discovered ADAPTEC ASR-6405

Сообщение Flyer » 07 окт 2013, 19:32

Увы, smartctl его обрезает, после 19437:19 ничего, а интереснее было бы глянуть от 19689.65 и далее.
Я у себя правлю smartctl, чтобы видеть более полный лог.

klev
Junior member
Сообщения: 17
Зарегистрирован: 14 июн 2012, 11:48
Откуда: Санкт-Петербург

Re: Bad Block discovered ADAPTEC ASR-6405

Сообщение klev » 07 окт 2013, 19:36

А если грубо говоря запомнить конец лога
>>>> log truncated, fetched 16124 of 50372 available bytes
И провести тест снова. Тогда по идее конец точность такой же должен быть ?

Просто после лога на странице 1 винт еще работал. И видимо ошибки были...

То есть если в конце нового теста будет 16124 of 50372 available bytes то ошибок больше нет? И винчестер можно оставить. А если нет то менять?

Верификацию adaptec он снова прошел без проблем сегодня утром.

Flyer
Advanced member
Сообщения: 53
Зарегистрирован: 27 янв 2012, 15:37
Откуда: SPb

Re: Bad Block discovered ADAPTEC ASR-6405

Сообщение Flyer » 07 окт 2013, 20:05

Это лог не теста, это лог диска. Там и дальше могут быть записи, более поздние, но smartctl их не показывает.
Я ставлю

Код: Выделить всё

#define LOG_RESP_LONG_LEN ((192 * 256) + 20) )
вместо

Код: Выделить всё

#define LOG_RESP_LONG_LEN ((62 * 256) + 252)
в scsiprint.cpp, чтобы видеть лог дальше.
Это даёт 2048 записей лога, а дальше (на тех дисках, что у меня) он пишется с начала.

klev
Junior member
Сообщения: 17
Зарегистрирован: 14 июн 2012, 11:48
Откуда: Санкт-Петербург

Re: Bad Block discovered ADAPTEC ASR-6405

Сообщение klev » 07 окт 2013, 20:15

А где этот файл лежит в системе? Я устанавливал все через yum.
Правильно ли я понимаю что после изменение в этом файле я должен сделать рестарт smrtу?

Flyer
Advanced member
Сообщения: 53
Зарегистрирован: 27 янв 2012, 15:37
Откуда: SPb

Re: Bad Block discovered ADAPTEC ASR-6405

Сообщение Flyer » 07 окт 2013, 20:35

Это в исходниках smartmontools.
Наверное, не стОит в это углубляться.

Адаптек считает диск исправным, и по-своему он прав. _Сейчас_ у диска _явных_ проблем нет. А вот _потенциальные_, IMHO, есть. Такое обилие [3,11,0] мне активно не нравится.

klev
Junior member
Сообщения: 17
Зарегистрирован: 14 июн 2012, 11:48
Откуда: Санкт-Петербург

Re: Bad Block discovered ADAPTEC ASR-6405

Сообщение klev » 07 окт 2013, 20:38

Я читал статью что если у диска были проблемы то вероятность выхода его из строя очень сильно возрастает в ближайшие время. По этому думаю имеет ли смысл все равно его поменять. Или райд 10 спасет меня если диск умрет и поменять его когда он умрет... вот не знаю что делать даже.

Flyer
Advanced member
Сообщения: 53
Зарегистрирован: 27 янв 2012, 15:37
Откуда: SPb

Re: Bad Block discovered ADAPTEC ASR-6405

Сообщение Flyer » 07 окт 2013, 21:14

R10 спасёт, если умрёт этот диск.
А если умрёт его "напарник" и данные останутся только на _этом_ диске?

klev
Junior member
Сообщения: 17
Зарегистрирован: 14 июн 2012, 11:48
Откуда: Санкт-Петербург

Re: Bad Block discovered ADAPTEC ASR-6405

Сообщение klev » 07 окт 2013, 21:38

Буду стараться делать бекапы. В принципе у меня там только web server у которого будет самое важное это база данных…. Все остальное можно забегапить и меняется редко.
Вот как базу данных бекапы автоматизировать куда-нибудь по дальше от этого жёсткого диска.

Ответить

Вернуться в «Массивы - Технические вопросы, решение проблем.»

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и 27 гостей