Поломался массив на adaptec 3405

Поломалось, посыпалось, не работает...

Модераторы: Trinity admin`s, Free-lance moderator`s

Ответить
Valmon
Advanced member
Сообщения: 173
Зарегистрирован: 23 апр 2009, 16:44
Откуда: Москва
Контактная информация:

Поломался массив на adaptec 3405

Сообщение Valmon » 22 июн 2012, 12:20

Добрый.
Предыстория.
Позавчера, в одном из московских датацентров, произошел сбой на UPSах, результате чего начались проблемы с массивом(разделами).
Конфиг.

Код: Выделить всё

FreeBSD 8.1-RELEASE #0: Tue Dec 14 01:18:30 MSK 2010
Контроллер adaptec 3405 пара дисков хитачи в рейд 1
Изначально, в логи начались сыпаться ошибки, подобного рода.
Как оказалось, кешь дисков и контроллера, был включен.
После того как запустил сервер, отключил кеш на запись, везде где можно.

Код: Выделить всё

Jun 21 15:58:54 host kernel: aacd0: hard error cmd=write 105697311-105697342
Jun 21 15:58:54 host kernel: aacd0: hard error g_vfs_done():cmd=write aacd0s1d[WRITE(offset=26199703552, length=16384)]105697343-105697374error = 5
Jun 21 15:58:54 host kernel:
Jun 21 15:58:54 host kernel: aacd0: hard error g_vfs_done():cmd=write aacd0s1d[WRITE(offset=26199719936, length=16384)]105697375-105697406error = 5
Jun 21 15:58:54 host kernel:
Jun 21 15:58:54 host kernel: aacd0: hard error g_vfs_done():cmd=write aacd0s1d[WRITE(offset=26199736320, length=16384)]105697407-105697438error = 5
Jun 21 15:58:54 host kernel:
Jun 21 15:58:54 host kernel: aacd0: hard error g_vfs_done():cmd=write aacd0s1d[WRITE(offset=26199752704, length=16384)]105697439-105697470error = 5
Jun 21 15:58:54 host kernel:
Jun 21 15:58:54 host kernel: aacd0: hard error g_vfs_done():cmd=write aacd0s1d[WRITE(offset=26199769088, length=16384)]105697471-105697502error = 5
Jun 21 15:58:54 host kernel:
Jun 21 15:58:54 host kernel: aacd0: hard error g_vfs_done():cmd=write aacd0s1d[WRITE(offset=26199785472, length=16384)]105697503-105697534error = 5
Jun 21 15:58:54 host kernel:
Jun 21 15:58:54 host kernel: aacd0: hard error g_vfs_done():cmd=write aacd0s1d[WRITE(offset=26199801856, length=16384)]105697535-105697566error = 5
Jun 21 15:58:54 host kernel:
Jun 21 15:58:54 host kernel: aacd0: hard error g_vfs_done():cmd=write aacd0s1d[WRITE(offset=26199818240, length=16384)]105697567-105697598error = 5
Jun 21 15:58:54 host kernel:
Jun 21 15:58:54 host kernel: aacd0: hard error g_vfs_done():cmd=write aacd0s1d[WRITE(offset=26199834624, length=16384)]105697599-105697630error = 5
Jun 21 15:58:54 host kernel:
Jun 21 15:58:54 host kernel: aacd0: hard error g_vfs_done():cmd=write aacd0s1d[WRITE(offset=26199851008, length=16384)]105697631-105697662error = 5
Jun 21 15:58:54 host kernel:
Jun 21 15:58:54 host kernel: aacd0: hard error g_vfs_done():cmd=write aacd0s1d[WRITE(offset=26199867392, length=16384)]105697663-105697694error = 5
Часом позже, заметил что сервер не доступен.

Подключили квм, на экране, обычное Mounting /etc/fstab filesystem failed
Запистил fsck -y. В консоль, циклично началось сыпатся сообщения подобного рода.

Код: Выделить всё

Jun 21 19:28:42 host kernel: aacd0: hard error cmd=read 334444767-334444798
Jun 21 19:28:42 host kernel: aacd0: hard error cmd=read fsbn 334444767
Jun 21 19:28:42 host kernel: aacd0: hard error cmd=read fsbn 334444768
Jun 21 19:28:42 host kernel: aacd0: hard error cmd=read fsbn 334444769
Jun 21 19:28:42 host kernel: aacd0: hard error cmd=read fsbn 334444770
Jun 21 19:28:43 host kernel: aacd0: hard error cmd=read fsbn 334444771
Jun 21 19:28:43 host kernel: aacd0: hard error cmd=read fsbn 334444772
Jun 21 19:28:43 host kernel: aacd0: hard error cmd=read fsbn 334444773
Jun 21 19:28:43 host kernel: aacd0: hard error cmd=read fsbn 334444774
Jun 21 19:28:43 host kernel: aacd0: hard error cmd=read fsbn 334444775
Jun 21 19:28:43 host kernel: aacd0: hard error cmd=read fsbn 334444776
Jun 21 19:28:43 host kernel: aacd0: hard error cmd=read fsbn 334444777
Jun 21 19:28:43 host kernel: aacd0: hard error cmd=read fsbn 334444778
Jun 21 19:28:43 host kernel: aacd0: hard error cmd=read fsbn 334444779
Jun 21 19:28:43 host kernel: aacd0: hard error cmd=read fsbn 334444780
Jun 21 19:28:43 host kernel: aacd0: hard error cmd=read fsbn 334444781
Jun 21 19:28:43 host kernel: aacd0: hard error cmd=read fsbn 334444782
Jun 21 19:28:43 host kernel: aacd0: hard error cmd=read fsbn 334444783
Jun 21 19:28:43 host kernel: aacd0: hard error cmd=read fsbn 334444784
Jun 21 19:28:43 host kernel: aacd0: hard error cmd=read fsbn 334444785
Jun 21 19:28:43 host kernel: aacd0: hard error cmd=read fsbn 334444786
Jun 21 19:28:43 host kernel: aacd0: hard error cmd=read fsbn 334444787
Jun 21 19:28:43 host kernel: aacd0: hard error cmd=read fsbn 334444788
Jun 21 19:28:43 host kernel: aacd0: hard error cmd=read fsbn 334444789
Jun 21 19:28:43 host kernel: aacd0: hard error cmd=read fsbn 334444790
Jun 21 19:28:43 host kernel: aacd0: hard error cmd=read fsbn 334444791
Jun 21 19:28:43 host kernel: aacd0: hard error cmd=read fsbn 334444792
Jun 21 19:28:43 host kernel: aacd0: hard error cmd=read fsbn 334444793
Jun 21 19:28:43 host kernel: aacd0: hard error cmd=read fsbn 334444794
Jun 21 19:28:43 host kernel: aacd0: hard error cmd=read fsbn 334444795
Jun 21 19:28:43 host kernel: aacd0: hard error cmd=read fsbn 334444796
Jun 21 19:28:44 host kernel: aacd0: hard error cmd=read fsbn 334444797
Jun 21 19:28:44 host kernel: aacd0: hard error cmd=read fsbn 334444798
Jun 21 19:28:44 host kernel: aacd0: hard error cmd=read 334444767-334444798
Jun 21 19:28:44 host kernel: aacd0: hard error cmd=read fsbn 334444767
Кое как, удалось смонтировать раздел в ридонли и запустить сервер.

Ниже, вывод arcconf

Код: Выделить всё

/root/arcconf GETCONFIG 1
Controllers found: 1
----------------------------------------------------------------------
Controller information
----------------------------------------------------------------------
   Controller Status                        : Optimal
   Channel description                      : SAS/SATA
   Controller Model                         : Adaptec 3405
   Controller Serial Number                 : 8C3910AD6A5
   Physical Slot                            : 6
   Temperature                              : 55 C/ 131 F (Normal)
   Installed memory                         : 128 MB
   Copyback                                 : Disabled
   Background consistency check             : Disabled
   Automatic Failover                       : Enabled
   Global task priority                     : High
   Stayawake period                         : Disabled
   Spinup limit internal drives             : 0
   Spinup limit external drives             : 0
   Defunct disk drive count                 : 0
   Logical devices/Failed/Degraded          : 2/0/0
   --------------------------------------------------------
   Controller Version Information
   --------------------------------------------------------
   BIOS                                     : 5.2-0 (15728)
   Firmware                                 : 5.2-0 (15728)
   Driver                                   : 2.1-9 (1)
   Boot Flash                               : 5.2-0 (15728)
   --------------------------------------------------------
   Controller Battery Information
   --------------------------------------------------------
   Status                                   : Not Installed

----------------------------------------------------------------------
Logical device information
----------------------------------------------------------------------
Logical device number 0
   Logical device name                      : Vol01
   RAID level                               : 1
   Status of logical device                 : Optimal
   Size                                     : 953334 MB
   Read-cache mode                          : Enabled
   Write-cache mode                         : Disabled (write-through)
   Write-cache setting                      : Disabled (write-through)
   Partitioned                              : Yes
   Protected by Hot-Spare                   : No
   Bootable                                 : Yes
   Failed stripes                           : Yes
   Power settings                           : Disabled
   --------------------------------------------------------
   Logical device segment information
   --------------------------------------------------------
   Segment 0                                : Present (0,0)       STF604MH0UE9WB
   Segment 1                                : Present (0,1)       STF604MH0W47KB

Logical device number 1
   Logical device name                      : Vol02
   RAID level                               : Simple_volume
   Status of logical device                 : Optimal
   Size                                     : 953334 MB
   Read-cache mode                          : Enabled
   Write-cache mode                         : Enabled (write-back)
   Write-cache setting                      : Enabled (write-back)
   Partitioned                              : Yes
   Protected by Hot-Spare                   : No
   Bootable                                 : No
   Failed stripes                           : No
   Power settings                           : Disabled
   --------------------------------------------------------
   Logical device segment information
   --------------------------------------------------------
   Segment 0                                : Present (0,2)      WD-WMATV3932883


----------------------------------------------------------------------
Physical Device information
----------------------------------------------------------------------
      Device #0
         Device is a Hard drive
         State                              : Online
         Supported                          : Yes
         Transfer Speed                     : SATA 3.0 Gb/s
         Reported Channel,Device(T:L)       : 0,0(0:0)
         Reported Location                  : Connector 0, Device 0
         Vendor                             : Hitachi
         Model                              : HDT721010SLA360
         Firmware                           : ST6OA31B
         Serial number                      : STF604MH0UE9WB
         Size                               : 953869 MB
         Write Cache                        : Disabled (write-through)
         FRU                                : None
         S.M.A.R.T.                         : No
         S.M.A.R.T. warnings                : 0
         NCQ status                         : Disabled
      Device #1
         Device is a Hard drive
         State                              : Online
         Supported                          : Yes
         Transfer Speed                     : SATA 3.0 Gb/s
         Reported Channel,Device(T:L)       : 0,1(1:0)
         Reported Location                  : Connector 0, Device 1
         Vendor                             : Hitachi
         Model                              : HDT721010SLA360
         Firmware                           : ST6OA31B
         Serial number                      : STF604MH0W47KB
         Size                               : 953869 MB
         Write Cache                        : Disabled (write-through)
         FRU                                : None
         S.M.A.R.T.                         : No
         S.M.A.R.T. warnings                : 0
         NCQ status                         : Disabled
      Device #2
         Device is a Hard drive
         State                              : Online
         Supported                          : Yes
         Transfer Speed                     : SATA 3.0 Gb/s
         Reported Channel,Device(T:L)       : 0,2(2:0)
         Reported Location                  : Connector 0, Device 2
         Vendor                             : WDC
         Model                              : WD1001FALS-00J7B
         Firmware                           : 05.00K05
         Serial number                      : WD-WMATV3932883
         Size                               : 953869 MB
         Write Cache                        : Enabled (write-back)
         FRU                                : None
         S.M.A.R.T.                         : No
         S.M.A.R.T. warnings                : 0
         NCQ status                         : Disabled


Command completed successfully.

Аватара пользователя
gs
Сотрудник Тринити
Сотрудник Тринити
Сообщения: 16650
Зарегистрирован: 23 авг 2002, 17:34
Откуда: Москва
Контактная информация:

Re: Поломался массив на adaptec 3405

Сообщение gs » 22 июн 2012, 12:55

На одном из винтов есть битые страйпы - скорее всего результат включенного кэша.
Бэкап - пересборка массива - рестор...

Valmon
Advanced member
Сообщения: 173
Зарегистрирован: 23 апр 2009, 16:44
Откуда: Москва
Контактная информация:

Re: Поломался массив на adaptec 3405

Сообщение Valmon » 22 июн 2012, 13:41

gs писал(а):На одном из винтов есть битые страйпы - скорее всего результат включенного кэша.
Бэкап - пересборка массива - рестор...
Дамп раздела, с помощью dd получится сделать?

Valmon
Advanced member
Сообщения: 173
Зарегистрирован: 23 апр 2009, 16:44
Откуда: Москва
Контактная информация:

Re: Поломался массив на adaptec 3405

Сообщение Valmon » 22 июн 2012, 13:43

И еще вопрос. Как запусти smartctl на данной ОС

Аватара пользователя
rlevitsky
Сотрудник Тринити
Сотрудник Тринити
Сообщения: 46
Зарегистрирован: 26 дек 2011, 11:49
Откуда: СПб

Re: Поломался массив на adaptec 3405

Сообщение rlevitsky » 25 июн 2012, 12:39

Valmon писал(а):Дамп раздела, с помощью dd получится сделать?
Что вы с ним собираетесь потом делать?
Есть стандартное средство - dump/restore. Подробности в инструкции производителя:
http://www.freebsd.org/doc/en_US.ISO885 ... /handbook/
Кто ясно мыслит - ясно излагает. Протагор.

Roman Levitsky, Trinity JSC
Jabber/Gtalk ID: r<dot>levitsky<at>trinitygroup<dot>ru

Аватара пользователя
rlevitsky
Сотрудник Тринити
Сотрудник Тринити
Сообщения: 46
Зарегистрирован: 26 дек 2011, 11:49
Откуда: СПб

Re: Поломался массив на adaptec 3405

Сообщение rlevitsky » 25 июн 2012, 12:41

Valmon писал(а):И еще вопрос. Как запусти smartctl на данной ОС
Прямо так и запустить:

Код: Выделить всё

dio:[/root]# smartctl -i /dev/ad4
smartctl 5.42 2011-10-20 r3458 [FreeBSD 8.3-STABLE i386] (local build)
Copyright (C) 2002-11 by Bruce Allen, http://smartmontools.sourceforge.net

=== START OF INFORMATION SECTION ===
Model Family:     Hitachi Ultrastar A7K2000
Device Model:     Hitachi HUA722020ALA330
Serial Number:    JK1131YAG8M3XV
LU WWN Device Id: 5 000cca 221c3eac4
Firmware Version: JKAOA20N
User Capacity:    2,000,398,934,016 bytes [2.00 TB]
Sector Size:      512 bytes logical/physical
Device is:        In smartctl database [for details use: -P show]
ATA Version is:   8
ATA Standard is:  ATA-8-ACS revision 4
Local Time is:    Mon Jun 25 12:40:28 2012 MSK
SMART support is: Available - device has SMART capability.
SMART support is: Enabled
Кто ясно мыслит - ясно излагает. Протагор.

Roman Levitsky, Trinity JSC
Jabber/Gtalk ID: r<dot>levitsky<at>trinitygroup<dot>ru

Valmon
Advanced member
Сообщения: 173
Зарегистрирован: 23 апр 2009, 16:44
Откуда: Москва
Контактная информация:

Re: Поломался массив на adaptec 3405

Сообщение Valmon » 26 июн 2012, 11:22

Через контроллер не видно дисков, как отдельных устройств

Код: Выделить всё

# ls | grep a
aac0
aacd0
aacd0s1
aacd0s1a
aacd0s1b
aacd0s1d
aacd0s1e
aacd0s1f
aacd0s1g
aacd1
aacd1s1
aacd1s1d

Аватара пользователя
gs
Сотрудник Тринити
Сотрудник Тринити
Сообщения: 16650
Зарегистрирован: 23 авг 2002, 17:34
Откуда: Москва
Контактная информация:

Re: Поломался массив на adaptec 3405

Сообщение gs » 26 июн 2012, 11:57

Что мешает использовать обычный бэкап?

Valmon
Advanced member
Сообщения: 173
Зарегистрирован: 23 апр 2009, 16:44
Откуда: Москва
Контактная информация:

Re: Поломался массив на adaptec 3405

Сообщение Valmon » 26 июн 2012, 16:35

Большой обьем данных.

Аватара пользователя
gs
Сотрудник Тринити
Сотрудник Тринити
Сообщения: 16650
Зарегистрирован: 23 авг 2002, 17:34
Откуда: Москва
Контактная информация:

Re: Поломался массив на adaptec 3405

Сообщение gs » 26 июн 2012, 16:38

Это несерьезно.

Valmon
Advanced member
Сообщения: 173
Зарегистрирован: 23 апр 2009, 16:44
Откуда: Москва
Контактная информация:

Re: Поломался массив на adaptec 3405

Сообщение Valmon » 27 июн 2012, 11:17

Что именно не серьезно?

Аватара пользователя
gs
Сотрудник Тринити
Сотрудник Тринити
Сообщения: 16650
Зарегистрирован: 23 авг 2002, 17:34
Откуда: Москва
Контактная информация:

Re: Поломался массив на adaptec 3405

Сообщение gs » 27 июн 2012, 11:18

Оправдания отсутствия бэкапа.

Valmon
Advanced member
Сообщения: 173
Зарегистрирован: 23 апр 2009, 16:44
Откуда: Москва
Контактная информация:

Re: Поломался массив на adaptec 3405

Сообщение Valmon » 27 июн 2012, 12:32

Бекапы есть, их не может не быть. Тут дело в простое

Ответить

Вернуться в «Массивы - Технические вопросы, решение проблем.»

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и 31 гость