Bad Block discovered ADAPTEC ASR-6405
Модераторы: Trinity admin`s, Free-lance moderator`s
Bad Block discovered ADAPTEC ASR-6405
Здравствуйте.
Помогите пожалуйста разобраться.
RAID контроллер ADAPTEC ASR-6405 Adaptec AFM-600, ADAPTEC Flash Module 600
2шт - 450Gb, серверный жесткий диск Seagate ST3450857SS, 15000rpm, 16Mb, SAS
Примерно две неделе назад при ошибки обновления веб проекта получилась нехватка места на диске. И сервер завис. Помогла его перезагрузка. Почистил место. Всроде все работало.
Но потом сервер опять умер. Помогла только перезагрузка. Сегодня ситуация повторилась.
В логах нашел вот такую запись
Sep 23 13:21:30 SPY Adaptec Storage Manager Agent: [418] Bad Block discovered: controller 1 (5f3f000).
Sep 23 18:11:40 SPY Adaptec Storage Manager Agent: [418] Bad Block discovered: controller 1 (4e87580).
Sep 26 04:16:01 SPY Adaptec Storage Manager Agent: [418] Bad Block discovered: controller 1 (1c8fb000).
Oct 3 21:41:25 SPY Adaptec Storage Manager Agent: [418] Bad Block discovered: controller 1 (1d0fb400).
Ниже прикрепил логи более детальные
Как я понимаю проблема с дисками?
Команда arcconf getconfig pd и ld не показывают ошибок
Если мне предстоит замена диска как понять какой менять и как правильно сделать эту процедуру. К сожалению в дата центре таких услуг мне не оказывают. Только если горячая замена. Как я понимаю горячая замена у меня возможна и должна работать. Но как точно в этом удостоверится. И возможна ли потеря данных при ней?
Заранее спасибо.
По логам вроде ошибка вот с этим диском 6SK0J5QZ0000N141K3LX
Помогите пожалуйста разобраться.
RAID контроллер ADAPTEC ASR-6405 Adaptec AFM-600, ADAPTEC Flash Module 600
2шт - 450Gb, серверный жесткий диск Seagate ST3450857SS, 15000rpm, 16Mb, SAS
Примерно две неделе назад при ошибки обновления веб проекта получилась нехватка места на диске. И сервер завис. Помогла его перезагрузка. Почистил место. Всроде все работало.
Но потом сервер опять умер. Помогла только перезагрузка. Сегодня ситуация повторилась.
В логах нашел вот такую запись
Sep 23 13:21:30 SPY Adaptec Storage Manager Agent: [418] Bad Block discovered: controller 1 (5f3f000).
Sep 23 18:11:40 SPY Adaptec Storage Manager Agent: [418] Bad Block discovered: controller 1 (4e87580).
Sep 26 04:16:01 SPY Adaptec Storage Manager Agent: [418] Bad Block discovered: controller 1 (1c8fb000).
Oct 3 21:41:25 SPY Adaptec Storage Manager Agent: [418] Bad Block discovered: controller 1 (1d0fb400).
Ниже прикрепил логи более детальные
Как я понимаю проблема с дисками?
Команда arcconf getconfig pd и ld не показывают ошибок
Если мне предстоит замена диска как понять какой менять и как правильно сделать эту процедуру. К сожалению в дата центре таких услуг мне не оказывают. Только если горячая замена. Как я понимаю горячая замена у меня возможна и должна работать. Но как точно в этом удостоверится. И возможна ли потеря данных при ней?
Заранее спасибо.
По логам вроде ошибка вот с этим диском 6SK0J5QZ0000N141K3LX
- Вложения
-
- RaidErrA.log
- (760 байт) 690 скачиваний
-
- RaidEvtA.log
- (162.72 КБ) 683 скачивания
Re: Bad Block discovered ADAPTEC ASR-6405
Я бы для начала глянул
sg_map -i
и для каждого найденного физ.диска
smartctl -x /dev/sg[n]
sg_map -i
и для каждого найденного физ.диска
smartctl -x /dev/sg[n]
Re: Bad Block discovered ADAPTEC ASR-6405
Код: Выделить всё
[root@SPY ~]# sg_map -i
/dev/sg0 /dev/sda Adaptec raid_1 V1.0
/dev/sg1 SEAGATE ST3450857SS 0006
/dev/sg2 SEAGATE ST3450857SS 0006
[root@SPY ~]# smartctl -x /dev/sg0
smartctl 5.43 2012-06-30 r3573 [x86_64-linux-2.6.32-279.9.1.el6.x86_64] (local build)
Copyright (C) 2002-12 by Bruce Allen, http://smartmontools.sourceforge.net
Vendor: Adaptec
Product: raid_1
Revision: V1.0
User Capacity: 449,887,338,496 bytes [449 GB]
Logical block size: 512 bytes
scsiModePageOffset: response length too short, resp_len=4 offset=4 bd_len=0
>> Terminate command early due to bad response to IEC mode page
A mandatory SMART command failed: exiting. To continue, add one or more '-T permissive' options.
[root@SPY ~]# smartctl -x /dev/sg0
smartctl 5.43 2012-06-30 r3573 [x86_64-linux-2.6.32-279.9.1.el6.x86_64] (local build)
Copyright (C) 2002-12 by Bruce Allen, http://smartmontools.sourceforge.net
Vendor: Adaptec
Product: raid_1
Revision: V1.0
User Capacity: 449,887,338,496 bytes [449 GB]
Logical block size: 512 bytes
scsiModePageOffset: response length too short, resp_len=4 offset=4 bd_len=0
>> Terminate command early due to bad response to IEC mode page
A mandatory SMART command failed: exiting. To continue, add one or more '-T permissive' options.
[root@SPY ~]# ^C
[root@SPY ~]# ^C
[root@SPY ~]# smartctl -x /dev/sg1
smartctl 5.43 2012-06-30 r3573 [x86_64-linux-2.6.32-279.9.1.el6.x86_64] (local build)
Copyright (C) 2002-12 by Bruce Allen, http://smartmontools.sourceforge.net
Vendor: SEAGATE
Product: ST3450857SS
Revision: 0006
User Capacity: 450,098,159,616 bytes [450 GB]
Logical block size: 512 bytes
Logical Unit id: 0x5000c5003a355e47
Serial number: 6SK0HK970000N141HW22
Device type: disk
Transport protocol: SAS
Local Time is: Fri Oct 4 13:48:22 2013 MSK
Device supports SMART and is Enabled
Temperature Warning Enabled
SMART Health Status: OK
Current Drive Temperature: 30 C
Drive Trip Temperature: 68 C
Elements in grown defect list: 0
Vendor (Seagate) cache information
Blocks sent to initiator = 672535991
Blocks received from initiator = 3118030579
Blocks read from cache and sent to initiator = 57797565
Number of read and write commands whose size <= segment size = 42144381
Number of read and write commands whose size > segment size = 70
Vendor (Seagate/Hitachi) factory information
number of hours powered up = 19704.30
number of minutes until next internal SMART test = 31
Error counter log:
Errors Corrected by Total Correction Gigabytes Total
ECC rereads/ errors algorithm processed uncorrected
fast | delayed rewrites corrected invocations [10^9 bytes] errors
read: 22201270 0 0 22201270 22201270 344.338 0
write: 0 0 0 0 0 3815.393 0
verify: 2008 0 0 2008 2008 0.000 0
Non-medium error count: 7
[GLTSD (Global Logging Target Save Disable) set. Enable Save with '-S on']
No self-tests have been logged
Long (extended) Self Test duration: 4800 seconds [80.0 minutes]
Background scan results log
Status: waiting until BMS interval timer expires
Accumulated power on time, hours:minutes 19704:18 [1182258 minutes]
Number of background scans performed: 275, scan progress: 0.00%
Number of background medium scans performed: 1234
Protocol Specific port log page for SAS SSP
relative target port id = 1
generation code = 92
number of phys = 1
phy identifier = 0
attached device type: end device
attached reason: unknown
reason: hard reset
negotiated logical link rate: phy enabled; 6 Gbps
attached initiator port: ssp=1 stp=1 smp=1
attached target port: ssp=0 stp=0 smp=0
SAS address = 0x5000c5003a355e45
attached SAS address = 0x50000d1103a22700
attached phy identifier = 3
Invalid DWORD count = 0
Running disparity error count = 0
Loss of DWORD synchronization = 229
Phy reset problem = 0
Phy event descriptors:
Invalid word count: 0
Running disparity error count: 0
Loss of dword synchronization count: 229
Phy reset problem count: 0
relative target port id = 2
generation code = 92
number of phys = 1
phy identifier = 1
attached device type: no device attached
attached reason: unknown
reason: unknown
negotiated logical link rate: phy enabled; 1.5 Gbps
attached initiator port: ssp=0 stp=0 smp=0
attached target port: ssp=0 stp=0 smp=0
SAS address = 0x5000c5003a355e46
attached SAS address = 0x0
attached phy identifier = 0
Invalid DWORD count = 0
Running disparity error count = 0
Loss of DWORD synchronization = 0
Phy reset problem = 0
Phy event descriptors:
Invalid word count: 0
Running disparity error count: 0
Loss of dword synchronization count: 0
Phy reset problem count: 0
-----------------
По второму больше выдало
664 19437:18 000000001b98b09b [3,11,0] Recovered via rewrite in-place
665 19437:18 000000001b98b09c [3,11,0] Recovered via rewrite in-place
666 19437:18 000000001b98b0ad [3,11,0] Recovered via rewrite in-place
667 19437:19 000000001b98b0ae [3,11,0] Recovered via rewrite in-place
668 19437:19 000000001b98b0be [3,11,0] Recovered via rewrite in-place
669 19437:19 000000001b98b0bf [3,11,0] Recovered via rewrite in-place
670 19437:19 000000001b98b0d0 [3,11,0] Recovered via rewrite in-place
671 19437:19 000000001b98b0d1 [3,11,0] Recovered via rewrite in-place
>>>> log truncated, fetched 16124 of 50372 available bytes
Protocol Specific port log page for SAS SSP
relative target port id = 1
generation code = 92
number of phys = 1
phy identifier = 0
attached device type: end device
attached reason: unknown
reason: hard reset
negotiated logical link rate: phy enabled; 6 Gbps
attached initiator port: ssp=1 stp=1 smp=1
attached target port: ssp=0 stp=0 smp=0
SAS address = 0x5000c5003a367461
attached SAS address = 0x50000d1103a22700
attached phy identifier = 2
Invalid DWORD count = 255
Running disparity error count = 255
Loss of DWORD synchronization = 28290
Phy reset problem = 0
Phy event descriptors:
Invalid word count: 255
Running disparity error count: 255
Loss of dword synchronization count: 28290
Phy reset problem count: 0
relative target port id = 2
generation code = 92
number of phys = 1
phy identifier = 1
attached device type: no device attached
attached reason: unknown
reason: unknown
negotiated logical link rate: phy enabled; 1.5 Gbps
attached initiator port: ssp=0 stp=0 smp=0
attached target port: ssp=0 stp=0 smp=0
SAS address = 0x5000c5003a367462
attached SAS address = 0x0
attached phy identifier = 0
Invalid DWORD count = 0
Running disparity error count = 0
Loss of DWORD synchronization = 0
Phy reset problem = 0
Phy event descriptors:
Invalid word count: 0
Running disparity error count: 0
Loss of dword synchronization count: 0
Phy reset problem count: 0
[root@SPY ~]#
Последний раз редактировалось klev 04 окт 2013, 13:43, всего редактировалось 1 раз.
Re: Bad Block discovered ADAPTEC ASR-6405
Если отдельные физ. диски видны как /dev/sd[n] или известно, какие /dev/sg[n] им соответствуют, то не надо.
Главное, получить SMART нужных дисков.
Если диски SATA и видны только как /dev/sg[n], то ещё, возможно, придётся указать -d sat для smartctl
Но вообще-то, ST3450857SS - это SAS Cheetah 15K.7
Главное, получить SMART нужных дисков.
Если диски SATA и видны только как /dev/sg[n], то ещё, возможно, придётся указать -d sat для smartctl
Но вообще-то, ST3450857SS - это SAS Cheetah 15K.7
Re: Bad Block discovered ADAPTEC ASR-6405
Спасибо. Я честно говоря не особо в этом. Я выложил вывод команды.
Re: Bad Block discovered ADAPTEC ASR-6405
По второму, который и интересен, лог обрезан сверху.
smartctl -x /dev/sg2 >sg2.log
smartctl -x /dev/sg2 >sg2.log
Re: Bad Block discovered ADAPTEC ASR-6405
А вот этот диск мне не нравится.
Лог тоже обрезан (это уже smartctl делает, я правил LOG_RESP_LONG_LEN в scsiprint.cpp, чтобы не резал), но и по тому, что есть - [3,11,0], иной раз повторяющиеся на тех же секторах - диску плохо.
Я бы уже искал возможность его заменить, доверя ему нет.
Также:
Cбэкапить с этого сервера всё ценное!!!
Прогнать smartctl -t long /dev/sg1 (лучше - при минимальной нагрузке на массив, может тормозить), дождаться окончания и посмотреть результат (т.е., убедиться, что этот диск в порядке, если нет - массив может умереть при ребилде).
Прогнать smartctl -t long /dev/sg2 - скорее всего, где-нибудь споткнётся. Если нет - принудительно почекать/отребилдить массив. Принудительно почекать/пофиксить все FS (размонтировав!, т.е., вероятно, при перезагрузке).
Лог тоже обрезан (это уже smartctl делает, я правил LOG_RESP_LONG_LEN в scsiprint.cpp, чтобы не резал), но и по тому, что есть - [3,11,0], иной раз повторяющиеся на тех же секторах - диску плохо.
Я бы уже искал возможность его заменить, доверя ему нет.
Также:
Cбэкапить с этого сервера всё ценное!!!
Прогнать smartctl -t long /dev/sg1 (лучше - при минимальной нагрузке на массив, может тормозить), дождаться окончания и посмотреть результат (т.е., убедиться, что этот диск в порядке, если нет - массив может умереть при ребилде).
Прогнать smartctl -t long /dev/sg2 - скорее всего, где-нибудь споткнётся. Если нет - принудительно почекать/отребилдить массив. Принудительно почекать/пофиксить все FS (размонтировав!, т.е., вероятно, при перезагрузке).
Re: Bad Block discovered ADAPTEC ASR-6405
Все ценное забекапил и купил два точно таких же новых диска. Сегодня еду в датацентр и мне придется как то менять плохой диск. Что я не когда не делал... Надеюсь ребята в датацентре помогут хотя у них нет таких услуг.
Я думал поставить третий диск и постараться сделать на него образ системы. После этого вынуть плохой диск и поставить на мето него новый. По идее же adaptec сам распознает диск и запишет на него всю инфу?
Очень волнует эта процедура. Очень не хочеться по новой поднимать сервер и настраивать.
Я думал поставить третий диск и постараться сделать на него образ системы. После этого вынуть плохой диск и поставить на мето него новый. По идее же adaptec сам распознает диск и запишет на него всю инфу?
Очень волнует эта процедура. Очень не хочеться по новой поднимать сервер и настраивать.
Re: Bad Block discovered ADAPTEC ASR-6405
Сначала убедиться, что с первым диском всё хорошо!
Потом (если действительно корзиной поддерживается HotSwap, если нет - то через выключение) воткнуть на свободное место новый.
Через arcconf назначть его spare, возможно, сначала проинитив, если потребуется.
(Правда, я новый диск сначала конфигурю отдельным томом и проливаю нулями, на всяк случ)
Назначить через arcconf второй диск мёртвым, при этом должен пойти ребилд массива на spare.
Дождаться, на всяк случ, завершения ребилда. После этого дёргать проблемный (опять же, возможно, через выключение).
Чтобы определить, где стоит проблемный, можно через arcconf им "поморгать".
Имей в виду, что исходная проблема могла быть не только из-за дисков, но и из-за повреждения FS.
Потом (если действительно корзиной поддерживается HotSwap, если нет - то через выключение) воткнуть на свободное место новый.
Через arcconf назначть его spare, возможно, сначала проинитив, если потребуется.
(Правда, я новый диск сначала конфигурю отдельным томом и проливаю нулями, на всяк случ)
Назначить через arcconf второй диск мёртвым, при этом должен пойти ребилд массива на spare.
Дождаться, на всяк случ, завершения ребилда. После этого дёргать проблемный (опять же, возможно, через выключение).
Чтобы определить, где стоит проблемный, можно через arcconf им "поморгать".
Имей в виду, что исходная проблема могла быть не только из-за дисков, но и из-за повреждения FS.
Re: Bad Block discovered ADAPTEC ASR-6405
СПАСИБО!
FS - файловая система?
У меня проблема началась после не удачного обновления проекта. У меня получилась не хватка место и сервер повис.
А как можно понять что это FS?
И можно ли ее вылечить?
А как через arcconf им "поморгать" ?
FS - файловая система?
У меня проблема началась после не удачного обновления проекта. У меня получилась не хватка место и сервер повис.
А как можно понять что это FS?
И можно ли ее вылечить?
А как через arcconf им "поморгать" ?
Re: Bad Block discovered ADAPTEC ASR-6405
FS можно почекать (лучше - размонтированную и для начала - в RO) и попытаться понять, всё ли с ней хорошо.
arcconf identify
arcconf identify
Re: Bad Block discovered ADAPTEC ASR-6405
Если подытожить то делать нужно по пунктам
1) Сервер принесут в специальную комнату. Я на всякий случай от рублю его от интернета. Его можно будет включать, выключать.
2) Прогнать smartctl -t long /dev/sg1 (лучше - при минимальной нагрузке на массив, может тормозить), дождаться окончания и посмотреть результат (т.е., убедиться, что этот диск в порядке, если нет - массив может умереть при ребилде).
3) Прогнать smartctl -t long /dev/sg2 - если ошибка. То диск нужно менять. Я подключу третий новый диск в свободное место и попробую сделать туда бекап утилитой dd.
4) Если ошибок нет. То диск все равно меняю. Потом просто делаю проверку его уже не в массиве. Мало ли живой. И тогда у меня будет 4 винта в место 2. Тогда возможно стоит делать рейд 10? ( Безопасно ли это будет сделать?)
5) Моргаю arcconf identify смотри по сиринику дополнительно какой диск меняю.
6) Вытаскиваю диск при выключенной системе (на всякий случай). Ставлю новый
7) Включаю. Диск должен сам определиться и встать в массив. Третий диск с бекапап можно оставить в системе?
Если не определился при загрузки вхожу в утилиту нахожу диск и подключаю его к массиву. Диск должен будет встать в массив.
9) Включаю проверяю что все за грузилось и снова провожу проверку smartctl -t long /dev/sg1 и smartctl -t long /dev/sg2
Если все ок то хорошо если нет то это файловая система. А какой командой можно ее починить?
Сори за много глупых вопросов, спасибо вам что помогаете
По файловой системе нашел такое руководство Поиск и исправление ошибок файловой системы CENTOS
У меня система CENTOS
1) Сервер принесут в специальную комнату. Я на всякий случай от рублю его от интернета. Его можно будет включать, выключать.
2) Прогнать smartctl -t long /dev/sg1 (лучше - при минимальной нагрузке на массив, может тормозить), дождаться окончания и посмотреть результат (т.е., убедиться, что этот диск в порядке, если нет - массив может умереть при ребилде).
3) Прогнать smartctl -t long /dev/sg2 - если ошибка. То диск нужно менять. Я подключу третий новый диск в свободное место и попробую сделать туда бекап утилитой dd.
4) Если ошибок нет. То диск все равно меняю. Потом просто делаю проверку его уже не в массиве. Мало ли живой. И тогда у меня будет 4 винта в место 2. Тогда возможно стоит делать рейд 10? ( Безопасно ли это будет сделать?)
5) Моргаю arcconf identify смотри по сиринику дополнительно какой диск меняю.
6) Вытаскиваю диск при выключенной системе (на всякий случай). Ставлю новый
7) Включаю. Диск должен сам определиться и встать в массив. Третий диск с бекапап можно оставить в системе?
Если не определился при загрузки вхожу в утилиту нахожу диск и подключаю его к массиву. Диск должен будет встать в массив.
9) Включаю проверяю что все за грузилось и снова провожу проверку smartctl -t long /dev/sg1 и smartctl -t long /dev/sg2
Если все ок то хорошо если нет то это файловая система. А какой командой можно ее починить?
Сори за много глупых вопросов, спасибо вам что помогаете
По файловой системе нашел такое руководство Поиск и исправление ошибок файловой системы CENTOS
У меня система CENTOS
Re: Bad Block discovered ADAPTEC ASR-6405
smartctl -t long /dev/sg1 - будет идти ~80 минут
smartctl -t long /dev/sg2 - если всё равно меняем, можно сделать потом, на стенде. И не только это.
Если хочется сбэкапиться dd на другой диск - сконфигурить этот диск как volume, чтобы увиделся.
Лить dd смонтированную FS - не лучшая идея. Я бы загрузился с CD или с флэшки, в крайнем случае - в single.
Литься будет от двух часов и более.
Новый диск сам подхватиться не обязан - может потребоваться его проинитить и назначить spare.
Ребилд тоже будет идти от полутора-двух часов и до...
Оставшемуся в массиве диску -t long второй раз давать смысла не много, а новому - я бы прогнал _до_ того, как ставить в массив. И нулями пролил бы.
Третий диск - главное, чтобы он нигде случайно не перепутался (например, в fstab) и не смонтировался.
man fsck
man e2fsck или что там
smartctl -t long /dev/sg2 - если всё равно меняем, можно сделать потом, на стенде. И не только это.
Если хочется сбэкапиться dd на другой диск - сконфигурить этот диск как volume, чтобы увиделся.
Лить dd смонтированную FS - не лучшая идея. Я бы загрузился с CD или с флэшки, в крайнем случае - в single.
Литься будет от двух часов и более.
Новый диск сам подхватиться не обязан - может потребоваться его проинитить и назначить spare.
Ребилд тоже будет идти от полутора-двух часов и до...
Оставшемуся в массиве диску -t long второй раз давать смысла не много, а новому - я бы прогнал _до_ того, как ставить в массив. И нулями пролил бы.
Третий диск - главное, чтобы он нигде случайно не перепутался (например, в fstab) и не смонтировался.
man fsck
man e2fsck или что там
Re: Bad Block discovered ADAPTEC ASR-6405
fsck:
-y - не самая хорошая идея, я бы сначала глянул -n
-c - медленно и в большинстве случаев бесполезно
-y - не самая хорошая идея, я бы сначала глянул -n
-c - медленно и в большинстве случаев бесполезно
Кто сейчас на конференции
Сейчас этот форум просматривают: нет зарегистрированных пользователей и 21 гость