На сервере c установленным ESXi 5.5.0 1331820, при активном вводе/выводе в одной из виртуальных машин в течении 1.5 - 2.5 часов от сервера отваливается контроллер Adaptec 6405.
Железо:
Supermicro X9DRD-iF/LF
CPU 1 x E5-2630
RAM 32GB
Adaptec 6405 ( firmware 19144 )
HDD 2 x 300GB ( HUS156030VLS600 )
ESXi 5.5.0 1331820
ESXi и вирт. машины установлены на единственное зеркало.
Для Adaptec'а установлены драйвер scsi-aacraid, а также arcconf и arcsmis
Код: Выделить всё
~ # esxcli software vib list
Name Version Vendor Acceptance Level Install Date
----------------------------- ------------------------------------ ----------- ---------------- ------------
scsi-aacraid 5.5.5.2.1.40301-1OEM.550.0.0.1331820 Adaptec_Inc VMwareCertified 2014-04-13
arcconf 1.00-1 Adaptec unknown 2014-06-10
arcsmis 1.00-1 Adaptec unknown 2014-06-10
Код: Выделить всё
~ # esxcli software vib get
Adaptec_Inc_bootbank_scsi-aacraid_5.5.5.2.1.40301-1OEM.550.0.0.1331820
Name: scsi-aacraid
Version: 5.5.5.2.1.40301-1OEM.550.0.0.1331820
Type: bootbank
Vendor: Adaptec_Inc
Acceptance Level: VMwareCertified
Summary: aacraid: scsi driver for VMware ESX
Description: Adaptec HBA Driver
ReferenceURLs:
Creation Date: 2013-10-31
Depends: vmkapi_2_2_0_0, com.vmware.driverAPI-9.2.2.0
Conflicts:
Replaces:
Provides:
Maintenance Mode Required: True
Hardware Platforms Required:
Live Install Allowed: False
Live Remove Allowed: False
Stateless Ready: False
Overlay: False
Tags: driver, module
Payloads: scsi-aac
Adaptec_bootbank_arcconf_1.00-1
Name: arcconf
Version: 1.00-1
Type: bootbank
Vendor: Adaptec
Acceptance Level: unknown
Summary: ARC CLI provider: ESX release
Description: ARC CLI provider
ReferenceURLs:
Creation Date: 2014-02-17
Depends:
Conflicts:
Replaces:
Provides:
Maintenance Mode Required: False
Hardware Platforms Required:
Live Install Allowed: True
Live Remove Allowed: True
Stateless Ready: False
Overlay: False
Tags:
Payloads: arcconf
Adaptec_bootbank_arcsmis_1.00-1
Name: arcsmis
Version: 1.00-1
Type: bootbank
Vendor: Adaptec
Acceptance Level: unknown
Summary: ARC SMIS provider: ESX release
Description: ARC SMIS provider
ReferenceURLs:
Creation Date: 2014-02-17
Depends:
Conflicts:
Replaces:
Provides:
Maintenance Mode Required: False
Hardware Platforms Required:
Live Install Allowed: True
Live Remove Allowed: True
Stateless Ready: False
Overlay: False
Tags:
Payloads: arcsmis
После установки сервер стабильно проработал месяц, затем потерял контроллер, примерно через месяц ситуация повторилась.
Начали искать источник проблем.
В виртуальной машине запустили тест на рандомный read при помощи fio. Примерно через полтора часа после начала теста в логах ESXi стали сыпаться ошибки
Код: Выделить всё
2014-06-12T22:15:02.874Z esxi vmkernel: cpu9:32993)<3>aacraid: Host adapter abort request (1,0,0,0)
2014-06-12T22:15:02.874Z esxi vmkernel: cpu9:32993)WARNING: LinScsi: SCSILinuxAbortCommands:1837: Failed, Driver aacraid, for vmhba2
Datastore в ESXi стал недоступен со всеми виртуальными машинами, при этом на сам ESXi можно залогиниться к примеру по ssh.
Повторный тест дал аналогичный результат, только на этот раз сервер продержался 2.5 часа.
Информацию с контроллера начали снимать утилитой arcconf раз в пять минут с параметрами (GETCONFIG 1, GETSTATUS 1, PHYERRORLOG 1 DEVICE ALL, GETLOGS 1 DEAD, GETLOGS 1 DEVICE, GETLOGS 1 EVENT, GETSMARTSTATS 1 )
Запустили тест заново, контроллер отвалился, при этом получили информацию в момент перед зависанием и после перезагрузки
- за 2 минуты до зависания, контроллер под нагрузкой ( файл 20140613_0215.txt в аттачменте)
- сразу после перезагрузки ( 20140613_0943.txt)
В результате заметили, что после подвисания и перезагрузки в GETLOGS 1 EVENT появляется три новых EVENT'а:
Код: Выделить всё
<event Date="1402637834"
eventType="FSA_EM_EXPANDED_EVENT"
eventCode="0x10000000"
groupType="FSA_EXE_SCSI_GROUP"
groupCode="2"
priority="3"
subType="FSA_EXE_SCSI_SENSE_DATA"
subTypeCode="12"
cdb="00 00 00 00 00 00 00 00 00 00 00 00"
data="70 00 06 00 00 00 00 00 00 00 00 00 29 01 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00"
lun="0"
controllerID="0"
channelID="0"
deviceID="0"/>
<event Date="1402637834"
eventType="FSA_EM_EXPANDED_EVENT"
eventCode="0x10000000"
groupType="FSA_EXE_SCSI_GROUP"
groupCode="2"
priority="3"
subType="FSA_EXE_SCSI_SENSE_DATA"
subTypeCode="12"
cdb="00 00 00 00 00 00 00 00 00 00 00 00"
data="70 00 06 00 00 00 00 00 00 00 00 00 29 01 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00"
lun="0"
controllerID="0"
channelID="0"
deviceID="1"/>
<event Date="1402637863"
eventType="FSA_EM_BATTERY_CHANGE"
eventCode="0x4000"
batteryEventType="FSA_BATTERY_DEAD"
batteryEventCode="1"
priorState="0"
currentState="0"
controllerID="0"/>