На сервере c установленным ESXi 5.5.0 1331820, при активном вводе/выводе в одной из виртуальных машин в течении 1.5 - 2.5 часов от сервера отваливается контроллер Adaptec 6405.
Железо:
Supermicro X9DRD-iF/LF
CPU 1 x E5-2630
RAM 32GB
Adaptec 6405 ( firmware 19144 )
HDD 2 x 300GB ( HUS156030VLS600 )
ESXi 5.5.0 1331820
ESXi и вирт. машины установлены на единственное зеркало.
Для Adaptec'а установлены драйвер scsi-aacraid, а также arcconf и arcsmis
Код: Выделить всё
~ # esxcli software vib list
Name                           Version                               Vendor       Acceptance Level  Install Date
-----------------------------  ------------------------------------  -----------  ----------------  ------------
scsi-aacraid                   5.5.5.2.1.40301-1OEM.550.0.0.1331820  Adaptec_Inc  VMwareCertified   2014-04-13  
arcconf                        1.00-1                                Adaptec      unknown           2014-06-10  
arcsmis                        1.00-1                                Adaptec      unknown           2014-06-10Код: Выделить всё
~ # esxcli software vib get
Adaptec_Inc_bootbank_scsi-aacraid_5.5.5.2.1.40301-1OEM.550.0.0.1331820
   Name: scsi-aacraid
   Version: 5.5.5.2.1.40301-1OEM.550.0.0.1331820
   Type: bootbank
   Vendor: Adaptec_Inc
   Acceptance Level: VMwareCertified
   Summary: aacraid: scsi driver for VMware ESX
   Description: Adaptec HBA Driver
   ReferenceURLs: 
   Creation Date: 2013-10-31
   Depends: vmkapi_2_2_0_0, com.vmware.driverAPI-9.2.2.0
   Conflicts: 
   Replaces: 
   Provides: 
   Maintenance Mode Required: True
   Hardware Platforms Required: 
   Live Install Allowed: False
   Live Remove Allowed: False
   Stateless Ready: False
   Overlay: False
   Tags: driver, module
   Payloads: scsi-aac
Adaptec_bootbank_arcconf_1.00-1
   Name: arcconf
   Version: 1.00-1
   Type: bootbank
   Vendor: Adaptec
   Acceptance Level: unknown
   Summary: ARC CLI provider: ESX release
   Description: ARC CLI provider
   ReferenceURLs: 
   Creation Date: 2014-02-17
   Depends: 
   Conflicts: 
   Replaces: 
   Provides: 
   Maintenance Mode Required: False
   Hardware Platforms Required: 
   Live Install Allowed: True
   Live Remove Allowed: True
   Stateless Ready: False
   Overlay: False
   Tags: 
   Payloads: arcconf
Adaptec_bootbank_arcsmis_1.00-1
   Name: arcsmis
   Version: 1.00-1
   Type: bootbank
   Vendor: Adaptec
   Acceptance Level: unknown
   Summary: ARC SMIS provider: ESX release
   Description: ARC SMIS provider
   ReferenceURLs: 
   Creation Date: 2014-02-17
   Depends: 
   Conflicts: 
   Replaces: 
   Provides: 
   Maintenance Mode Required: False
   Hardware Platforms Required: 
   Live Install Allowed: True
   Live Remove Allowed: True
   Stateless Ready: False
   Overlay: False
   Tags: 
   Payloads: arcsmis
После установки сервер стабильно проработал месяц, затем потерял контроллер, примерно через месяц ситуация повторилась.
Начали искать источник проблем.
В виртуальной машине запустили тест на рандомный read при помощи fio. Примерно через полтора часа после начала теста в логах ESXi стали сыпаться ошибки
Код: Выделить всё
2014-06-12T22:15:02.874Z esxi vmkernel: cpu9:32993)<3>aacraid: Host adapter abort request (1,0,0,0) 
2014-06-12T22:15:02.874Z esxi vmkernel: cpu9:32993)WARNING: LinScsi: SCSILinuxAbortCommands:1837: Failed, Driver aacraid, for vmhba2Datastore в ESXi стал недоступен со всеми виртуальными машинами, при этом на сам ESXi можно залогиниться к примеру по ssh.
Повторный тест дал аналогичный результат, только на этот раз сервер продержался 2.5 часа.
Информацию с контроллера начали снимать утилитой arcconf раз в пять минут с параметрами (GETCONFIG 1, GETSTATUS 1, PHYERRORLOG 1 DEVICE ALL, GETLOGS 1 DEAD, GETLOGS 1 DEVICE, GETLOGS 1 EVENT, GETSMARTSTATS 1 )
Запустили тест заново, контроллер отвалился, при этом получили информацию в момент перед зависанием и после перезагрузки
- за 2 минуты до зависания, контроллер под нагрузкой ( файл 20140613_0215.txt в аттачменте)
- сразу после перезагрузки ( 20140613_0943.txt)
В результате заметили, что после подвисания и перезагрузки в GETLOGS 1 EVENT появляется три новых EVENT'а:
Код: Выделить всё
<event Date="1402637834"
eventType="FSA_EM_EXPANDED_EVENT"
eventCode="0x10000000"
groupType="FSA_EXE_SCSI_GROUP"
groupCode="2"
priority="3"
subType="FSA_EXE_SCSI_SENSE_DATA"
subTypeCode="12"
cdb="00 00 00 00 00 00 00 00 00 00 00 00"
data="70 00 06 00 00 00 00 00 00 00 00 00 29 01 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00"
lun="0"
controllerID="0"
channelID="0"
deviceID="0"/>
<event Date="1402637834"
eventType="FSA_EM_EXPANDED_EVENT"
eventCode="0x10000000"
groupType="FSA_EXE_SCSI_GROUP"
groupCode="2"
priority="3"
subType="FSA_EXE_SCSI_SENSE_DATA"
subTypeCode="12"
cdb="00 00 00 00 00 00 00 00 00 00 00 00"
data="70 00 06 00 00 00 00 00 00 00 00 00 29 01 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00 00"
lun="0"
controllerID="0"
channelID="0"
deviceID="1"/>
<event Date="1402637863"
eventType="FSA_EM_BATTERY_CHANGE"
eventCode="0x4000"
batteryEventType="FSA_BATTERY_DEAD"
batteryEventCode="1"
priorState="0"
currentState="0"
controllerID="0"/>








 
 