Supermicro X11SRM-F теряет NVMe накопители

У вас сложности? Наши специалисты постараются помочь вам. Если вы сами сталкивались с похожими проблемами - поделитесь опытом.

Модераторы: Trinity admin`s, Free-lance moderator`s

Ответить
dolly
Power member
Сообщения: 39
Зарегистрирован: 28 ноя 2005, 20:42
Откуда: Санкт-Петербург

Supermicro X11SRM-F теряет NVMe накопители

Сообщение dolly » 24 сен 2018, 22:37

Всем доброе время суток!

В вашей компании был приобретен сервер в следующей конфигурации:

Материнская плата: Supermicro X11SRM-F, LGA 2066 microATX
Процессор: Intel Xeon W-2145
Память: 4 * 32GB DDR4 RDIMM (PC4-21300) 2666MHz ECC Reg (Samsung M393A4K40CB2-CTD)
SSD: 2 * 2.5" 500 Gb Samsung SATA III 860 EVO (MZ-76E500BW)
NVMe: 2 * Plextor M9Pe 512Gb SSD HHHL PCIe Gen3x4 (PX-512M9PeY)

На Samsung'ах планировалось установить ОС CentOS на программном зеркале RAID-1 mdadm, на Plextor'ах разместить файл базы данных (также на программном зеркале RAID-1 mdadm).
ОС успешно установилась, однако, с Plextor'ами изначально возникли проблемы, выражающиеся в том, что или в процессе создания RAID, или уже в процессе работы созданного массива
одно из устройств отключалось.

Это лог ошибок при построении RAID:

kernel: nvme nvme0: I/O 917 QID 4 timeout, aborting
kernel: nvme nvme0: I/O 918 QID 4 timeout, aborting
kernel: nvme nvme0: I/O 919 QID 4 timeout, aborting
kernel: nvme nvme0: I/O 920 QID 4 timeout, aborting
kernel: nvme nvme0: I/O 917 QID 4 timeout, reset controller
kernel: nvme nvme0: I/O 5 QID 0 timeout, reset controller
kernel: nvme nvme0: Abort status: 0x7
kernel: nvme nvme0: Abort status: 0x7
kernel: nvme nvme0: Abort status: 0x7
kernel: nvme nvme0: Abort status: 0x7
kernel: nvme0n1: detected capacity change from 512110190592 to 0
kernel: blk_update_request: I/O error, dev nvme0n1, sector 71468544
kernel: blk_update_request: I/O error, dev nvme0n1, sector 69648
kernel: md: super_written gets error=-5, uptodate=0
kernel: blk_update_request: I/O error, dev nvme0n1, sector 71470208
kernel: md/raid1:md124: Disk failure on nvme0n1p2, disabling device.#012md/raid1:md124: Operation continuing on 1 devices.

А это лог при обычной работе:

kernel: nvme nvme0: I/O 467 QID 6 timeout, aborting
kernel: nvme nvme0: I/O 468 QID 6 timeout, aborting
kernel: nvme nvme0: I/O 470 QID 6 timeout, aborting
kernel: nvme nvme0: I/O 471 QID 6 timeout, aborting
kernel: nvme nvme0: I/O 467 QID 6 timeout, reset controller
kernel: nvme nvme0: I/O 3 QID 0 timeout, reset controller
kernel: nvme nvme0: Device not ready; aborting reset
kernel: nvme nvme0: Abort status: 0x7
kernel: nvme nvme0: Abort status: 0x7
kernel: nvme nvme0: Abort status: 0x7
kernel: nvme nvme0: Abort status: 0x7
kernel: nvme nvme0: Device not ready; aborting reset
kernel: nvme nvme0: Removing after probe failure status: -19
kernel: print_req_error: I/O error, dev nvme0n1, sector 0
kernel: print_req_error: I/O error, dev nvme0n1, sector 231722320
kernel: print_req_error: I/O error, dev nvme0n1, sector 0
kernel: print_req_error: I/O error, dev nvme0n1, sector2064
kernel: md: super_written gets error=10
kernel: md/raid1:md128: Disk failure on nvme0n1p1, disabling device.#012md/raid1:md128: Operation continuing on 1 devices.

Каждый раз один из дисков (в большинстве случаев nvme0, но не могу утверждать что в 100% случаев это был конкретный один экземпляр из двух) пропадал из системы (т.е. nvme list его не показывал) . Помогала или горячая, или только холодная перезагрузка. В качестве OC при тестировании использовались CentOS 7.5 (Kernel 3.10.0 & 4.18.8) и Ubuntu Server 18.04. Указанные ошибки возникали в произвольные моменты времени - при установке ОС или в процессе работы, при установке ОС на RAID из Samsung или RAID из Plextor (FW 1.06).

Подскажите, пожалуйста, в чем здесь может быть проблема: брак конкретного экземпляра Plextor, недоработки в прошивке или что-то еще?

Заранее благодарен за ответы.

Вернуться в «Серверы - Решение проблем»

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и 25 гостей