Примерно в августе на машине (конфиг: X8SIA/iX3450/MegaRAID SAS 9261-8i) начались странные зависания и падения в Machine Check Exception. Причем регистры пустые. После установки PCIe payload size в 128B падать стала по ощущениям реже, но вот опять - вчера за одни сутки два раза упала в MCE.
Гуглил долго и упорно - в основном у людей две проблемы: либо несовместимость с RAID контроллером, либо подобное проявлялось на ядрах начиная с 2.6.18, но на LKML ничего нет.
Прогоняли memtest86+ - все без толку, тест чистый. Есть подозрения, что падения начинаются при большой нагрузке на сеть (машина - выделенный iSCSI target). RAID массивы тоже чистые. Установлен Debian lenny. Ломаю голову, как быть с машиной...
Скриншоты с сообщением о MCE:
uname -a:
Код: Выделить всё
Linux store01 2.6.26-2-amd64 #1 SMP Mon Jun 13 16:29:33 UTC 2011 x86_64 GNU/Linux