2.6.xx kernel CPU# xx Soft loсkup

На доскональное знание данной темы, не может претендовать, пожалуй ни один спец, из ныне живущих на земле. ;-)
Так поможем друг другу.

Модераторы: Trinity admin`s, Free-lance moderator`s

Ответить
Аватара пользователя
art
free-lance moderator
Сообщения: 653
Зарегистрирован: 15 май 2003, 11:25
Откуда: SPb

2.6.xx kernel CPU# xx Soft loсkup

Сообщение art » 08 июн 2010, 13:54

Раз в несколько недель наблюдаем на одном из серверов CPU#X soft loсkup
Как правило под многопоточной java нагрузкой.
Наличие KVM модулей в ядре резко увеличивает вероятность локов (гарантированное выделение контекста).
Рекомендуемые многими hpet=off, acpi=off etc не влияют на проблему.

Сервер AMD 64, 16 ядер.
Linux version 2.6.24-27-server (buildd@yellow) (gcc version 4.2.4 (Ubuntu 4.2.4-1ubuntu4)) #1 SMP Wed Mar 24 11:32:39 UTC 2010

Soft Lock вначале возникает на любом из активных процессов: видел это на jsvc,posgresql, syslogd, kswapd, sshd... Затем эскалируется на еще несколько, а через 3-4 минуты система замирает, сохраняя способность кое-как отвечать на ICMP пакеты (не создаются новые процессы, сокеты и файлы).

Если погуглить на "Soft lockup CPU#", то получим интересную табличку (в тыс.)
__ один сокет
CPU#0 = 63
CPU#1 = 25
__2 сокета старые и 1 сокет новые многоядерные
CPU#2 = 135
CPU#3 = 120
__2 сокета
CPU#4 = 70
CPU#5 = 114
CPU#6 = 119
CPU#7 = 62
__2 сокета, новые многоядерные
CPU#8 = 58
CPU#9 = 99
CPU#10 = 69
CPU#11 = 97
__ 4 сокета
CPU#12 = 56
CPU#13 = 52
CPU#14 = 53
CPU#15 = 102

Вероятность soft lock на любом из ядер 16-ти 1/16, 8-ми ядерном - 1/8 и т.д.
Т.е. число страниц в гугле должно было бы дать Soft lockup CPU0 выше всех прочих.
Одно-двух сокетных серверов продается в сотни раз больше четырехсокетных.
IMHO, это распределение указывает именно на проблемы с многоядерными конфигурациями.

Зависимость от дистрибутива примерно соответствует его популярности.

У меня такое впечатление, что в ядрах выше 2.6.18 что-то крепко поломали с переключениями контекста ядром.

А вам встречалось такое, господа?

and3008
Заслуженный сетевик
Сообщения: 1109
Зарегистрирован: 03 янв 2004, 23:30
Откуда: Н.Новгород

Re: 2.6.xx kernel CPU# xx Soft loсkup

Сообщение and3008 » 08 июн 2010, 21:24

Да вроде тут популярно рассказано отчего сие и как лечить: http://kbase.redhat.com/faq/docs/DOC-17358

Аватара пользователя
art
free-lance moderator
Сообщения: 653
Зарегистрирован: 15 май 2003, 11:25
Откуда: SPb

Re: 2.6.xx kernel CPU# xx Soft loсkup

Сообщение art » 09 июн 2010, 00:10

http://kbase.redhat.com/faq/docs/DOC-17358 писал(а):These are informational messages indicating that a CPU did not respond to a softlockup timer within the timer window (currently 10 seconds on Red Hat Enterprise Linux). They do not indicate a problem with the system.
Отказ в открытии новых сокетов и омертвение всего, даже локальной консоли, не вполне соответствует фразе "They do not indicate a problem with the system".

Т.е. там просто таймаут был превышен и это в лога попадало.
А тут - эскалация блокировок, которая разрастается за 3-4 минуты, вызывает полный ступор системы и остается минимум на 4 часа (дольше не проверял).

Ответить

Вернуться в «Серверы - ПО, Unix подобные системы»

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и 16 гостей