Виснет сетевая карта.

На доскональное знание данной темы, не может претендовать, пожалуй ни один спец, из ныне живущих на земле. ;-)
Так поможем друг другу.

Модераторы: Trinity admin`s, Free-lance moderator`s

technotechno
Junior member
Сообщения: 11
Зарегистрирован: 23 дек 2008, 15:41
Откуда: Воскресенск

Виснет сетевая карта.

Сообщение technotechno » 23 дек 2008, 16:00

ОС FreeBSD 6.3, поддержка acpi отключена.
Сервер Trinity ( Supermicro Platforms SuperServer 6015B-3RB, Intel Xeon E5430x2, 4GB, Network Intel® PRO/1000 PT Dual Port Server Adapter (EXPI9402PT).

Трафик проходящий через машину 50-90Мбит, активных хостов до 1500шт. Сервер выполняет роль шейпера (ipfw pipe+queue), фаервола (ipfw), NAT (ipnat).

Машинка работает нормально, но в какие то моменты времени, зависимость от каких факторов не определено, зависает. Причем в логах до этого сначала идут записи:

Код: Выделить всё

Dec 20 04:35:06 kernelgate kernel: Expensive timeout(9) function: 0x8047fda8(0x8a8af800) 0.025682593 s
Dec 20 04:35:10 kernelgate kernel: em3: link state changed to UP
Dec 20 04:35:38 kernelgate kernel: em3: watchdog timeout -- resetting
Dec 20 04:35:38 kernelgate kernel: em3: link state changed to DOWN
Dec 20 04:35:42 kernelgate kernel: em3: link state changed to UP
Dec 20 04:36:05 kernelgate kernel: em3: watchdog timeout -- resetting
Dec 20 04:36:05 kernelgate kernel: em3: link state changed to DOWN
Dec 20 04:36:09 kernelgate kernel: em3: link state changed to UP
Dec 20 04:36:20 kernelgate kernel: em3: watchdog timeout -- resetting
Dec 20 04:36:20 kernelgate kernel: em3: link state changed to DOWN
и так по кругу.

помогает перегрузка сервера.
В чем может быть проблема? Куда копать? Все, что уже накопали в интернете уже попробывали.

and3008
Заслуженный сетевик
Сообщения: 1109
Зарегистрирован: 03 янв 2004, 23:30
Откуда: Н.Новгород

Сообщение and3008 » 23 дек 2008, 16:30

Предлагается пропатчить EPROM у сетевой карты.

Аватара пользователя
setar
Site Admin
Site Admin
Сообщения: 1990
Зарегистрирован: 22 авг 2002, 12:03
Откуда: St. Petersburg

Сообщение setar » 23 дек 2008, 16:43

1. как и сказано прошить биос карты последней прошивкой.
2. поддержку сетевухи модулем, затем fail2ban c контролем лога, и при обнаружении таких сообщений - ложим сеть, перегружаем модуль, поднимаем сеть.

technotechno
Junior member
Сообщения: 11
Зарегистрирован: 23 дек 2008, 15:41
Откуда: Воскресенск

Сообщение technotechno » 23 дек 2008, 17:21

and3008 писал(а):Предлагается пропатчить EPROM у сетевой карты.
Спасибо за быстрый ответ.
Можно ли поподробнее про перешивку? Или ссылку на инструкцию и софт.

technotechno
Junior member
Сообщения: 11
Зарегистрирован: 23 дек 2008, 15:41
Откуда: Воскресенск

Сообщение technotechno » 23 дек 2008, 17:28

setar писал(а):2. поддержку сетевухи модулем, затем fail2ban c контролем лога,
Вы предлагаете не "вкомпилировать" в ядро драйвер карты а подгружать его во время загрузки? Какой драйвер подгружать модулем? Быть может есть какой то сторонний драйвер?
и при обнаружении таких сообщений - ложим сеть, перегружаем модуль, поднимаем сеть.
Это не выход. Сеть должна работать 7/24/365. Люди следят за сервером 8 часов в день. По этому, если ночью карта отваливается, получается плохо.

Аватара пользователя
Stranger03
Сотрудник Тринити
Сотрудник Тринити
Сообщения: 12979
Зарегистрирован: 14 ноя 2003, 16:25
Откуда: СПб, Екатеринбург
Контактная информация:

Сообщение Stranger03 » 24 дек 2008, 07:51

"technotechno"
Достаточно опустить и поднять интерфейс, всего делов на 10-15 секунд скриптом.

technotechno
Junior member
Сообщения: 11
Зарегистрирован: 23 дек 2008, 15:41
Откуда: Воскресенск

Сообщение technotechno » 24 дек 2008, 08:53

Stranger03 писал(а): Достаточно опустить и поднять интерфейс, всего делов на 10-15 секунд скриптом.
И это называется надежный сервер???
Как я уже писал это не выход.

Неужели все так решают такую проблему? У нас и нагрузка не такая большая, есть ведь сервера, у которых нагрузки значительно больше.

Единственное, что мне посоветовали это уменьшить кол-во правил на ipfw. У нас их там более сотни.

Аватара пользователя
setar
Site Admin
Site Admin
Сообщения: 1990
Зарегистрирован: 22 авг 2002, 12:03
Откуда: St. Petersburg

Сообщение setar » 25 дек 2008, 10:14

да, именно модулем я и предложил собрать карту.
для e1000 сейчас можно использовать по крайней мере 3 драйвера
старый (не помню как называется нужно смотреть menuconfig), новый который сейчас собственно носит название e1000 - эти два из исходников ядра.
Ну и третий самый правильный вариант дрова от разработчика eth чипа - от intel скачивается соответственно с сайта производителя.
Сеть должна работать 7/24/365
Это кластер, без вариантов!

technotechno
Junior member
Сообщения: 11
Зарегистрирован: 23 дек 2008, 15:41
Откуда: Воскресенск

Сообщение technotechno » 25 дек 2008, 11:55

setar писал(а):да, именно модулем я и предложил собрать карту.
для e1000 сейчас можно использовать по крайней мере 3 драйвера
старый (не помню как называется нужно смотреть menuconfig)
Если не ошибаюсь это в Linux-е. У нас FreeBSD.
, новый который сейчас собственно носит название e1000 - эти два из исходников ядра.
Ну и третий самый правильный вариант дрова от разработчика eth чипа - от intel скачивается соответственно с сайта производителя.
Собрали именно с этим драйвером. Последняя версия с сайта 6.6.6. Сутки, пока полет нормальный.
Сеть должна работать 7/24/365
Это кластер, без вариантов!
Мечты....

Аватара пользователя
Fast
Power member
Сообщения: 37
Зарегистрирован: 03 авг 2007, 15:10
Откуда: Minsk
Контактная информация:

Сообщение Fast » 25 дек 2008, 11:56

setar писал(а):да, именно модулем я и предложил собрать карту.
для e1000 сейчас можно использовать по крайней мере 3 драйвера
старый (не помню как называется нужно смотреть menuconfig), новый который сейчас собственно носит название e1000 - эти два из исходников ядра.
Ну и третий самый правильный вариант дрова от разработчика eth чипа - от intel скачивается соответственно с сайта производителя.
Сеть должна работать 7/24/365
Это кластер, без вариантов!
Это ж FreeBSD(menuconfig там просто нет).

По листу рассылки поглядел - это по моему проблемы из за локов в ядре.
Не пробовали обновиться до 7-ки ?

technotechno
Junior member
Сообщения: 11
Зарегистрирован: 23 дек 2008, 15:41
Откуда: Воскресенск

Сообщение technotechno » 25 дек 2008, 12:01

Fast писал(а): По листу рассылки поглядел - это по моему проблемы из за локов в ядре.
Не пробовали обновиться до 7-ки ?
Хотел с самого начала на ней сделать, но потом подумал, что она не достаточно стабильная. А узел очень ответственный.

За идею по поводу локов спасибо, может поможет.

technotechno
Junior member
Сообщения: 11
Зарегистрирован: 23 дек 2008, 15:41
Откуда: Воскресенск

Сообщение technotechno » 25 дек 2008, 22:15

Не прошло и 2-х суток. Карта опять умерла. Если быть более точным, то я пытался обрариться к серверу по 2-м разным интерфейсам, ответов не было. И самое интересное что с этим драйвером нет ни одной записи в логах. Сервер не завис! После перезагрузки сервера все опять заработало.
Куда теперь копать? Не может ли быть проблема аппаратная?

Аватара пользователя
Stranger03
Сотрудник Тринити
Сотрудник Тринити
Сообщения: 12979
Зарегистрирован: 14 ноя 2003, 16:25
Откуда: СПб, Екатеринбург
Контактная информация:

Сообщение Stranger03 » 26 дек 2008, 07:18

technotechno писал(а):Не может ли быть проблема аппаратная?
Обновлять прошивку пробовали? К слову сказать еще в питере мне как-то попалась такая же платформа, в которой оба интерфейса начинали путаться в режимах 100 - 1000 Мбит. Может это карма, но когда я переставил систему по своим умозрениям, все стало хорошо. Работает по сей день у провайдера.
Потом я думаю стоит на 6.3 накатить последние апдейты через svup.

Аватара пользователя
setar
Site Admin
Site Admin
Сообщения: 1990
Зарегистрирован: 22 авг 2002, 12:03
Откуда: St. Petersburg

Сообщение setar » 26 дек 2008, 10:03

маловероятно конечно, но проверьте на всякий случай мас адреса аппаратные

и ещё раз предлагаю :
2. поддержку сетевухи модулем, затем fail2ban c контролем лога, и при обнаружении таких сообщений - ложим сеть, перегружаем модуль, поднимаем сеть.
все же это лучше чем узнавать о падении сервера постфактум.
к тому же если все правильно настроить то передергивание может занять менее секунды... впрочем сессиии порвуться всё равно

Аватара пользователя
Stranger03
Сотрудник Тринити
Сотрудник Тринити
Сообщения: 12979
Зарегистрирован: 14 ноя 2003, 16:25
Откуда: СПб, Екатеринбург
Контактная информация:

Сообщение Stranger03 » 26 дек 2008, 10:10

В конце-то концов поставить еще одну сетевуху и посмотреть в чем проблема. Будет ли отваливаться.

Ответить

Вернуться в «Серверы - ПО, Unix подобные системы»

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и 9 гостей