Сервер ребутится

У вас сложности? Наши специалисты постараются помочь вам. Если вы сами сталкивались с похожими проблемами - поделитесь опытом.

Модераторы: Trinity admin`s, Free-lance moderator`s

fyga
Junior member
Сообщения: 10
Зарегистрирован: 13 окт 2005, 17:17
Откуда: СПб
Контактная информация:

Сервер ребутится

Сообщение fyga » 08 дек 2005, 13:05

Стоит FreeBSD 6.0
Периодически (иногда по несколько раз в день) сервер ни с того ни с сего перегружается. Никакой паники при этом нет.

Сервер Dual Xeon на базе SuperMicro 6014VT-2B. Стоят два SATA винта в RAID1.

Аватара пользователя
a_shats
Advanced member
Сообщения: 5010
Зарегистрирован: 27 авг 2002, 10:55
Откуда: Москва
Контактная информация:

Сообщение a_shats » 08 дек 2005, 13:12

- что с питанием (эл.сеть), охлаждением в том помещении, где стоит сервер ?
- BIOS мамы обновляли ?
- IPMI- модуль стоит, настроен ?

fyga
Junior member
Сообщения: 10
Зарегистрирован: 13 окт 2005, 17:17
Откуда: СПб
Контактная информация:

Сообщение fyga » 08 дек 2005, 13:17

1. Сервер стоит в дата-центре, так что с питанием и охлаждением там всё должно быть нормально.
2. Собственно, я его и не видел. Хостер закупил и сам поставил. Не думаю, что он занимался обновлением биоса.
3. IPMI нету.

Andrey N. Oktyabrski
Advanced member
Сообщения: 229
Зарегистрирован: 25 окт 2005, 09:30
Откуда: Краснодар

Сообщение Andrey N. Oktyabrski » 08 дек 2005, 14:32

Не, это всё бесполезно :-( У фри какая-то загадочная аллергия на супермикро. У нас одно такое животное есть (6023P-8R). Так вот пока не заменил там фрю на солярку, примерно раз в две недели подвисал намертво. Мы уже его и по гпрантии сдавали, там ничего плохого в железе не нашли. В общем, либо supermicro, либо freebsd.

Аватара пользователя
a_shats
Advanced member
Сообщения: 5010
Зарегистрирован: 27 авг 2002, 10:55
Откуда: Москва
Контактная информация:

Сообщение a_shats » 08 дек 2005, 15:48

Andrey N. Oktyabrski
Есть мнение, что Вы неправы, ибо немаленькое количество наших серверов на Supermicro эксплуатируется под FreeBSD. И отрицательных отзывов, мягко говоря, немного (можете пройтись поиском по форуму).
А все грабли обычно связаны с багофичами отдельных драйверов под фрю ;) и еще - откровенным отсутствием поддержки этой ОС со стороны производителей железа.

Andrey N. Oktyabrski
Advanced member
Сообщения: 229
Зарегистрирован: 25 окт 2005, 09:30
Откуда: Краснодар

Сообщение Andrey N. Oktyabrski » 08 дек 2005, 16:53

Та я-ж разве возражаю? :-) Это мой опыт с вполне конкретной железкой. Я не просто так модель указал. У кого-то всё может быть прямо противоположно, но вот именно мне не повезло :-(

Аватара пользователя
Stranger03
Сотрудник Тринити
Сотрудник Тринити
Сообщения: 12979
Зарегистрирован: 14 ноя 2003, 16:25
Откуда: СПб, Екатеринбург
Контактная информация:

Сообщение Stranger03 » 09 дек 2005, 11:20

Andrey N. Oktyabrski писал(а):Та я-ж разве возражаю? :-) Это мой опыт с вполне конкретной железкой. Я не просто так модель указал. У кого-то всё может быть прямо противоположно, но вот именно мне не повезло :-(
Вам видимо именно не повезло, поскольку все сервера, проданные мной под фрю, работают без перезагрузок годами.
Пример живой системы одного моего клиента, перегружаю исключительно я, по необходимости:

Код: Выделить всё

willy# uptime 
10:11AM  up 81 days, 14:19, 2 users, load averages: 0.00, 0.00, 0.00
Платформа 6014H-82R.
Последний раз правил удаленно фаер, а поскольку мне удаленно всвязи с политикой не перестартовать фаер (в кернеле скомпилировано как все запрещено), я после большой правки правил тупо рестартую систему.

fyga
Junior member
Сообщения: 10
Зарегистрирован: 13 окт 2005, 17:17
Откуда: СПб
Контактная информация:

Сообщение fyga » 09 дек 2005, 11:35

Это всё, конечно, замечательно, но может мне кто-нибудь по моей проблеме чего подскажет?

Аватара пользователя
a_shats
Advanced member
Сообщения: 5010
Зарегистрирован: 27 авг 2002, 10:55
Откуда: Москва
Контактная информация:

Сообщение a_shats » 09 дек 2005, 11:52

В логах есть что-нибудь криминальное ? Касаемо памяти и винтов в особенности.

Andrey N. Oktyabrski
Advanced member
Сообщения: 229
Зарегистрирован: 25 окт 2005, 09:30
Откуда: Краснодар

Сообщение Andrey N. Oktyabrski » 09 дек 2005, 12:47

Stranger03 писал(а):Вам видимо именно не повезло, поскольку все сервера, проданные мной под фрю, работают без перезагрузок годами.
Дык, до этой машинки опыт общения с супермикро был исключительно положительный.
Stranger03 писал(а):Последний раз правил удаленно фаер, а поскольку мне удаленно всвязи с политикой не перестартовать фаер (в кернеле скомпилировано как все запрещено), я после большой правки правил тупо рестартую систему.
А вот это не помогает?
/usr/share/examples/ipfw/change_rules.sh
Или там не ipfw?
fyga писал(а):Это всё, конечно, замечательно, но может мне кто-нибудь по моей проблеме чего подскажет?
Жаль, что IPMI нет. В его логах очень полезные вещи иногда появляются. А лог в BIOS есть возможность увидеть? Может, там что-то будет.
А фря релиз или -stable? Посмотрите, были ли правки в драйвере для sata вообще или для вашего контроллера в частности. А лучше просто обновить систему до RELENG_6 - вреда не будет точно.
Ещё одна тема для размышлений - какие задачи на машинку возложены. Исходя из этого, искать проблему уже в конкретных местах. Например, первое место, куда я полезу смотреть в шестёрке при появлении проблем, это NFS. Второе - драйвер bge+SMP+JumboFrames (workaround - поставить mtu <= 1500).
В общем, нужны подробности. Если есть желание, можно почтой :-)
ano at antora dot ru

Аватара пользователя
Stranger03
Сотрудник Тринити
Сотрудник Тринити
Сообщения: 12979
Зарегистрирован: 14 ноя 2003, 16:25
Откуда: СПб, Екатеринбург
Контактная информация:

Сообщение Stranger03 » 09 дек 2005, 18:28

fyga писал(а):Это всё, конечно, замечательно, но может мне кто-нибудь по моей проблеме чего подскажет?
Ну как бы сложно что-то посоветовать. Первое, что приходит на ум -память. Если сервера гарантийный и наш, питерский, давайте махнем линейки на другие. В 90% случаев такое бывает из-за памяти, остальное - перегрев процов и прочее.
Ну и логи очень внимательно надо поизучать. Может там что интересное.

fyga
Junior member
Сообщения: 10
Зарегистрирован: 13 окт 2005, 17:17
Откуда: СПб
Контактная информация:

Сообщение fyga » 12 дек 2005, 18:05

a_shats писал(а):В логах есть что-нибудь криминальное ? Касаемо памяти и винтов в особенности.
Вот лог после перезагрузки. Вроде, ничего криминального.

Код: Выделить всё

syslogd: kernel boot file is /boot/kernel/kernel
kernel: Copyright (c) 1992-2005 The FreeBSD Project.
kernel: Copyright (c) 1979, 1980, 1983, 1986, 1988, 1989, 1991, 1992, 1993, 1994
kernel: The Regents of the University of California. All rights reserved.
kernel: FreeBSD 6.0-RELEASE #0: Fri Dec  2 16:51:44 MSK 2005
kernel: ***@***:/usr/src/sys/i386/compile/FREDDY
kernel: Timecounter "i8254" frequency 1193182 Hz quality 0
kernel: CPU: Intel(R) Xeon(TM) CPU 3.00GHz (3000.12-MHz 686-class CPU)
kernel: Origin = "GenuineIntel"  Id = 0xf43  Stepping = 3
kernel: Features=0xbfebfbff<FPU,VME,DE,PSE,TSC,MSR,PAE,MCE,CX8,APIC,SEP, MTRR,PGE,MCA,CMOV,PAT,PSE36,CLFLUSH,DTS,ACPI,MMX,FXSR,SSE, SSE2,SS,HTT,TM,PBE>
kernel: Features2=0x641d<SSE3,RSVD2,MON,DS_CPL,CNTX-ID,CX16,<b14>>
kernel: AMD Features=0x20000000<LM>
kernel: Hyperthreading: 2 logical CPUs
kernel: real memory  = 1073479680 (1023 MB)
kernel: avail memory = 1041399808 (993 MB)
kernel: ACPI APIC Table: <A M I  OEMAPIC >
kernel: FreeBSD/SMP: Multiprocessor System Detected: 4 CPUs
kernel: cpu0 (BSP): APIC ID:  0
kernel: cpu1 (AP): APIC ID:  1
kernel: cpu2 (AP): APIC ID:  6
kernel: cpu3 (AP): APIC ID:  7
kernel: ioapic0 <Version 2.0> irqs 0-23 on motherboard
kernel: ioapic1 <Version 2.0> irqs 24-47 on motherboard
kernel: npx0: [FAST]
kernel: npx0: <math processor> on motherboard
kernel: npx0: INT 16 interface
kernel: acpi0: <A M I OEMRSDT> on motherboard
kernel: acpi0: Power Button (fixed)
kernel: pci_link0: <ACPI PCI Link LNKA> irq 10 on acpi0
kernel: pci_link1: <ACPI PCI Link LNKB> irq 11 on acpi0
kernel: pci_link2: <ACPI PCI Link LNKC> irq 11 on acpi0
kernel: pci_link3: <ACPI PCI Link LNKD> irq 5 on acpi0
kernel: pci_link4: <ACPI PCI Link LNKE> irq 0 on acpi0
kernel: pci_link5: <ACPI PCI Link LNKF> irq 0 on acpi0
kernel: pci_link6: <ACPI PCI Link LNKG> irq 10 on acpi0
kernel: pci_link7: <ACPI PCI Link LNKH> irq 5 on acpi0
kernel: Timecounter "ACPI-safe" frequency 3579545 Hz quality 1000
kernel: acpi_timer0: <24-bit timer at 3.579545MHz> port 0x408-0x40b on acpi0
kernel: cpu0: <ACPI CPU> on acpi0
kernel: acpi_throttle0: <ACPI CPU Throttling> on cpu0
kernel: cpu1: <ACPI CPU> on acpi0
kernel: cpu2: <ACPI CPU> on acpi0
kernel: cpu3: <ACPI CPU> on acpi0
kernel: pcib0: <ACPI Host-PCI bridge> port 0xcf8-0xcff on acpi0
kernel: pci0: <ACPI PCI bus> on pcib0
kernel: pcib1: <ACPI PCI-PCI bridge> irq 16 at device 2.0 on pci0
kernel: pci1: <ACPI PCI bus> on pcib1
kernel: pcib2: <ACPI PCI-PCI bridge> irq 16 at device 3.0 on pci0
kernel: pci2: <ACPI PCI bus> on pcib2
kernel: pcib3: <ACPI PCI-PCI bridge> at device 28.0 on pci0
kernel: pci3: <ACPI PCI bus> on pcib3
kernel: em0: <Intel(R) PRO/1000 Network Connection, Version - 2.1.7> port 0xbc00-0xbc3f mem 0xfc9c0000-0xfc9dffff irq 26 at device 3.0 on pci3
kernel: em0: Ethernet address: 00:30:48:54:f3:88
kernel: em0:  Speed:N/A  Duplex:N/A
kernel: em1: <Intel(R) PRO/1000 Network Connection, Version - 2.1.7> port 0xb800-0xb83f mem 0xfc9a0000-0xfc9bffff irq 27 at device 4.0 on pci3
kernel: em1: Ethernet address: 00:30:48:54:f3:89
kernel: em1:  Speed:N/A  Duplex:N/A
kernel: uhci0: <UHCI (generic) USB controller> port 0xe800-0xe81f irq 16 at device 29.0 on pci0
kernel: uhci0: [GIANT-LOCKED]
kernel: usb0: <UHCI (generic) USB controller> on uhci0
kernel: usb0: USB revision 1.0
kernel: uhub0: Intel UHCI root hub, class 9/0, rev 1.00/1.00, addr 1
kernel: uhub0: 2 ports with 2 removable, self powered
kernel: uhci1: <UHCI (generic) USB controller> port 0xec00-0xec1f irq 19 at device 29.1 on pci0
kernel: uhci1: [GIANT-LOCKED]
kernel: usb1: <UHCI (generic) USB controller> on uhci1
kernel: usb1: USB revision 1.0
kernel: uhub1: Intel UHCI root hub, class 9/0, rev 1.00/1.00, addr 1
kernel: uhub1: 2 ports with 2 removable, self powered
kernel: pci0: <base peripheral> at device 29.4 (no driver attached)
kernel: pci0: <base peripheral, interrupt controller> at device 29.5 (no driver attached)
kernel: ehci0: <EHCI (generic) USB 2.0 controller> mem 0xfebffc00-0xfebfffff irq 23 at device 29.7 on pci0
kernel: ehci0: [GIANT-LOCKED]
kernel: usb2: EHCI version 1.0
kernel: usb2: companion controllers, 2 ports each: usb0 usb1
kernel: usb2: <EHCI (generic) USB 2.0 controller> on ehci0
kernel: usb2: USB revision 2.0
kernel: uhub2: Intel EHCI root hub, class 9/0, rev 2.00/1.00, addr 1
kernel: uhub2: 4 ports with 4 removable, self powered
kernel: pcib4: <ACPI PCI-PCI bridge> at device 30.0 on pci0
kernel: pci4: <ACPI PCI bus> on pcib4
kernel: pci4: <display, VGA> at device 5.0 (no driver attached)
kernel: isab0: <PCI-ISA bridge> at device 31.0 on pci0
kernel: isa0: <ISA bus> on isab0
kernel: atapci0: <Intel 6300ESB UDMA100 controller> port 0x1f0-0x1f7,0x3f6,0x170-0x177,0x376,0xfc00-0xfc0f at device 31.1 on pci0
kernel: ata0: <ATA channel 0> on atapci0
kernel: ata1: <ATA channel 1> on atapci0
kernel: atapci1: <Intel 6300ESB SATA150 controller> port 0xe400-0xe407,0xe000-0xe003,0xdc00-0xdc07,0xd800-0xd803,0xd400-0xd40f irq 18 at device 31.2 on pci0
kernel: atapci1: failed to enable memory mapping!
kernel: ata2: <ATA channel 0> on atapci1
kernel: ata3: <ATA channel 1> on atapci1
kernel: pci0: <serial bus, SMBus> at device 31.3 (no driver attached)
kernel: acpi_button0: <Power Button> on acpi0
kernel: acpi_button1: <Sleep Button> on acpi0
kernel: sio0: configured irq 4 not in bitmap of probed irqs 0
kernel: sio0: port may not be enabled
kernel: sio0: <16550A-compatible COM port> port 0x3f8-0x3ff irq 4 flags 0x10 on acpi0
kernel: sio0: type 16550A
kernel: sio1: configured irq 3 not in bitmap of probed irqs 0
kernel: sio1: port may not be enabled
kernel: sio1: <16550A-compatible COM port> port 0x2f8-0x2ff irq 3 on acpi0
kernel: sio1: type 16550A
kernel: fdc0: <floppy drive controller (FDE)> port 0x3f0-0x3f5,0x3f7 irq 6 drq 2 on acpi0
kernel: fdc0: [FAST]
kernel: fd0: <1440-KB 3.5" drive> on fdc0 drive 0
kernel: ppc0: <ECP parallel printer port> port 0x378-0x37f,0x778-0x77f irq 7 drq 3 on acpi0
kernel: ppc0: SMC-like chipset (ECP/EPP/PS2/NIBBLE) in COMPATIBLE mode
kernel: ppc0: FIFO with 16/16/9 bytes threshold
kernel: ppbus0: <Parallel port bus> on ppc0
kernel: plip0: <PLIP network interface> on ppbus0
kernel: lpt0: <Printer> on ppbus0
kernel: lpt0: Interrupt-driven port
kernel: ppi0: <Parallel I/O> on ppbus0
kernel: pmtimer0 on isa0
kernel: orm0: <ISA Option ROMs> at iomem 0xc0000-0xc7fff,0xc8000-0xcc7ff,0xcc800-0xcd7ff,0xcd800-0xce7ff on isa0
kernel: atkbdc0: <Keyboard controller (i8042)> at port 0x60,0x64 on isa0
kernel: atkbd0: <AT Keyboard> irq 1 on atkbdc0
kernel: kbd0 at atkbd0
kernel: atkbd0: [GIANT-LOCKED]
kernel: sc0: <System console> at flags 0x100 on isa0
kernel: sc0: VGA <16 virtual consoles, flags=0x300>
kernel: vga0: <Generic ISA VGA> at port 0x3c0-0x3df iomem 0xa0000-0xbffff on isa0
kernel: Timecounters tick every 1.000 msec
kernel: acd0: CDROM <CD-224E/1.9A> at ata0-master UDMA33
kernel: ad4: 78533MB <HDS728080PLA380 PF2OA60A> at ata2-master SATA150
kernel: ad6: 78533MB <HDS728080PLA380 PF2OA60A> at ata3-master SATA150
kernel: ar0: 78533MB <Adaptec HostRAID RAID1> status: READY
kernel: ar0: disk0 READY (master) using ad4 at ata2-master
kernel: ar0: disk1 READY (mirror) using ad6 at ata3-master
kernel: SMP: AP CPU #2 Launched!
kernel: SMP: AP CPU #1 Launched!
kernel: SMP: AP CPU #3 Launched!
kernel: Trying to mount root from ufs:/dev/ar0s1a
kernel: WARNING: / was not properly dismounted
savecore: no dumps found

fyga
Junior member
Сообщения: 10
Зарегистрирован: 13 окт 2005, 17:17
Откуда: СПб
Контактная информация:

Сообщение fyga » 12 дек 2005, 18:16

Andrey N. Oktyabrski писал(а):А фря релиз или -stable? Посмотрите, были ли правки в драйвере для sata вообще или для вашего контроллера в частности. А лучше просто обновить систему до RELENG_6 - вреда не будет точно.
Релиз.
Andrey N. Oktyabrski писал(а):Ещё одна тема для размышлений - какие задачи на машинку возложены. Исходя из этого, искать проблему уже в конкретных местах. Например, первое место, куда я полезу смотреть в шестёрке при появлении проблем, это NFS. Второе - драйвер bge+SMP+JumboFrames (workaround - поставить mtu <= 1500).
В общем, нужны подробности. Если есть желание, можно почтой :-)
ano at antora dot ru
Веб сервер со стандартным набором - apache, perl, php, myqsl, почта.

На самом деле, сейчас перезагрузки волшебным образом прекратились. С вечера среды работает нормально. Сижу, боюсь, что снова начнётся ибо вроде ничего такого не менял.

Andrey N. Oktyabrski
Advanced member
Сообщения: 229
Зарегистрирован: 25 окт 2005, 09:30
Откуда: Краснодар

Сообщение Andrey N. Oktyabrski » 12 дек 2005, 18:20

fyga писал(а):На самом деле, сейчас перезагрузки волшебным образом прекратились. С вечера среды работает нормально. Сижу, боюсь, что снова начнётся ибо вроде ничего такого не менял.
Это самое плохое :-( Причина осталась неизвестной.

fyga
Junior member
Сообщения: 10
Зарегистрирован: 13 окт 2005, 17:17
Откуда: СПб
Контактная информация:

Сообщение fyga » 13 дек 2005, 16:40

Вот и опять перезагрузился :(

Есть такой вопрос. Теоретически возможно, что это происходит из за некорректной работы RAID'a?

Ответить

Вернуться в «Серверы - Решение проблем»

Кто сейчас на конференции

Сейчас этот форум просматривают: нет зарегистрированных пользователей и 14 гостей