[rosedu-admins] ** PROBLEM Host Alert: swarm is DOWN **
Mircea Bardac
cs at mircea.bardac.net
Mon Mar 28 15:45:14 EEST 2011
Salut,
On Mar 28, 2011, at 9:41 AM, Razvan Deaconescu wrote:
> Din păcate, nu văd posibilă o investigație serioasă în acest sens până
> la sfârșitul semestrului din partea mea. Se mai uită Andrei Sfrenț pe
> serverul rosedu care este unul dintre cauzatoarele de probleme (pe locul
> 2 probabil vine vmchecker-ul de pe elf).
== 1 ==
Mai jos se găsesc valorile beancouter-elor pentru elf (container-ul 200), înainte de blocarea server-ului. Output-ul este de forma:
"fisier_parametru:data valoare_parametru failcount_parametru"
După cum se vede, niciun parametru nu a depășit limitele impuse.
mamba:/var/log/vz/200# grep 2011-03-28-01-05 *
dcachesize:2011-03-28-01-05-06 783443 0
dgramrcvbuf:2011-03-28-01-05-06 0 0
dummy:2011-03-28-01-05-06 0 0
dummy:2011-03-28-01-05-06 0 0
dummy:2011-03-28-01-05-06 0 0
dummy:2011-03-28-01-05-06 0 0
kmemsize:2011-03-28-01-05-06 19681932 0
lockedpages:2011-03-28-01-05-06 8 0
numfile:2011-03-28-01-05-06 2996 0
numflock:2011-03-28-01-05-06 6 0
numiptent:2011-03-28-01-05-06 10 0
numothersock:2011-03-28-01-05-06 124 0
numproc:2011-03-28-01-05-06 73 0
numpty:2011-03-28-01-05-06 1 0
numsiginfo:2011-03-28-01-05-06 0 0
numtcpsock:2011-03-28-01-05-06 28 0
oomguarpages:2011-03-28-01-05-06 87566 0
othersockbuf:2011-03-28-01-05-06 168776 0
physpages:2011-03-28-01-05-06 47412 0
privvmpages:2011-03-28-01-05-06 157622 0
shmpages:2011-03-28-01-05-06 1883 0
tcprcvbuf:2011-03-28-01-05-06 399000 0
tcpsndbuf:2011-03-28-01-05-06 547576 0
vmguarpages:2011-03-28-01-05-06 0 0
Am pus și rosedu sub monitorizare în același fel.
== 2 ==
dmesg arată mai multe linii cu următorul output:
[17319.459475] INFO: task md1_resync:9406 blocked for more than 120 seconds.
[17319.459508] "echo 0 > /proc/sys/kernel/hung_task_timeout_secs" disables this message.
[17319.463415] md1_resync D ffff8100ad131810 0 9406 2
[17319.463415] ffff8101160fbdb0 0000000000000046 73746f6e6e412f3e 3e52203020373620
[17319.463415] ffff8100ad131810 ffff81013c87d7d0 ffff8100ad131a98 0000000137206874
[17319.463415] 65746c69462f5220 ffffffff8030deed ffff8101160fbe90 ffffffff80229422
[17319.463415] Call Trace:
[17319.463415] [<ffffffff8030deed>] __next_cpu+0x19/0x26
[17319.463415] [<ffffffff80229422>] find_busiest_group+0x254/0x6dc
[17319.463415] [<ffffffffa0103917>] :md_mod:md_do_sync+0x224/0x908
[17319.463415] [<ffffffff8020a8d4>] __switch_to+0x96/0x35e
[17319.463415] [<ffffffff8022ee12>] hrtick_set+0x88/0xf7
[17319.463415] [<ffffffff80247bed>] autoremove_wake_function+0x0/0x2e
[17319.463415] [<ffffffffa010641b>] :md_mod:md_thread+0xd7/0xed
[17319.463415] [<ffffffffa0106344>] :md_mod:md_thread+0x0/0xed
[17319.463415] [<ffffffff80247ac7>] kthread+0x47/0x74
[17319.463415] [<ffffffff8022fe30>] schedule_tail+0x27/0x5b
[17319.463415] [<ffffffff8020d058>] child_rip+0xa/0x12
[17319.463415] [<ffffffff80247a80>] kthread+0x0/0x74
[17319.463415] [<ffffffff8020d04e>] child_rip+0x0/0x12
Conform paginii de mai jos, bug-ul ar produce blocări ale sistemului cu 2.6.26-ul din lenny.
* http://bugs.debian.org/cgi-bin/bugreport.cgi?bug=517586
A fost reparat în 2.6.26-21, doar că noi avem 2.6.26-1-openvz-amd64.
Aș sugera să instalăm din backports pachetul linux-image-2.6.32-bpo.5-openvz-amd64, dar RD ar trebui să fie acolo fizic și să urmărească faptul că mamba bootează corect. Nu știu dacă ar putea apărea vreo problemă, diferențele între versiunile de kernel fiind destul de mari.
* http://packages.debian.org/lenny-backports/linux-image-2.6.32-bpo.5-openvz-amd64
Mircea
--
M.Sc. Eng., Ph.D. Candidate, Scientific Researcher & Teaching Assistant
University POLITEHNICA of Bucharest, Computer Science Department
More information about the rosedu-admins
mailing list