<div dir="ltr">Could you please paste your /var/log/cluster/corosync.log and sheep.log?<div><br></div><div>Thanks,</div><div>Wenhao<br><div><br></div></div></div><div class="gmail_extra"><br><br><div class="gmail_quote">On Tue, Jul 2, 2013 at 10:59 AM, George Y. Hu <span dir="ltr"><<a href="mailto:huyuanyuan@gamutsoft.com" target="_blank">huyuanyuan@gamutsoft.com</a>></span> wrote:<br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">Dears,<br>
<br>
I installed corosync(1.4.6)+sheepdog(0.6.0) on two Centos6, with the<br>
following configuration of corosync.conf<br>
<br>
-----------------------------------------<br>
compatibility: whitetank<br>
<br>
totem {<br>
        version: 2<br>
        secauth: off<br>
        threads: 0<br>
        interface {<br>
                ringnumber: 0<br>
                bindnetaddr: 10.86.213.251 (252 is another)<br>
                mcastaddr: 226.94.1.1<br>
                mcastport: 5405<br>
                ttl: 1<br>
        }<br>
}<br>
<br>
logging {<br>
        fileline: off<br>
        to_stderr: no<br>
        to_logfile: yes<br>
        logfile: /var/log/cluster/corosync.log<br>
        to_syslog: yes<br>
        debug: off<br>
        timestamp: on<br>
        logger_subsys {<br>
                subsys: AMF<br>
                debug: off<br>
        }<br>
}<br>
--------------------------------------------<br>
<br>
When I start sheepdog service by "sheep /var/lib/sheep", it seems two nodes<br>
are not connected since I can see only one node in "collie node list",<br>
M   Id   Host:Port         V-Nodes       Zone<br>
-    0   <a href="http://10.86.213.251:7000" target="_blank">10.86.213.251:7000</a>     64  -69904886<br>
<br>
Iptables has been disabled but the problem remains.<br>
Will somebody help me on that?<br>
<br>
<br>
Best Regards,<br>
<br>
George Y. Hu<br>
<br>
<br>
Send sheepdog-users mailing list submissions to<br>
        <a href="mailto:sheepdog-users@lists.wpkg.org">sheepdog-users@lists.wpkg.org</a><br>
<br>
To subscribe or unsubscribe via the World Wide Web, visit<br>
        <a href="http://lists.wpkg.org/mailman/listinfo/sheepdog-users" target="_blank">http://lists.wpkg.org/mailman/listinfo/sheepdog-users</a><br>
or, via email, send a message with subject or body 'help' to<br>
        <a href="mailto:sheepdog-users-request@lists.wpkg.org">sheepdog-users-request@lists.wpkg.org</a><br>
<br>
You can reach the person managing the list at<br>
        <a href="mailto:sheepdog-users-owner@lists.wpkg.org">sheepdog-users-owner@lists.wpkg.org</a><br>
<br>
When replying, please edit your Subject line so it is more specific<br>
than "Re: Contents of sheepdog-users digest..."<br>
<br>
<br>
Today's Topics:<br>
<br>
   1. Re: Problem with snapshots made with qemu-img (Liu Yuan)<br>
   2. Crash khugepaged (Valerio Pachera)<br>
   3. Re: Crash khugepaged (Valerio Pachera)<br>
   4. Re: cluster format during recovery (MORITA Kazutaka)<br>
<br>
<br>
----------------------------------------------------------------------<br>
<br>
Message: 1<br>
Date: Fri, 28 Jun 2013 18:02:59 +0800<br>
From: Liu Yuan <<a href="mailto:namei.unix@gmail.com">namei.unix@gmail.com</a>><br>
To: "Ing. Luca Lazzeroni - Trend Servizi Srl" <<a href="mailto:luca@gvnet.it">luca@gvnet.it</a>><br>
Cc: "<a href="mailto:sheepdog-users@lists.wpkg.org">sheepdog-users@lists.wpkg.org</a>" <<a href="mailto:sheepdog-users@lists.wpkg.org">sheepdog-users@lists.wpkg.org</a>><br>
Subject: Re: [sheepdog-users] Problem with snapshots made with<br>
        qemu-img<br>
Message-ID: <20130628100259.GC13194@ubuntu-precise><br>
Content-Type: text/plain; charset=utf-8<br>
<br>
On Fri, Jun 28, 2013 at 10:07:47AM +0200, Ing. Luca Lazzeroni - Trend<br>
Servizi Srl wrote:<br>
> Hi,<br>
> if I make a snapshot of a running VM using:<br>
><br>
> qemu-img snapshot -c Pippo Pluto.raw<br>
><br>
> snapshot is created on all nodes, but its tag is updated on all nodes<br>
except the one running the VM.<br>
> On other nodes I can see, via "collie vdi list" the snapshot tag updated<br>
correctly, but on the node running the VM I see 2 VDI with the same name,<br>
different ID and empty Tag.<br>
<br>
Seems that recent qemu-img need fixes, we didn't test snapshot with qemu-img<br>
with our functonal tests. We should though.<br>
<br>
><br>
> If I create the snapshot via "collie vdi snapshot", everything works fine<br>
and tag is propagated to all nodes; but I don't know if creating a snapshot<br>
with collie of a running VM with writeback cache enabled is a good idea in<br>
terms of data integrity?<br>
<br>
No problem, snapshot operation will<br>
1 flush the cache first<br>
2 mark the vdi as readonly<br>
<br>
If there is, it is a bug that should be fixed.<br>
<br>
Thanks,<br>
Yuan<br>
<br>
<br>
------------------------------<br>
<br>
Message: 2<br>
Date: Fri, 28 Jun 2013 17:40:26 +0200<br>
From: Valerio Pachera <<a href="mailto:sirio81@gmail.com">sirio81@gmail.com</a>><br>
To: Lista sheepdog user <<a href="mailto:sheepdog-users@lists.wpkg.org">sheepdog-users@lists.wpkg.org</a>><br>
Subject: [sheepdog-users] Crash khugepaged<br>
Message-ID:<br>
        <CAHS0cb-KqoS6wWt_gT+bSQ56KS7Z5iA4yOSpX5zQsoGPX0WV=<a href="mailto:Q@mail.gmail.com">Q@mail.gmail.com</a>><br>
Content-Type: text/plain; charset=UTF-8<br>
<br>
What do you think about this?<br>
<br>
Jun 28 16:34:20 sheepdog004 kernel: [103658.606691] khugepaged      D<br>
ffff88021f393780     0    32      2 0x00000000<br>
Jun 28 16:34:20 sheepdog004 kernel: [103658.606696]  ffff880213793750<br>
0000000000000046 ffffffff00000000 ffff880216566f60<br>
Jun 28 16:34:20 sheepdog004 kernel: [103658.606701]  0000000000013780<br>
ffff880213795fd8 ffff880213795fd8 ffff880213793750<br>
Jun 28 16:34:20 sheepdog004 kernel: [103658.606713]  ffff880213795730<br>
0000000113795730 ffff88021657fe50 ffff88021f393fd0<br>
Jun 28 16:34:20 sheepdog004 kernel: [103658.606718] Call Trace:<br>
Jun 28 16:34:20 sheepdog004 kernel: [103658.606727]<br>
[<ffffffff810b47b3>] ? lock_page+0x20/0x20<br>
Jun 28 16:34:20 sheepdog004 kernel: [103658.606732]<br>
[<ffffffff8134da71>] ? io_schedule+0x59/0x71<br>
Jun 28 16:34:20 sheepdog004 kernel: [103658.606737]<br>
[<ffffffff810b47b9>] ? sleep_on_page+0x6/0xa<br>
Jun 28 16:34:20 sheepdog004 kernel: [103658.606740]<br>
[<ffffffff8134deb4>] ? __wait_on_bit+0x3e/0x71<br>
Jun 28 16:34:20 sheepdog004 kernel: [103658.606744]<br>
[<ffffffff810b48f5>] ? wait_on_page_bit+0x6e/0x73<br>
Jun 28 16:34:20 sheepdog004 kernel: [103658.606751]<br>
[<ffffffff8105fb09>] ? autoremove_wake_function+0x2a/0x2a<br>
Jun 28 16:34:20 sheepdog004 kernel: [103658.606756]<br>
[<ffffffff810c2850>] ? shrink_page_list+0x166/0x73f<br>
Jun 28 16:34:20 sheepdog004 kernel: [103658.606761]<br>
[<ffffffff810c9cfa>] ? zone_page_state_add+0x14/0x23<br>
Jun 28 16:34:20 sheepdog004 kernel: [103658.606765]<br>
[<ffffffff810c0e13>] ? update_isolated_counts+0x13b/0x15a<br>
Jun 28 16:34:20 sheepdog004 kernel: [103658.606769]<br>
[<ffffffff810c32c4>] ? shrink_inactive_list+0x2cd/0x3f0<br>
Jun 28 16:34:20 sheepdog004 kernel: [103658.606774]<br>
[<ffffffff810be232>] ? __lru_cache_add+0x2b/0x51<br>
Jun 28 16:34:20 sheepdog004 kernel: [103658.606778]<br>
[<ffffffff810c3a89>] ? shrink_zone+0x3c0/0x4e6<br>
Jun 28 16:34:20 sheepdog004 kernel: [103658.606783]<br>
[<ffffffff810c3fa7>] ? do_try_to_free_pages+0x1cc/0x41c<br>
Jun 28 16:34:20 sheepdog004 kernel: [103658.606787]<br>
[<ffffffff810c4462>] ? try_to_free_pages+0xa9/0xe9<br>
Jun 28 16:34:20 sheepdog004 kernel: [103658.606791]<br>
[<ffffffff810364e8>] ? should_resched+0x5/0x23<br>
Jun 28 16:34:20 sheepdog004 kernel: [103658.606796]<br>
[<ffffffff810bb3ee>] ? __alloc_pages_nodemask+0x4ed/0x7aa<br>
Jun 28 16:34:20 sheepdog004 kernel: [103658.606801]<br>
[<ffffffff8100d69f>] ? __switch_to+0x133/0x258<br>
Jun 28 16:34:20 sheepdog004 kernel: [103658.606806]<br>
[<ffffffff8134eb77>] ? _raw_spin_unlock_irqrestore+0xe/0xf<br>
Jun 28 16:34:20 sheepdog004 kernel: [103658.606811]<br>
[<ffffffff810e5f05>] ? alloc_pages_vma+0x12d/0x136<br>
Jun 28 16:34:20 sheepdog004 kernel: [103658.606815]<br>
[<ffffffff810ce1c5>] ? pte_pfn+0x5/0xe<br>
Jun 28 16:34:20 sheepdog004 kernel: [103658.606819]<br>
[<ffffffff810ef9bd>] ? khugepaged+0x4dc/0xef3<br>
Jun 28 16:34:20 sheepdog004 kernel: [103658.606823]<br>
[<ffffffff8100d69f>] ? __switch_to+0x133/0x258<br>
Jun 28 16:34:20 sheepdog004 kernel: [103658.606828]<br>
[<ffffffff8105fadf>] ? add_wait_queue+0x3c/0x3c<br>
Jun 28 16:34:20 sheepdog004 kernel: [103658.606833]<br>
[<ffffffff810ef4e1>] ? add_mm_counter.constprop.28+0x9/0x9<br>
Jun 28 16:34:20 sheepdog004 kernel: [103658.606837]<br>
[<ffffffff8105f48d>] ? kthread+0x76/0x7e<br>
Jun 28 16:34:20 sheepdog004 kernel: [103658.606842]<br>
[<ffffffff81355cb4>] ? kernel_thread_helper+0x4/0x10<br>
Jun 28 16:34:20 sheepdog004 kernel: [103658.606847]<br>
[<ffffffff8105f417>] ? kthread_worker_fn+0x139/0x139<br>
Jun 28 16:34:20 sheepdog004 kernel: [103658.606851]<br>
[<ffffffff81355cb0>] ? gs_change+0x13/0x13<br>
Jun 28 16:34:20 sheepdog004 kernel: [103658.606983] sheep           D<br>
ffff88021f393780     0 30859      1 0x00000000<br>
Jun 28 16:34:20 sheepdog004 kernel: [103658.606987]  ffff880101d48730<br>
0000000000000082 0000000000000000 ffff880216566f60<br>
Jun 28 16:34:20 sheepdog004 kernel: [103658.606992]  0000000000013780<br>
ffff8802141dffd8 ffff8802141dffd8 ffff880101d48730<br>
Jun 28 16:34:20 sheepdog004 kernel: [103658.606997]  ffffea00048c4b20<br>
0000000105019098 ffffea0004fdaaa8 ffff880214677be0<br>
Jun 28 16:34:20 sheepdog004 kernel: [103658.607001] Call Trace:<br>
Jun 28 16:34:20 sheepdog004 kernel: [103658.607005]<br>
[<ffffffff8134eac4>] ? rwsem_down_failed_common+0xe0/0x114<br>
Jun 28 16:34:20 sheepdog004 kernel: [103658.607011]<br>
[<ffffffff811b3af3>] ? call_rwsem_down_write_failed+0x13/0x20<br>
Jun 28 16:34:20 sheepdog004 kernel: [103658.607015]<br>
[<ffffffff8134e431>] ? down_write+0x25/0x27<br>
Jun 28 16:34:20 sheepdog004 kernel: [103658.607019]<br>
[<ffffffff810d543d>] ? sys_munmap+0x2e/0x52<br>
Jun 28 16:34:20 sheepdog004 kernel: [103658.607023]<br>
[<ffffffff81353b52>] ? system_call_fastpath+0x16/0x1b<br>
Jun 28 16:34:20 sheepdog004 kernel: [103658.607135] tar             D<br>
ffff88021f293780     0 14370  13938 0x00000000<br>
Jun 28 16:34:20 sheepdog004 kernel: [103658.607139]  ffff88021472ae60<br>
0000000000000086 ffffffff00000000 ffff8802165160c0<br>
Jun 28 16:34:20 sheepdog004 kernel: [103658.607144]  0000000000013780<br>
ffff880128b77fd8 ffff880128b77fd8 ffff88021472ae60<br>
Jun 28 16:34:20 sheepdog004 kernel: [103658.607148]  ffffffff8101360a<br>
00000001810660a1 ffff880213ff3f30 ffff88021f293fd0<br>
Jun 28 16:34:20 sheepdog004 kernel: [103658.607001] Call Trace:<br>
Jun 28 16:34:20 sheepdog004 kernel: [103658.607005]<br>
[<ffffffff8134eac4>] ? rwsem_down_failed_common+0xe0/0x114<br>
Jun 28 16:34:20 sheepdog004 kernel: [103658.607011]<br>
[<ffffffff811b3af3>] ? call_rwsem_down_write_failed+0x13/0x20<br>
Jun 28 16:34:20 sheepdog004 kernel: [103658.607015]<br>
[<ffffffff8134e431>] ? down_write+0x25/0x27<br>
Jun 28 16:34:20 sheepdog004 kernel: [103658.607019]<br>
[<ffffffff810d543d>] ? sys_munmap+0x2e/0x52<br>
Jun 28 16:34:20 sheepdog004 kernel: [103658.607023]<br>
[<ffffffff81353b52>] ? system_call_fastpath+0x16/0x1b<br>
Jun 28 16:34:20 sheepdog004 kernel: [103658.607135] tar             D<br>
ffff88021f293780     0 14370  13938 0x00000000<br>
Jun 28 16:34:20 sheepdog004 kernel: [103658.607139]  ffff88021472ae60<br>
0000000000000086 ffffffff00000000 ffff8802165160c0<br>
Jun 28 16:34:20 sheepdog004 kernel: [103658.607144]  0000000000013780<br>
ffff880128b77fd8 ffff880128b77fd8 ffff88021472ae60<br>
Jun 28 16:34:20 sheepdog004 kernel: [103658.607148]  ffffffff8101360a<br>
00000001810660a1 ffff880213ff3f30 ffff88021f293fd0<br>
Jun 28 16:34:20 sheepdog004 kernel: [103658.607153] Call Trace:<br>
Jun 28 16:34:20 sheepdog004 kernel: [103658.607157]<br>
[<ffffffff8101360a>] ? read_tsc+0x5/0x14<br>
Jun 28 16:34:20 sheepdog004 kernel: [103658.607161]<br>
[<ffffffff810b47b3>] ? lock_page+0x20/0x20<br>
Jun 28 16:34:20 sheepdog004 kernel: [103658.607165]<br>
[<ffffffff8134da71>] ? io_schedule+0x59/0x71<br>
Jun 28 16:34:20 sheepdog004 kernel: [103658.607169]<br>
[<ffffffff810b47b9>] ? sleep_on_page+0x6/0xa<br>
Jun 28 16:34:20 sheepdog004 kernel: [103658.607172]<br>
[<ffffffff8134deb4>] ? __wait_on_bit+0x3e/0x71<br>
Jun 28 16:34:20 sheepdog004 kernel: [103658.607176]<br>
[<ffffffff810b48f5>] ? wait_on_page_bit+0x6e/0x73<br>
Jun 28 16:34:20 sheepdog004 kernel: [103658.607181]<br>
[<ffffffff8105fb09>] ? autoremove_wake_function+0x2a/0x2a<br>
Jun 28 16:34:20 sheepdog004 kernel: [103658.607186]<br>
[<ffffffff810b49cd>] ? filemap_fdatawait_range+0x74/0x139<br>
Jun 28 16:34:20 sheepdog004 kernel: [103658.607191]<br>
[<ffffffff810b6181>] ? filemap_write_and_wait+0x24/0x30<br>
Jun 28 16:34:20 sheepdog004 kernel: [103658.607205]<br>
[<ffffffffa053ac73>] ? nfs_getattr+0x32/0xac [nfs]<br>
Jun 28 16:34:20 sheepdog004 kernel: [103658.607211]<br>
[<ffffffff810fda17>] ? vfs_fstat+0x30/0x4e<br>
Jun 28 16:34:20 sheepdog004 kernel: [103658.607214]<br>
[<ffffffff810fdb49>] ? sys_newfstat+0x12/0x2b<br>
Jun 28 16:34:20 sheepdog004 kernel: [103658.607218]<br>
[<ffffffff810fa376>] ? vfs_write+0xbb/0xe9<br>
Jun 28 16:34:20 sheepdog004 kernel: [103658.607221]<br>
[<ffffffff810fa554>] ? sys_write+0x5f/0x6b<br>
Jun 28 16:34:20 sheepdog004 kernel: [103658.607225]<br>
[<ffffffff81353b52>] ? system_call_fastpath+0x16/0x1b<br>
Jun 28 16:34:20 sheepdog004 kernel: [103658.607335] pgrep           D<br>
ffff88021f293780     0 30870  30869 0x00000000<br>
Jun 28 16:34:20 sheepdog004 kernel: [103658.607339]  ffff880133e7c730<br>
0000000000000086 0000000100000000 ffff8802165160c0<br>
Jun 28 16:34:20 sheepdog004 kernel: [103658.607344]  0000000000013780<br>
ffff8801340f5fd8 ffff8801340f5fd8 ffff880133e7c730<br>
Jun 28 16:34:20 sheepdog004 kernel: [103658.607349]  0000000000000020<br>
000000011f5fcc08 0000000000000002 ffff880214677be0<br>
Jun 28 16:34:20 sheepdog004 kernel: [103658.607353] Call Trace:<br>
Jun 28 16:34:20 sheepdog004 kernel: [103658.607357]<br>
[<ffffffff8134eac4>] ? rwsem_down_failed_common+0xe0/0x114<br>
Jun 28 16:34:20 sheepdog004 kernel: [103658.607361]<br>
[<ffffffff811b3ac4>] ? call_rwsem_down_read_failed+0x14/0x30<br>
Jun 28 16:34:20 sheepdog004 kernel: [103658.607365]<br>
[<ffffffff8134e44a>] ? down_read+0x17/0x19<br>
Jun 28 16:34:20 sheepdog004 kernel: [103658.607369]<br>
[<ffffffff810d1a94>] ? __access_remote_vm+0x3a/0x1c1<br>
Jun 28 16:34:20 sheepdog004 kernel: [103658.607374]<br>
[<ffffffff810d2acb>] ? access_process_vm+0x48/0x65<br>
Jun 28 16:34:20 sheepdog004 kernel: [103658.607378]<br>
[<ffffffff81140852>] ? proc_pid_cmdline+0x63/0xf0<br>
Jun 28 16:34:20 sheepdog004 kernel: [103658.607382]<br>
[<ffffffff81141a58>] ? proc_info_read+0x5b/0xb8<br>
Jun 28 16:34:20 sheepdog004 kernel: [103658.607386]<br>
[<ffffffff810fa443>] ? vfs_read+0x9f/0xe6<br>
Jun 28 16:34:20 sheepdog004 kernel: [103658.607390]<br>
[<ffffffff810fa4cf>] ? sys_read+0x45/0x6b<br>
Jun 28 16:34:20 sheepdog004 kernel: [103658.607393]<br>
[<ffffffff81353b52>] ? system_call_fastpath+0x16/0x1b<br>
Jun 28 16:34:20 sheepdog004 kernel: [103658.607503] pgrep           D<br>
ffff88021f293780     0 30926  30925 0x00000000<br>
Jun 28 16:34:20 sheepdog004 kernel: [103658.607507]  ffff880212ed2e20<br>
0000000000000086 0000000100000000 ffff8802165160c0<br>
Jun 28 16:34:20 sheepdog004 kernel: [103658.607512]  0000000000013780<br>
ffff880132047fd8 ffff880132047fd8 ffff880212ed2e20<br>
Jun 28 16:34:20 sheepdog004 kernel: [103658.607517]  0000000000000020<br>
000000011f5fcc08 0000000000000002 ffff880214677be0<br>
Jun 28 16:34:20 sheepdog004 kernel: [103658.607521] Call Trace:<br>
Jun 28 16:34:20 sheepdog004 kernel: [103658.607525]<br>
[<ffffffff8134eac4>] ? rwsem_down_failed_common+0xe0/0x114<br>
Jun 28 16:34:20 sheepdog004 kernel: [103658.607529]<br>
[<ffffffff811b3ac4>] ? call_rwsem_down_read_failed+0x14/0x30<br>
Jun 28 16:34:20 sheepdog004 kernel: [103658.607533]<br>
[<ffffffff8134e44a>] ? down_read+0x17/0x19<br>
Jun 28 16:34:20 sheepdog004 kernel: [103658.607537]<br>
[<ffffffff810d1a94>] ? __access_remote_vm+0x3a/0x1c1<br>
Jun 28 16:34:20 sheepdog004 kernel: [103658.607541]<br>
[<ffffffff810d2acb>] ? access_process_vm+0x48/0x65<br>
Jun 28 16:34:20 sheepdog004 kernel: [103658.607545]<br>
[<ffffffff81140852>] ? proc_pid_cmdline+0x63/0xf0<br>
Jun 28 16:34:20 sheepdog004 kernel: [103658.607548]<br>
[<ffffffff81141a58>] ? proc_info_read+0x5b/0xb8<br>
Jun 28 16:34:20 sheepdog004 kernel: [103658.607552]<br>
[<ffffffff810fa443>] ? vfs_read+0x9f/0xe6<br>
Jun 28 16:34:20 sheepdog004 kernel: [103658.607556]<br>
[<ffffffff810fa4cf>] ? sys_read+0x45/0x6b<br>
Jun 28 16:34:20 sheepdog004 kernel: [103658.607559]<br>
[<ffffffff81353b52>] ? system_call_fastpath+0x16/0x1b<br>
Jun 28 16:36:20 sheepdog004 kernel: [103778.581543] Call Trace:<br>
Jun 28 16:36:20 sheepdog004 kernel: [103778.581552]<br>
[<ffffffff810b47b3>] ? lock_page+0x20/0x20<br>
Jun 28 16:36:20 sheepdog004 kernel: [103778.581557]<br>
[<ffffffff8134da71>] ? io_schedule+0x59/0x71<br>
Jun 28 16:36:20 sheepdog004 kernel: [103778.581561]<br>
[<ffffffff810b47b9>] ? sleep_on_page+0x6/0xa<br>
Jun 28 16:36:20 sheepdog004 kernel: [103778.581565]<br>
[<ffffffff8134deb4>] ? __wait_on_bit+0x3e/0x71<br>
Jun 28 16:36:20 sheepdog004 kernel: [103778.581569]<br>
[<ffffffff810b48f5>] ? wait_on_page_bit+0x6e/0x73<br>
Jun 28 16:36:20 sheepdog004 kernel: [103778.581575]<br>
[<ffffffff8105fb09>] ? autoremove_wake_function+0x2a/0x2a<br>
Jun 28 16:36:20 sheepdog004 kernel: [103778.581581]<br>
[<ffffffff810c2850>] ? shrink_page_list+0x166/0x73f<br>
Jun 28 16:36:20 sheepdog004 kernel: [103778.581586]<br>
[<ffffffff810c9cfa>] ? zone_page_state_add+0x14/0x23<br>
Jun 28 16:36:20 sheepdog004 kernel: [103778.581591]<br>
[<ffffffff810c0e13>] ? update_isolated_counts+0x13b/0x15a<br>
Jun 28 16:36:20 sheepdog004 kernel: [103778.581595]<br>
[<ffffffff810c32c4>] ? shrink_inactive_list+0x2cd/0x3f0<br>
Jun 28 16:36:20 sheepdog004 kernel: [103778.581600]<br>
[<ffffffff810be232>] ? __lru_cache_add+0x2b/0x51<br>
Jun 28 16:36:20 sheepdog004 kernel: [103778.581604]<br>
[<ffffffff810c3a89>] ? shrink_zone+0x3c0/0x4e6<br>
Jun 28 16:36:20 sheepdog004 kernel: [103778.581608]<br>
[<ffffffff810c3fa7>] ? do_try_to_free_pages+0x1cc/0x41c<br>
Jun 28 16:36:20 sheepdog004 kernel: [103778.581612]<br>
[<ffffffff810c4462>] ? try_to_free_pages+0xa9/0xe9<br>
Jun 28 16:36:20 sheepdog004 kernel: [103778.581616]<br>
[<ffffffff810364e8>] ? should_resched+0x5/0x23<br>
Jun 28 16:36:20 sheepdog004 kernel: [103778.581621]<br>
[<ffffffff810bb3ee>] ? __alloc_pages_nodemask+0x4ed/0x7aa<br>
Jun 28 16:36:20 sheepdog004 kernel: [103778.581626]<br>
[<ffffffff8100d69f>] ? __switch_to+0x133/0x258<br>
Jun 28 16:36:20 sheepdog004 kernel: [103778.581631]<br>
[<ffffffff8134eb77>] ? _raw_spin_unlock_irqrestore+0xe/0xf<br>
Jun 28 16:36:20 sheepdog004 kernel: [103778.581636]<br>
[<ffffffff810e5f05>] ? alloc_pages_vma+0x12d/0x136<br>
Jun 28 16:36:20 sheepdog004 kernel: [103778.581640]<br>
[<ffffffff810ce1c5>] ? pte_pfn+0x5/0xe<br>
Jun 28 16:36:20 sheepdog004 kernel: [103778.581645]<br>
[<ffffffff810ef9bd>] ? khugepaged+0x4dc/0xef3<br>
Jun 28 16:36:20 sheepdog004 kernel: [103778.581649]<br>
[<ffffffff8100d69f>] ? __switch_to+0x133/0x258<br>
Jun 28 16:36:20 sheepdog004 kernel: [103778.581654]<br>
[<ffffffff8105fadf>] ? add_wait_queue+0x3c/0x3c<br>
Jun 28 16:36:20 sheepdog004 kernel: [103778.581658]<br>
[<ffffffff810ef4e1>] ? add_mm_counter.constprop.28+0x9/0x9<br>
Jun 28 16:36:20 sheepdog004 kernel: [103778.581662]<br>
[<ffffffff8105f48d>] ? kthread+0x76/0x7e<br>
Jun 28 16:36:20 sheepdog004 kernel: [103778.581667]<br>
[<ffffffff81355cb4>] ? kernel_thread_helper+0x4/0x10<br>
Jun 28 16:36:20 sheepdog004 kernel: [103778.581671]<br>
[<ffffffff8105f417>] ? kthread_worker_fn+0x139/0x139<br>
Jun 28 16:36:20 sheepdog004 kernel: [103778.581675]<br>
[<ffffffff81355cb0>] ? gs_change+0x13/0x13<br>
Jun 28 16:36:20 sheepdog004 kernel: [103778.581808] sheep           D<br>
ffff88021f393780     0 30859      1 0x00000000<br>
Jun 28 16:36:20 sheepdog004 kernel: [103778.581813]  ffff880101d48730<br>
0000000000000082 0000000000000000 ffff880216566f60<br>
Jun 28 16:36:20 sheepdog004 kernel: [103778.581817]  0000000000013780<br>
ffff8802141dffd8 ffff8802141dffd8 ffff880101d48730<br>
Jun 28 16:36:20 sheepdog004 kernel: [103778.581822]  ffffea00048c4b20<br>
0000000105019098 ffffea0004fdaaa8 ffff880214677be0<br>
Jun 28 16:36:20 sheepdog004 kernel: [103778.581827] Call Trace:<br>
Jun 28 16:36:20 sheepdog004 kernel: [103778.581831]<br>
[<ffffffff8134eac4>] ? rwsem_down_failed_common+0xe0/0x114<br>
Jun 28 16:36:20 sheepdog004 kernel: [103778.581842]<br>
[<ffffffff811b3af3>] ? call_rwsem_down_write_failed+0x13/0x20<br>
Jun 28 16:36:20 sheepdog004 kernel: [103778.581846]<br>
[<ffffffff8134e431>] ? down_write+0x25/0x27<br>
Jun 28 16:36:20 sheepdog004 kernel: [103778.581850]<br>
[<ffffffff810d543d>] ? sys_munmap+0x2e/0x52<br>
Jun 28 16:36:20 sheepdog004 kernel: [103778.581854]<br>
[<ffffffff81353b52>] ? system_call_fastpath+0x16/0x1b<br>
Jun 28 16:36:20 sheepdog004 kernel: [103778.581969] tar             D<br>
ffff88021f293780     0 14370  13938 0x00000000<br>
Jun 28 16:36:20 sheepdog004 kernel: [103778.581974]  ffff88021472ae60<br>
0000000000000086 ffffffff00000000 ffff8802165160c0<br>
Jun 28 16:36:20 sheepdog004 kernel: [103778.581978]  0000000000013780<br>
ffff880128b77fd8 ffff880128b77fd8 ffff88021472ae60<br>
Jun 28 16:36:20 sheepdog004 kernel: [103778.581983]  ffffffff8101360a<br>
00000001810660a1 ffff880213ff3f30 ffff88021f293fd0<br>
Jun 28 16:36:20 sheepdog004 kernel: [103778.581988] Call Trace:<br>
Jun 28 16:36:20 sheepdog004 kernel: [103778.581992]<br>
[<ffffffff8101360a>] ? read_tsc+0x5/0x14<br>
Jun 28 16:36:20 sheepdog004 kernel: [103778.581996]<br>
[<ffffffff810b47b3>] ? lock_page+0x20/0x20<br>
Jun 28 16:36:20 sheepdog004 kernel: [103778.581999]<br>
[<ffffffff8134da71>] ? io_schedule+0x59/0x71<br>
Jun 28 16:36:20 sheepdog004 kernel: [103778.582003]<br>
[<ffffffff810b47b9>] ? sleep_on_page+0x6/0xa<br>
....<br>
<br>
Host with 8G of ram.<br>
The host was exporting also a nfs folder.<br>
Guest was mounting this folder.<br>
Guest for decompressing a big tar.gz (77G).<br>
<br>
<br>
------------------------------<br>
<br>
Message: 3<br>
Date: Fri, 28 Jun 2013 18:02:37 +0200<br>
From: Valerio Pachera <<a href="mailto:sirio81@gmail.com">sirio81@gmail.com</a>><br>
To: Lista sheepdog user <<a href="mailto:sheepdog-users@lists.wpkg.org">sheepdog-users@lists.wpkg.org</a>><br>
Subject: Re: [sheepdog-users] Crash khugepaged<br>
Message-ID:<br>
        <CAHS0cb8TogSOD2pGE+TsScm+o=<a href="mailto:g1kEXGdUNoFWWF-xYoVgfwog@mail.gmail.com">g1kEXGdUNoFWWF-xYoVgfwog@mail.gmail.com</a>><br>
Content-Type: text/plain; charset=UTF-8<br>
<br>
2013/6/28 Valerio Pachera <<a href="mailto:sirio81@gmail.com">sirio81@gmail.com</a>>:<br>
> What do you think about this?<br>
<br>
The crash was host side.<br>
It was difficult to interact with the host because pgrep, atop, pa<br>
aux, were freezing.<br>
'top' and 'kill' were working.<br>
I had to kill -9 the guests.<br>
I've been able to reboot the host (and first shutdown the cluster).<br>
Collie node list was showing the host still inside the cluster.<br>
<br>
I wonder if the crash may be related to excessive network traffic on<br>
the nic, or it's related to the use of transparent huge pages.<br>
I set back the default value (madvide) but I'm not going to repeat the<br>
decompression via nfs today.<br>
<br>
<br>
------------------------------<br>
<br>
Message: 4<br>
Date: Sat, 29 Jun 2013 12:50:06 +0900<br>
From: MORITA Kazutaka <<a href="mailto:morita.kazutaka@gmail.com">morita.kazutaka@gmail.com</a>><br>
To: Valerio Pachera <<a href="mailto:sirio81@gmail.com">sirio81@gmail.com</a>><br>
Cc: Lista sheepdog user <<a href="mailto:sheepdog-users@lists.wpkg.org">sheepdog-users@lists.wpkg.org</a>><br>
Subject: Re: [sheepdog-users] cluster format during recovery<br>
Message-ID: <<a href="mailto:m27ghd60ep.wl%25morita.kazutaka@gmail.com">m27ghd60ep.wl%morita.kazutaka@gmail.com</a>><br>
Content-Type: text/plain; charset=US-ASCII<br>
<br>
At Thu, 27 Jun 2013 15:45:36 +0200,<br>
Valerio Pachera wrote:<br>
><br>
> This is an unusual thing.<br>
> It's useful for testing purpose only:<br>
><br>
> What happens if cluster format is run during a recovery?<br>
<br>
Probably, the recovery process will print a lot of error messages<br>
after cluster format since it cannot find any objects to be recovered.<br>
<br>
Thanks,<br>
<br>
Kazutaka<br>
<br>
<br>
------------------------------<br>
<br>
_______________________________________________<br>
sheepdog-users mailing list<br>
<a href="mailto:sheepdog-users@lists.wpkg.org">sheepdog-users@lists.wpkg.org</a><br>
<a href="http://lists.wpkg.org/mailman/listinfo/sheepdog-users" target="_blank">http://lists.wpkg.org/mailman/listinfo/sheepdog-users</a><br>
<br>
<br>
End of sheepdog-users Digest, Vol 14, Issue 40<br>
**********************************************<br>
<span class="HOEnZb"><font color="#888888"><br>
<br>
--<br>
sheepdog-users mailing lists<br>
<a href="mailto:sheepdog-users@lists.wpkg.org">sheepdog-users@lists.wpkg.org</a><br>
<a href="http://lists.wpkg.org/mailman/listinfo/sheepdog-users" target="_blank">http://lists.wpkg.org/mailman/listinfo/sheepdog-users</a><br>
</font></span></blockquote></div><br></div>