<div dir="ltr"><br><div class="gmail_extra"><br><br><div class="gmail_quote">2013/12/12 Liu Yuan <span dir="ltr"><<a href="mailto:namei.unix@gmail.com" target="_blank">namei.unix@gmail.com</a>></span><br><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex">

I think it is risky to run sheepdog with heterogeneous NIC setup since when I<br>
wrote the dual NIC support I didn't take account in this case, though I guess<br>
it is not hard to support it. But for now, we don't look at the issue (yet).<br></blockquote><div><br></div><div>My target was to check if adding a node with a single nic crashes the whole cluster.<br></div><div>It happened one time (on a older sheep version) and I wonder if it happens and is repeatable on the latest version.<br>

</div><div>I was then going to open the bug on lauchpad ad suggested my Hitoshi Mitake reporting messages in sheep.log (that's why I cleaned my sheep.log).<br></div><div> <br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex">
<br>Which node see itself as single node and how about views on others? It seems<br>
this node was split from others.<br></blockquote><div><br></div><div>It's different.<br></div><div>I saw other times the split brain situation where all the nodes were in the cluster but one was aware of it self only.<br>
</div><div>This time test004 test005 and test007 were all printing "test007" as the only member of the cluster.<br></div><div>That's why I consider this bizarre.<br></div><div>It's the first time I see something like that.<br>
<br></div><div>Yesterday, before quiting work, I inserted back the other nodes (except test006) and let them recover.<br></div><div>This morning I see this:<br><br>2013-12-12 17:12:29     38 [<a href="http://192.168.2.44:7000">192.168.2.44:7000</a>, <a href="http://192.168.2.45:7000">192.168.2.45:7000</a>]<br>
2013-12-12 17:12:27     37 [<a href="http://192.168.2.44:7000">192.168.2.44:7000</a>, <a href="http://192.168.2.45:7000">192.168.2.45:7000</a>, <a href="http://192.168.2.47:7000">192.168.2.47:7000</a>]<br>2013-12-12 17:12:29     36 [<a href="http://192.168.2.45:7000">192.168.2.45:7000</a>, <a href="http://192.168.2.47:7000">192.168.2.47:7000</a>]<br>
</div><div>2013-12-12 16:15:07     35 [<a href="http://192.168.2.47:7000">192.168.2.47:7000</a>] (<-when I wrote the mail yesterday)<br><br></div><div>root@test004:~# grep -v recover_object_main /var/sheep/sheep.log  | \<br>
grep -v 'No object found' | grep -v 'No such file or directory'<br><br>Dec 12 17:11:11   INFO [main] main(888) shutdown<br>Dec 12 17:12:24   INFO [main] md_add_disk(310) /mnt/sheep/dsk02, vdisk nr 233, total disk 1<br>
Dec 12 17:12:24   INFO [main] send_join_request(777) IPv4 ip:192.168.2.44 port:7000<br>Dec 12 17:12:26   INFO [main] check_host_env(477) Allowed open files 1024000, suggested 6144000<br>Dec 12 17:12:26   INFO [main] main(881) sheepdog daemon (version 0.7.0_197_g9f718d2) started<br>
Dec 12 17:12:29  ERROR [rw] sheep_exec_req(933) failed Network error between sheep<br>Dec 12 17:12:29  ERROR [rw] sheep_exec_req(933) failed Network error between sheep<br>Dec 12 17:12:29  ERROR [rw] sheep_exec_req(933) failed Network error between sheep<br>
Dec 12 17:12:29  ALERT [rw] recover_replication_object(371) cannot access any replicas of 80d398ec00000000 at epoch 35<br>Dec 12 17:12:29  ALERT [rw] recover_replication_object(372) clients may see old data<br>Dec 12 17:12:29  ERROR [rw] sheep_exec_req(933) failed Network error between sheep<br>
Dec 12 17:12:29  ERROR [rw] sheep_exec_req(933) failed Request has an old epoch<br>Dec 12 17:12:29  ERROR [rw] recover_object_work(531) failed to recover object 80d398ec00000000<br><br></div></div></div></div>