<div dir="ltr"><div>Hi Takashi,</div><div><br></div><div>thanks for your help.</div><div><br></div><div>I stopped the node for a while and then i restarted it, now the service is up and the recovery is running.</div><div><br></div><div>Thanks,</div><div><br></div><div>Cristian<br></div><div><br></div><div class="gmail_extra"><br><div class="gmail_quote">2018-07-09 10:32 GMT+02:00 Takashi Menjo <span dir="ltr"><<a href="mailto:menjo.takashi@lab.ntt.co.jp" target="_blank">menjo.takashi@lab.ntt.co.jp</a>></span>:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">Hello,<br>
<span class=""><br>
<br>
> I have to reboot a node and  then on this node sheepdog fail to start with this<br>
> error:<br>
</span>> [..]<br>
<span class="">> Jul  9 09:12:00 node02 sheep[3769]: ERROR [main] zk_join(1022) Previous<br>
> zookeeper session exist, shoot myself. Please wait for 30 seconds to join me<br>
> again.<br>
<br>
<br>
</span>Did you try to restart the node __within 30 seconds of node down__ ?<br>
If so, please wait for a while, as ERROR log says.<br>
<br>
Then, type "dog node list" to check whether the restarting node appears or not.<br>
If __not__, you can restart the node to rejoin your cluster.<br>
<br>
<br>
Regards,<br>
Takashi<br>
<br>
-- <br>
Takashi Menjo - NTT Software Innovation Center<br>
<<a href="mailto:menjo.takashi@lab.ntt.co.jp">menjo.takashi@lab.ntt.co.jp</a>><br>
<div class="HOEnZb"><div class="h5"><br>
> -----Original Message-----<br>
> From: sheepdog-users [mailto:<a href="mailto:sheepdog-users-bounces@lists.wpkg.org">sheepdog-users-<wbr>bounces@lists.wpkg.org</a>] On<br>
> Behalf Of Cristian Del Carlo<br>
> Sent: Monday, July 9, 2018 4:17 PM<br>
> To: <a href="mailto:sheepdog-users@lists.wpkg.org">sheepdog-users@lists.wpkg.org</a><br>
> Subject: [sheepdog-users] Problem rejoining cluster<br>
> <br>
> Hi,<br>
> <br>
> I have a cluster with 4 node.<br>
> <br>
> All nodes are installed with centos 7.x, zookeeper 3.4.6 and sheepdog 1.0.1.<br>
> I have to reboot a node and  then on this node sheepdog fail to start with this<br>
> error:<br>
> <br>
> Jul  9 09:12:00 node02 sheep[3769]:  INFO [main] zk_init(1503) the negociated<br>
> session timeout is 30000<br>
> Jul  9 09:12:00 node02 sheep[3769]: NOTICE [main] get_local_addr(551) found<br>
> IPv4 address<br>
> Jul  9 09:12:00 node02 sheep[3769]:  INFO [main] send_join_request(1093) IPv4<br>
> ip:10.0.0.34 port:7001 going to join the cluster<br>
> Jul  9 09:12:00 node02 systemd: sheepdoghd.service never wrote its PID file.<br>
> Failing.<br>
> Jul  9 09:12:00 node02 sheep[3769]: ERROR [main] zk_join(1022) Previous<br>
> zookeeper session exist, shoot myself. Please wait for 30 seconds to join me<br>
> again.<br>
> Jul  9 09:12:00 node02 systemd: Failed to start Sheepdog QEMU/KVM Block<br>
> Storage.<br>
> Jul  9 09:12:00 node02 systemd: Unit sheepdoghd.service entered failed state.<br>
> Jul  9 09:12:00 node02 systemd: sheepdoghd.service failed.<br>
> Jul  9 09:12:00 node02 systemd: sheepdoghd.service holdoff time over,<br>
> scheduling restart.<br>
> Jul  9 09:12:00 node02 systemd: Starting Sheepdog QEMU/KVM Block Storage...<br>
> <br>
> <br>
> <br>
> Could you suggest me how to solve?<br>
> <br>
> Thanks in advance for your advice.<br>
> <br>
> Cristian<br>
> <br>
<br>
<br>
<br>
</div></div><span class="HOEnZb"><font color="#888888">-- <br>
sheepdog-users mailing lists<br>
<a href="mailto:sheepdog-users@lists.wpkg.org">sheepdog-users@lists.wpkg.org</a><br>
<a href="https://lists.wpkg.org/mailman/listinfo/sheepdog-users" rel="noreferrer" target="_blank">https://lists.wpkg.org/<wbr>mailman/listinfo/sheepdog-<wbr>users</a><br>
</font></span></blockquote></div><br><br clear="all"></div></div>