<div dir="ltr"><div><span style="font-size:11.0pt;font-family:"Calibri","sans-serif"">We have an openstack cluster whose compute nodes have sheepdog installed and configured the "standard" way as sheepdog documentation described. That is, the qemu/KVM virtual machines uses sheepdog VDI by attaching to a the local sheepdog gateway through the qemu block driver.<br><br></span></div><span style="font-size:11.0pt;font-family:"Calibri","sans-serif"">When one sheep decided it has lost connection with the rest of cluster nodes (caused by software problem), all VMs on the same node instantly "lost" their VDI and cannot work. In this regard the storage layer is not fully HA. We would expect a better situation where </span><span style="font-size:11.0pt;font-family:"Calibri","sans-serif"">the VMs still work fine as long as sheeps on </span><span style="font-size:11.0pt;font-family:"Calibri","sans-serif""><span style="font-size:11.0pt;font-family:"Calibri","sans-serif"">other nodes</span> are functioning and network is up.<br></span><div><div><span style="font-size:11.0pt;font-family:"Calibri","sans-serif""><br>We found a "kind of " solution to this in the following article, where the sheepdog storage cluster is deployed separately from the compute cluster, connected via a switch, through a iSCSI interface exposed by tgtd sitting before sheepdog. The client has to use special iSCSI multipath-tool to be able to fail over to another tgtd upon sheepdog node failure. <br><a href="http://events.linuxfoundation.org/sites/events/files/slides/COJ2015_Sheepdog_20150604.pdf">http://events.linuxfoundation.org/sites/events/files/slides/COJ2015_Sheepdog_20150604.pdf</a><br><br></span></div><div><span style="font-size:11.0pt;font-family:"Calibri","sans-serif"">However this solution add 2 more layers to the complexity - the iSCSI multipath-tool on client side and tgtd on the server side. Also the performance will degrade as everything has to go through the network and iSCSI simulation. We surely don't want to go this direction if there are simpler solutions we are not aware of - e.g. patches to sheepdog or the qemu block driver that perform </span><span style="font-size:11.0pt;font-family:"Calibri","sans-serif""><span style="font-size:11.0pt;font-family:"Calibri","sans-serif"">automatic </span>failovers.<br><br></span></div><div><span style="font-size:11.0pt;font-family:"Calibri","sans-serif"">Please point a link to us if such solutions exists, or share your idea how to avoid "VM losing VDI when sheep </span><span style="font-size:11.0pt;font-family:"Calibri","sans-serif""><span style="font-size:11.0pt;font-family:"Calibri","sans-serif"">on same machine </span>leaves cluster". The version of sheepdog we are using is 0.9.0.<br clear="all"></span></div><div> <br></div><div><br><div class="gmail_signature">Thanks and Regards,<div><br>Yang, Zhaohui</div></div>
</div></div></div>