when i shutdown my netwoking on "node a" or completely shutdown, ucarp switches its Virtual IP to "node b". so the communication of iscsi should done through "node b" , both nodes have same iqn. <br>
<br>Following are logs <br><br><b>node a</b><br><br><br>Apr 16 16:50:42 connect_to(227) failed to connect to <a href="http://192.168.1.91:7000">192.168.1.91:7000</a>: Network is unreachable<br>Apr 16 16:50:42 connect_to(227) failed to connect to <a href="http://192.168.1.222:7000">192.168.1.222:7000</a>: Network is unreachable<br>
Apr 16 16:50:42 connect_to(227) failed to connect to <a href="http://192.168.1.117:7000">192.168.1.117:7000</a>: Network is unreachable<br>Apr 16 16:50:42 check_majority(709) the majority of nodes are not alive<br>Apr 16 16:50:42 __sd_leave(736) perhaps a network partition has occurred?<br>
Apr 16 16:50:42 log_sigexit(361) sheep pid 8954 exiting.<br><b><br><br>node b<br><br><br></b>Apr 16 16:50:42 recover_object(1412) done:0 count:159, oid:65958b000000db<br>Apr 16 16:50:48 fix_object_consistency(738) failed to read object 66<br>
Apr 16 16:50:48 fix_object_consistency(738) failed to read object 66<br>Apr 16 16:50:49 fix_object_consistency(738) failed to read object 66<br>Apr 16 16:50:49 fix_object_consistency(738) failed to read object 66<br>Apr 16 16:50:50 fix_object_consistency(738) failed to read object 66<br>
Apr 16 16:50:50 fix_object_consistency(738) failed to read object 66<br>Apr 16 16:50:50 fix_object_consistency(738) failed to read object 66<br>Apr 16 16:50:51 fix_object_consistency(738) failed to read object 66<br>Apr 16 16:50:51 fix_object_consistency(738) failed to read object 66<br>
Apr 16 16:50:51 connect_to(227) failed to connect to <a href="http://192.168.1.29:7000">192.168.1.29:7000</a>: Connection refused<br>Apr 16 16:50:51 recover_object_from_replica(1240) failed to connect to <a href="http://192.168.1.29:7000">192.168.1.29:7000</a><br>
Apr 16 16:50:51 do_recover_object(1363) can not recover oid 65958b000000db<br>Apr 16 16:50:52 recover_object(1412) done:1 count:159, oid:65958b00000143<br>Apr 16 16:50:52 connect_to(227) failed to connect to <a href="http://192.168.1.29:7000">192.168.1.29:7000</a>: Connection refused<br>
Apr 16 16:50:52 recover_object_from_replica(1240) failed to connect to <a href="http://192.168.1.29:7000">192.168.1.29:7000</a><br>Apr 16 16:50:52 do_recover_object(1363) can not recover oid 65958b00000143<br>Apr 16 16:50:52 fix_object_consistency(738) failed to read object 66<br>
Apr 16 16:50:54 fix_object_consistency(738) failed to read object 66<br>Apr 16 16:50:54 recover_object(1412) done:2 count:159, oid:65958b000000d6<br>Apr 16 16:50:54 connect_to(227) failed to connect to <a href="http://192.168.1.29:7000">192.168.1.29:7000</a>: Connection refused<br>
Apr 16 16:50:54 recover_object_from_replica(1240) failed to connect to <a href="http://192.168.1.29:7000">192.168.1.29:7000</a><br>Apr 16 16:50:54 do_recover_object(1363) can not recover oid 65958b000000d6<br>Apr 16 16:50:54 fix_object_consistency(738) failed to read object 66<br>
Apr 16 16:50:56 fix_object_consistency(738) failed to read object 2<br>Apr 16 16:50:56 recover_object(1412) done:3 count:159, oid:65958b000000e7<br>Apr 16 16:50:56 connect_to(227) failed to connect to <a href="http://192.168.1.29:7000">192.168.1.29:7000</a>: Connection refused<br>
Apr 16 16:50:56 recover_object_from_replica(1240) failed to connect to <a href="http://192.168.1.29:7000">192.168.1.29:7000</a><br>Apr 16 16:50:56 do_recover_object(1363) can not recover oid 65958b000000e7<br>Apr 16 16:50:56 fix_object_consistency(738) failed to read object 2<br>
Apr 16 16:50:56 fix_object_consistency(738) failed to read object 2<br>Apr 16 16:50:56 fix_object_consistency(738) failed to read object 2<br>Apr 16 16:50:56 fix_object_consistency(738) failed to read object 2<br>Apr 16 16:50:56 fix_object_consistency(738) failed to read object 2<br>
Apr 16 16:50:56 fix_object_consistency(738) failed to read object 2<br>Apr 16 16:50:57 fix_object_consistency(738) failed to read object 66<br>Apr 16 16:50:58 fix_object_consistency(738) failed to read object 2<br>Apr 16 16:50:59 fix_object_consistency(738) failed to read object 2<br>
Apr 16 16:50:59 fix_object_consistency(738) failed to read object 2<br><br>Apr 16 16:50:59 fix_object_consistency(738) failed to read object 2<br>Apr 16 16:50:59 recover_object(1412) done:4 count:159, oid:65958b00000117<br>
Apr 16 16:50:59 connect_to(227) failed to connect to <a href="http://192.168.1.29:7000">192.168.1.29:7000</a>: Connection refused<br>Apr 16 16:50:59 recover_object_from_replica(1240) failed to connect to <a href="http://192.168.1.29:7000">192.168.1.29:7000</a><br>
Apr 16 16:50:59 do_recover_object(1363) can not recover oid 65958b00000117<br>Apr 16 16:50:59 fix_object_consistency(738) failed to read object 2<br>Apr 16 16:50:59 fix_object_consistency(738) failed to read object 2<br>Apr 16 16:50:59 fix_object_consistency(738) failed to read object 2<br>
Apr 16 16:50:59 fix_object_consistency(738) failed to read object 2<br>Apr 16 16:50:59 fix_object_consistency(738) failed to read object 2<br>Apr 16 16:50:59 fix_object_consistency(738) failed to read object 2<br>Apr 16 16:50:59 fix_object_consistency(738) failed to read object 2<br>
Apr 16 16:50:59 fix_object_consistency(738) failed to read object 2<br>Apr 16 16:50:59 fix_object_consistency(738) failed to read object 2<br>Apr 16 16:50:59 fix_object_consistency(738) failed to read object 2<br>Apr 16 16:50:59 fix_object_consistency(738) failed to read object 2<br>
Apr 16 16:50:59 fix_object_consistency(738) failed to read object 2<br>Apr 16 16:50:59 fix_object_consistency(738) failed to read object 2<br>Apr 16 16:50:59 fix_object_consistency(738) failed to read object 2<br>Apr 16 16:50:59 fix_object_consistency(738) failed to read object 2<br>
Apr 16 16:50:59 fix_object_consistency(738) failed to read object 2<br>Apr 16 16:50:59 fix_object_consistency(738) failed to read object 2<br>Apr 16 16:50:59 fix_object_consistency(738) failed to read object 2<br>Apr 16 16:50:59 fix_object_consistency(738) failed to read object 2<br>
Apr 16 16:50:59 fix_object_consistency(738) failed to read object 2<br>Apr 16 16:50:59 fix_object_consistency(738) failed to read object 2<br>Apr 16 16:50:59 fix_object_consistency(738) failed to read object 2<br>Apr 16 16:50:59 fix_object_consistency(738) failed to read object 2<br>
Apr 16 16:50:59 fix_object_consistency(738) failed to read object 2<br>Apr 16 16:50:59 fix_object_consistency(738) failed to read object 2<br>Apr 16 16:50:59 fix_object_consistency(738) failed to read object 2<br>Apr 16 16:50:59 fix_object_consistency(738) failed to read object 2<br>
Apr 16 16:50:59 fix_object_consistency(738) failed to read object 2<br>Apr 16 16:50:59 fix_object_consistency(738) failed to read object 2<br>Apr 16 16:50:59 fix_object_consistency(738) failed to read object 2<br>Apr 16 16:50:59 fix_object_consistency(738) failed to read object 2<br>
Apr 16 16:50:59 fix_object_consistency(738) failed to read object 2<br>Apr 16 16:50:59 fix_object_consistency(738) failed to read object 2<br>Apr 16 16:50:59 fix_object_consistency(738) failed to read object 2<br>Apr 16 16:50:59 fix_object_consistency(738) failed to read object 2<br>
Apr 16 16:50:59 fix_object_consistency(738) failed to read object 2<br>Apr 16 16:50:59 fix_object_consistency(738) failed to read object 2<br>Apr 16 16:50:59 fix_object_consistency(738) failed to read object 2<br>Apr 16 16:50:59 fix_object_consistency(738) failed to read object 2<br>
Apr 16 16:50:59 fix_object_consistency(738) failed to read object 2<br>Apr 16 16:50:59 fix_object_consistency(738) failed to read object 2<br>Apr 16 16:50:59 fix_object_consistency(738) failed to read object 2<br>Apr 16 16:50:59 fix_object_consistency(738) failed to read object 2<br>
Apr 16 16:50:59 fix_object_consistency(738) failed to read object 2<br>Apr 16 16:50:59 fix_object_consistency(738) failed to read object 2<br>Apr 16 16:50:59 fix_object_consistency(738) failed to read object 2<br>Apr 16 16:50:59 fix_object_consistency(738) failed to read object 2<br>
Apr 16 16:51:00 recover_object(1412) done:5 count:159, oid:65958b000000dc<br>Apr 16 16:51:00 do_recover_object(1363) can not recover oid 65958b000000dc<br>Apr 16 16:51:00 recover_object(1412) done:6 count:159, oid:65958b000000cc<br>
Apr 16 16:51:00 do_recover_object(1363) can not recover oid 65958b000000cc<br>Apr 16 16:51:01 recover_object(1412) done:7 count:159, oid:65958b00000145<br>Apr 16 16:51:01 recover_object(1412) done:8 count:159, oid:65958b0000017b<br>
Apr 16 16:51:01 recover_object(1412) done:9 count:159, oid:65958b0000000b<br>Apr 16 16:51:01 recover_object(1412) done:10 count:159, oid:65958b000000d5<br>Apr 16 16:51:01 recover_object(1412) done:11 count:159, oid:65958b00000022<br>
Apr 16 16:51:01 do_recover_object(1363) can not recover oid 65958b00000022<br>Apr 16 16:51:02 recover_object(1412) done:12 count:159, oid:65958b00000131<br>Apr 16 16:51:02 do_recover_object(1363) can not recover oid 65958b00000131<br>
Apr 16 16:51:02 fix_object_consistency(738) failed to read object 2<br>Apr 16 16:51:03 recover_object(1412) done:13 count:159, oid:65958b00000101<br>Apr 16 16:51:03 do_recover_object(1363) can not recover oid 65958b00000101<br>
Apr 16 16:51:04 recover_object(1412) done:14 count:159, oid:65958b00000159<br>Apr 16 16:51:04 do_recover_object(1363) can not recover oid 65958b00000159<br>Apr 16 16:51:05 recover_object(1412) done:15 count:159, oid:65958b00000115<br>
Apr 16 16:51:05 recover_object(1412) done:16 count:159, oid:65958b000000f7<br>Apr 16 16:51:05 do_recover_object(1363) can not recover oid 65958b000000f7<br>Apr 16 16:51:06 recover_object(1412) done:17 count:159, oid:65958b000000c7<br>
Apr 16 16:51:06 do_recover_object(1363) can not recover oid 65958b000000c7<br>Apr 16 16:51:06 fix_object_consistency(738) failed to read object 2<br>Apr 16 16:51:07 recover_object(1412) done:18 count:159, oid:65958b00000182<br>
Apr 16 16:51:07 do_recover_object(1363) can not recover oid 65958b00000182<br>Apr 16 16:51:08 recover_object(1412) done:19 count:159, oid:65958b00000129<br>Apr 16 16:51:08 do_recover_object(1363) can not recover oid 65958b00000129<br>
<br><br>Apr 16 16:52:39 fix_object_consistency(738) failed to read object 2<br>Apr 16 16:52:39 fix_object_consistency(738) failed to read object 2<br>Apr 16 16:52:39 fix_object_consistency(738) failed to read object 2<br>
Apr 16 16:52:39 fix_object_consistency(738) failed to read object 2<br>Apr 16 16:52:39 fix_object_consistency(738) failed to read object 2<br>Apr 16 16:52:39 fix_object_consistency(738) failed to read object 2<br>Apr 16 16:52:39 fix_object_consistency(738) failed to read object 2<br>
Apr 16 16:52:39 fix_object_consistency(738) failed to read object 2<br>Apr 16 16:52:39 fix_object_consistency(738) failed to read object 2<br>Apr 16 16:52:39 fix_object_consistency(738) failed to read object 2<br>Apr 16 16:52:39 fix_object_consistency(738) failed to read object 2<br>
Apr 16 16:52:39 fix_object_consistency(738) failed to read object 2<br>Apr 16 16:52:39 fix_object_consistency(738) failed to read object 2<br>Apr 16 16:52:39 fix_object_consistency(738) failed to read object 2<br>Apr 16 16:52:39 fix_object_consistency(738) failed to read object 2<br>
Apr 16 16:52:39 fix_object_consistency(738) failed to read object 2<br>Apr 16 16:52:39 fix_object_consistency(738) failed to read object 2<br>Apr 16 16:52:39 fix_object_consistency(738) failed to read object 2<br>Apr 16 16:52:39 fix_object_consistency(738) failed to read object 2<br>
Apr 16 16:52:44 fix_object_consistency(738) failed to read object 2<br>Apr 16 16:52:46 fix_object_consistency(738) failed to read object 2<br>Apr 16 16:52:49 fix_object_consistency(738) failed to read object 2<br>Apr 16 16:52:49 fix_object_consistency(738) failed to read object 2<br>
Apr 16 16:52:49 fix_object_consistency(738) failed to read object 2<br>Apr 16 16:52:49 fix_object_consistency(738) failed to read object 2<br>Apr 16 16:52:49 fix_object_consistency(738) failed to read object 2<br><br>Apr 16 16:59:39 fix_object_consistency(738) failed to read object 2<br>
Apr 16 16:59:39 fix_object_consistency(738) failed to read object 2<br><br><br><br>Thanks,<br>Joby Xavier<br><br><div class="gmail_quote">On Mon, Apr 16, 2012 at 3:07 PM, Huxinwei <span dir="ltr"><<a href="mailto:huxinwei@huawei.com">huxinwei@huawei.com</a>></span> wrote:<br>
<blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">





<div link="blue" vlink="purple" lang="ZH-CN">
<div>
<p class="MsoNormal"><span style="font-size:10.5pt;font-family:"Calibri","sans-serif";color:#1f497d" lang="EN-US">When the fail-over failed, have you used the hook for ucarp  to restart the scsi target on ‘node b’?<u></u><u></u></span></p>

<p class="MsoNormal"><span style="font-size:10.5pt;font-family:"Calibri","sans-serif";color:#1f497d" lang="EN-US">Also, do you have logs from both target nodes. It’ll be very helpful.<u></u><u></u></span></p>

<p class="MsoNormal"><span style="font-size:10.5pt;font-family:"Calibri","sans-serif";color:#1f497d" lang="EN-US"><u></u> <u></u></span></p>
<p class="MsoNormal"><span style="font-size:10.5pt;font-family:"Calibri","sans-serif";color:#1f497d" lang="EN-US">Thanks.<u></u><u></u></span></p>
<p class="MsoNormal"><span style="font-size:10.5pt;font-family:"Calibri","sans-serif";color:#1f497d" lang="EN-US"><u></u> <u></u></span></p>
<div style="border:none;border-left:solid blue 1.5pt;padding:0cm 0cm 0cm 4.0pt">
<div>
<div style="border:none;border-top:solid #b5c4df 1.0pt;padding:3.0pt 0cm 0cm 0cm">
<p class="MsoNormal"><b><span style="font-size:10.0pt;font-family:"Tahoma","sans-serif"" lang="EN-US">From:</span></b><span style="font-size:10.0pt;font-family:"Tahoma","sans-serif"" lang="EN-US"> <a href="mailto:sheepdog-bounces@lists.wpkg.org" target="_blank">sheepdog-bounces@lists.wpkg.org</a> [mailto:<a href="mailto:sheepdog-bounces@lists.wpkg.org" target="_blank">sheepdog-bounces@lists.wpkg.org</a>]
<b>On Behalf Of </b>joby xavier<br>
<b>Sent:</b> Monday, April 16, 2012 4:59 PM<br>
<b>To:</b> <a href="mailto:sheepdog@lists.wpkg.org" target="_blank">sheepdog@lists.wpkg.org</a><br>
<b>Subject:</b> [Sheepdog] Sheepdog+iscsi high availability<u></u><u></u></span></p>
</div>
</div><div><div class="h5">
<p class="MsoNormal"><span lang="EN-US"><u></u> <u></u></span></p>
<p class="MsoNormal"><span lang="EN-US">HI,<u></u><u></u></span></p>
<p><span lang="EN-US">We would like to set up a iscsi high availability with sheepdog distributed
<br>
storage . <u></u><u></u></span></p>
<p><span lang="EN-US">Here is our system set up: OS - Ubuntu. Four nodes with sheepdog
<br>
distributed storage and we are sharing this storage through iscsi using <br>
two nodes as well as using a virtual ip set up using ucarp.Two nodes  are<br>
using same iqn. And mounted the iscsi storage as lvm partition (sdc) <u></u><u></u></span></p>
<p><span lang="EN-US">node a <br>
node b <br>
node c <br>
node d <br>
node x is the initiator <br>
node a and b having common virtual ip because if 'node a' fails 'node <br>
b' should serve as iscsi target, both have same iqn. <u></u><u></u></span></p>
<p><span lang="EN-US">Problem: when a failover happens ie iscsi switching from node one to
<br>
two, the iscsi disk fails on initiator 'node x' <u></u><u></u></span></p>
<p><span lang="EN-US"><u></u> <u></u></span></p>
<p><span lang="EN-US">Here is  the /var/log/messeage <u></u><u></u></span></p>
<p><span lang="EN-US">Apr 16 10:57:14 prox1 kernel: scsi7 : iSCSI Initiator over TCP/IP<br>
Apr 16 10:57:14 prox1 kernel: scsi 7:0:0:0: RAID              IET      Controller       0001 PQ: 0 ANSI: 5<br>
Apr 16 10:57:14 prox1 kernel: scsi 7:0:0:1: Direct-Access     IET      VIRTUAL-DISK     0001 PQ: 0 ANSI: 5<br>
Apr 16 10:57:14 prox1 kernel: sd 7:0:0:1: [sdc] <a href="tel:2252800%20512" target="_blank">
2252800 512</a>-byte logical blocks: (1.15 GB/1.07 GiB)<br>
Apr 16 10:57:14 prox1 kernel: sd 7:0:0:1: [sdc] Write Protect is off<br>
Apr 16 10:57:14 prox1 kernel: sd 7:0:0:1: [sdc] Write cache: enabled, read cache: enabled, doesn't support DPO or FUA<br>
Apr 16 10:57:14 prox1 kernel: sdc: unknown partition table<br>
Apr 16 10:57:14 prox1 kernel: sd 7:0:0:1: [sdc] Attached SCSI disk<br>
<br>
Apr 16 10:59:47 prox1 kernel: connection2:0: detected conn error (1020)<br>
Apr 16 10:59:51 prox1 kernel: sd 7:0:0:1: [sdc] Unhandled sense code<br>
Apr 16 10:59:51 prox1 kernel: sd 7:0:0:1: [sdc] Result: hostbyte=invalid driverbyte=DRIVER_SENSE<br>
Apr 16 10:59:51 prox1 kernel: sd 7:0:0:1: [sdc] Sense Key : Medium Error [current]
<br>
Apr 16 10:59:51 prox1 kernel: sd 7:0:0:1: [sdc] Add. Sense: Unrecovered read error<br>
Apr 16 10:59:51 prox1 kernel: sd 7:0:0:1: [sdc] CDB: Read(10): 28 00 00 00 00 00 00 00 08 00<br>
Apr 16 10:59:51 prox1 kernel: sd 7:0:0:1: [sdc] Unhandled sense code<br>
Apr 16 10:59:51 prox1 kernel: sd 7:0:0:1: [sdc] Result: hostbyte=invalid driverbyte=DRIVER_SENSE<br>
Apr 16 10:59:51 prox1 kernel: sd 7:0:0:1: [sdc] Sense Key : Medium Error [current]
<br>
Apr 16 10:59:51 prox1 kernel: sd 7:0:0:1: [sdc] Add. Sense: Unrecovered read error<br>
Apr 16 10:59:51 prox1 kernel: sd 7:0:0:1: [sdc] CDB: Read(10): 28 00 00 00 00 00 00 00 08 00<br>
Apr 16 10:59:51 prox1 kernel: sd 7:0:0:1: [sdc] Unhandled sense code<br>
Apr 16 10:59:51 prox1 kernel: sd 7:0:0:1: [sdc] Result: hostbyte=invalid driverbyte=DRIVER_SENSE<br>
Apr 16 10:59:51 prox1 kernel: sd 7:0:0:1: [sdc] Sense Key : Medium Error [current]
<br>
Apr 16 10:59:51 prox1 kernel: sd 7:0:0:1: [sdc] Add. Sense: Unrecovered read error<br>
Apr 16 10:59:51 prox1 kernel: sd 7:0:0:1: [sdc] CDB: Read(10): 28 00 00 00 00 08 00 00 08 00<br>
Apr 16 10:59:51 prox1 kernel: sd 7:0:0:1: [sdc] Unhandled sense code<br>
Apr 16 10:59:51 prox1 kernel: sd 7:0:0:1: [sdc] Result: hostbyte=invalid driverbyte=DRIVER_SENSE<br>
Apr 16 10:59:51 prox1 kernel: sd 7:0:0:1: [sdc] Sense Key : Medium Error [current]
<br>
Apr 16 10:59:51 prox1 kernel: sd 7:0:0:1: [sdc] Add. Sense: Unrecovered read error<br>
Apr 16 10:59:51 prox1 kernel: sd 7:0:0:1: [sdc] CDB: Read(10): 28 00 00 00 00 00 00 00 08 00<br>
Apr 16 10:59:51 prox1 kernel: sd 7:0:0:1: [sdc] Unhandled sense code<u></u><u></u></span></p>
<p><span lang="EN-US">root@prox1:~# pvdisplay <br>
  /dev/sdc: read failed after 0 of 4096 at 1153368064: Input/output error<br>
  /dev/sdc: read failed after 0 of 4096 at 1153425408: Input/output error<u></u><u></u></span></p>
<p><span lang="EN-US">sheepdog with single node iscsi ( <a href="https://github.com/collie/sheepdog/wiki/General-protocol-support" target="_blank">
https://github.com/collie/sheepdog/wiki/General-protocol-support</a>) works well<u></u><u></u></span></p>
<p><span lang="EN-US">should we do anything on lvm.conf? should we use multipath-tools? is this the right procedure?<u></u><u></u></span></p>
<p class="MsoNormal" style="margin-bottom:12.0pt"><span lang="EN-US"><br>
Thanks,<br clear="all">
<br>
<br>
Joby Xavier<u></u><u></u></span></p>
</div></div></div>
</div>
</div>

</blockquote></div><br><br clear="all"><br>