質問

2015年11月10日 00時35分
  • VMware HA/FT設定について

情シスのオープンナレッジ『Syszo』サービス終了のお知らせ

質問

こんばんは。初めて投稿します。

ただいま、VMwareによる新規の環境を構築しています。
HA/FTによる仮想マシンの冗長化テスト(障害試験)をしたとき、なぜか、管理ネットワークを含むセグメントのでは動作しないので悩んでいます。

現在の構成は、「共有ストレージネットワーク」と「アクセス+管理ネットワーク」の2つに分離しており、共有ストレージネットワークの冗長化テストではHA/FTが期待通り動作します。

管理トラフィックは当然後者にしか流していませんが、後者もHA/FT動作をさせるには、前者にも管理トラフィックを流したほうがよいのでしょうか?

前者には本来は不要なトラフィックを流すのに少々抵抗があるので、踏み込めずにいます。

アドバイスを期待しています。
よろしくお願いします。

6件の回答があります

回答

お疲れ様です。

VM-HAの設定にもよりますが、基本NICのリンクダウンによるHAの発動はルールになかったように記憶しています。
VM-HAで、ホストがリンクダウンにより隔離されしまった場合は、ホスト隔離時の応答設定に依存すると思います。ここでパワーオンのままという設定にしていれば、そのまま仮想マシンは外部と通信できないまま稼働したままの状況になるはずです。

VM-HAは、いわゆるOSクラスターと異なり、HAの対象で見るのはホスト対象となりますが、ストレージとお話なができている場合には、HA発動により仮想マシンを強制パワーダウンさせることのリスクもありますので、このような設定がもうけられていると思われます。ストレージパスがなくなった場合は、APDの動作となるHAが発動しているのではないかと思われます。

2015年11月10日 00時46分

回答

doraemonさん
早速の返答ありがとうございます。
仰ることは理解できました。冗長化試験というのは、ご想像の通りNIC障害、すなわち抜線テストです。

ホスト隔離時の動作は再起動するようにしています。イベントログではHA動作直前の障害発生の認識はされていますので、あと一歩というところなのですが、そういうときは、再起動が発生してでも他のホストに移動させたいという考えです。

まだテストの段階ですので、どうにでもなるのですは、そもそもが外部ネットワークの障害時にFTも動かないのはまずいので。。。

VMの可用性ガイドにも管理NW側の通信障害時にもHA/FTは動作可能とありますので、なぜ出来ないのだろうかと思っていたところです。
http://www.vmware.com/files/jp/pdf/vsphere-esxi-vcenter-server-601-availability-guide.pdf

情報とても参考になります。

2015年11月10日 01時00分

回答

お疲れ様です。
以下の点確認をさせてください。
・ESXiホストは何台でクラスターを構成でしょうか?
・管理ネットワークとは、VMKernelのことを指していると思うのですが、
 vMotionやFTなどの裏動作用のネットワークと管理ネットワークを
 分けていますでしょうか?
・ストレージは、VMKernel経由のiSCSI/NFSもしくは、VSANやFCでしょうか?
・検証されているのは、FTの機能でしょうか、HAの機能でしょうか?

気になるのは、管理ネットワークというのがただのESXiに接続するポートだけの
利用で、サービスポート(クライアントからの接続や業務で利用運用するポート)とFT同期のポートが通常通り動作していた場合は、HA/FTの発動対象になるのか怪しい気がします。
(FT同期ができており、ユーザーからもサーバーのリソースを利用可能な状態のため)

まずは、環境の諸条件を教えていただければと思います。

2015年11月10日 15時03分

回答

doraemonさん

引き続き、ありがとうございます。以下、回答します。
掲示板の性質より、若干ぼやかしていることをご了承ください。


・ESXiホストは何台でクラスターを構成でしょうか?
 ESXiホスト10台のクラスター構成です。

・管理ネットワークとは、VMKernelのことを指していると思うのですが、
 vMotionやFTなどの裏動作用のネットワークと管理ネットワークを分けていますでしょうか?

 分けていません。ストレージNWではFT用ネットワーク(VLAN)に重畳させています。
 言葉で説明するとややこしくなるので、各ESXiホストのvSwitch設定の
 VMKernelポート設定を抜き出すと以下のようになっています。

 [アクセス(サービス)+管理ネットワーク側 (1GbE環境)]  ※物理ポート4つのLAG構成
   ※初期設定状態
   VLAN:なし(0)
   管理トラフィック:○
   vMotion:×
   Fault Toleranceのログ:×

 [ストレージネットワーク側 (10GbE環境)]  ※物理ポート2つのLAG構成
  
   VLAN:あり(VLAN ID : A)
   管理トラフィック:○
   vMotion:○
   Fault Toleranceのログ:○

  
   VLAN:あり(VLAN ID : B)
   管理トラフィック:×
   vMotion:×
   Fault Toleranceのログ:×
   iSCSIポートバインド:○ (グレーアウト)

  
   VLAN:あり(VLAN ID : B)
   管理トラフィック:×
   vMotion:×
   Fault Toleranceのログ:×
   iSCSIポートバインド:○ (グレーアウト)

・ストレージは、VMKernel経由のiSCSI/NFSもしくは、VSANやFCでしょうか?
 ストレージは、VMKernel経由のiSCSI接続です。

・検証されているのは、FTの機能でしょうか、HAの機能でしょうか?

 検証は FT機能/HA機能 の両方です。

管理トラフィックだけでなく、他にも流したほうが良いような気がしてきました。
このとき、ストレージネットワーク側の物理ポートを抜線するとFT/HAが動作するが、
アクセス(サービス)+管理ネットワーク側の物理ポート抜線時は動作しないという形です。

余談ですが、ご存知であればご教示いただきたく。
そもそもHA/FTはLAG冗長化が失われた(接続回線が1本だけになった時点)で発動させることは
可能なのでしょうか。イベントログでは冗長化の喪失状態は残るので、それがFT/HAの
トリガーにできないかと考えています。

いずれにしても仮想マシンの再起動が必要になりますので、完全にNWが失われる前に
再起動が走ることの良し悪しはあり、意義があるかといえば微妙ですが、
障害予兆時点で自動的に対策を行うメリットにはなるかなと。。。
(DRSなどで、そういう機能が実装されていればいい程度なのかな?)

長々とすみません。よろしくお願いいたします。

2015年11月10日 17時23分

回答

doraemonさん

すみません、投稿したら、半角カッコが消えてしまいました。
修正部分だけ手直しして再投稿します。
(これって、サイトの改善事項?)


・管理ネットワークとは、VMKernelのことを指していると思うのですが、
 vMotionやFTなどの裏動作用のネットワークと管理ネットワークを分けていますでしょうか?

 分けていません。ストレージNWではFT用ネットワーク(VLAN)に重畳させています。
 言葉で説明するとややこしくなるので、各ESXiホストのvSwitch設定の
 VMKernelポート設定を抜き出すと以下のようになっています。

 [アクセス(サービス)+管理ネットワーク側 (1GbE環境)]  ※物理ポート4つのLAG構成
  <Management Network> ※初期設定状態
   VLAN:なし(0)
   管理トラフィック:○
   vMotion:×
   Fault Toleranceのログ:×

 [ストレージネットワーク側 (10GbE環境)]  ※物理ポート2つのLAG構成
  <VMFT Network>
   VLAN:あり(VLAN ID : A)
   管理トラフィック:○
   vMotion:○
   Fault Toleranceのログ:○

  <iSCSI Network 1>
   VLAN:あり(VLAN ID : B)
   管理トラフィック:×
   vMotion:×
   Fault Toleranceのログ:×
   iSCSIポートバインド:○ (グレーアウト)

  <iSCSI Network 2>
   VLAN:あり(VLAN ID : B)
   管理トラフィック:×
   vMotion:×
   Fault Toleranceのログ:×

   iSCSIポートバインド:○ (グレーアウト)

以上

2015年11月10日 17時27分

回答

お疲れ様です。
環境の情報提供ありがとうございました。

一応確認ですが、ESXi群のネットワークはvDSで構成しているという認識で間違いないか確認をさせてください。(標準スイッチではなく、分散スイッチでの構成)
※vDSでないと、LAGが組めないので...

私もVMware HAの構成を深く考えるのが久々で、ちょっと記憶が曖昧なところもあるのですが、
まず、VMware HAの動作を考えると、こちらは物理NICのリンクダウンによる、HAの発動はできないと
認識しております。(そういった思想でのトリガーはないはずです)

VMware HAは、あくまでもHA内のマスターとスレーブでお話が出来る状態か否かを判断するはずですので
サービス側のネットワークの以上検知というのはできないと思います。
(vSphereから見た場合、HAに対して、サーピスのNICやポートグループを指定する箇所はありません。また、icmp echoなどをpollingする先を指定することもできません)

HAで隔離された場合においても、HAが発動しないとのことですが、
HA発動時に、ストレージハートビートとFDMマスターとスレーブがお話ができている状態なのではないかと思われます。(いわゆるサービスポートとしている部分が、VMKernelと関係なく、HAで見るべきポイントとして外れてしまっている状態)

ネットワークの設計がどのようになっているかがわからないのでなんとも言えないのですが、いわゆる隔離時に隔離されているか否かを判断できるようにすれば、解決できそうな話のように思えます。
そのため、隔離時に応答確認するIPアドレスを設定することで、対応ができるのではないかと思います。

以下のKBをご参照の上、サービス側に存在するデフォルトゲートウェイ等を指定することはできませんでしょうか?
(ただ、この設定したIPは、VMKernelから出て行きますので、サービス側にVMKernelポートがない場合、作成する必要があるように思います)

http://kb.vmware.com/selfservice/microsites/search.do?cmd=displayKC&docType=kc&externalId=2076752&sliceId=1&docTypeID=DT_KB_1_1&dialogID=838609670&stateId=0%200%20838621256

解決できるかわかりませんが、お試しください。

2015年11月11日 14時49分

あなたもコメントしましょう!