• クラスター ノード間通信障害の一般的な対処方法について

    こんにちは。Windows プラットフォーム サポートの吉田です。

    最近いくつかいただいたお問い合わせで、フェールオーバー クラスターの構成ノードを再起動したところ、クラスターに参加できなくなった、というお問い合わせがありました。

    これらのお問い合わせでは、ネットワーク ボードの IPv6 設定が無効 (ネットワーク ボードのプロパティからチェックボックス OFF) に設定されている状態でノードを再起動した所、クラスターに参加するタイミングで他のノードとのノード間通信に失敗し、参加に失敗するという事象が発生していました。

    このような設定を行っている場合、ネットワーク ボードの IPv6 設定は無効になっているものの、OS の内部で使用されている仮想ネットワークでは IPv6 設定が有効になっておりシステム全体、たとえば Microsoft Failover Cluster Virtual Adapter 等では IPv6 が使用されております。

    このような状態に陥っていた環境では以下の対処を行うことで改善されました。

     

    IPv6 コンポーネントの無効化手順
    -----------------
    レジストリを変更して IPv6 コンポーネントを無効化します。

    ・対象レジストリ

     HKEY_LOCAL_MACHINE\SYSTEM\CurrentControlSet\Services\Tcpip6\Parameters\

      (1) regedit.exe を起動して 対象レジストリアドレス に移動します。
      (2) メニューバーから [編集]-[新規]-[DWORD (32 ビット) 値] を選択します。
      (3) 名前には [DisabledComponents] と入力します。
      (4) [DisabledComponents] をダブルクリックし、以下の値を入力します。

      [DisabledComponents]
      値: ffffffff (16進数)

      上記の設定行うことにより、IPv6 ループバック インターフェイス以外のすべての IPv6 コンポーネントを無効にし、さらにプレフィックス ポリシーを IPv6 ではなく IPv4 (Internet Protocol version 4) を使用します。

     (5) 上記の設定内容を反映させる為、システムを再起動します。

     

    ・参考 サイト
    Windows Vista、Windows7、および Windows Server 2008 で特定の IPv6 (Internet Protocol version 6) を無効にする方法
    http://support.microsoft.com/kb/929852/ja

    連載 IPv6 入門 - 第三回 IPv6 の無効化方法
    http://blogs.technet.com/b/jpntsblog/archive/2010/06/17/ipv6-3.aspx

     

    もし、同じような現象が発生した場合には、IPv6 コンポーネントの無効化で改善されるかどうかご確認ください。

    ===============================================================================

     

    ■ノード間通信に問題が発生した場合の切り分けについて
    ----------------------------------------------------------------------
    また、上記のようなノード間通信の問題によって障害が発生する場合、他に弊社では以下のような対処を実施いただき、切り分けをお願いしております。

     

    1. すべてのノードの再起動
    ----------------------------------------------------------------------
    事象発生ノードを含むすべてのノードを停止し、クラスターを一度停止した後、再起動を実施し、改善するかご確認ください。

     

    2. クラスター モジュールの最新化
    ----------------------------------------------------------------------
    非常に多くのお客様が RTM の環境や、Service Pack 1 のみ適用した環境で弊社にお問い合わせいただきます。

    非常に多くの問題が累積にて修正されておりますので、システムの安定稼働のため、以下のエントリーでもご紹介させていただいております、最新のクラスター関連修正モジュールの適用をご検討ください。

    クラスター環境に適用を推奨する修正プログラムについて
    http://blogs.technet.com/b/askcorejp/archive/2012/08/16/3514648.aspx

    Windows Server 2008 R2 では既知の不具合として、以下の修正プログラムが提供されております。

    --クラスターへの再参加に関する問題。
    Cluster node cannot rejoin the cluster after the node is restarted or removed from the cluster in Windows Server 2008 R2
    http://support.microsoft.com/kb/2549472/en-us

    --ノード間通信に関するクラスターの問題
    A Windows Server 2008 R2 failover cluster loses quorum when an asymmetric communication failure occurs
    http://support.microsoft.com/kb/2552040/en-us

    A transient communication failure causes a Windows Server 2008 R2 failover cluster to stop working
    http://support.microsoft.com/kb/2550886/en-us

    ノード間通信に関する修正プログラムは 2550886 の修正プログラムを適用することにより、2552040 の不具合は解消されますので、2550886 の適用をご検討ください。

     

    3. Scalable Networking Pack(SNP)およびタスクオフロードの機能の無効化
    ----------------------------------------------------------------------
    SNP は従来 OS 側で行っていたネットワークパケット処理をネットワークボード 側に委任する機能で、Windows Server 2003 SP2 以降に含まれております。

    無効化を行うにはドライバー側でオフロード関連の設定を無効にしていただいた後、OS側の設定も無効にしていただく必要がございます。

    OS 側で設定可能な対処は以下のサイトをご覧ください。

    予期せぬ挙動が!? 新機能
    Scalable Networking Pack をご存知ですか?
    http://blogs.technet.com/b/jpntsblog/archive/2010/03/23/scalable-networking-pack.aspx

     

    4. ネットワーク ボード ドライバーの更新
    ----------------------------------------------------------------------
    利用されている ネットワークボード ドライバー の製造元より、最新のドライバーを入手し、適用することで改善するかご確認ください。

     

    5. サードパーティ製 の アンチウィルス、 Firewall ソフトについて
    ----------------------------------------------------------------------
    過去弊社にお問い合わせいただきました中で比較的よくある事例として、サードパーティ製 の アンチウィルス、 Firewall ソフトがノード間通信を疎外していたために事象が発生していたケースがございました。

    このような状況の場合、サービスのみ無効化を実施する場合ではフィルタ ドライバーなどが無効化されない為、事象が改善せずにプログラムのアンインストールを実施しないと事象が改善しないケースが多数ございます。

    事象が発生した場合にはクラスターを構成しているすべてのノードにてプログラムのアンインストールをご検討ください

     

    6. ノード間通信の問題についての技術情報
    ----------------------------------------------------------------------
    クラスターのノード間通信に関する問題として、以下の技術情報を公開させていただいておりますので、ご紹介します。

    今後の安定稼働のため、以下の技術情報ご確認いただき、設定の変更や修正モジュールの適用といった対処の実施をご検討いただければ幸いです。

    UDP communication is blocked by the Windows Firewall rule in WSFC when the network connection is interrupted and then restored
    http://support.microsoft.com/kb/2701206/en-us
    [機械翻訳]
    http://support.microsoft.com/kb/2701206/ja

    The network location profile changes from "Domain" to "Public" in Windows 7 or in Windows Server 2008 R2
    http://support.microsoft.com/kb/2524478/en-us
    [機械翻訳]
    http://support.microsoft.com/kb/2524478/ja

     

    もし、ノード間通信において問題が発生してお困りの状況であれば、上記の対処についてご検討いただければ幸いです。

     

  • クラスターのエラーと解決方法について

    こんにちは。日本マイクロソフトの永野です。

    弊社 TechNet Library では、Windows の各機能ごとにイベントや
    エラーについて、情報を公開しています。
    フェールオーバー クラスタリングについても、様々なイベントについて
    情報を公開しております。

    Failover Clustering
    http://technet.microsoft.com/en-us/library/dd353290%28v=ws.10%29

    各イベントごとに、どういうイベントなのか、どういう方法で解決できるのか
    といった情報が公開されており、イベントが発生した場合の初期対応に有効です。

    例えば、以下のようなエラーが出た場合を想定します。

    ---
    ログの名前:         System
    ソース:           Microsoft-Windows-FailoverClustering
    日付:            2012/08/16 14:52:31
    イベント ID:       5121
    タスクのカテゴリ:      クラスターの共有ボリューム
    レベル:           エラー
    キーワード:        
    ユーザー:          SYSTEM
    コンピューター:       node2.contoso.com
    説明:
    クラスターの共有ボリューム 'Volume1' ('Clus2') はこのクラスター ノ��ドから直接アクセスできなくなりました。I/O アクセスは、ボリュームを所有するノードを介してネットワーク経由で記憶装置にリダイレクトされます。これが原因でパフォーマンスが低下する可能性があります。リダイレクトされたアクセスがこのボリュームに対して有効になっている場合は無効にしてください。リダイレクトされたアクセスが無効にされている場合は、このノードから記憶装置への接続のトラブルシューティングを実施してください。記憶装置への接続が再確立されたら、I/O は正常な状態に戻ります。
    ---

    前述のリンクから [Cluster Shared Volumes] - [Cluster Shared Volume Functionality]
    と辿ることで、Cluster Shared Volume (CSV) に関するイベントの一覧が
    確認できます。

    Cluster Shared Volume Functionality
    http://technet.microsoft.com/en-us/library/ee830309(v=ws.10)

    この中から、該当の ID (今回の場合 ID:5121) を選択することで
    詳細な情報が記載されたページが確認できます。

    Event ID 5121 — Cluster Shared Volume Functionality
    http://technet.microsoft.com/en-us/library/ee830327%28v=ws.10%29

    タイトルの直下に問題の概要、Resolve の項目に解決方法があり、発生した
    イベントについて状況と対処などを確認できます。
    特に Resolve の項で、考えられる要因を基に一般的な対処策を公開
    しており、これらを実施していただくことで、現象を改善できる場合が
    あります。

    --- 一部抜粋 ---
    CSV - Check storage and network configuration

    If you do not currently have Event Viewer open, see "Opening Event Viewer and viewing events related to failover clustering." If the event contains an error code that you have not yet looked up, see "Finding more information about error codes that some event messages contain." After reviewing event messages, choose actions that apply to your situation:

    • Check the condition and configuration of the disks in Cluster Shared Volumes. For more information, see "Gathering information about the condition and configuration of a disk in Cluster Shared Volumes."
    • Review network settings. For more information, see "Verifying settings for a network designated for network communication with Cluster Shared Volumes."
    • Review security policies that might affect communication with Cluster Shared Volumes. For more information, see "Verifying that the required NTLM authentication is allowed."

    --- 抜粋ここまで ---

    クラスターに関するイベントが記録されていたら、ぜひ
    前述のリンクから情報を確認してみてください。