目次にジャンプページナビゲーションにジャンプ: 前のページ[アクセスキーp]/次のページ[アクセスキーn]
documentation.suse.com / SUSE Linux Enterprise High Availabilityのドキュメント / 管理ガイド / 設定および管理 / ストレージ保護とSBD
適用項目 SUSE Linux Enterprise High Availability 15 SP6

13 ストレージ保護とSBD

SBD (STONITH Block Device)は、共有ブロックストレージ(SAN、iSCSI、FCoEなど)を介したメッセージの交換を通じて、Pacemakerベースのクラスタのノードフェンシングメカニズムを提供します。これにより、フェンシングメカニズムが、ファームウェアバージョンの変更や特定のファームウェアコントローラへの依存から切り離されます。動作異常のノードが本当に停止したかどうかを確認するために、各ノードではウォッチドッグが必要です。特定の条件下では、ディスクレスモードで実行することにより、共有ストレージなしでSBDを使用することもできます。

クラスタブートストラップスクリプトは、フェンシングメカニズムとしてSBDを使用するオプションを使用してクラスタを設定する自動化された方法を提供します。詳細については、インストールとセットアップクイックスタートを参照してください。ただし、SBDを手動で設定する場合、個々の設定に関するオプションが増えます。

この章では、SBDの背後にある概念について説明します。スプリットブレインシナリオの場合に潜在的なデータ破損からクラスタを保護するために、SBDが必要とするコンポーネントを設定する手順を説明します。

ノードレベルのフェンシングに加えて、LVM排他アクティブ化やOCFS2ファイルロックのサポート(リソースレベルのフェンシング)など、ストレージ保護のための追加のメカニズムを使用することができます。これにより、管理上またはアプリケーション上の障害からシステムが保護されます。

13.1 概念の概要

SBDは、「Storage-Based Death」または「STONITHブロックデバイス」の略語です。

High Availabilityクラスタスタックの最優先事項は、データの整合性を保護することです。これは、データストレージへの非協調的な同時アクセスを防止することによって実現されます。クラスタスタックは、複数の制御メカニズムを使用してこの処理を行います。

ただし、ネットワークのパーティション分割やソフトウェアの誤動作により、クラスタでいくつものDCが選択される状況となる可能性があります。このスプリットブレインシナリオは、データ破損を引き起こす可能性があります。

STONITHによるノードフェンシングは、スプリットブレインを防ぐためのプライマリメカニズムです。ノードフェンシングメカニズムとしてSBDを使用することは、スプリットブレインシナリオの場合に、外部電源オフデバイスを使用せずにノードをシャットダウンする1つの方法です。

SBDのコンポーネントとメカニズム
SBDパーティション

すべてのノードが共有ストレージへのアクセスを持つ環境で、デバイスの小さなパーティションをSBDで使用できるようにフォーマットします。パーティションのサイズは、使用されるディスクのブロックサイズによって異なります(たとえば、512バイトのブロックサイズの標準SCSIディスクには1MB、4KBブロックサイズのDASDディスクには4MB必要です)。初期化プロセスでは、最大255のノードに対するスロットを備えたデバイス上にメッセージレイアウトが作成されます。

SBDデーモン

SBDは、そのデーモンの設定後、クラスタスタックの他のコンポーネントが起動される前に各ノードでオンラインになります。SBDデーモンは、他のすべてのクラスタコンポーネントがシャットダウンされた後で終了されます。したがって、クラスタリソースがSBDの監督なしでアクティブになることはありません。

メッセージ

このデーモンは、自動的に、パーティション上のメッセージスロットの1つを自分自身に割り当て、自分へのメッセージがないかどうか、そのスロットを絶えず監視します。デーモンは、メッセージを受信すると、直ちに要求に従います(フェンシングのための電源切断や再起動サイクルの開始など)。

また、デーモンは、ストレージデバイスへの接続性を絶えず監視し、パーティションが到達不能になった場合は、デーモン自体が終了します。このため、デーモンがフェンシングメッセージから切断されることはありません。これは、クラスタデータが別のパーティション上の同じ論理ユニットにある場合、追加障害ポイントになることはありません。ストレージ接続を失えば、ワークロードは終了します。

ウォッチドッグ

SBDを使用する場合は常に、正常動作するウォッチドッグが不可欠です。近代的なシステムは、ソフトウェアコンポーネントによってチックルまたはフィードされる必要のあるhardware watchdogをサポートします。ソフトウェアコンポーネント(この場合、SBDデーモン)は、ウォッチドッグにサービスパルスを定期的に書き込むことによって、ウォッチドッグにフィードします。デーモンがウォッチドッグへのフィードを停止すると、ハードウェアでシステムが強制的に再起動されます。この機能は、SBDプロセス自体の障害(I/Oエラーで終了またはスタックするなど)に対する保護を提供します。

Pacemakerの統合がアクティブになっている場合、過半数のデバイス損失のみではセルフフェンシングはトリガされません。たとえば、クラスタにA、B、Cの3つのノードが含まれており、ネットワーク分割によってAには自分自身しか表示できず、BとCはまだ通信可能な状態であるとします。この場合、2つのクラスタパーティションが存在し、1つは過半数(B、C)であるためにクォーラムがあり、もう1つにはクォーラムがない(A)ことになります。過半数のフェンシングデバイスに到達できないときにこれが発生した場合、ノードAはセルフフェンスを行いますが、、BとCは引き続き実行されます。

13.2 SBDの手動設定の概要

手動でストレージベースの保護を設定するには、次の手順に従う必要があります。これらはrootとして実行する必要があります。開始する前に、13.3項 「要件と制約」を確認してください。

  1. ウォッチドッグのセットアップ

  2. シナリオに応じて、1~3台のデバイスとともにまたはディスクレスモードでSBDを使用してください。概要については、13.4項 「SBDデバイスの数」を参照してください。詳細な設定については、以下に記載されています。

  3. SBDとフェンシングのテスト

13.3 要件と制約

  • ストレージベースのフェンシングには、最大3つのSBDデバイスを使用できます。1~3台のデバイスを使用する場合、共有ストレージにすべてのノードからアクセス可能である必要があります。

  • 共有ストレージデバイスのパスが永続的で、クラスタ内のすべてのノードで一致している必要があります。/dev/disk/by-id/dm-uuid-part1-mpath-abcedf12345などの固定デバイス名を使用してください。

  • 共有ストレージはFC (ファイバチャネル)、FCoE (Fibre Channel over Ethernet)、またはiSCSI経由で接続できます。

  • 共有ストレージセグメントが、ホストベースのRAID、LVM、またはDRBD*を「使用してはいけません」。DRBDは分割できますが、SBDでは2つの状態が存在することはできないため、これはSBDにとって問題になります。クラスタマルチデバイス(クラスタMD)は、SBDには使用できません。

  • ただし、信頼性向上のため、ストレージベースのRAIDとマルチパスの使用は推奨されます。

  • 255を超えるノードでデバイスを共有しない限り、異なるクラスタ間でSBDデバイスを共有できます。

  • 非対称SBDセットアップではフェンシングは機能しません。複数のSBDデバイスを使用している場合、すべてのノードにすべてのSBDデバイスのスロットがある必要があります。

  • 複数のSBDデバイスを使用している場合、すべてのデバイスが同じ設定(例: 同じタイムアウト値)である必要があります。

  • 3つ以上のノードがあるクラスタの場合は、SBDをディスクレスモードで使用することもできます。

13.4 SBDデバイスの数

SBDは、最大3つのデバイスの使用をサポートしています。

1つのデバイス

最も単純な実装です。すべてのデータが同じ共有ストレージ上にあるクラスタに適しています。

2つのデバイス

この設定は、主に、ホストベースのミラーリングを使用しているものの3つ目のストレージデバイスが使用できない環境で役立ちます。1つのミラーログにアクセスできなくなっても、SBDは終了せず、クラスタは引き続き実行できます。ただし、SBDにはストレージの非対称分割を検出できるだけの情報が与えられていないので、ミラーログが1つだけ使用可能なときにもう一方をフェンスすることはありません。つまり、ストレージアレイのいずれかがダウンしたときに、2つ目の障害に自動的に耐えることはできません。

3つのデバイス

最も信頼性の高い設定です。障害または保守による1台のデバイスの機能停止から回復できます。複数のデバイスが失われた場合、およびクラスタパーティションまたはノードの状態に応じて必要な場合にのみ、SBD自体が終了します。少なくとも2つのデバイスにまだアクセス可能な場合は、フェンシングメッセージを正常に送信できます。

この設定は、ストレージが1つのアレイに制約されていない、比較的複雑なシナリオに適しています。ホストベースのミラーリングソリューションでは、1つのミラーログに1つのSBDを設定し(自分自身はミラーしない)、iSCSI上に追加のタイブレーカを設定できます。

ディスクレス

この設定は、共有ストレージなしのフェンシングメカニズムが必要なときに便利です。このディスクレスモードでは、SBDは共有デバイスに頼らず、ハードウェアウォッチドッグを使用してノードをフェンスします。ただし、ディスクレスSBDは2ノードクラスタ用のスプリットブレインシナリオには対応できません。このオプションは、3つ以上のノードを持つクラスタにのみ使用してください。

13.5 タイムアウトの計算

フェンシングメカニズムとしてSBDを使用する場合、すべてのコンポーネントのタイムアウトを考慮することが重要です。それらのコンポーネントが相互に依存するためです。複数のSBDデバイスを使用している場合、すべてのデバイスが同じタイムアウト値である必要があります。

ウォッチドッグのタイムアウト

このタイムアウトは、SBDデバイスの初期化中に設定されます。これは主にストレージのレイテンシに依存します。この時間内に大半のデバイスを正常に読み込む必要があります。それができない場合、そのノードでセルフフェンスを行うことがあります。

注記
注記: マルチパスまたはiSCSIセットアップ

マルチパスセットアップまたはiSCSI上にSBDデバイスがある場合、パスの障害を検出して次のパスに切り替えるのに必要な時間に、タイムアウトを設定する必要があります。

またこれは、/etc/multipath.confmax_polling_intervalの値がwatchdogのタイムアウト未満でなければならないことを意味します。

msgwait[タイムアウト]

このタイムアウトは、SBDデバイスの初期化中に設定されます。この時間が経過するとSBDデバイス上のノードのスロットに書き込まれたメッセージが配信されたとみなされる時間を定義します。タイムアウトは、ノードでセルフフェンスを行う必要があることを検出するのに十分な長さでなければなりません。

ただし、msgwaitタイムアウトが長い場合、フェンシングアクションが戻る前にフェンスされたクラスタノードが再加入することがあります。これは、SBD_DELAY_START手順 13.4で説明するように、SBD設定のステップ 3パラメータを設定することで、緩和することができます。

CIBのstonith-timeout

このタイムアウトは、グローバルクラスタプロパティとしてCIBで設定されます。これは、STONITHアクション(再起動、オン、オフ)が完了するのを待つ時間の長さを定義します。

CIBのstonith-watchdog-timeout

このタイムアウトは、グローバルクラスタプロパティとしてCIBで設定されます。明示的に設定されていない場合は、デフォルトで0に設定されます。これは1~3台のデバイスとともにSBDを使用するのに適しています。SBDがディスクレスモードの場合、このタイムアウトを0にしてはいけません。詳細については、手順13.8「ディスクレスSBDの設定」を参照してください。

ウォッチドッグのタイムアウトを変更する場合は、他の2つのタイムアウトも調整する必要があります。次のは、これら3つの値の関係を示しています。

例 13.1: タイムアウト計算の式
Timeout (msgwait) >= (Timeout (watchdog) * 2)
stonith-timeout >= Timeout (msgwait) + 20%

たとえば、ウォッチドッグタイムアウトを120に設定した場合、msgwaitタイムアウトを240以上に設定し、stonith-timeout288以上に設定します。

crmシェルによって提供されたブートストラップスクリプトを使用してクラスタを設定し、SBDデバイスを初期化する場合、これらのタイムアウト間の関係は自動的に考慮されます。

13.6 ウォッチドッグのセットアップ

SUSE Linux Enterprise High Availabilityには、ハードウェア固有のウォッチドッグドライバを提供する、いくつかのカーネルモジュールが付属しています。運用環境のクラスタでは、ハードウェア固有のウォッチドッグドライバを使用することをお勧めします。ただし、ハードウェアに適合するウォッチドッグがない場合、カーネルウォッチドッグモジュールとしてsoftdogを使用することができます。

SUSE Linux Enterprise High AvailabilityはウォッチドッグにフィードするソフトウェアコンポーネントとしてSBDデーモンを使用します。

13.6.1 ハードウェアウォッチドッグの使用

特定のシステムの正しいウォッチドッグカーネルモジュールを判断することは、容易ではありません。自動プロービングは頻繁に失敗します。その結果、正しいモジュールがロードされる前に、多くのモジュールがすでにロードされている状態になってしまいます。

次のテーブルには、一般的に使用されるウォッチドッグドライバが一覧表示されています。ただし、これはサポートされているドライバの完全なリストではありません。ご使用のハードウェアが以下にリストされていない場合、ディレクトリ/lib/modules/KERNEL_VERSION/kernel/drivers/watchdogおよび/lib/modules/KERNEL_VERSION/kernel/drivers/ipmiでも選択肢のリストを検索できます。または、システム固有のウォッチドッグ設定の詳細について、ハードウェアまたはシステムのベンダに問い合わせてください。

表 13.1: よく使用されるウォッチドッグドライバ
Hardware (ハードウェア)ドライバ
HPhpwdt
Dell、Lenovo (Intel TCO)iTCO_wdt
富士通ipmi_watchdog
LPAR on IBM Powerpseries-wdt
IBM z/VM上のVMvmwatchdog
Xen VM (DomU)xen_xdt
VMware vSphere上のVMwdat_wdt
Genericsoftdog
重要
重要: ウォッチドッグタイマへのアクセス

一部のハードウェアベンダは、システムのリセット用にウォッチドッグを使用するシステム管理ソフトウェアを提供しています(たとえば、HP ASRデーモンなど)。ウォッチドッグがSBDで使用されている場合は、このようなソフトウェアを無効にします。他のソフトウェアは、ウォッチドッグタイマにアクセスしないでください。

手順 13.1: 正しいカーネルモジュールのロード

正しいウォッチドッグモジュールがロードされていることを確認するには、次の手順を実行します。

  1. お使いのカーネルバージョンでインストールされているドライバをリストします。

    # rpm -ql kernel-VERSION | grep watchdog
  2. カーネルに現在ロードされているウォッチドッグモジュールをリストします。

    # lsmod | egrep "(wd|dog)"
  3. 結果が表示されたら、間違ったモジュールをアンロードします。

    # rmmod WRONG_MODULE
  4. お使いのハードウェアに適合するウォッチドッグモジュールを有効にします。

    # echo WATCHDOG_MODULE > /etc/modules-load.d/watchdog.conf
    # systemctl restart systemd-modules-load
  5. ウォッチドッグモジュールが正しくロードされているかどうかをテストします。

    # lsmod | grep dog
  6. ウォッチドッグデバイスが使用可能で機能しているかどうかを確認します。

    # ls -l /dev/watchdog*
    # sbd query-watchdog

    ウォッチドッグデバイスを使用できない場合、モジュール名およびオプションを確認します。別のドライバを使用してみるのもいいかもしれません。

  7. ウォッチドッグデバイスが機能しているかどうかを確認します。

    # sbd -w WATCHDOG_DEVICE test-watchdog
  8. マシンを再起動して、カーネルモジュールが競合していないことを確認します。たとえば、ログにcannot register ...というメッセージが表示される場合は、このような競合するモジュールを示しています。このようなモジュールを無視するには、https://documentation.suse.com/sles/html/SLES-all/cha-mod.html#sec-mod-modprobe-blacklistを参照してください。

13.6.2 ソフトウェアウォッチドッグ(softdog)の使用

運用環境のクラスタでは、ハードウェア固有のウォッチドッグドライバを使用することをお勧めします。ただし、ハードウェアに適合するウォッチドッグがない場合、カーネルウォッチドッグモジュールとしてsoftdogを使用することができます。

重要
重要: softdogの制限

softdogドライバはCPUが最低1つは動作中であることを前提とします。すべてのCPUが固まっている場合、システムを再起動させるsoftdogドライバのコードは実行されません。これに対して、ハードウェアウォッチドッグはすべてのCPUが固まっていても動作し続けます。

手順 13.2: softdogカーネルモジュールのロード
  1. softdogウォッチドッグを有効にします。

    # echo softdog > /etc/modules-load.d/watchdog.conf
    # systemctl restart systemd-modules-load
  2. softdogウォッチドッグモジュールが正しくロードされているかどうかをテストします。

    # lsmod | grep softdog

13.7 デバイスでのSBDの設定

セットアップには次の手順が必要です。

開始する前に、SBDに使用するブロックデバイスが、13.3項で指定された要件を満たしていることを確認してください。

SBDデバイスを設定するときは、いくつかのタイムアウト値を考慮する必要があります。詳細については、13.5項 「タイムアウトの計算」を参照してください。

ノード上で実行しているSBDデーモンがウォッチドッグタイマを十分な速さで更新していない場合、ノード自体が終了します。タイムアウトを設定したら、個別の環境でテストしてください。

手順 13.3: SBDデバイスの初期化

共有ストレージでSBDを使用するには、まず1~3台のブロックデバイス上でメッセージングレイアウトを作成する必要があります。sbd createコマンドは、指定された1つまたは複数のデバイスにメタデータヘッダを書き込みます。また、最大255ノードのメッセージングスロットを初期化します。追加のオプションを指定せずに実行する場合、このコマンドはデフォルトのタイムアウト設定を使用します。

警告
警告: 既存データの上書き

SBD用に使用するデバイスには、重要なデータが一切ないようにしてください。sbd createコマンドを実行すると、指定されたブロックデバイスの最初のメガバイトが、さらなる要求やバックアップなしに上書きされます。

  1. SBDに使用するブロックデバイスを決定します。

  2. 次のコマンドで、SBDデバイスを初期化します。

    # sbd -d /dev/disk/by-id/DEVICE_ID create

    SBDに複数のデバイスを使用するには、-dオプションを複数回指定します。たとえば、次のようになります。

    # sbd -d /dev/disk/by-id/DEVICE_ID1 -d /dev/disk/by-id/DEVICE_ID2 -d /dev/disk/by-id/DEVICE_ID3 create
  3. SBDデバイスがマルチパスグループにある場合は、-1オプションと-4オプションを使用して、SBDに使用するタイムアウトを調整します。複数のデバイスを初期化した場合、すべてのデバイスに同じタイムアウト値を設定する必要があります。詳細については、13.5項 「タイムアウトの計算」を参照してください。タイムアウトはすべて秒単位で指定します。

    # sbd -d /dev/disk/by-id/DEVICE_ID -4 1801 -1 902 create

    1

    -4オプションはmsgwaitタイムアウトを指定するために使用されます。上の例では、180秒に設定されます。

    2

    -1オプションはwatchdogタイムアウトを指定するために使用されます。上の例では、90秒に設定されます。エミュレートされたウォッチドッグで使用可能な最小値は15秒です。

  4. デバイスに書き込まれた内容を確認します。

    # sbd -d /dev/disk/by-id/DEVICE_ID dump
    Header version     : 2.1
    UUID               : 619127f4-0e06-434c-84a0-ea82036e144c
    Number of slots    : 255
    Sector size        : 512
    Timeout (watchdog) : 5
    Timeout (allocate) : 2
    Timeout (loop)     : 1
    Timeout (msgwait)  : 10
    ==Header on disk /dev/disk/by-id/DEVICE_ID is dumped

    ご覧のように、タイムアウトがヘッダにも保存され、それらに関するすべての参加ノードの合意が確保されます。

SBDデバイスを初期化したら、SBD設定ファイルを編集し、次にそれぞれのサービスを有効にして起動し、変更を有効にします。

手順 13.4: SBD設定ファイルの編集
  1. ファイル/etc/sysconfig/sbdを開きます。

  2. 次のパラメータSBD_DEVICEを検索します。

    SBDメッセージを交換するために監視および使用するデバイスを指定します。

    /dev/disk/by-id/DEVICE_IDをお使いのSBDデバイスに置き換えて、この行を編集します。

    SBD_DEVICE="/dev/disk/by-id/DEVICE_ID"

    1行目で複数のデバイスを指定する必要がある場合は、セミコロンで区切って指定します(デバイスの順序は任意で構いません)。

    SBD_DEVICE="/dev/disk/by-id/DEVICE_ID1;/dev/disk/by-id/DEVICE_ID2;/dev/disk/by-id/DEVICE_ID3"

    SBDデバイスがアクセス不能な場合は、デーモンが開始できなくなり、クラスタの起動を抑止します。

  3. 次のパラメータSBD_DELAY_STARTを検索します。

    遅延を有効または無効にします。msgwaitが長い場合はSBD_DELAY_STARTyesに設定しますが、クラスタノードは素早く起動します。このパラメータをyesに設定すると、ブート時にSBDの起動が遅れます。これは、仮想マシンで必要となることがあります。

    デフォルトの遅延時間はmsgwaitタイムアウト値と同じです。または、yesの代わりに秒単位で整数を指定できます。

    SBD_DELAY_STARTを有効にする場合、SBDサービスファイルを確認して、TimeoutStartSecの値がSBD_DELAY_STARTの値より大きいことを確認する必要もあります。詳細については、https://www.suse.com/support/kb/doc/?id=000019356を参照してください。

  4. csync2を使用して、設定ファイルをすべてのノードにコピーします。

    # csync2 -xv

    詳細については、4.7項 「すべてのノードへの設定の転送」を参照してください。

SBDデバイスをSBD設定ファイルに追加したら、SBDデーモンを有効にします。SBDデーモンは、クラスタスタックの不可欠なコンポーネントです。これは、クラスタスタックが実行されているときに、実行されている必要があります。したがって、sbdサービスは、クラスタサービスが開始されるたびに依存関係として開始されます。

手順 13.5: SBDサービスの有効化と起動
  1. 各ノードで、SBDサービスを有効にします。

    # systemctl enable sbd

    SBDは、クラスタサービスが開始されるたびに、Corosyncサービスと一緒に開始します。

  2. --allオプションを使用して、すべてのノードのクラスタサービスを同時に再起動します。

    # crm cluster restart --all

    これによって、自動的にSBDデーモンの開始がトリガされます。

    重要
    重要: SBDを変更するためにクラスタサービスを再起動する

    SBDメタデータを変更した場合、クラスタサービスを再起動する必要があります。再起動中に重要なクラスタリソースを実行したままにするには、最初にそのクラスタを保守モードにすることを検討してください。詳細については、第28章 「保守タスクの実行を参照してください。

次の手順として、手順 13.6の説明に従ってSBDデバイスをテストします。

手順 13.6: SBDデバイスのテスト
  1. 次のコマンドを使用すると、ノードスロットとそれらの現在のメッセージがSBDデバイスからダンプされます。

    # sbd -d /dev/disk/by-id/DEVICE_ID list

    ここでSBDを使用して起動したすべてのクラスタノードが表示されます。たとえば、2ノードクラスタを使用している場合、両方のノードのメッセージスロットにはclearと表示されます。

    0       alice        clear
    1       bob          clear
  2. ノードの1つにテストメッセージを送信してみます。

    # sbd -d /dev/disk/by-id/DEVICE_ID message alice test
  3. ノードは、システムログファイルにメッセージの受信を記録します。

    May 03 16:08:31 alice sbd[66139]: /dev/disk/by-id/DEVICE_ID: notice: servant:
    Received command test from bob on disk /dev/disk/by-id/DEVICE_ID

    これによって、SBDがノード上で実際に機能し、メッセージを受信できることが確認されます。

最後のステップとして、手順 13.7の説明に従ってクラスタ設定を調整する必要があります。

手順 13.7: SBDを使用するようにクラスタを設定する
  1. シェルを起動し、rootまたは同等のものとしてログインします。

  2. crm configureを実行します。

  3. 次のように入力します。

    crm(live)configure# property stonith-enabled="true"1
    crm(live)configure# property stonith-watchdog-timeout=02
    crm(live)configure# property stonith-timeout="40s"3

    1

    STONITHを使用しないクラスタはサポートされていないため、これがデフォルト設定になります。ただし、テスト目的でSTONITHが無効化されている場合は、再度このパラメータがtrueに設定されていることを確認してください。

    2

    明示的に設定されていない場合、この値はデフォルトで0に設定されます。これは1~3台のデバイスとともにSBDを使用するのに適しています。

    3

    stonith-timeoutを計算するには、13.5項 「タイムアウトの計算」を参照してください。SBDのstonith-timeoutタイムアウト値が40秒に設定されていた場合、msgwait値は30が適切です。

  4. SBD STONITHリソースを設定します。このリソースのクローンを作成する必要はありません。

    2ノードクラスタで、スプリットブレインの場合、想定どおりに各ノードから他のノードにフェンシングが発行されます。両方のノードがほぼ同時にリセットされないようにするためには、次のフェンシング遅延を適用して、ノードのいずれか、または優先ノードが、フェンシングマッチに勝利するようにすることをお勧めします。3つ以上のノードを持つクラスタの場合は、これらの遅延を適用する必要はありません。

    優先フェンシング遅延

    priority-fencing-delayクラスタプロパティはデフォルトで無効になっています。遅延値を設定することによって、他のノードが失われ、ノードの合計リソース優先度が高い場合、そのノードをターゲットにしているフェンシングは指定された時間遅延されます。これは、スプリットブレインの場合、より重要なノードがフェンシングマッチに勝利することを意味します。

    重要なリソースは優先メタ属性を使用して設定できます。計算時に、各ノードで実行されているリソースまたはインスタンスの優先度の値が合計されて考慮されます。昇格されたリソースインスタンスは、設定された基本優先度に1を加えたものになるため、昇格されていないインスタンスよりも高い値を受け取ります。

    # crm configure property priority-fencing-delay=30

    priority-fencing-delayが使用される場合でも、ノードの優先度が等しい状況に対処するために、以下に説明するように、pcmk_delay_baseまたはpcmk_delay_maxを使用することもお勧めします。priority-fencing-delayの値はpcmk_delay_base / pcmk_delay_maxの最大値より大幅に大きくする必要があります。最大値の2倍にすることをお勧めします。

    予測可能な静的遅延

    このパラメータはSTONITHアクションを実行する前に静的遅延を追加します。2ノードクラスタのスプリットブレイン下で同時にノードがリセットしないようにするために、遅延値が異なる別のフェンシングリソースを設定します。優先ノードは、より長いフェンシング遅延をターゲットとするパラメータでマーク付けすることができるため、フェンシングマッチに勝利します。これを成功させるには、各ノードに2つのプリミティブSTONITHデバイスが必要です。次の設定では、スプリットブレインシナリオでaliceが勝利し、生き残ります。

    crm(live)configure# primitive st-sbd-alice stonith:external/sbd params \
    pcmk_host_list=alice pcmk_delay_base=20
    crm(live)configure# primitive st-sbd-bob stonith:external/sbd params \
    pcmk_host_list=bob pcmk_delay_base=0
    動的ランダム遅延

    このパラメータを使用すると、フェンシングデバイス上でSTONITHアクションに対するランダム遅延が追加されます。パラメータpcmk_delay_maxは、特定のノードを対象とする静的な遅延ではなく、フェンシングリソースを使用したフェンシングにランダムな遅延を追加して、ダブルリセットを防止します。このパラメータは、pcmk_delay_baseとは異なり、複数のノードを対象とする統合フェンシングリソースに指定できます。

    crm(live)configure# primitive stonith_sbd stonith:external/sbd \
    params pcmk_delay_max=30
    警告
    警告: pcmk_delay_maxがスプリットブレインシナリオでダブルリセットを防止しない可能性がある

    pcmk_delay_maxの値が低いほど、ダブルリセットが発生する可能性が高くなります。

    予測可能なサバイバーを確保することが目的の場合は、優先フェンシング遅延または予測可能な静的遅延を使用します。

  5. showで変更内容をレビューします。

  6. commitで変更を送信し、quitでcrmライブ設定を終了します。

リソースの起動後、ノードをフェンスする必要がある場合に、SBDを使用するようにクラスタが正常に設定されます。

13.8 ディスクレスSBDの設定

ディスクレスモードでSBDを動作させることができます。このモードでは、次の場合にウォッチドッグデバイスを使用してノードをリセットします。クォーラムが失われた場合、監視されているデーモンが失われて回復しなかった場合、またはノードでフェンシングが必要であるとPacemakerが判断した場合。ディスクレスSBDは、クラスタの状態、クォーラム、および特定の合理的な前提に応じた、ノードのセルフフェンシングに基づいています。STONITH SBDリソースプリミティブはCIBでは必要ありません。

重要
重要: ローカルファイアウォールのCorosyncトラフィックをブロックしない

ディスクレスSBDは、再編成されたメンバーシップおよびクォーラムの損失に依存してフェンシングを実現します。Corosyncトラフィックは、ループバックインタフェースを含むすべてのネットワークインタフェースを通過できる必要があります。ローカルファイアウォールによってブロックされてはいけません。ブロックされると、Corosyncは新しいメンバーシップを再編成できず、ディスクレスSBDフェンシングでは処理できないスプリットブレインシナリオを引き起こす可能性があります。

重要
重要: クラスタノード数

2ノードクラスタのフェンシングメカニズムとしてディスクレスSBDを使用しないでください。3つ以上のノードを持つクラスタにのみディスクレスSBDを使用してください。ディスクレスモードのSBDでは、2ノードクラスタのスプリットブレインシナリオを処理できません。2ノードクラスタにディスクレスSBDを使用する場合は、第14章 「QDeviceおよびQNetdで説明するようにQDeviceを使用します。

手順 13.8: ディスクレスSBDの設定
  1. /etc/sysconfig/sbdファイルを開いて、次のエントリを使用します。

    SBD_PACEMAKER=yes
    SBD_STARTMODE=always
    SBD_DELAY_START=no
    SBD_WATCHDOG_DEV=/dev/watchdog
    SBD_WATCHDOG_TIMEOUT=5

    共有ディスクが使用されないため、SBD_DEVICEエントリは必要ありません。このパラメータがない場合、sbdサービスはSBDデバイスのウォッチャプロセスを開始しません。

    起動時にSBDの開始を遅延する必要がある場合、SBD_DELAY_STARTyesに変更します。デフォルトの遅延時間はSBD_WATCHDOG_TIMEOUTの値の2倍です。または、yesの代わりに秒単位で整数を指定できます。

    重要
    重要: ディスクレスSBDおよびQDeviceのSBD_WATCHDOG_TIMEOUT

    ディスクレスSBDを含むQDeviceを使用する場合、SBD_WATCHDOG_TIMEOUT値はQDeviceのsync_timeout値より大きくする必要があります。そうしないと、SBDがタイムアウトになり、開始できません。

    sync_timeoutのデフォルト値は30秒です。したがって、SBD_WATCHDOG_TIMEOUT35などの、より大きい値に設定します。

  2. 各ノードで、SBDサービスを有効にします。

    # systemctl enable sbd

    SBDは、クラスタサービスが開始されるたびに、Corosyncサービスと一緒に開始します。

  3. --allオプションを使用して、すべてのノードのクラスタサービスを同時に再起動します。

    # crm cluster restart --all

    これによって、自動的にSBDデーモンの開始がトリガされます。

    重要
    重要: SBDを変更するためにクラスタサービスを再起動する

    SBDメタデータを変更した場合、クラスタサービスを再起動する必要があります。再起動中に重要なクラスタリソースを実行したままにするには、最初にそのクラスタを保守モードにすることを検討してください。詳細については、第28章 「保守タスクの実行を参照してください。

  4. パラメータhave-watchdog=trueが自動的に設定されているかどうかを確認します。

    # crm configure show | grep have-watchdog
             have-watchdog=true
  5. crm configureを実行し、crmシェルで次のクラスタプロパティを設定します。

    crm(live)configure# property stonith-enabled="true"1
    crm(live)configure# property stonith-watchdog-timeout=102
    crm(live)configure# property stonith-timeout=153

    1

    STONITHを使用しないクラスタはサポートされていないため、これがデフォルト設定になります。ただし、テスト目的でSTONITHが無効化されている場合は、再度このパラメータがtrueに設定されていることを確認してください。

    2

    ディスクレスSBDの場合、このパラメータはゼロであってはなりません。これは、どれくらいの時間が経ったらフェンシングターゲットがすでにセルフフェンスを行ったとみなされるのかを定義します。次の式を使用してこのタイムアウトを計算します。

    stonith-watchdog-timeout >= (SBD_WATCHDOG_TIMEOUT * 2)

    stonith-watchdog-timeoutを負の値に設定すると、Pacemakerは、このタイムアウトを自動的に計算し、これをSBD_WATCHDOG_TIMEOUTの値の2倍に設定します。

    3

    このパラメータは、フェンシングが完了するのに十分な時間にする必要があります。ディスクレスSBDの場合、次の式を使用してこのタイムアウトを計算します。

    stonith-timeout >= stonith-watchdog-timeout + 20%
    重要
    重要: ディスクレスSBDのタイムアウト

    ディスクレスSBDでは、stonith-timeout値がstonith-watchdog-timeout値より小さい場合、障害が発生したノードはUNCLEAN状態で停止したままになり、アクティブリソースのフェールオーバーをブロックする可能性があります。

  6. showで変更内容をレビューします。

  7. commitで変更を送信し、quitでcrmライブ設定を終了します。

13.9 SBDとフェンシングのテスト

SBDがノードフェンシング目的で期待どおりに機能するかどうかをテストするには、次のいずれかまたはすべての方法を使用します。

ノードのフェンシングを手動でトリガする

ノードNODENAMEのフェンシングアクションをトリガするには:

# crm node fence NODENAME

当該ノードがフェンシングされているかどうか、およびstonith-watchdog-timeoutの後、他のノードがそのノードをフェンシングされているとみなしているかどうかを確認します。

SBD障害のシミュレーション
  1. SBD inquisitorのプロセスIDを特定します。

    # systemctl status sbd
    ● sbd.service - Shared-storage based fencing daemon
    
       Loaded: loaded (/usr/lib/systemd/system/sbd.service; enabled; vendor preset: disabled)
       Active: active (running) since Tue 2018-04-17 15:24:51 CEST; 6 days ago
         Docs: man:sbd(8)
      Process: 1844 ExecStart=/usr/sbin/sbd $SBD_OPTS -p /var/run/sbd.pid watch (code=exited, status=0/SUCCESS)
     Main PID: 1859 (sbd)
        Tasks: 4 (limit: 4915)
       CGroup: /system.slice/sbd.service
               ├─1859 sbd: inquisitor
    [...]
  2. SBD inquisitorプロセスを終了することにより、SBD障害をシミュレーションします。この例では、SBD inquisitorのプロセスIDは1859です)。

    # kill -9 1859

    当該ノードは積極的にセルフフェンスを行います。他のノードは、当該ノードの損失を認識し、stonith-watchdog-timeoutの後、そのノードがセルフフェンスを行ったとみなします。

監視動作の障害によるフェンシングのトリガ

通常の設定では、リソース「停止動作」の障害によって、フェンシングがトリガされます。フェンシングを手動でトリガするために、リソース停止動作の障害を発生させることができます。あるいは、以下に説明するように、リソース監視動作の設定を一時的に変更して、監視障害を発生させることができます。

  1. リソース監視操作にon-fail=fenceプロパティを設定します。

    op monitor interval=10 on-fail=fence
  2. 監視動作の障害を発生させます(たとえば、リソースがサービスに関連する場合は、それぞれのデーモンを終了させます)。

    この障害により、フェンシングアクションがトリガされます。

13.10 ストレージ保護のための追加メカニズム

STONITHによるノードフェンシング以外に、リソースレベルでストレージ保護を実現する他の方法があります。たとえば、SCSI-3とSCSI-4は永続予約を使用しますが、sfexはロック機構を提供します。両方の方法について以下のサブセクションで説明します。

13.10.1 sg_persistリソースの設定

SCSI仕様3および4では、「永続予約」が定義されています。これらはSCSIプロトコル機能であり、I/Oフェンシングとフェールオーバーに使用できます。この機能は、sg_persist Linuxコマンドで実装されます。

注記
注記: SCSIディスクの互換性

sg_persistのバッキングディスクは、SCSIディスクとの互換性が必要です。sg_persistは、SCSIディスクやiSCSI LUNなどのデバイスでのみ機能します。 IDE、SATA、またはSCSIプロトコルをサポートしないブロックデバイスでは、使用しないでください。

続行する前に、お使いのディスクが永続予約をサポートしているかどうかを確認してください。次のコマンドを使用します(DEVICE_IDをデバイス名で置き換えてください)。

# sg_persist -n --in --read-reservation -d /dev/disk/by-id/DEVICE_ID

結果に、ディスクが永続予約をサポートしているかどうかが示されます。

  • サポートされているディスク:

    PR generation=0x0, there is NO reservation held
  • サポートされていないディスク:

    PR in (Read reservation): command not supported
    Illegal request, Invalid opcode

上記のようなエラーメッセージが表示された場合は、古いディスクをSCSIと互換性のあるディスクに交換してください。それ以外の場合は、以下の手順に従います。

  1. ディスクに固定デバイス名を使用して、プリミティブリソースsg_persistを作成します。

    # crm configure
    crm(live)configure# primitive sg sg_persist \
        params devs="/dev/disk/by-id/DEVICE_ID" reservation_type=3 \
        op monitor interval=60 timeout=60
  2. sg_persistプリミティブのプロモータブルクローンを作成します。

    crm(live)configure# clone clone-sg sg \
        meta promotable=true promoted-max=1 notify=true
  3. セットアップをテストします。リソースが昇格されると、プライマリインスタンスが実行されているクラスタノードのディスクパーティションにマウントし、書き込むことができますが、セカンダリインスタンスが実行されているクラスタノードには書き込むことはできません。

  4. ディスクパーティションに固定デバイス名を使用して、Ext4のファイルシステムプリミティブを追加します。

    crm(live)configure# primitive ext4 Filesystem \
        params device="/dev/disk/by-id/DEVICE_ID" directory="/mnt/ext4" fstype=ext4
  5. sg_persistクローンとファイルシステムリソースの間に、次の順序関係とコロケーションを追加します。

    crm(live)configure# order o-clone-sg-before-ext4 Mandatory: clone-sg:promote ext4:start
    crm(live)configure# colocation col-ext4-with-sg-persist inf: ext4 clone-sg:Promoted
  6. show changedコマンドで、すべての変更内容を確認します。

  7. 変更をコミットします。

詳細については、sg_persistのマニュアルページを参照してください。

13.10.2 sfexを使用した排他的なストレージアクティブ化の保証

このセクションでは、共有ストレージへのアクセスを1つのノードに排他的にロックする低レベルの追加メカニズムであるsfexを紹介します。ただし、sfexは、STONITHと置き換えることはできないので注意してください。sfexには共有ストレージが必要なので、上記で説明したSBDノードフェンシングメカニズムは、ストレージの別のパーティションで使用することをお勧めします。

設計上、sfexは、同時実行が必要なワークロード(OCFS2など)では使用できません。これは、従来のフェールオーバースタイルのワークロードに対する保護の層として機能します。これは、実際にはSCSI-2予約と似ていますが、もっと一般的です。

13.10.2.1 概要

共有ストレージ環境では、ストレージの小さなパーティションが1つ以上のロックの保存用に確保されます。

ノードは、保護されたリソースを取得する前に、まず、保護ロックを取得する必要があります。順序はPacemakerによって強制されます。sfexコンポーネントは、Pacemakerがスプリットブレイン条件に制約されても、ロックが2回以上付与されないことを保証します。

ノードのダウンが永続的にロックをブロックせず、他のノードが続行できるように、これらのロックも定期的に更新される必要があります。

13.10.2.2 セットアップ

次に、sfexで使用する共有パーティションの作成方法と、CIBでsfexロック用にリソースを設定する方法を説明します。1つのsfexパーティションは任意の数のロックを保持でき、ロックごとに1KBのストレージスペースを割り当てる必要があります。デフォルトでは、sfex_initはパーティション上にロックを1つ作成します。

重要
重要: 要件
  • sfex用の共有パーティションは、保護するデータと同じ論理ユニットにある必要があります。

  • 共有されたsfexパーティションは、ホストベースのRAIDやDRBDを使用してはいけません。

  • LVM論理ボリュームを使用することは可能です。

手順 13.9: sfexパーティションの作成
  1. sfexで使用する共有パーティションを作成します。このパーティションの名前を書き留め、それを下記の/dev/sfexの代わりに使用します。

  2. 次のコマンドでsfexメタデータを作成します。

    # sfex_init -n 1 /dev/sfex
  3. メタデータが正しく作成されたかどうか検証します。

    # sfex_stat -i 1 /dev/sfex ; echo $?

    現在、ロックがかかっていないので、このコマンドは、2を返すはずです。

手順 13.10: sfexロック用リソースの設定
  1. sfexロックは、CIB内のリソースを介して表現され、次のように設定されます。

    crm(live)configure# primitive sfex_1 ocf:heartbeat:sfex \
          params device="/dev/sfex" index="1" collision_timeout="1" \
          lock_timeout="70" monitor_interval="10" \
          op monitor interval="10s" timeout="30s" on-fail="fence"
  2. sfexロックによってリソースを保護するには、保護対象のリソースとsfexリソース間の必須の順序付けと配置の制約を作成します。保護対象のリソースがfilesystem1というIDを持つ場合は、次のようになります。

    crm(live)configure# order order-sfex-1 Mandatory: sfex_1 filesystem1
    crm(live)configure# colocation col-sfex-1 inf: filesystem1 sfex_1
  3. グループ構文を使用する場合は、sfexリソースを最初のリソースとしてグループに追加します。

    crm(live)configure# group LAMP sfex_1 filesystem1 apache ipaddr

13.11 詳細の参照先

詳細については、man sbdを参照してください。