SUSE Linux Enterprise High Availability Extension 15 SP4

安装和设置快速入门 #

出版日期：2025 年 12 月 11 日

本文档会指导您使用 crm 外壳提供的引导脚本完成最基本的双节点群集的设置。其中包括将虚拟 IP 地址配置为群集资源，以及在共享储存上使用 SBD 作为节点屏蔽机制。

作者: Tanja Roth、Thomas Schraitle

修订历史: SUSE Linux Enterprise High Availability Extension 文档

1 使用情形 #

通过本文档中介绍的过程可完成具有以下属性的双节点群组的基本设置：

两个节点：alice（IP：192.168.1.1）和 bob（IP：192.168.1.2），两者之间通过网络彼此相连。
一个浮动虚拟 IP 地址 (192.168.2.1)，客户端可通过该地址连接到服务，而无需考虑运行该服务的物理节点。
一台共享存储设备，用作 SBD 屏蔽机制。可避免节点分裂的情况。
当活动的主机发生故障（主动/被动设置）时，资源从一个节点故障转移至另一个节点。

使用引导脚本设置群集后，我们将使用图形 Hawk2 来监视群集。它是群集管理工具之一，随附于 SUSE® Linux Enterprise High Availability Extension 中。为了对资源故障转移是否有效进行最基本的测试，我们会将一个节点置于待机模式，并检查虚拟 IP 地址是否已迁移到另一个节点。

您可以使用该双节点群集进行测试，或以它为最小群集配置，稍后再行扩展。将该群集用于生产环境之前，请根据自己的要求进行修改。

2 系统要求 #

本章介绍第 1 节中所述案例的重要系统要求。要将群集调整为可用于生产环境，请参考第 2 章 “系统要求和建议”中的完整列表。

2.1 硬件要求 #

服务器

两台安装有第 2.2 节 “软件需求”中指定的软件的服务器。

服务器可以是裸机，也可以是虚拟机。两台服务器不需要使用相同的硬件（内存、磁盘空间等），但它们的体系结构必须相同。不支持跨平台群集。

通讯通道

每个群集节点至少有两个 TCP/IP 通讯媒体。网络设备必须支持您要用于群集通讯的通讯方式：多路广播或单路广播。通讯媒体应支持 100 Mbit/s 或更高的数据传送速度。对于受支持的群集设置，要求有两个或更多冗余通讯路径。这可通过以下方式实现：

网络设备绑定（首选）。
Corosync 中的另一个通讯通道。

节点屏蔽/STONITH

为了避免发生“节点分裂”的情况，群集需要有节点屏蔽机制。在节点分裂的情况下，群集节点会由于硬件或软件故障或者网络连接断开而分成两个或更多互不相识的组。而屏蔽机制会隔离存在问题的节点（通常的做法是重设置该节点或关闭其电源）。这也称为 STONITH（“Shoot the other node in the head”，关闭其他节点）。节点屏蔽机制可以是物理设备（电源开关），也可以是 SBD（按磁盘 STONITH）等机制再结合检查包。使用 SBD 需要有共享存储。

2.2 软件需求 #

将加入群集的所有节点上都至少需安装以下模块和扩展：

Basesystem Module 15 SP4
Server Applications Module 15 SP4
SUSE Linux Enterprise High Availability Extension 15 SP4

2.3 其他要求和建议 #

时间同步

群集节点必须同步到群集外的 NTP 服务器。自 SUSE Linux Enterprise High Availability Extension 15 起，采用 chrony 作为 NTP 的默认实施。有关详细信息，请参见 《SUSE Linux Enterprise Server 15 SP4 管理指南》。

如果节点未同步，群集可能无法正常运作。此外，日志文件和群集报告在不进行同步的情况下也很难进行分析。如果使用引导脚本，而 NTP 尚未配置，则系统会提出警告。

主机名和 IP 地址

使用静态 IP 地址。
在 /etc/hosts 文件中列出了所有群集节点，包括其完全限定的主机名和简短主机名。群集成员必须能够按名称找到彼此。如果名称不可用，则将无法进行群集内部通讯。

SSH

所有群集节点都必须能通过 SSH 相互访问。crm report（用于查错）等工具和 Hawk2 的历史记录浏览器要求节点之间采用无口令 SSH 访问方式，否则它们只能从当前节点收集数据。

如果使用引导脚本设置群集，系统会自动建立并复制 SSH 密钥。

3 引导脚本概述 #

以下命令可执行只需要极少时间和手动干预的引导脚本。

使用 crm cluster init 可定义群集通讯所需的基本参数。这将为您提供一个运行中的单节点群集。
使用 crm cluster join 可向群集添加更多节点。
使用 crm cluster remove 从群集中去除节点。

所有引导脚本都会记录到 /var/log/crmsh/crmsh.log 中。有关引导过程的任何细节都可以查看此文件。在引导过程中设置的任何选项都可稍后使用 YaST 群集模块进行修改。有关详细信息，请参见第 4 章 “使用 YaST 群集模块”。

引导脚本 crm cluster init 会检查并配置以下组件：

NTP: 如果 NTP 未配置为在引导时启动，将显示一条消息。自 SUSE Linux Enterprise High Availability Extension 15 起，采用 chrony 作为 NTP 的默认实施。
SSH: 它会为群集节点之间的无口令登录建立 SSH 密钥。
Csync2: 它会配置 Csync2，让其在群集中的所有节点上复制配置文件。
Corosync: 它会配置群集通讯系统。
SBD/检查包: 它会检查是否存在检查包，并询问您是否要将 SBD 配置为节点屏蔽机制。
虚拟浮动 IP: 它会询问您是否要配置用于使用 Hawk2 进行群集管理的虚拟 IP 地址。
防火墙: 它会开启群集通讯所需的防火墙端口。
群集名称: 它会为群集定义名称，默认为 hacluster。群集名称是可选的，对 Geo 群集最有用。群集名称通常会反映位置，以便您更容易区分 Geo 群集内部的站点。
QDevice/QNetd: 本指南不介绍此设置。要使用 QNetd 服务器，可以按第 12 章 “QDevice 和 QNetd”中所述使用引导脚本进行设置。

4 安装 SUSE Linux Enterprise High Availability Extension #

使用 High Availability Extension 配置和管理群集的软件包内含在 High Availability 安装软件集（在命令行上以 sles_ha 指定）中。只有在将 SUSE Linux Enterprise High Availability Extension 安装为 SUSE® Linux Enterprise Server 的扩展后，此软件集才可用。

有关如何安装扩展的信息，请参见《SUSE Linux Enterprise Server 15 SP4 部署指南》。

过程 1︰安装 High Availability 软件集 #

如果尚未安装该软件集，请按如下所述操作：

通过命令行使用 Zypper 来安装：

root # zypper install -t pattern ha_sles

在将包含在群集中的所有计算机上安装 High Availability 软件集。
注意：在所有参与节点上安装软件包
如果要自动安装 SUSE Linux Enterprise Server 15 SP4 和 SUSE Linux Enterprise High Availability Extension 15 SP4，请使用 AutoYaST 克隆现有节点。有关详细信息，请参见第 3.2 节 “使用 AutoYaST 进行批量安装和部署”。
在 SUSE Customer Center 中注册计算机。有关详细信息，请参见 《SUSE Linux Enterprise Server 15 SP4 升级指南》。

5 使用 SBD 作为屏蔽机制 #

如果有 SAN（储存区域网络）等共享储存，可以使用它们来避免节点分裂的情况。要实现此目的，请配置 SBD 作为节点屏蔽机制。SBD 使用检查包支持和 external/sbd STONITH 资源代理。

5.1 SBD 的要求 #

在使用 crm cluster init 设置第一个节点的过程中，您可以决定是否使用 SBD。如果要使用，需要输入共享存储设备的路径。默认情况下，crm cluster init 将自动在设备上创建一个用于 SBD 的小分区。

要使用 SBD，必须符合以下要求：

群集中的所有节点上，共享存储设备的路径都必须永久且一致。使用稳定的设备名称，如 /dev/disk/by-id/dm-uuid-part1-mpath-abcedf12345。
SBD 设备不得使用基于主机的 RAID、LVM2，也不能位于 DRBD* 实例上。

有关如何设置共享储存的细节，请参见 《SUSE Linux Enterprise Server 15 SP4 储存管理指南》。

5.2 对 SBD 启用 Softdog 检查包 #

在 SUSE Linux Enterprise Server 中，默认会启用内核中的检查包支持：本产品随附了多个内核模块，可提供特定于硬件的检查包驱动程序。High Availability Extension 使用 SBD 守护程序作为“供给”检查包的软件组件。

以下过程使用 softdog 检查包。

重要：Softdog 限制

Softdog 驱动程序假设至少有一个 CPU 仍然在运行。如果所有 CPU 均已阻塞，则 softdog 驱动程序中应该重引导系统的代码永远都不会执行。相反地，即使所有 CPU 均已阻塞，硬件检查包也仍然会继续工作。

强烈建议您在生产环境中使用群集之前，以最适合您硬件的相应硬件模块替换 softdog 模块。

不过，如果没有与您的硬件匹配的检查包，则可以将 softdog 用作内核检查包模块。

如第 5.1 节 “SBD 的要求”中所述，建立永久性的共享存储。

启用 softdog 检查包：

root # echo softdog > /etc/modules-load.d/watchdog.conf
root # systemctl restart systemd-modules-load

测试 softdog 模块是否已正确装载：

root # lsmod | grep dog
softdog                16384  1

强烈建议您测试 SBD 屏蔽机制是否能正常阻止节点分裂情况。此类测试可以通过阻止 Corosync 群集通讯来完成。

6 设置第一个节点 #

使用 crm cluster init 脚本设置第一个节点。此操作所需的时间和手动干预都极少。

过程 2︰使用 crm cluster init 设置第一个节点 (alice) #

以 root 身份登录到要用作群集节点的物理机或虚拟机。
通过执行以下命令启动引导脚本：
```
root # crm cluster init --name CLUSTERNAME
```
使用一个有意义的名称（例如群集的地理位置 amsterdam）替换 CLUSTERNAME 占位符。若要在稍后创建 Geo 群集，这样做特别有用，因为它使站点的识别变得简单。
如果您需要使用多路广播而不是单路广播（默认设置）来进行群集通讯，请使用选项 --multicast（或 -U）。
该脚本会检查是否存在 NTP 配置和硬件检查包服务。此操作会生成用于 SSH 存取和 Csync2 同步的公共和私用 SSH 密钥，并启动相应的服务。
配置群集通讯层 (Corosync)：
1. 输入要绑定的网络地址。默认情况下，脚本将建议使用网络地址 eth0。也可以输入其他网络地址，例如地址 bond0。
2. 接受建议的端口 (5405) 或输入其他端口。
将 SBD 设置为节点屏蔽机制：
1. 输入 y 确认您要使用 SBD。
2. 输入要用于 SBD 的块设备分区的永久路径。请参见第 5 节 “使用 SBD 作为屏蔽机制”。该路径必须在群集中的所有节点中都一致。
配置虚拟 IP 地址，以使用 Hawk2 进行群集管理。（稍后，我们将使用此虚拟 IP 资源来测试故障迁移是否成功）。
1. 输入 y 确认您要配置虚拟 IP 地址。
2. 为 Hawk2 的管理 IP 输入未使用的 IP 地址：192.168.2.1
  然后，您便可以连接到该虚拟 IP 地址，而无需使用 Hawk2 登录单个群集节点。

最后，该脚本将启动 Pacemaker 服务以使群集联机，并启用 Hawk2。要用于 Hawk2 的 URL 将显示在屏幕上。

现在必须有一个运行中的单节点群集。要查看其状态，请执行以下操作：

过程 3︰登录 Hawk2 Web 界面 #

在任何计算机上，启动 Web 浏览器并确保 JavaScript 和 cookie 已启用。
输入运行 Hawk Web 服务的任何群集节点的 IP 地址或主机名作为 URL。或者，输入在过程 2 “使用 crm cluster init 设置第一个节点 (alice)”的步骤 5中配置的虚拟 IP 地址的地址：
```
https://HAWKSERVER:7630/
```
注意：证书警告
当您首次尝试访问 URL 时如果显示证书警告，则表示使用了自我签名证书。默认情况下，自我签名证书不被视为可信证书。
请向您的群集操作员询问证书细节，以校验该证书。
要继续，可在浏览器中添加例外，以绕过警告。
在 Hawk2 登录屏幕上，输入引导过程中建立的使用者的用户名和口令（用户 hacluster，口令 linux）。
重要：安全密码
尽快用安全密码替换默认密码：
```
root # passwd hacluster
```
单击登录。登录之后，Hawk2 Web 界面默认会显示“状态”屏幕，其中包含当前群集状态一览：
图 1︰ Hawk2 中单节点群集的状态 #

7 添加第二个节点 #

如果您设置了单节点群集并且该群集正在运行，则可按过程 4 中所述使用 crm cluster join 引导脚本添加第二个群集节点。该脚本只需访问一个现有群集节点即可在当前计算机上自动完成基本设置。有关细节，请参见 crm cluster join 手册页。

引导脚本负责更改特定于双节点群集的配置，例如 SBD、Corosync。

过程 4︰使用 crm cluster join 添加第二个节点 (bob) #

以 root 用户身份登录到将要加入群集的物理机或虚拟机。
通过执行以下命令启动引导脚本：
```
root # crm cluster join
```
如果 NTP 未配置为在引导时启动，将显示一条消息。该脚本还会检查硬件检查包设备（在要配置 SBD 时，此类设备非常重要）。如果不存在此类设备，将会向您发出警告。
如果仍要继续，系统将提示您输入现有节点的 IP 地址。输入第一个节点 (192.168.1.1alice) 的 IP 地址。
如果尚未配置两台计算机之间的无密码 SSH 访问，系统将提示您输入现有节点的 root 密码。
登录到指定节点后，脚本将会复制 Corosync 配置，配置 SSH、Csync2，并使当前计算机作为新群集节点联机。除此之外，还将启动 Hawk2 所需的服务。

在 Hawk2 中检查群集状态。在状态 › 节点下，应该会看到状态为绿色的两个节点（请参见图 2 “双节点群集的状态”）。

图 2︰双节点群集的状态 #

8 测试群集 #

第 8.1 节 “测试资源故障转移”是一项检查当群集中当前运行资源的节点被设置为待机时，群集是否将虚拟 IP 地址移动到另一个节点的简单测试。

不过，实际的测试涉及特定的使用案例和情形，包括测试用于避免出现节点分裂情况的屏蔽机制。如果尚未正确设置屏蔽机制，群集将无法正常运作。

将该群集用于生产环境之前，请根据自己的用例或者使用 ha-cluster-preflight-check 脚本对群集进行全面测试。

8.1 测试资源故障转移 #

请使用以下快速测试过程检查资源故障转移：

过程 5︰测试资源故障转移 #

打开终端并 ping 192.168.2.1（您的虚拟 IP 地址）：
```
root # ping 192.168.2.1
```
如过程 3 “登录 Hawk2 Web 界面”中所述，登录到您的群集。
在 Hawk2 状态 › 资源中，检查运行该虚拟 IP 地址（资源 admin_addr）的节点。我们假设资源运行于 alice。
将 alice 置于待机模式（请参见图 3 “处于待机模式的节点 alice”）。
图 3︰处于待机模式的节点 alice #
单击状态 › 资源。资源 admin_addr 已迁移到 bob。

在迁移期间，应该会看到针对虚拟 IP 地址的不间断的 ping 流。这表示该群集设置和浮动 IP 运作正常。使用 ping 取消 Ctrl–C 命令。

8.2 使用 ha-cluster-preflight-check 命令进行测试 #

命令 ha-cluster-preflight-check 会对群集运行标准化测试。它会触发群集故障，并校验配置以找出问题。在生产环境中使用群集之前，建议先使用此命令来确保一切符合预期。

该命令支持以下检查：

环境检查 -e/--env-check：此项测试将会检查：
- 主机名是否可解析？
- 是否已启用并启动时间服务？
- 是否为当前节点配置了检查包？
- 是否已启用 firewalld 服务，并打开了群集相关的端口？
群集状态检查 -c/--cluster-check：检查群集的不同状态和服务。此项测试将会检查：
- 群集服务 (Pacemaker/Corosync) 是否已启用并正在运行？
- 是否已启用 STONITH？它还会检查是否已配置并启动 STONITH 相关的资源。如果您配置了 SBD，SBD 服务是否已启动？
- 群集是否具有仲裁？显示当前 DC 节点，以及处于联机、脱机和未清理状态的节点。
- 是否存在已启动、已停止或有故障的资源？
节点分裂检查 --split-brain-iptables：通过阻止 Corosync 端口来模拟节点分裂场景。检查是否可按预期屏蔽一个节点。
终止 SBD、Corosync 和 Pacemaker 的守护程序 -kill-sbd/-kill-corosync/-kill-pacemakerd：运行此类测试后，可以在 /var/lib/ha-cluster-preflight-check 中找到报告。该报告包括测试案例说明、操作日志，以及对可能结果的说明。
屏蔽节点检查 --fence-node：屏蔽从命令行传递的特定节点。

例如，要测试环境，请运行：

root # crm_mon -1
Stack: corosync
Current DC: alice (version ...) - partition with quorum
Last updated: Fri Mar 03 14:40:21 2020
Last change: Fri Mar 03 14:35:07 2020 by root via cibadmin on alice

2 nodes configured
1 resource configured

Online: [ alice bob ]
Active resources:

 stonith-sbd    (stonith:external/sbd): Started alice

root # ha-cluster-preflight-check -e
[2020/03/20 14:40:45]INFO: Checking hostname resolvable [Pass]
[2020/03/20 14:40:45]INFO: Checking time service [Fail]
 INFO: chronyd.service is available
 WARNING: chronyd.service is disabled
 WARNING: chronyd.service is not active
[2020/03/20 14:40:45]INFO: Checking watchdog [Pass]
[2020/03/20 14:40:45]INFO: Checking firewall [Fail]
 INFO: firewalld.service is available
 WARNING: firewalld.service is not active

可以在 /var/log/ha-cluster-preflight-check.log 中检查结果。

9 更多信息 #

https://documentation.suse.com/sle-ha/ 上提供了更多有关此产品的文档。有关其他配置和管理任务，请参见详尽的 《管理指南》。

10 法律声明 #

有关 SUSE 商标，请参见 http://www.suse.com/company/legal/。所有其他第三方商标分别为相应所有者的财产。商标符号（®、™ 等）代表 SUSE 及其关联公司的商标。星号 (*) 代表第三方商标。

本指南力求涵盖所有细节，但这不能确保本指南准确无误。SUSE LLC 及其关联公司、作者和译者对于可能出现的错误或由此造成的后果皆不承担责任。