安装和设置快速入门 #
本文档会指导您使用 crm 外壳提供的引导脚本完成最基本的双节点群集的设置。其中包括将虚拟 IP 地址配置为群集资源,以及在共享存储设备上使用 SBD 作为节点屏蔽机制。
版权所有 © 2006–2025 SUSE LLC 和贡献者。保留所有权利。
根据 GNU 自由文档许可证 (GNU Free Documentation License) 版本 1.2 或(根据您的选择)版本 1.3 中的条款,在此授予您复制、分发和/或修改本文档的许可权限;本版权声明和许可证附带不可变部分。许可版本 1.2 的副本包含在题为“GNU Free Documentation License”的部分。
有关 SUSE 商标,请参见 https://www.suse.com/company/legal/。所有第三方商标均是其各自所有者的财产。商标符号(®、™ 等)代表 SUSE 及其关联公司的商标。星号 (*) 代表第三方商标。
本指南力求涵盖所有细节,但这不能确保本指南准确无误。SUSE LLC 及其关联公司、作者和译者对于可能出现的错误或由此造成的后果皆不承担责任。
1 使用情形 #
通过本文档中介绍的过程可完成具有以下属性的双节点群集的极简设置:
两个节点:
alice
(IP:192.168.1.1
)和bob
(IP:192.168.1.2
),两者之间通过网络彼此相连。一个浮动虚拟 IP 地址 (
192.168.1.10
),无论服务在哪个节点上运行,客户端都可通过该地址连接到服务。此 IP 地址用于连接到图形管理工具 Hawk2。一台共享存储设备,用作 SBD 屏蔽机制。这样可避免出现节点分裂情况。
当活动的主机发生故障(主动/被动设置)时,资源从一个节点故障转移至另一个节点。
您可以使用该双节点群集进行测试,或以它为最小群集配置,稍后再行扩展。将该群集用于生产环境之前,请参见管理指南以根据自己的要求修改群集。
2 系统要求 #
本章介绍第 1 节中所述案例的重要系统要求。要将群集调整为可用于生产环境,请参考第 2 章 “系统要求和建议”中的完整列表。
2.1 硬件要求 #
- 服务器
两台安装有第 2.2 节 “软件要求”中指定的软件的服务器。
服务器可以是裸机,也可以是虚拟机。两台服务器不需要使用相同的硬件(内存、磁盘空间等),但它们的体系结构必须相同。不支持跨平台群集。
- 通讯通道
每个群集节点至少有两个 TCP/IP 通讯媒体。网络设备必须支持您要用于群集通讯的通讯方式:多播或单播。通讯媒体应支持 100 Mbit/s 或更高的数据传送速度。对于支持的群集设置,要求有两个或更多冗余通讯路径。这可通过以下方式实现:
网络设备绑定(首选)
Corosync 中的另一个通讯通道
- 节点屏蔽/STONITH
用于防止出现节点分裂情况的节点屏蔽 (STONITH) 设备。可以是物理设备(电源开关),也可以是 SBD(按磁盘 STONITH)这样的机制与检查包的组合。SBD 可以与共享存储设备搭配使用,也可以在无磁盘模式下使用。本文档介绍如何将 SBD 与共享存储设备搭配使用。必须满足以下要求:
一个共享存储设备。有关设置共享存储设备的信息,请参见 Storage Administration Guide for SUSE Linux Enterprise Server。如果您只需要基本的共享存储设备来进行测试,请参见附录 A “SBD 的基本 iSCSI 存储”。
群集中的所有节点上,共享存储设备的路径都必须永久且一致。使用稳定的设备名称,如
/dev/disk/by-id/dm-uuid-part1-mpath-abcedf12345
。SBD 设备不得使用基于主机的 RAID、LVM 或 DRBD*。
有关 STONITH 的详细信息,请参见第 12 章 “屏障和 STONITH”。有关 SBD 的详细信息,请参见第 13 章 “存储保护和 SBD”。
2.2 软件要求 #
所有节点上至少需要安装以下模块和扩展:
Basesystem Module 15 SP6
Server Applications Module 15 SP6
SUSE Linux Enterprise High Availability 15 SP6
2.3 其他要求和建议 #
- 时间同步
群集节点必须同步到群集外的 NTP 服务器。自 SUSE Linux Enterprise High Availability 15 起,采用 chrony 作为 NTP 的默认实现方式。有关详细信息,请参见Administration Guide for SUSE Linux Enterprise Server 15 SP6。
如果节点未同步,或者即使节点已同步但配置了不同的时区,群集也可能无法正常工作。此外,日志文件和群集报告在不进行同步的情况下也很难进行分析。如果使用引导脚本,而 NTP 尚未配置,则系统会提出警告。
- 主机名和 IP 地址
使用静态 IP 地址。
只支持主 IP 地址。
在
/etc/hosts
文件中列出所有群集节点,包括各自的完全限定主机名和简短主机名。群集成员必须能够按名称找到彼此。如果名称不可用,则将无法进行群集内部通讯。
- SSH
所有群集节点都必须能通过 SSH 相互访问。
crm report
(用于查错)等工具和 Hawk2 的 要求节点之间通过无口令 SSH 方式来访问,否则它们只能从当前节点收集数据。如果使用引导脚本设置群集,系统会自动创建并复制 SSH 密钥。
3 引导脚本概述 #
以下命令可执行只需要极少时间和手动操作的引导脚本。
使用
crm cluster init
可定义群集通讯所需的基本参数。这将为您提供一个运行中的单节点群集。使用
crm cluster join
向群集添加更多节点。使用
crm cluster remove
从群集中去除节点。
引导脚本设置的选项可能与 Pacemaker 默认设置不同。您可以在 /var/log/crmsh/crmsh.log
中查看引导脚本更改了哪些设置。在引导过程中设置的任何选项都可稍后使用 YaST 群集模块进行修改。有关详细信息,请参见 第 4 章 “使用 YaST 群集模块”。
引导脚本 crm cluster init
会检查并配置以下组件:
- NTP
检查 NTP 是否配置为在系统引导时启动。如果未配置成这样,系统会显示一条消息。
- SSH
建立 SSH 密钥,以用于在群集节点之间进行无口令登录。
- Csync2
配置 Csync2,让其在群集中的所有节点上复制配置文件。
- Corosync
配置群集通讯系统。
- SBD/检查包
检查是否存在检查包,并询问您是否要将 SBD 配置为节点屏蔽机制。
- 虚拟浮动 IP
询问您是否要配置虚拟 IP 地址,以便使用 Hawk2 进行群集管理。
- 防火墙
在防火墙中打开群集通讯所需的端口。
- 群集名称
为群集定义名称,默认为
hacluster
。群集名称是可选的,对 Geo 群集最有用。群集名称通常会反映地理位置,这样您便可更轻松地识别 Geo 群集内的站点。- QDevice/QNetd
询问您是否要配置 QDevice/QNetd 以参与仲裁决定。我们建议对节点数为偶数的群集(特别是双节点群集)使用 QDevice 和 QNetd。
本文不会介绍此配置,但您可以稍后按第 14 章 “QDevice 和 QNetd”中所述进行此设置。
crm cluster init
脚本会检测系统环境(例如 Microsoft Azure),并根据该环境的配置文件调整特定的群集设置。有关详细信息,请参见 /etc/crm/profiles.yml
文件。
4 安装 High Availability 软件包 #
High Availability
安装软件集中包含用于配置和管理群集的软件包。只有在安装 SUSE Linux Enterprise High Availability 后,才能使用此软件集。
在安装 SUSE Linux Enterprise Server 期间或之后,您可以注册到 SUSE Customer Center 中并安装 SUSE Linux Enterprise High Availability。有关详细信息,请参见 SUSE Linux Enterprise Server 的 Deployment Guide。
从命令行安装 High Availability 软件集:
#
zypper install -t pattern ha_sles
在将包含在群集中的所有计算机上安装 High Availability 软件集。
注意:在所有节点上安装软件包如果要自动安装 SUSE Linux Enterprise Server 15 SP6 和 SUSE Linux Enterprise High Availability 15 SP6,请使用 AutoYaST 克隆现有节点。有关详细信息,请参见第 3.2 节 “使用 AutoYaST 进行批量安装和部署”。
5 使用 SBD 进行节点屏蔽 #
必须在每个节点上都启用检查包,才能使用引导脚本配置 SBD。SUSE Linux Enterprise Server 随附了几个内核模块,用于提供针对特定硬件的检查包驱动程序。SUSE Linux Enterprise High Availability 使用 SBD 守护程序作为“供给”检查包的软件组件。
以下过程使用 softdog
检查包。
Softdog 驱动程序假设至少有一个 CPU 仍然在运行。如果所有 CPU 均已阻塞,则 softdog 驱动程序中应该重引导系统的代码永远都不会执行。相反地,即使所有 CPU 均已阻塞,硬件检查包也仍然会继续工作。
强烈建议您先以最适合您硬件的硬件模块替换 softdog
模块,再在生产环境中使用群集。
不过,如果没有与您的硬件匹配的检查包,则可以将 softdog
用作内核检查包模块。
在每个节点上启用 softdog 检查包:
#
echo softdog > /etc/modules-load.d/watchdog.conf
#
systemctl restart systemd-modules-load
测试 softdog 模块是否已正确加载:
#
lsmod | grep dog
softdog 16384 1
6 设置第一个节点 #
使用 crm cluster init
脚本设置第一个节点。此操作所需的时间和手动干预都极少。
crm cluster init
设置第一个节点 (alice
) #以
root
或具有sudo
特权的用户身份登录到第一个群集节点。重要:SSH 密钥访问群集使用无口令 SSH 访问权限在节点之间进行通讯。
crm cluster init
脚本会检查 SSH 密钥是否存在,如果尚不存在,则会生成这些密钥。在大多数情况下,
root
或sudo
用户的 SSH 密钥必须存在于节点上(或在其上生成)。或者,
sudo
用户的 SSH 密钥可以存在于本地计算机上,并通过 SSH 代理转发传递到节点。这需要进行额外的配置,不属于此极简设置的范畴。有关详细信息,请参见第 5.5.1 节 “登录”。启动引导脚本:
#
crm cluster init --name CLUSTERNAME
使用一个有意义的名称(例如群集的地理位置 CLUSTERNAME)替换
amsterdam
占位符。若要在稍后创建 Geo 群集,这样做特别有用,因为它使站点的识别变得简单。如果您需要使用多播而不是单播(默认设置)来进行群集通讯,请使用选项
--multicast
(或-U
)。该脚本会检查是否存在 NTP 配置和硬件检查包服务。如果需要,它会生成用于 SSH 访问和 Csync2 同步的公共和私用 SSH 密钥,并启动相应的服务。
配置群集通讯层 (Corosync):
输入要绑定的网络地址。默认情况下,脚本会建议使用网络地址
eth0
。也可以输入其他网络地址,例如地址bond0
。接受建议的端口 (
5405
) 或输入其他端口。
将 SBD 设置为节点屏蔽机制:
输入
y
确认您要使用 SBD。输入要为 SBD 使用的块设备分区的持久路径。该路径必须在群集中的所有节点中都一致。
脚本会在设备上创建用于 SBD 的小分区。
配置使用 Hawk2 进行群集管理所需的虚拟 IP 地址:
输入
y
确认您要配置虚拟 IP 地址。为 Hawk2 的管理 IP 输入未使用的 IP 地址:
192.168.1.10
然后,您便可以连接到该虚拟 IP 地址,而无需使用 Hawk2 登录单个群集节点。
选择是否配置 QDevice 和 QNetd。对于本文中所述的最小环境,暂时按
n
拒绝。您可以稍后再按第 14 章 “QDevice 和 QNetd”中所述设置 QDevice 和 QNetd。
最后,该脚本会启动群集服务以使群集上线,并启用 Hawk2。要用于 Hawk2 的 URL 将显示在屏幕上。
现在必须有一个运行中的单节点群集。要查看其状态,请执行以下操作:
在任何计算机上,启动 Web 浏览器并确保 JavaScript 和 cookie 已启用。
对于 URL,请输入使用引导脚本配置的虚拟 IP 地址:
https://192.168.1.10:7630/
注意:证书警告当您首次尝试访问 URL 时如果显示证书警告,则表示使用了自我签名证书。默认情况下,自我签名证书不被视为可信证书。
请向您的群集操作员询问证书细节,以校验该证书。
要继续,可在浏览器中添加例外,以绕过警告。
在 Hawk2 登录屏幕上,输入引导脚本创建的使用者的
和 (用户hacluster
,口令linux
)。重要:安全密码尽快用安全密码替换默认密码:
#
passwd hacluster
单击
。Hawk2 Web 界面默认会显示“状态”屏幕:图 1︰ Hawk2 中单节点群集的状态 #
7 添加第二个节点 #
使用 crm cluster join
引导脚本为群集添加第二个节点。脚本只需访问一个现有群集节点即可在当前计算机上自动完成基本设置。
有关详细信息,请参见 crm cluster join --help
命令。
crm cluster join
添加第二个节点 (bob
) #以
root
或具有sudo
特权的用户身份登录到第二个节点。启动引导脚本:
如果您以
root
身份设置了第一个节点,则可以在不指定附加参数的情况下运行此命令:#
crm cluster join
如果您以
sudo
用户身份设置了第一个节点,则必须使用以下-c
选项指定该用户:>
sudo crm cluster join -c USER@alice
如果 NTP 未配置为在引导时启动,将显示一条消息。脚本还会检查是否存在硬件检查包设备。如果不存在此类设备,将会向您发出警告。
如果您尚未使用
-c
指定alice
,系统会提示您输入第一个节点的 IP 地址。如果您尚未在这两台计算机之间配置无口令 SSH 访问方式,系统会提示您输入第一个节点的口令。
登录到指定节点后,脚本会复制 Corosync 配置,配置 SSH 和 Csync2,使当前计算机作为新群集节点上线,并启动 Hawk2 所需的服务。
在 Hawk2 中检查群集状态。在
› 下,您应该会看到状态为绿色的两个节点:8 测试群集 #
虽然以下测试有助于您识别群集设置存在的问题,但实际的测试涉及特别的使用场景和情境。将该群集用于生产环境之前,请根据自己的用例进行全面测试。
sbd -d DEVICE_NAME list
命令会列出对 SBD 可见的所有节点。对于按本文所述配置的群集,输出应显示alice
和bob
。第 8.1 节 “测试资源故障转移”是一项简单的测试,会在群集中当前运行资源的节点设置为
standby
时,检查群集是否将虚拟 IP 地址移到另一个节点。第 8.2 节 “使用
crm cluster crash_test
命令进行测试” 会模拟群集故障并报告结果。
8.1 测试资源故障转移 #
请使用以下快速测试过程检查资源故障转移:
打开终端并 ping
192.168.1.10
(即您的虚拟 IP 地址):#
ping 192.168.1.10
登录 Hawk2:
在
› 下,查看运行该虚拟 IP 地址(资源admin_addr
)的节点。此过程假定该资源在alice
上运行。将
alice
置于 模式:图 3︰ 处于待机模式的节点alice
#单击
› 。资源admin_addr
已迁移到bob
。
在迁移期间,应该会看到针对虚拟 IP 地址的不间断的 ping 流。这表示该群集设置和浮动 IP 运作正常。按 Ctrl–C 键取消 ping
命令。
8.2 使用 crm cluster crash_test
命令进行测试 #
crm cluster crash_test
命令会触发群集故障,以便找出问题。在生产环境中使用群集之前,建议先使用此命令来确保一切符合预期。
该命令支持以下检查:
--split-brain-iptables
通过阻止 Corosync 端口来模拟节点分裂场景。检查是否可按预期屏蔽一个节点。
--kill-sbd
/--kill-corosync
/--kill-pacemakerd
终止 SBD、Corosync 和 Pacemaker 的守护程序。运行其中一项测试后,便可以在
/var/lib/crmsh/crash_test/
目录下找到一份报告。该报告中包含测试案例说明、操作日志记录以及对可能产生的结果的说明。--fence-node NODE
屏蔽从命令行传递的特定节点。
有关详细信息,请参见crm cluster crash_test --help
。
#
crm_mon -1
Stack: corosync
Current DC: alice (version ...) - partition with quorum
Last updated: Fri Mar 03 14:40:21 2020
Last change: Fri Mar 03 14:35:07 2020 by root via cibadmin on alice
2 nodes configured
1 resource configured
Online: [ alice bob ]
Active resources:
stonith-sbd (stonith:external/sbd): Started alice
#
crm cluster crash_test
--fence-node bob
==============================================
Testcase: Fence node bob
Fence action: reboot
Fence timeout: 60
!!! WARNING WARNING WARNING !!!
THIS CASE MAY LEAD TO NODE BE FENCED.
TYPE Yes TO CONTINUE, OTHER INPUTS WILL CANCEL THIS CASE [Yes/No](No): Yes
INFO: Trying to fence node "bob"
INFO: Waiting 60s for node "bob" reboot...
INFO: Node "bob" will be fenced by "alice"!
INFO: Node "bob" was successfully fenced by "alice"
要在测试过程中监测 bob
更改状态,请登录 Hawk2 并导航到 › 。
9 后续步骤 #
使用引导脚本可以快速地设置可用于测试用途的基本 High Availability 群集。不过,要将此群集扩展为正常运行且可用于生产环境的 High Availability 群集,建议您执行更多步骤。
- 添加更多节点
使用以下其中一种方法为群集添加更多节点:
要一次添加一个节点,请按第 7 节 “添加第二个节点”中所述使用
crm cluster join
脚本。要批量安装多个节点,请按第 3.2 节 “使用 AutoYaST 进行批量安装和部署”中所述使用 AutoYaST。
一个常规群集最多只能包含 32 个节点。借助
pacemaker_remote
服务,可以将 High Availability 群集进行扩展,使其包含超出此限制的额外节点。有关详细信息,请参见Pacemaker 远程快速入门。- 配置 QDevice
如果群集的节点数是偶数,请配置 QDevice 和 QNetd 以参与仲裁决定。QDevice 会提供一个可配置的投票数,以使群集可以承受大于标准仲裁规则所允许的节点故障数量。有关详细信息,请参见第 14 章 “QDevice 和 QNetd”。
- 启用硬件检查包
请先以最适合您硬件的硬件模块替换
softdog
模块,再在生产环境中使用群集。有关详细信息,请参见第 13.6 节 “设置检查包”。
10 更多信息 #
https://documentation.suse.com/sle-ha/ 上提供了更多有关此产品的文档。有关其他配置和管理任务,请参见详尽的 《管理指南》。