SUSE Linux Enterprise High Availability Extension 12 SP5

安装和设置快速入门

SUSE Linux Enterprise High Availability Extension 12 SP5

摘要

本文档会指导您使用 ha-cluster-bootstrap 包提供的引导脚本完成最基本的双节点群集的设置。其中包括将虚拟 IP 地址配置为群集资源,以及使用共享存储上的 SBD 作为屏蔽机制。

作者: Tanja RothThomas Schraitle
出版日期:December 11, 2023

1 使用案例

通过本文档中介绍的过程可完成具有以下属性的双节点群组的基本设置:

  • 两个节点:alice(IP:192.168.1.1)和 bob(IP:192.168.1.2)。两者通过网络彼此相连。

  • 一个浮动虚拟 IP 地址 (192.168.2.1),客户端可通过该地址连接到服务,而无需考虑运行该服务的物理节点。

  • 一台共享存储设备,用作 SBD 屏蔽机制。可避免节点分裂的情况。

  • 当主动主机关机(主动/被动设置)时,资源从一个节点故障转移至另一个节点。

使用引导脚本设置群集后,我们将使用图形 HA Web Konsole (Hawk) 监控群集。Hawk 是 SUSE® Linux Enterprise High Availability Extension 随附的其中一个群集管理工具。为了对资源故障转移是否有效进行最基本的测试,我们会将一个节点置于待机模式,并检查虚拟 IP 地址是否已迁移到另一个节点。

您可以使用该双节点群集进行测试,或以它为最小群集配置,稍后再行扩展。将该群集用于生产环境之前,请根据自己的要求进行修改。

2 系统要求

本章介绍第 1 节 “使用案例”中所述案例的重要系统要求。如果您要将群集调整为用于生产环境,请阅读第 2 章 “系统要求和建议中“系统要求和建议”的完整列表。

硬件要求
服务器

两台安装有软件要求中指定的软件的服务器。

服务器可以是裸机,也可以是虚拟机。两者不要求有相同的硬件(内存、磁盘空间等),但们必须具有相同的体系结构。不支持跨平台群集。

通讯通道

每个群集节点至少有两个 TCP/IP 通讯媒体。网络设备必须支持您要用于群集通讯的通讯方式:多路广播或单路广播。通讯媒体应支持 100 Mbit/s 或更高的数据传送速度。对于受支持的群集设置,要求有两个或更多冗余通讯路径。这可通过以下方式实现:

  • 网络设备绑定(首选)。

  • Corosync 中的另一个通讯通道。

  • 基础架构层(例如超级管理程序)中的网络容错。

节点屏蔽/STONITH

为了避免发生节点分裂的情况,群集需要有节点屏蔽机制。在节点分裂的情况下,群集节点会由于硬件或软件故障或者网络连接断开而分成两个或更多互不相识的组。而屏蔽机制会隔离存在问题的节点(通常的做法是重设置该节点或关闭其电源)。这也称为 STONITH(Shoot the other node in the head,关闭其他节点)。节点屏蔽机制可以是物理设备(电源开关),也可以是 SBD(按磁盘 STONITH)等机制再结合检查包。使用 SBD 需要有共享存储。

在组成群集的所有节点上,都必须安装以下软件:

软件要求
  • SUSE® Linux Enterprise Server 12 SP5(含所有可用的联机更新)

  • SUSE Linux Enterprise High Availability Extension 12 SP5(含所有可用的联机更新)

其他要求和建议
时间同步

群集节点必须同步到群集外的 NTP 服务器。有关详细信息,请参见 https://documentation.suse.com/sles-12/html/SLES-all/cha-netz-xntp.html

如果节点未同步,群集可能无法正常运作。此外,日志文件和群集报告在不进行同步的情况下也很难进行分析。如果使用引导脚本,而 NTP 尚未配置,则系统会提出警告。

主机名和 IP 地址
  • 使用静态 IP 地址。

  • /etc/hosts 文件中列出了所有群集节点,包括其完全限定的主机名和简短主机名。群集成员必须能够按名称找到彼此。如果名称不可用,则将无法进行群集内部通讯。

SSH

所有群集节点都必须能通过 SSH 相互访问。crm report(用于查错)等工具和 Hawk2 的历史记录浏览器要求节点之间采用无口令 SSH 访问方式,否则它们只能从当前节点收集数据。

如果使用引导脚本设置群集,系统会自动建立并复制 SSH 密钥。

3 引导脚本概述

所有 ha-cluster-bootstrap 包中的命令都可以执行引导脚本,而且所需的时间和手动干预极少。

  • 使用 ha-cluster-init 可定义群集通讯所需的基本参数。这将为您提供一个运行中的单节点群集。

  • 使用 ha-cluster-join 向群集添加更多节点。

  • 使用 ha-cluster-remove 从群集中去除节点。

所有引导脚本都会记录到 /var/log/ha-cluster-bootstrap.log 中。有关引导过程的任何细节都可以查看此文件。在引导过程中设置的任何选项都可稍后使用 YaST 群集模块进行修改。有关详细信息,请参见第 3.1 节 “手动安装”

每个脚本都有相应的手册页,介绍功能范围、脚本的选项并概述脚本可以建立及修改的文件。

引导脚本 ha-cluster-init 会检查并配置以下组件:

NTP

如果 NTP 未配置为在引导时启动,将显示一条消息。

SSH

它会为群集节点之间的无口令登录建立 SSH 密钥。

Csync2

它会配置 Csync2,让其在群集中的所有节点上复制配置文件。

Corosync

它会配置群集通讯系统。

SBD/检查包

它会检查是否存在检查包,并询问您是否要将 SBD 配置为节点屏蔽机制。

虚拟浮动 IP

它会询问您是否要配置用于使用 Hawk2 进行群集管理的虚拟 IP 地址。

防火墙

它会开启群集通讯所需的防火墙端口。

群集名称

它会为群集定义名称,默认为 cluster编号。群集名称是可选的,对 Geo 群集最有用。群集名称通常会反映位置,以便您更容易区分 Geo 群集内部的站点。

4 安装 SUSE Linux Enterprise Server 和 High Availability Extension

使用 High Availability Extension 配置和管理群集的包内含在 High Availability 安装模式中。只有在将 SUSE Linux Enterprise High Availability Extension 安装为 SUSE® Linux Enterprise Server 的扩展后,此模式才可用。

有关如何安装扩展的信息,请参见《SUSE Linux Enterprise 12 SP5 部署指南》:https://documentation.suse.com/sles-12/html/SLES-all/cha-add-ons.html

如果尚未安装该模式,请使用 zypper install -t pattern ha_sles 命令安装。或者,使用 YaST 来安装该模式。按如下所示继续:

过程 1︰ 安装 High Availability 模式
  1. 启动 YaST,然后选择 软件 ›  软件管理

  2. 单击模式标签并激活模式列表中的 High Availability 模式。

  3. 单击接受开始安装包。

  4. 在将包含在群集中的所有计算机上安装 High Availability 模式。

    注意
    注意:在所有参与节点上安装软件包

    如果要自动安装 SUSE Linux Enterprise Server 12 SP5SUSE Linux Enterprise High Availability Extension 12 SP5,请使用 AutoYaST 克隆现有节点。有关详细信息,请参见第 3.2 节 “使用 AutoYaST 进行批量安装和部署”

  5. 在 SUSE Customer Center 中注册计算机。有关详细信息,请参见 https://documentation.suse.com/sles-12/html/SLES-all/cha-update-offline.html#sec-update-registersystem

5 使用 SBD 作为屏蔽机制

如果有 SAN(储存区域网络)等共享储存,可以将 SBD 配置为节点屏蔽机制,使用这些共享储存来避免节点分裂的情况。SBD 使用检查包支持和 external/sbd STONITH 资源代理。

5.1 SBD 的要求

使用 ha-cluster-init 设置第一个节点期间,您可以决定是否要使用 SBD。如果要使用,需要输入共享存储设备的路径。默认情况下,ha-cluster-init 将在设备上自动建立小型分区,供 SBD 使用。

要使用 SBD,必须符合以下要求:

  • 群集中的所有节点上,共享存储设备的路径都必须永久且一致。使用稳定的设备名称,如 /dev/disk/by-id/dm-uuid-part1-mpath-abcedf12345

  • SBD 设备不得使用基于主机的 RAID、cLVM2,也不能位于 DRBD* 实例上。

有关如何设置共享储存的细节,请参考《SUSE Linux Enterprise Server 12 SP5 储存管理指南》:https://documentation.suse.com/sles-12/html/SLES-all/stor-admin.html

5.2 设置 Softdog 检查包和 SBD

在 SUSE Linux Enterprise Server 中,默认会启用内核中的检查包支持:本产品随附了多个内核模块,可提供特定于硬件的检查包驱动程序。High Availability Extension 使用 SBD 守护程序作为供给检查包的软件组件。

以下过程使用 softdog 检查包。

重要
重要:Softdog 限制

Softdog 驱动程序假设至少有一个 CPU 仍然在运行。如果所有 CPU 均已阻塞,则 softdog 驱动程序中应该重引导系统的代码永远都不会执行。相反地,即使所有 CPU 均已阻塞,硬件检查包也仍然会继续工作。

在生产环境中使用群集之前,强烈建议您使用最适合您硬件的相应硬件模块来替换 softdog 模块。

不过,如果没有与您的硬件匹配的检查包,则可以将 softdog 用作内核检查包模块。

  1. 第 5.1 节 “SBD 的要求”中所述,建立永久性的共享存储。

  2. 启用 softdog 检查包:

    root # echo softdog > /etc/modules-load.d/watchdog.conf
    root # systemctl restart systemd-modules-load
  3. 测试 softdog 模块是否已正确装载:

    root # lsmod | egrep "(wd|dog)"
    softdog                16384  1
  4. bob 上初始化 SBD 分区:

    root # sbd -d /dev/SBDDEVICE create
  5. 启动 SBD 以在 SBD 设备上进行监听:

    root # sbd -d /dev/SBDDEVICE watch
  6. alice 上,发送一条文字讯息:

    root # sbd -d /dev/SBDDEVICE message bob test
  7. bob 上,使用 systemctl 检查状态。您应该会看到收到的讯息:

    root # systemctl status sbd
    [...]
    info: Received command test from alice on disk SBDDEVICE
  8. bob 上,使用以下命令停止对 SBD 设备的监视:

    root # systemctl stop sbd

强烈建议测试一下 SBD 屏蔽机制在发生节点分裂的情况下是否能正常运行。此类测试可以通过阻止 Corosync 群集通讯来完成。

6 设置第一个节点

使用 ha-cluster-init 脚本设置第一个节点。此操作所需的时间和手动干预都极少。

过程 2︰ 使用 ha-cluster-init 设置第一个节点 (alice)
  1. root 用户身份登录到要用作群集节点的物理机或虚拟机。

  2. 通过执行以下命令启动引导脚本:

    root # ha-cluster-init --name CLUSTERNAME

    使用一个有意义的名称(例如群集的地理位置 amsterdam)替换 CLUSTERNAME 占位符。如果您要在稍后创建 Geo 群集,这样做特别有用,因为它使站点的识别变得简单。如果运行该命令时未使用 --name 选项,则默认名称为 hacluster

    如果您需要使用单路广播而不是多路广播(默认方式)来进行群集通讯,请使用选项 -u。安装后,在文件/etc/corosync/corosync.conf 中找到值 udpu。如果 ha-cluster-init 检测到节点正在 Amazon Web Services (AWS) 上运行,该脚本会自动使用单路广播作为群集的默认通讯方式。

    该脚本会检查是否存在 NTP 配置和硬件检查包服务。此操作会生成用于 SSH 存取和 Csync2 同步的公共和私用 SSH 密钥,并启动相应的服务。

  3. 配置群集通讯层 (Corosync):

    1. 输入要绑定的网络地址。默认情况下,脚本将建议使用网络地址 eth0。也可以输入其他网络地址,例如地址 bond0

    2. 输入多路广播地址。脚本将建议使用可用作默认值的随机地址。当然,您特定的网络需要能支持这种多路广播地址。

    3. 输入多路广播端口。脚本建议使用 5405 作为默认值。

  4. 最后,该脚本将启动 Pacemaker 服务,使单节点群集联机,并启用 Hawk2。要用于 Hawk2 的 URL 将显示在屏幕上。

  5. 将 SBD 设置为节点屏蔽机制:

    1. 输入 y 确认您要使用 SBD。

    2. 输入要用于 SBD 的块设备分区的永久路径。请参见第 5 节 “使用 SBD 作为屏蔽机制”。该路径必须在群集中的所有节点中都一致。

  6. 配置虚拟 IP 地址,以使用 Hawk2 进行群集管理。(稍后,我们将使用此虚拟 IP 资源来测试故障迁移是否成功)。

    1. 输入 y 确认您要配置虚拟 IP 地址。

    2. 为 Hawk2 的管理 IP 输入未使用的 IP 地址:192.168.2.1

      然后,您便可以连接到该虚拟 IP 地址,而无需使用 Hawk2 登录单个群集节点。

现在必须有一个运行中的单节点群集。要查看其状态,请执行以下操作:

过程 3︰ 登录 Hawk2 Web 界面
  1. 在任何计算机上,启动 Web 浏览器并确保 JavaScript 和 cookie 已启用。

  2. 输入运行 Hawk Web 服务的任何群集节点的 IP 地址或主机名作为 URL。或者,输入在过程 2 “使用 ha-cluster-init 设置第一个节点 (alice)”步骤 6中配置的虚拟 IP 地址的地址:

    https://HAWKSERVER:7630/
    注意
    注意:证书警告

    当您首次尝试访问 URL 时如果显示证书警告,则表示使用了自我签名证书。默认情况下,自我签名证书不被视为可信证书。

    请向您的群集操作员询问证书细节,以校验该证书。

    要继续,可在浏览器中添加例外,以绕过警告。

  3. 在 Hawk2 登录屏幕上,输入引导过程中建立的使用者的用户名口令(用户 hacluster,口令 linux)。

    重要
    重要:安全密码

    尽快用安全密码替换默认密码:

    root # passwd hacluster
  4. 单击登录。登录之后,Hawk2 Web 界面默认会显示“状态”屏幕,其中包含当前群集状态一览:

    Hawk2 中单节点群集的状态
    图 1︰ Hawk2 中单节点群集的状态

7 添加第二个节点

如果您设置了单节点群集并正在运行,则使用 ha-cluster-join 引导脚本添加第二个群集节点,如过程 4中所述。该脚本只需访问一个现有群集节点即可在当前计算机上自动完成基本设置。有关细节,请参见 ha-cluster-join 手册页。

引导脚本负责更改特定于双节点群集的配置,例如 SBD 和 Corosync。

过程 4︰ 使用 ha-cluster-join 添加第二个节点 (bob)
  1. root 用户身份登录到将要加入群集的物理机或虚拟机。

  2. 通过执行以下命令启动引导脚本:

    root # ha-cluster-join

    如果 NTP 未配置为在引导时启动,将显示一条消息。该脚本还会检查硬件检查包设备(在要配置 SBD 时这点非常重要),如果不存在此类设备,将会向您发出警告。

  3. 如果仍要继续,系统将提示您输入现有节点的 IP 地址。输入第一个节点 (alice) 的 IP 地址 (192.168.1.1)。

  4. 如果尚未配置两台计算机之间的无密码 SSH 访问,系统还将提示您输入现有节点的 root 密码。

    登录到指定节点后,脚本将复制 Corosync 配置、配置 SSH 和 Csync2,并使当前计算机作为新群集节点联机。除此之外,还将启动 Hawk2 所需的服务。

在 Hawk2 中检查群集状态。在 状态 ›  节点 下,应该会看到状态为绿色的两个节点(请参见图 2 “双节点群集的状态”)。

双节点群集的状态
图 2︰ 双节点群集的状态

8 测试群集

过程 5 “测试资源故障转移”是一项检查当群集中当前运行资源的节点被设置为待机时,群集是否将虚拟 IP 地址移动到另一个节点的简单测试。

不过,实际的测试涉及特定的使用案例和情形,包括测试用于避免出现节点分裂情况的屏蔽机制。如果尚未正确设置屏蔽机制,群集将无法正常运作。

将该群集用于生产环境之前,请根据自己的用例进行全面测试。

过程 5︰ 测试资源故障转移
  1. 打开终端并 ping 192.168.2.1(您的虚拟 IP 地址):

    root # ping 192.168.2.1
  2. 过程 3 “登录 Hawk2 Web 界面”中所述,登录到您的群集。

  3. 在 Hawk2 状态 ›  资源 中,检查运行该虚拟 IP 地址(资源 admin_addr)的节点。我们假设资源运行于 alice

  4. alice 置于待机模式(请参见图 3 “处于待机模式的节点 alice)。

    处于待机模式的节点 alice
    图 3︰ 处于待机模式的节点 alice
  5. 单击 状态 ›  资源 。资源 admin_addr 已迁移到 bob

在迁移期间,应该会看到针对虚拟 IP 地址的不间断的 ping 流。这表示该群集设置和浮动 IP 运作正常。使用 C 取消 Ctrlping 命令。

9 更多信息

https://documentation.suse.com/sle-ha-12 上提供了更多有关此产品的文档。其中包括完整的《SUSE Linux Enterprise High Availability Extension 管理指南》。更多配置和管理任务,敬请参考该文档。

10 法律声明

版权所有 © 2006– 2023 SUSE LLC 和贡献者。保留所有权利。

根据 GNU 自由文档许可证 (GNU Free Documentation License) 版本 1.2 或(根据您的选择)版本 1.3 中的条款,在此授予您复制、分发和/或修改本文档的许可权限;本版权声明和许可证附带不可变部分。许可证版本 1.2 的副本包含在题为GNU 自由文档许可证的部分。

有关 SUSE 商标,请参见 http://www.suse.com/company/legal/。所有其它第三方商标是其各自所有者的财产。商标符号(®、™ 等)代表 SUSE 及其附属公司的商标。星号 (*) 代表第三方商标。

本指南力求涵盖所有详细信息。但这并不确保本指南准确无误。SUSE LLC 及其附属公司、作者和译者对于可能出现的错误或由此造成的后果皆不承担责任。

打印此页