HA 术语表 #
- CIB(群集信息库,cluster information base) #
以 XML 格式呈现整个群集的配置和状态(群集选项、节点、资源、约束及彼此间的关联关系)。CIB 管理器 (
pacemaker-based) 负责在群集内保持 CIB 同步,并处理修改 CIB 的请求。- Corosync #
Corosync 提供有关群集的可靠消息传递、成员信息及仲裁信息。相应过程由 Corosync 群集引擎处理,它是一个组通信系统。
crmsh(CRM 外壳) #crmsh是一款命令行实用程序,用于管理群集、节点及资源。- CRM(群集资源管理器,cluster resource manager) #
负责协调 High Availability 群集中的所有非本地交互的管理实体。SUSE Linux Enterprise High Availability 采用 Pacemaker 作为 CRM。它会与多个组件交互:自身节点及其他节点上的本地执行器、非本地 CRM、管理命令、屏蔽功能及成员层。
- Csync2 #
一款同步工具,用于在群集中所有节点间复制配置文件。
- DC(指定协调程序) #
pacemaker-controld守护程序是群集控制器,负责协调所有操作。每个群集节点上都会运行该守护程序的一个实例,但仅会选举一个实例作为 DC。DC 会在群集服务启动时选举产生,如果当前 DC 发生故障或退出群集,也会重新选举 DC。DC 负责判断是否必须执行群集级别的更改(如屏蔽某个节点、迁移资源)。- DLM(分布式锁管理器,Distributed Lock Manager) #
DLM 负责协调群集中共享资源的访问,例如,在群集文件系统中管理文件锁定,以提升性能和可用性。
- DRBD #
DRBD® 是一款块设备,专为构建 High Availability 群集设计。它会将主设备上的数据复制到次要设备,确保所有数据副本完全一致。
- GFS2 #
全局文件系统 2 (GFS2) 是适用于 Linux 计算机群集的共享磁盘文件系统。GFS2 允许所有节点直接同时访问同一个共享块存储。GFS2 不提供断开连接操作模式,也没有客户端角色或服务器角色。GFS2 群集中的所有节点以对等体的形式运行。GFS2 最多支持 32 个群集节点。在群集中使用 GFS2 需要通过硬件来访问共享存储设备,并需要通过一个锁管理器来控制对存储空间的访问。
- Hawk (HA Web Konsole) #
一个基于 Web 的易用界面,可用于从 Linux 或非 Linux 计算机监控并管理 High Availability 群集。只要计算机能连接群集节点,通过图形 Web 浏览器即可访问 Hawk。
- knet (kronosnet) #
一种网络抽象层,支持网络链路的冗余、安全、容错及快速故障转移。在 SUSE Linux Enterprise High Availability 16 中,knet 是 Corosync 通信通道的默认传输协议。
- Pacemaker #
Pacemaker 是 SUSE Linux Enterprise High Availability 中的 CRM(群集资源管理器,cluster resource manager),相当于群集的“大脑”,负责响应群集中发生的事件(例如,节点加入或退出群集、资源故障、维护等计划性活动)。
pacemakerd守护程序可启动并监控其他所有相关守护程序。- QDevice #
QDevice 与 QNetd 共同参与仲裁决策。每个群集节点上都会运行
corosync-qdevice守护程序,该守护程序会与 QNetd 通信以获取可配置数量的投票,能让群集承受超过标准仲裁规则所允许数量的节点故障。- QNetd #
QNetd 是在群集外部运行的仲裁方。
corosync-qnetd守护程序会向每个节点上的corosync-qdevice守护程序提供一票投票,帮助其参与仲裁决策。- RA(资源代理,resource agent) #
一种脚本,用作管理资源的代理(例如,启动、停止或监控资源)。SUSE Linux Enterprise High Availability 支持不同类型的资源代理。
- ReaR (Relax and Recover) #
一套管理员工具,用于创建灾难恢复映像。
- SBD(STONITH 块设备,STONITH Block Device) #
SBD 通过共享块存储交换消息,提供一种节点屏蔽机制。此外,它也可在无盘模式下使用。无论使用哪种模式,每个节点上都需要配备硬件或软件看门狗,以确保故障节点能被真正停止运行。
- SPOF(单一故障点,single point of failure) #
指群集中以下这样的任一组件:如果该组件发生故障,会直接导致整个群集故障。
- STONITH #
STONITH 是 Shoot The Other Node In The Head(关闭其他节点)的首字母缩写,指通过关闭故障节点来防止其对群集造成影响的屏蔽机制。在 Pacemaker 群集中,STONITH 由屏蔽子系统
pacemaker-fenced管理。- 主动/主动、主动/被动 #
指资源在节点上的运行方式。主动/被动表示资源仅在主动节点上运行,但当主动节点发生故障时,可迁移至被动节点。主动/主动表示所有节点都同时处于主动状态,资源可在群集中的任意节点上运行(也可迁移至任意节点)。
- 仲裁 #
如果某个群集分区具有多数节点(或“票数”),则该群集分区被认定为拥有仲裁权(即具有法定票数)。仲裁的作用是唯一确定一个有效分区。这是群集算法的核心环节,用于防止多个断开连接的分区或节点(“节点分裂”)各自独立运行,进而避免数据损坏和服务异常。仲裁是屏蔽操作的前提条件,而屏蔽操作又会进一步确保仲裁的唯一性。
- 仲裁方 #
仲裁方指在群集外部运行的一台计算机,用于为群集计算提供额外实例。例如,QNetd 会提供一票投票,帮助 QDevice 参与仲裁决策。
- 位置 #
在整个群集场景中,位置可以指节点的物理位置(例如,所有节点可能位于同一数据中心)。在位置约束场景中,位置指资源可以或不可在哪些节点上运行。
- 位置约束 #
一种资源约束,用于定义资源可以或不可在哪些节点上运行。
- 元属性(资源选项) #
指告知 CRM(群集资源管理器,cluster resource manager) 如何处理特定资源的参数。例如,您可以定义资源的优先级或目标角色。
- 克隆 #
克隆指现有节点的相同副本,用于简化多个节点的部署流程。
在群集资源的场景中,克隆资源指可在多个节点上处于活动状态的资源。如果各个资源代理支持,则任何资源均可克隆。
- 共置约束 #
一种资源约束,用于指定哪些资源可以或不可在同一节点上一同运行。
- 切换 #
指有计划地将资源迁移至群集中其他节点的操作。另请参见故障转移。
- 利用率 #
告知 CRM 某个资源需从节点获得的容量。
- 原始资源 #
原始资源是最基本的群集资源类型。
- 参数(实例属性) #
参数确定资源控制服务的哪个实例。
- 可提升克隆 #
可提升克隆是一种特殊的克隆资源,支持提升操作。这类资源的活动实例分为两种状态:已提升和未提升(也称为“主动和被动”或“主要和次要”)。
- 启发式规则 #
QDevice 支持使用一组命令(即启发式规则),这些命令会在群集服务启动、群集成员变更、成功连接 QNetd 服务器时在本地运行,也可选择让它们定期运行。命令结果会用于计算哪个分区应获得仲裁。
- 城域群集 #
使用光纤通道连接所有站点、可跨越多个建筑物或数据中心的单个群集。网络延迟通常较低。常通过镜像或同步复制方式实现存储内容复制。
- 屏蔽 #
防止已隔离或有故障的群集成员访问共享资源。屏蔽分为两类:资源级屏蔽与节点级屏蔽。资源级屏蔽确保对资源的独占访问权限。节点级屏蔽防止故障节点访问共享资源,并阻止资源在状态不确定的节点上运行,通常通过重置节点或关闭节点电源实现。
- 并发性违规 #
资源本应只可在群集中的一个节点上运行,但实际上正在多个节点上运行。
- 故障转移 #
当某台计算机上的资源或节点发生故障时,受影响的资源会迁移至另一节点,这种情况称为故障转移。
- 故障转移域 #
指群集节点的命名子集,当某个节点发生故障时,该子集内的节点有资格运行相应资源。
- 本地执行器 #
本地执行器位于每个节点上的 Pacemaker 与资源之间。通过
pacemaker-execd守护程序,Pacemaker 可启动、停止并监控资源。- 本地群集 #
一个位置的单个群集(例如,位于一个数据中心内的所有节点)。网络延迟极低。所有节点通常以同步方式访问存储设备。
- 灾难 #
指由自然灾害、人为操作、硬件故障或软件 bug 导致的关键基础架构意外中断。
- 灾难恢复 #
指灾难发生后,将功能恢复至正常稳定状态的过程。
- 灾难恢复计划 #
一种策略,用于从灾难中恢复,将对 IT 基础架构的影响降至最低。
- 现有群集 #
现有群集一词指至少包含一个节点的任意群集。现有群集具备定义通信通道的基本 Corosync 配置,但不一定已完成资源配置。
- 看门狗 #
SBD(STONITH 块设备,STONITH Block Device) 需要在每个节点上都配置看门狗,以确保行为异常的节点真正被停止。SBD 通过定期向看门狗写入服务脉冲来“喂养”它。如果 SBD 停止喂养,硬件会强制重启系统,从而防范 SBD 进程自身故障(如因 I/O 错误卡住)带来的风险。
- 网络设备绑定 #
网络设备绑定通过将两个或多个网络接口组合成单个绑定设备,来增加带宽和/或提供冗余。使用 Corosync 时,绑定设备并非由群集软件管理。因此必须在可能需要访问该绑定设备的所有群集节点上配置该设备。
- 群集 #
高可用性群集是一组服务器(物理或虚拟),主要用于确保数据、应用程序和服务达到尽可能高的可用性。注意不要与高性能群集混淆,后者通过分担应用负载以实现更快的处理结果。
- 群集分区 #
当一个或多个节点与群集中其他节点之间的通信中断时,会产生群集分区。节点被分割成多个分区,但仍处于主动状态。他们只可与同一分区的节点进行通信,并不了解未连接的节点。这种情况称为节点分裂场景。
- 群集堆栈 #
指构成群集的所有软件技术与组件的集合。
- 群集逻辑卷管理器(群集 LVM) #
群集 LVM 这一术语表示在群集环境中使用了 LVM。这要求对配置进行调整,以保护共享存储设备上的 LVM 元数据。
- 节点 #
指作为群集成员的任意服务器(物理或虚拟)。
- 节点分裂 #
指群集节点因软硬件故障被分割成两个或多个互不感知的组的情况。STONITH 可防止节点分裂情况对整个群集造成严重影响,也称为群集分区情况。
术语节点分裂还用于 DRBD 中,表示节点包含不同的数据。
- 调度程序 #
调度程序通过
pacemaker-schedulerd实现。当群集需要进行状态转换时,pacemaker-schedulerd会计算群集的预期下一状态,并确定需调度哪些操作来实现该状态。- 资源 #
指 Pacemaker 可识别的任何类型的服务或应用程序,例如 IP 地址、文件系统或数据库。术语资源还用于 DRBD 中,表示使用通用连接进行复制的一组块设备。
- 资源模板 #
为简化许多配置相似的资源的创建过程,您可以定义资源模板。定义后,便可在基元或特定类型的约束中引用它。如果在原始资源中引用了模板,该原始资源会继承模板中定义的所有操作、实例属性(参数)、元属性和利用率属性。
- 资源约束 #
资源约束用于指定资源可在哪些群集节点上运行、资源的加载顺序,以及特定资源依赖于哪些其他资源。
- 资源组 #
资源组包含多个需要放在一起并按顺序启动以及按相反顺序停止的资源。
- 资源集 #
资源集是可用来定义位置、共置或顺序约束的另一种方式,使用此方式,原始资源会全部划分到一个集合中。在创建约束时,您可以指定将相应约束应用于多个资源。
- 顺序约束 #
一种资源约束,用于定义操作的执行顺序。