针对服务在节点上如何运行的一种概念。主动-被动方案表示一个或多个服务正在主动节点上运行,而被动节点则等待主动节点出现故障。主动-主动方案表示每个节点既是主动节点同时也是被动节点。例如,该节点正在运行某些服务,但也可以接管其他节点中的其他服务。它相当于 DRBD 概念中的主要/次要节点和双重主要节点。
在 Geo 群集中有助于达成一致性决定(例如,站点间的资源故障转移)的其他实例。仲裁方是一台以特殊模式运行一个或多个投票间实例的计算机。
AutoYaST 是能自动安装一个或多个 SUSE Linux Enterprise 系统而无需用户干预的系统。
Corosync 管理器应绑定的网络地址。
用于在 Geo 群集的不同站点之间管理故障转移进程的实例。它的目标是让多站点资源在一个且只有一个的站点上保持活动。如果某个群集站点发生故障,则会使用被视为站点间故障转移域的所谓的“票据”来实现。
Geo 群集中的每个参与群集和仲裁方都会运行一个服务,即 boothd
。它连接到其他站点上运行的投票间守护程序,并交换连接性细节。
CCM 确定组成群集的节点并在群集中共享此信息。任何节点或法定票数的新增和丢失都由 CCM 提供。群集的每个节点上都运行 CCM 模块。
表示全部群集配置和状态(群集选项、节点、资源、约束和彼此之间的关系)。它会以 XML 的格式写入并驻存在内存中。主 CIB 保留并在 DC(指定的协调程序)上进行维护,并复制到其他节点。对 CIB 的常规读写操作通过主 CIB 进行排序。
高性能群集是一组为更快获得结果而共享应用程序负载的计算机(实际或虚拟)。高可用性群集主要用于确保服务的最大可用性。
当一个或多个节点与群集的剩余节点之间的通讯失败时,即会发生群集分区。群集中的各节点被分割成不同分区,但仍然处于活动状态。他们只可与同一分区的节点进行通讯,并不了解未连接的节点。由于无法确认其他分区的节点是否丢失,所以开发了一种节点分裂方案(另请参见节点分裂)。
资源本应只可在群集中的一个节点上运行,但实际上正在多个节点上运行。
可与内核内连接跟踪系统交互,以便对 iptables 启用有状态包检测。High Availability Extension 使用此工具来同步群集节点之间的连接状态。
负责协调所有非本地交互的主要管理实体。High Availability Extension 使用 Pacemaker 作为 CRM。群集的每个节点都有自己的 CRM 实例,但系统会选择通过在 DC 上运行的 CRM 将决策转发给其他非本地 CRM 并处理其输入。CRM 会与多个组件交互:自身节点和其他节点上的本地资源管理器、非本地 CRM、管理命令、屏蔽功能、成员资格层和投票间。
CRM 作为守护程序 crmd 进行实施。每个群集节点上都有一个实例。系统会选出一个 crmd 实例来充当主实例,从而实现所有群集决策制定的集中化。如果选定的 crmd 进程(或它所在的节点)失败,则会建立一个新的进程。
命令行实用程序 crmsh 可用于管理群集、节点和资源。
有关详细信息,请参见第 8 章 “配置和管理群集资源(命令行)”。
可用于在群集中的所有节点间(甚至在 Geo 群集间)复制配置文件的同步工具。
群集中的一个 CRM 会选为指定的协调程序 (DC)。DC 是群集中唯一可以决定需要在整个群集执行更改(例如节点屏蔽或资源移动)的实体。DC 同时也是用于保存 CIB 主副本的节点。所有其他节点都从当前 DC 获取他们的配置和资源分配信息。DC 是在成员资格更改后从群集的所有节点中选出的。
关键基础设施因自然因素、人为因素、硬件故障或软件 bug 而意外中断。
灾难恢复是指在发生灾难后将业务功能恢复到正常、稳定状态的过程。
在对 IT 基础设施产生最低影响的前提下,从灾难中恢复的策略。
DLM 协调群集文件系统的磁盘访问和管理文件锁定以提高性能和可用性。
DRBD 是为构建高可用性群集而设计的块设备。®整个块设备通过专用网络镜像,且视作网络 RAID-1。
术语“现有群集”指的是任何包括至少一个节点的群集。现有群集具有定义通讯通道的基本 Corosync 配置,但它们不一定已有资源配置。
指资源或节点在某台服务器上出现故障、受影响的资源在另一个节点上启动的情况。
经过命名的一组群集节点的子集,有资格在节点出现故障时运行群集服务。
描述了防止隔离的或失败的群集成员访问共享资源的概念。一旦群集节点出现故障,则会关闭或重置该群集节点,防止其产生问题。这样一来,状态不确定的节点与资源隔离开来。
参见Geo 群集。
一种 CCM,在版本 3 中可代替 Corosync。支持两个以上的通讯路径,但不支持群集文件系统。
能让多个服务器参与同一个服务并执行相同任务。
一个位置的单个群集(例如,位于一个数据中心内的所有节点)。网络延迟可以忽略。储存通常由所有节点同步访问。
负责对资源执行操作。它使用资源代理脚本执行这些操作。LRM 是“哑”的,它无法了解任何策略。它需要 DC 告诉它做什么。
Corosync 管理器使用 IP 地址进行多路广播。IP 地址可以为 IPv4 或 IPv6。
用于群集通讯的端口。
使用光纤通道连接所有站点、可跨越多个建筑物或数据中心的单个群集。网络延迟通常很短(对 20 英里左右的距离而言不到 5 毫秒)。储存频繁复制(镜像或同步复制)。
一种用于网络内一对多通讯的技术,可用于群集通讯。Corosync 支持多路广播和单路广播。
由多个分布于不同地理位置的站点组成,每个站点一个本地群集。站点通过 IP 通讯。站点之间的故障转移由更高级别的实体投票间协调。Geo 群集需要应对有限网络带宽和高延迟问题。储存异步复制。
是群集成员并对用户不可见的任何计算机(实际或虚拟)。
策略引擎计算要实现 CIB 中的策略更改而需要执行的操作。PE 还生成一个转换图,包含用于达到下一个群集状态的(资源)操作和依赖项的列表。PE 始终在 DC 上运行。
在群集中,如果群集分区具有多数节点(或投票),则它定义为具有法定票数(是“具有法定票数的”)。法定票数准确地区分了一个分区。它是算法的组成部分,用于防止多个断开的分区或节点继续运行而导致数据和服务损坏(节点分裂)。法定票数是屏蔽的先决条件,而屏蔽随后确保法定票数确实是唯一的。
脚本充当代理来管理资源(例如,启动、停止或监视资源)。High Availability Extension 支持三种不同的资源代理:OCF(开放群集框架)、LSB(Linux Standard Base init 脚本)和 Heartbeat 资源代理。有关更多信息,请参见第 6.3.2 节 “支持的资源代理类”。
创建灾难恢复图像的管理员工具集。
Pacemaker 已知的任何类型的服务或应用程序。例如,IP 地址、文件系统或数据库。
术语“资源”也适用于 DRBD,表示使用通用连接进行复制的一组块设备。
该协议支持使用多个冗余局域网来从部分或整体网络故障中恢复。这样,只要一个网络运行正常,群集通讯就仍可继续。Corosync 支持 Totem Redundant Ring Protocol。
通过经由共享块储存(SAN、iSCSI、FCoE 等)交换讯息提供节点屏蔽机制。还可以在无磁盘模式下使用。需要在每个节点上安装一个硬件或软件检查包,以确保能真正停止行为异常的节点。
SFEX 在 SAN 上提供存储保护。
一种将群集节点分为两个或多个互不了解的组的方案(通过软件或硬件故障)。STONITH 防止节点分裂情况对整个群集产生不利影响。也称为“分区的群集”方案。
术语“节点分裂”还用于 DRBD 中,但在 DRBD 中,它表示两个节点包含不同的数据。
一旦群集中任何组件出现故障,则会导致整个群集出现故障。
“Shoot the other node in the head”(关闭其他节点)的首字母缩写。它表示一种关闭行为异常的节点以避免其在群集中制造麻烦的屏蔽机制。
根据需要有计划地将服务转移到群集中的其他节点。请参见故障转移。
Geo 群集中使用的一个组件。票据授予在特定群集站点上运行某些资源的权限。一张票据某个时间内只能由一个站点所拥有。资源可按依赖性绑定到特定票据。仅当站点有定义好的票据时,才会启动相应资源。反之亦然,如果删除了票据,将会自动停止依赖于该票据的资源。
一种将消息发送到单个网络目标的技术。Corosync 支持多路广播和单路广播。在 Corosync 中,单路广播作为 UDP 单路广播 (UDPU) 实施。