术语表 #
- AutoYaST #
AutoYaST 是能自动安装一个或多个 SUSE Linux Enterprise 系统而无需用户干预的系统。
- bindnetaddr(绑定网络地址) #
Corosync 管理器应绑定的网络地址。
- boothd(投票间守护程序) #
Geo 群集中的每个参与群集和仲裁方都会运行一个服务,即
boothd
。它连接到其他站点上运行的投票间守护程序,并交换连接性细节。- CCM(一致性群集成员资格,consensus cluster membership) #
CCM 确定组成群集的节点并在群集中共享此信息。任何节点或法定票数的新增和丢失都由 CCM 提供。群集的每个节点上都运行 CCM 模块。
- CIB(群集信息库,cluster information base) #
表示全部群集配置和状态(群集选项、节点、资源、约束和彼此之间的关系)。它会以 XML 的格式写入并驻存在内存中。主 CIB 保留并在 DC(指定的协调程序)上进行维护,并复制到其他节点。对 CIB 的常规读写操作通过主 CIB 进行排序。
- conntrack 工具 #
可与内核内连接跟踪系统交互,以便对 iptables 启用有状态包检测。High Availability Extension 使用此工具来同步群集节点之间的连接状态。
- crmsh #
命令行实用程序 crmsh 可用于管理群集、节点和资源。
有关详细信息,请参见第 8 章 “配置和管理群集资源(命令行)”。
- CRM(群集资源管理器,cluster resource manager) #
负责协调高可用性群集中的所有非本地交互的管理实体。High Availability Extension 使用 Pacemaker 作为 CRM。CRM 是作为
pacemaker-controld
实现的。它与多个组件交互:自身节点和其他节点上的本地资源管理器、非本地 CRM、管理命令、屏蔽功能以及成员资格层。- Csync2 #
可用于在群集中的所有节点间(甚至在 Geo 群集间)复制配置文件的同步工具。
- DC(指定的协调程序) #
DC 是从群集中的所有节点选择出来的。如果当前没有 DC,或者当前的 DC 出于任何原因退出群集,则就会按此方式选择 DC。DC 是群集中唯一可以决定需要在整个群集执行更改(例如节点屏蔽或资源移动)的实体。所有其他节点都从当前 DC 获取他们的配置和资源分配信息。
- DLM(分布式锁管理器,distributed lock manager) #
DLM 协调群集文件系统的磁盘访问和管理文件锁定以提高性能和可用性。
- DRBD #
DRBD 是为构建高可用性群集而设计的块设备。®整个块设备通过专用网络镜像,且视作网络 RAID-1。
- Geo 群集 #
由多个分布于不同地理位置的站点组成,每个站点一个本地群集。站点通过 IP 通讯。站点之间的故障转移由更高级别的实体投票间协调。Geo 群集需要应对有限网络带宽和高延迟问题。储存异步复制。
- Geo 群集(分散在不同地理位置的群集,geographically dispersed cluster) #
参见 Geo 群集。
- LRM(本地资源管理器,local resource manager) #
本地资源管理器位于每个节点上的 Pacemaker 层与资源层之间。它是作为
pacemaker-execd
守护程序实现的。通过此守护程序,Pacemaker 可以启动、停止和监视资源。- mcastaddr(多路广播地址) #
Corosync 管理器使用 IP 地址进行多路广播。IP 地址可以为 IPv4 或 IPv6。
- mcastport(多路广播端口) #
用于群集通讯的端口。
- metro 群集 #
使用光纤通道连接所有站点、可跨越多个建筑物或数据中心的单个群集。网络延迟通常很短(对 20 英里左右的距离而言不到 5 毫秒)。储存频繁复制(镜像或同步复制)。
- pacemaker-controld(群集控制器守护程序) #
CRM 是作为 pacemaker-controld 守护程序实现的。每个群集节点上都有一个实例。系统会选出一个 pacemaker-controld 实例来充当主实例,从而实现所有群集决策制定的集中化。如果选出的 pacemaker-controld 进程(或运行该进程的节点)发生失败,则会建立一个新的进程。
- RA(资源代理,resource agent) #
脚本充当代理来管理资源(例如,启动、停止或监视资源)。High Availability Extension 支持不同类型的资源代理:有关细节,请参见第 6.3.2 节 “支持的资源代理类”。
- Rear (Relax and Recover) #
创建灾难恢复图像的管理员工具集。
- RRP(冗余环网协议,redundant ring protocol) #
该协议支持使用多个冗余局域网来从部分或整体网络故障中恢复。这样,只要一个网络运行正常,群集通讯就仍可继续。Corosync 支持 Totem Redundant Ring Protocol。
- SBD(STONITH 块设备,STONITH Block Device) #
通过经由共享块储存(SAN、iSCSI、FCoE 等)交换讯息提供节点屏蔽机制。还可以在无磁盘模式下使用。需要在每个节点上安装一个硬件或软件检查包,以确保能真正停止行为异常的节点。
- SFEX(共享磁盘文件排他性,shared disk file exclusiveness) #
SFEX 在 SAN 上提供存储保护。
- SPOF(单一故障点,single point of failure) #
一旦群集中任何组件出现故障,则会导致整个群集出现故障。
- STONITH #
“Shoot the other node in the head”(关闭其他节点)的首字母缩写。它表示一种关闭行为异常的节点以避免其在群集中制造麻烦的屏蔽机制。在 Pacemaker 群集中,节点级别屏蔽的实现为 STONITH。为此,Pacemaker 随附了一个屏蔽子系统
pacemaker-fenced
。- 主动/主动、主动/被动 #
针对服务在节点上如何运行的一种概念。主动-被动方案表示一个或多个服务正在主动节点上运行,而被动节点则等待主动节点出现故障。主动-主动方案表示每个节点既是主动节点同时也是被动节点。例如,该节点正在运行某些服务,但也可以接管其他节点中的其他服务。它相当于 DRBD 概念中的主要/次要节点和双重主要节点。
- 仲裁方 #
在 Geo 群集中有助于达成一致性决定(例如,站点间的资源故障转移)的其他实例。仲裁方是一台以特殊模式运行一个或多个投票间实例的计算机。
- 切换 #
根据需要有计划地将服务转移到群集中的其他节点。请参见故障转移。
- 单路广播 #
一种将消息发送到单个网络目标的技术。Corosync 支持多路广播和单路广播。在 Corosync 中,单路广播作为 UDP 单路广播 (UDPU) 实施。
- 多路广播 #
一种用于网络内一对多通讯的技术,可用于群集通讯。Corosync 支持多路广播和单路广播。
- 屏蔽 #
描述了防止隔离的或失败的群集成员访问共享资源的概念。有两类屏蔽:资源级别屏蔽和节点级别屏蔽。资源级别屏蔽可确保对给定资源的排它访问。节点级别屏蔽可彻底防止故障节点访问共享资源,并可防止资源在状态不明的节点上运行。这种屏蔽通常采用一种简单但却粗暴的方式来完成,即重设置或关闭节点。
- 并发性违规 #
资源本应只可在群集中的一个节点上运行,但实际上正在多个节点上运行。
- 投票间 #
用于在 Geo 群集的不同站点之间管理故障转移进程的实例。它的目标是让多站点资源在一个且只有一个的站点上保持活动。如果某个群集站点发生故障,则会使用被视为站点间故障转移域的所谓的“票据”来实现。
- 故障转移 #
指资源或节点在某台服务器上出现故障、受影响的资源在另一个节点上启动的情况。
- 故障转移域 #
经过命名的一组群集节点的子集,有资格在节点出现故障时运行群集服务。
- 本地群集 #
一个位置的单个群集(例如,位于一个数据中心内的所有节点)。网络延迟可以忽略。储存通常由所有节点同步访问。
- 法定票数 #
在群集中,如果群集分区具有多数节点(或投票),则将其定义为具有仲裁(是“具有法定票数的”)。法定票数准确地区分了一个分区。它是算法的组成部分,用于防止多个断开的分区或节点继续运行而导致数据和服务损坏(节点分裂)。法定票数是屏蔽的先决条件,而屏蔽随后确保法定票数确实是唯一的。
- 灾难 #
关键基础设施因自然因素、人为因素、硬件故障或软件 bug 而意外中断。
- 灾难恢复 #
灾难恢复是指在发生灾难后将业务功能恢复到正常、稳定状态的过程。
- 灾难恢复计划 #
在对 IT 基础设施产生最低影响的前提下,从灾难中恢复的策略。
- 现有群集 #
术语“现有群集”指的是任何包括至少一个节点的群集。现有群集具有定义通讯通道的基本 Corosync 配置,但它们不一定已有资源配置。
- 票据 #
Geo 群集中使用的一个组件。票据授予在特定群集站点上运行某些资源的权限。一张票据某个时间内只能由一个站点所拥有。资源可按依赖性绑定到特定票据。仅当站点有定义好的票据时,才会启动相应资源。反之亦然,如果删除了票据,将会自动停止依赖于该票据的资源。
- 策略引擎 (PE) #
策略引擎是作为
pacemaker-schedulerd
守护程序实现的。需要群集转换时,pacemaker-schedulerd
会根据当前状态和配置,计算群集的下一种预期状态。它会确定需要安排哪些操作来实现下一种状态。- 群集 #
高性能群集是一组为更快获得结果而共享应用程序负载的计算机(实际或虚拟)。高可用性群集主要用于确保服务的最大可用性。
- 群集分区 #
当一个或多个节点与群集的剩余节点之间的通讯失败时,即会发生群集分区。群集中的各节点被分割成不同分区,但仍然处于活动状态。他们只可与同一分区的节点进行通讯,并不了解未连接的节点。由于无法确认其他分区的节点是否丢失,所以开发了一种节点分裂方案(另请参见节点分裂)。
- 节点 #
是群集成员并对用户不可见的任何计算机(实际或虚拟)。
- 节点分裂 #
一种将群集节点分为两个或多个互不了解的组的方案(通过软件或硬件故障)。STONITH 防止节点分裂情况对整个群集产生不利影响。也称为“分区的群集”方案。
术语“节点分裂”还用于 DRBD 中,但在 DRBD 中,它表示两个节点包含不同的数据。
- 负载平衡 #
能让多个服务器参与同一个服务并执行相同任务。
- 资源 #
Pacemaker 已知的任何类型的服务或应用程序。例如,IP 地址、文件系统或数据库。
术语“资源”也适用于 DRBD,表示使用通用连接进行复制的一组块设备。