词汇表 #
- AutoYaST #
AutoYaST 是能自动安装一个或多个 SUSE Linux Enterprise 系统而无需用户干预的系统。
- bindnetaddr(绑定网络地址) #
Corosync 管理器应绑定的网络地址。
- boothd(投票间守护程序) #
Geo 群集中每个参与的群集和仲裁方都会运行
boothd
服务。它连接到其他站点上运行的 booth 守护程序,并交换连接性细节。- CIB(群集信息库,cluster information base) #
表示全部群集配置和状态(群集选项、节点、资源、约束和彼此之间的关系)。它会以 XML 的格式写入并驻存在内存中。主 CIB 在 DC(指定的协调程序) 上存储和维护,并会复制到其他节点。对 CIB 的常规读写操作通过主 CIB 进行序列化。
- conntrack 工具 #
可与内核中连接跟踪系统交互,以便对 iptables 启用有状态数据包检测。SUSE Linux Enterprise High Availability 使用它们在群集节点间同步连接状态。
- Corosync #
Corosync 提供可靠的讯息交换、成员资格,以及有关群集的仲裁信息。相应过程由 Corosync 群集引擎处理,它是一个组通讯系统。
crm
外壳 (crmsh) #命令行实用程序 crmsh 可用于管理群集、节点和资源。
- CRM(群集资源管理器,cluster resource manager) #
负责协调 High Availability 群集中的所有非本地交互的管理实体。SUSE Linux Enterprise High Availability 使用 Pacemaker 作为 CRM。CRM 是作为
pacemaker-controld
实现的。它与多个组件交互:自身节点和其他节点上的本地资源管理器、非本地 CRM、管理命令、屏蔽功能以及成员资格层。- Csync2 #
可用于在群集中的所有节点间(甚至在 Geo 群集间)复制配置文件的同步工具。
- DC(指定的协调程序) #
DC 是从群集中的所有节点选择出来的。如果当前没有 DC,或者当前的 DC 出于任何原因退出群集,则就会按此方式选择 DC。DC 是群集中唯一可以决定需要在整个群集执行更改(例如节点屏蔽或资源移动)的实体。所有其他节点都从当前 DC 获取他们的配置和资源分配信息。
- DLM(分布式锁管理器,distributed lock manager) #
DLM 协调群集文件系统的磁盘访问和管理文件锁定以提高性能和可用性。
- DRBD #
DRBD® 是为构建高可用性群集而设计的块设备。整个块设备通过专用网络镜像,且视作网络 RAID-1。
- Geo 群集(分散在不同地理位置的群集,geographically dispersed cluster) #
由多个分布于不同地理位置的站点组成,每个站点一个本地群集。站点通过 IP 通讯。站点之间的故障转移由更高级别的实体投票间协调。Geo 群集需要应对有限网络带宽和高延迟问题。存储异步复制。
- GFS2 #
全局文件系统 2 或称 GFS2 是适用于 Linux 计算机群集的共享磁盘文件系统。GFS2 允许所有节点直接同时访问同一个共享块存储。GFS2 不提供断开连接操作模式,也没有客户端角色或服务器角色。GFS2 群集中的所有节点以对等体的形式运行。GFS2 最多支持 32 个群集节点。在群集中使用 GFS2 需要通过硬件来访问共享存储设备,并需要通过一个锁管理器来控制对存储空间的访问。
- Hawk2 #
您可以在 Linux 或非 Linux 计算机上使用用户友好的 Web 界面来监控和管理 High Availability 群集。可使用(图形)Web 浏览器从群集内外的任何计算机访问 Hawk2。
- LRM(本地资源管理器,local resource manager) #
本地资源管理器位于每个节点上的 Pacemaker 层与资源层之间。它是作为
pacemaker-execd
守护程序实现的。通过此守护程序,Pacemaker 可以启动、停止和监控资源。- mcastaddr(多播地址) #
Corosync 管理器使用 IP 地址进行多播。IP 地址可以为 IPv4 或 IPv6。
- mcastport(多播端口) #
用于群集通讯的端口。
- OCFS2 #
Oracle 群集文件系统 2(简称 OCFS2)是一种通用日记文件系统,允许您在共享存储空间的设备上存储应用程序二进制文件、数据文件和数据库。群集中的所有节点对文件系统都有并行的读和写权限。用户空间控制守护程序(通过克隆资源管理)提供与 HA 堆栈的集成,尤其是与 Corosync 和分布式锁管理器 (DLM) 的集成。
- pacemaker-controld(群集控制器守护程序) #
CRM 作为
pacemaker-controld
守护程序实现。每个群集节点上都有一个实例。系统会选出一个 pacemaker-controld 实例充当主要实例,以此集中做出所有群集决策。如果选出的 pacemaker-controld 进程(或运行该进程的节点)发生失败,则会建立一个新的进程。- QDevice (
corosync-qdevice
) # QDevice 和 QNetd 会参与仲裁决定。在仲裁方
corosync-qnetd
的协助下,corosync-qdevice
会提供一个可配置的投票数,以使群集可以承受大于标准仲裁规则所允许的节点故障数量。- QNetd (
corosync-qnetd
) # 它是一项 systemd 服务(即 “QNetd 服务器”守护程序),并非群集的一部分。QNetd 为
corosync-qdevice
守护程序提供投票,帮助其参与仲裁决定。- RA(资源代理,resource agent) #
脚本充当代理来管理资源(例如,启动、停止或监控资源)。SUSE Linux Enterprise High Availability 支持不同类型的资源代理。有关详细信息,请参见 第 10.2 节 “支持的资源代理类别”。
- ReaR(放松与恢复,Relax and Recover) #
创建灾难恢复图像的管理员工具集。
- RRP(冗余环网协议,redundant ring protocol) #
该协议支持使用多个冗余局域网来从部分或整体网络故障中恢复。这样,只要一个网络运行正常,群集通讯就仍可继续。Corosync 支持 Totem Redundant Ring Protocol。
- SBD(STONITH 块设备,STONITH Block Device) #
通过经由共享块储存(SAN、iSCSI、FCoE 等)交换消息提供节点屏蔽机制。还可以在无磁盘模式下使用。需要在每个节点上安装一个硬件或软件看门狗,以确保能真正停止行为异常的节点。
- SFEX(共享磁盘文件排他性,shared disk file exclusiveness) #
SFEX 在 SAN 上提供存储保护。
- SPOF(单一故障点,single point of failure) #
一旦群集中任何组件出现故障,则会导致整个群集出现故障。
- STONITH #
“Shoot the other node in the head”(关闭其他节点)的首字母缩写。它表示一种关闭行为异常的节点以避免其在群集中制造麻烦的屏蔽机制。在 Pacemaker 群集中,节点级别屏蔽的实现为 STONITH。为此,Pacemaker 随附了一个屏蔽子系统
pacemaker-fenced
。- YaST #
常规系统安装和管理的图形用户界面。使用此用户界面,可按《安装和设置快速入门》中所述在 SUSE Linux Enterprise Server 的基础上安装 SUSE Linux Enterprise High Availability。
- 主动/主动、主动/被动 #
针对服务在节点上如何运行的一种概念。主动-被动方案表示一个或多个服务正在主动节点上运行,而被动节点则等待主动节点出现故障。主动-主动方案表示每个节点既是主动节点同时也是被动节点。例如,虽然该节点正在运行某些服务,但仍可接管其他节点中的其他服务。它相当于 DRBD 概念中的主要/次要节点和双重主要节点。
- 仲裁 #
在群集中,如果某个群集分区具有多数节点(或投票),则将其定义为具有仲裁(即“具有法定票数”)。仲裁准确地区分了一个分区。它是算法的组成部分,用于防止多个断开的分区或节点继续运行而导致数据和服务损坏(节点分裂)。仲裁是屏蔽的先决条件,而屏蔽随后确保仲裁确实是唯一的。
- 仲裁方 #
在 Geo 群集中有助于达成一致性决定(例如,站点间的资源故障转移)的其他实例。仲裁方是一台以特殊模式运行一个或多个投票间实例的计算机。
在常规群集中,“仲裁方”也可指 QNetd。QNetd 可与 QDevice 搭配配置,用于在节点数为偶数的群集中参与仲裁决策。
- 位置 #
在整个群集情境中,“位置”可以指节点的物理位置(例如,所有节点可能都位于同一个数据中心)。
在位置约束情境中,“位置”是指可以运行或无法运行资源的节点。
- 位置约束 #
位置约束定义资源可以、不可以或首选在哪些节点上运行。另请参见资源约束。
- 元属性(资源选项) #
告诉 CRM 如何处理特定资源的参数。例如,优先级或目标角色。
- 克隆 #
克隆可以指现有节点的相同副本。克隆节点可使部署多个节点的过程更简单。
在群集资源的场景中,克隆资源指可在多个节点上处于活动状态的资源。如果各个资源代理支持,则任何资源均可克隆。可提升克隆(也称作多状态资源)是一种可以提升的特殊类型的克隆资源。
- 共置约束 #
共置约束告知群集哪些资源可以或不可以在同一个节点上运行。另请参见资源约束。
- 切换 #
根据需要有计划地将服务转移到群集中的其他节点。请参见故障转移。
- 利用率 #
告知 CRM 某个资源资源需从节点获得的容量。
- 单播 #
一种将消息发送到单个网络目标的技术。Corosync 支持多播和单播。在 Corosync 中,单播作为 UDP 单播 (UDPU) 实施。
- 原始资源 #
原始资源是最基本的群集资源类型。
- 参数(实例属性) #
参数确定资源控制服务的哪个实例。
- 可提升克隆 #
可提升克隆(也称为多状态资源)是一种可以提升的特殊类型的克隆资源。这些资源的活动实例分为两种状态:主动和被动。这些状态有时也称为主要和次要。
- 启发 #
QDevice 支持一组命令(即“启发”)。这些命令在发生以下情况时在本地执行:当群集服务启动、群集成员资格发生变化、成功连接到 QNetd 服务器时,或(可选)定期执行。仅当所有命令都成功执行时,才会视为已通过启发,否则视为启发失败。启发的结果会发送到 QNetd 服务器,用于计算哪个部分应具有法定票数。
- 城域群集 #
使用光纤通道连接所有站点、可跨越多个建筑物或数据中心的单个群集。网络延迟通常较低(距离约为 20 英里时,延迟时间不到 5 毫秒)。存储频繁复制(镜像或同步复制)。
- 多播 #
一种用于网络内一对多通讯的技术,可用于群集通讯。Corosync 支持多播和单播。
- 屏蔽 #
描述了防止隔离的或失败的群集成员访问共享资源的概念。有两类屏蔽:资源级别屏蔽和节点级别屏蔽。资源级别屏蔽可确保对给定资源的排它访问。节点级别屏蔽可彻底防止故障节点访问共享资源,并可防止资源在状态不明的节点上运行。这种屏蔽通常采用一种简单但却粗暴的方式来完成,即重置或关闭节点。
- 并发性违规 #
资源本应只可在群集中的一个节点上运行,但实际上正在多个节点上运行。
- 投票间 #
用于在 Geo 群集的不同站点之间管理故障转移进程的实例。它的目标是让多站点资源在一个且只有一个的站点上保持活动。如果某个群集站点发生故障,则会使用被视为站点间故障转移域的所谓的“票据”来实现。
- 故障转移 #
指资源或节点在某台服务器上出现故障、受影响的资源在另一个节点上启动的情况。
- 故障转移域 #
经过命名的一组群集节点的子集,有资格在节点出现故障时运行群集服务。
- 本地群集 #
一个位置的单个群集(例如,位于一个数据中心内的所有节点)。网络延迟可以忽略。存储通常由所有节点同步访问。
- 灾难 #
关键基础设施因自然因素、人为因素、硬件故障或软件 bug 而意外中断。
- 灾难恢复 #
灾难恢复是指在发生灾难后将业务功能恢复到正常、稳定状态的过程。
- 灾难恢复计划 #
在对 IT 基础设施产生最低影响的前提下,从灾难中恢复的策略。
- 现有群集 #
“现有群集”一词指的是至少包含一个节点的任何群集。现有群集具有定义通讯通道的基本 Corosync 配置,但它们不一定已有资源配置。
- 票据 #
Geo 群集中使用的一个组件。票据授予在特定群集站点上运行某些资源的权限。一张票据某个时间内只能由一个站点所拥有。资源可按依赖性绑定到特定票据。仅当站点有定义好的票据时,才会启动相应资源。反之亦然,如果删除了票据,将会自动停止依赖于该票据的资源。
- 策略引擎 (PE) #
策略引擎作为
pacemaker-schedulerd
守护程序实现。需要群集转换时,pacemaker-schedulerd
会根据当前状态和配置,计算群集的下一预期状态。它会确定需要安排哪些操作来实现下一种状态。- 网络设备绑定 #
网络设备绑定通过将两个或多个网络接口组合成单个绑定设备,来增加带宽和/或提供冗余。使用 Corosync 时,绑定设备不受群集软件的管理。因此,必须在可能需要访问绑定设备的每个群集节点上配置绑定设备。
- 群集 #
高性能群集是一组共同分担应用程序负载以更快获得结果的计算机(实际或虚拟)。高可用性群集主要用于确保获得尽可能高的服务可用性。
- 群集分区 #
当一个或多个节点与群集的剩余节点之间的通讯失败时,即会发生群集分区。群集中的各节点被分割成不同分区,但仍然处于活动状态。他们只可与同一分区的节点进行通讯,并不了解未连接的节点。由于无法确认其他分区上节点的丢失,因此会出现节点分裂情况(另请参见节点分裂)。
- 群集堆栈 #
构成群集的全部软件技术和组件。
- 群集站点 #
在 Geo 群集中,群集站点(简称“站点”)是位于同一物理位置的一组节点,它们由投票间管理。
- 群集逻辑卷管理器(群集 LVM) #
群集 LVM
一词表示在群集环境中使用了 LVM。这需要对配置进行一些调整,以保护共享存储设备上的 LVM 元数据。- 节点 #
是群集成员并对用户不可见的任何计算机(实际或虚拟)。
- 节点分裂 #
群集节点被分为两个或多个互不了解的组的情况(由于软件或硬件故障)。STONITH 可以防止节点分裂情况对整个群集产生不良影响。也称为“分区的群集”情况。
DRBD 中也使用
split brain
一词,但表示两个节点包含不同的数据。- 负载平衡 #
能让多个服务器参与同一个服务并执行相同任务。
- 资源 #
Pacemaker 已知的任何类型的服务或应用程序。例如,IP 地址、文件系统或数据库。
“资源”一词也适用于 DRBD,表示使用通用连接进行复制的一组块设备。
- 资源模板 #
如果希望创建具有类似配置的多个资源,则定义资源模板是最简单的方式。定义后,便可在基元或特定类型的约束中引用它。如果在原始资源中引用了模板,该原始资源会继承模板中定义的所有操作、实例属性(参数)、元属性和利用率属性。
- 资源约束 #
使用资源约束可指定能在哪些群集节点上运行资源、以何顺序加载资源,以及特定资源依赖于其他哪些资源。
- 资源组 #
资源组包含多个需要放在一起并按顺序启动以及按相反顺序停止的资源。
- 资源集 #
资源集是可用来定义位置、共置或顺序约束的另一种方式,使用此方式,原始资源会全部划分到一个集合中。在创建约束时,您可以指定将相应约束应用于多个资源。
- 顺序约束 #
顺序约束定义操作的顺序。另请参见资源约束。