Installieren eines einfachen High Availability-Cluster…

Gilt für SUSE Linux Enterprise High Availability 16.0

Hochverfügbarkeit – Glossar #

aktiv/aktiv, aktiv/passiv #

Wie die Ressourcen auf den Knoten ausgeführt werden. „Aktiv/Passiv“ bedeutet, dass die Ressourcen nur auf dem aktiven Knoten ausgeführt werden, aber auf den passiven Knoten verschoben werden können, wenn der aktive Knoten ausfällt. „Aktiv/Aktiv“ bedeutet, dass alle Knoten gleichzeitig aktiv sind und Ressourcen auf jedem Knoten des Clusters ausgeführt werden (und dorthin verschoben werden) können.

Auslastung #

Teilt dem CRM mit, welche Kapazität eine bestimmte Ressourcen von einem Knoten benötigt.

Bestehender Cluster #

Der Begriff bestehender Cluster bezieht sich auf jeden Cluster, der aus mindestens einem Knoten besteht. Ein bestehender Cluster verfügt über eine grundlegende Corosync-Konfiguration, die die Kommunikationskanäle definiert, jedoch noch nicht unbedingt über eine Ressourcenkonfiguration.

cluster #

Ein Hochverfügbarkeits-Cluster ist eine Gruppe von Servern (physisch oder virtuell), die in erster Linie dazu dient, die höchstmögliche Verfügbarkeit von Daten und Anwendungsdiensten sicherzustellen. Er ist nicht zu verwechseln mit einem Hochleistungs-Cluster, der die Anwendungslast teilt, um schnellere Ergebnisse zu erzielen.

Cluster-Informationsdatenbank (CIB, Cluster Information Base): #

Eine XML-Darstellung der gesamten Clusterkonfiguration und des Clusterstatus (Clusteroptionen, -knoten, -ressourcen, -einschränkungen und die Beziehungen zueinander). Der CIB-Manager (pacemaker-based) sorgt dafür, dass die CIB im gesamten Cluster synchron bleibt, und verarbeitet Änderungsanfragen.

Cluster-Logical Volume Manager (Cluster-LVM) #

Der Begriff Cluster-LVM gibt an, dass der LVM in einer Clusterumgebung verwendet wird. Dies erfordert Konfigurationsanpassungen zum Schutz der LVM-Metadaten in einem gemeinsam genutzten Speicher.

Cluster-Ressourcenmanager (CRM) #

Die Verwaltungseinheit, die für die Koordinierung aller nicht lokalen Interaktionen in einem High Availability-Cluster zuständig ist. SUSE Linux Enterprise High Availability verwendet Pacemaker als CRM. Es interagiert mit verschiedenen Komponenten: lokalen Executors auf ihrem eigenen Knoten und auf den anderen Knoten, nicht lokalen CRMs, administrativen Befehlen, der Fencing-Funktion und der Mitgliedschaftsschicht.

Clusterpartition #

Eine Clusterpartition entsteht, wenn die Kommunikation zwischen einem oder mehreren Knoten und dem Rest des Clusters ausfällt. Die Knoten werden in Partitionen aufgeteilt, sind aber weiterhin aktiv. Sie können nur mit Knoten in derselben Partition kommunizieren und erkennen die anderen Knoten nicht. Dies wird als Split Brain-Szenario bezeichnet.

Clusterstapel #

Die Gesamtheit der Softwaretechnologien und -komponenten, aus denen ein Cluster besteht.

Corosync #

Corosync bietet zuverlässige Messaging-, Mitgliedschafts- und Quorum-Informationen zum Cluster. Dies wird von der Corosync Cluster Engine, einem Gruppenkommunikationssystem, übernommen.

crmsh (CRM-Shell) #

Das Befehlszeilen-Dienstprogramm crmsh verwaltet den Cluster, die Knoten und die Ressourcen.

Csync2 #

Ein Synchronisierungswerkzeug zur Replikation von Konfigurationsdateien auf allen Knoten im Cluster.

Designierter Koordinator (DC, Designated Coordinator) #

Der Daemon pacemaker-controld ist der Cluster-Controller, der alle Aktionen koordiniert. Dieser Daemon verfügt über eine Instanz auf jedem Clusterknoten, aber nur eine Instanz wird als designierter Koordinator gewählt. Der designierte Koordinator wird gewählt, wenn die Clusterdienste starten oder wenn der aktuelle designierte Koordinator ausfällt oder den Cluster verlässt. Der designierte Koordinator entscheidet, ob eine clusterweite Änderung vorgenommen werden muss, z. B. das Fencing eines Knotens oder das Verschieben von Ressourcen.

Disaster #

Eine unerwartete Unterbrechung der kritischen Infrastruktur, die durch Natur, Menschen, Hardwarefehler oder Softwarefehler verursacht wird.

Distributed Lock Manager (DLM) #

Distributed Lock Manager (DLM) koordiniert die Zugriffe auf gemeinsam genutzte Ressourcen in einem Cluster, z. B. durch die Verwaltung von Dateisperren in geclusterten Dateisystemen, um die Leistung und Verfügbarkeit zu verbessern.

DRBD #

DRBD® ist ein Blockgerät zum Erstellen von High Availability-Clustern. Es repliziert Daten auf einem primären Gerät auf sekundäre Geräte in einer Art und Weise, mit der sichergestellt wird, dass alle Kopien der Daten identisch bleiben.

Failover #

Tritt auf, wenn eine Ressource oder ein Knoten auf einem Rechner ausfällt und die betroffenen Ressourcen auf einen anderen Knoten verschoben werden.

Failover-Domäne #

Eine benannte Teilmenge von Clusterknoten, die zur Ausführung einer Ressource berechtigt sind, wenn ein Knoten ausfällt.

Fehlerbehebung #

Der Prozess, durch den eine Funktion nach einem Notfall wieder auf den normalen, stabilen Zustand zurückgesetzt wird.

Fehlerbehebungsplan #

Eine Strategie zur Wiederherstellung nach einem Notfall mit möglichst geringen Auswirkungen auf die IT-Infrastruktur.

Fencing #

Verhindert den Zugriff auf eine gemeinsam genutzte Ressource durch isolierte oder ausgefallene Clustermitglieder. Es gibt zwei Arten von Fencing: Fencing auf Ressourcenebene und Fencing auf Knotenebene. Beim Fencing auf Ressourcenebene wird der exklusive Zugriff auf eine Ressource sichergestellt. Beim Fencing auf Knotenebene wird verhindert, dass ein ausgefallener Knoten auf gemeinsam genutzte Ressourcen zugreift und dass Ressourcen auf einem Knoten mit unsicherem Status ausgeführt werden. Dies geschieht in der Regel durch Zurücksetzen oder Ausschalten des Knotens.

GFS2 #

Global File System 2 (GFS2) ist ein gemeinsam genutztes Festplattendateisystem für Linux-Computer-Cluster. GFS2 ermöglicht allen Knoten den direkten und gleichzeitigen Zugriff auf denselben gemeinsam genutzten Blockspeicher. GFS2 hat keinen getrennten Betriebsmodus und keine Client- oder Serverrollen. Alle Knoten in einem GFS2-Cluster fungieren als Peers. GFS2 unterstützt bis zu 32 Clusterknoten. Für die Verwendung von GFS2 in einem Cluster muss die Hardware den Zugriff auf den gemeinsam genutzten Speicher zulassen und es ist ein Lock Manager erforderlich, um den Zugriff auf den Speicher zu steuern.

Gleichzeitigkeitsverletzung #

Eine Ressource, die eigentlich nur auf einem Knoten des Clusters ausgeführt werden sollte, wird auf mehreren Knoten ausgeführt.

group #

Ressourcengruppen enthalten mehrere Ressourcen, die sich an einem gemeinsamen Ort befinden, nacheinander gestartet und in umgekehrter Reihenfolge angehalten werden müssen.

Hawk (HA-Webkonsole) #

Eine benutzerfreundliche webbasierte Oberfläche zum Überwachen und Verwalten eines High Availability-Clusters von Linux- oder Nicht-Linux-Rechnern aus. Auf Hawk kann von jedem Rechner aus, der eine Verbindung mit den Clusterknoten herstellen kann, über einen grafischen Webbrowser zugegriffen werden.

Heuristik #

QDevice unterstützt die Verwendung einer Reihe von Befehlen (Heuristiken), die lokal beim Start von Clusterdiensten, bei einer Änderung der Clustermitgliedschaft, bei einer erfolgreichen Verbindung mit dem QNetd-Server oder optional zu regelmäßigen Zeiten ausgeführt werden. Das Ergebnis wird in Berechnungen verwendet, um zu bestimmen, welche Partition über Quorum verfügen sollte.

Hochstufbarer Klon #

Hochstufbare Klone sind eine besondere Art von Klon-Ressourcen, die hochgestuft werden können. Aktive Instanzen dieser Ressourcen werden in zwei Status unterteilt: hochgestuft und nicht hochgestuft (auch bekannt als „aktiv und passiv“ oder „primär und sekundär“).

Klon #

Ein Klon ist eine identische Kopie eines vorhandenen Knotens, um die Bereitstellung mehrerer Knoten zu vereinfachen.

Im Kontext einer Cluster-Ressourcen ist ein Klon eine Ressource, die auf mehreren Knoten aktiv sein kann. Jede Ressource kann geklont werden, wenn ihr Ressourcenagent dies unterstützt.

knet (Kronosnet) #

Eine Netzabstraktionsschicht, die Redundanz, Sicherheit, Fehlertoleranz und schnelles Failover bei Netzverbindungen unterstützt. In SUSE Linux Enterprise High Availability 16 ist knet das Standard-Transportprotokoll für die Corosync-Kommunikationskanäle.

Knoten #

Jeder Server (physisch oder virtuell), der Mitglied eines Clusters ist.

Koexistenzeinschränkung #

Eine Art Ressourcenbeschränkung, die angibt, welche Ressourcen auf einem Knoten zusammen ausgeführt werden können und welche nicht.

Lokaler Cluster #

Ein einzelner Cluster an einem Standort (z. B. alle Knoten befinden sich in einem Rechenzentrum). Die Netzwerklatenz ist minimal. Auf den Speicher wird in der Regel von allen Knoten synchron zugegriffen.

Lokaler Executor #

Der lokale Executor befindet sich zwischen Pacemaker und den Ressourcen auf jedem Knoten. Über den Daemon pacemaker-execd kann Pacemaker Ressourcen starten, anhalten und überwachen.

Meta-Attribute (Ressourcenoptionen) #

Parameter, die dem Cluster-Ressourcenmanager (CRM) mitteilen, wie eine bestimmte Ressourcen zu behandeln ist. Sie können zum Beispiel die Priorität oder die Zielrolle einer Ressource definieren.

Metro-Cluster #

Ein einzelner Cluster, der sich über mehrere Gebäude oder Rechenzentren erstrecken kann, wobei alle Standorte über Fibre Channel verbunden sind. Die Netzwerklatenz ist in der Regel gering. Der Speicher wird häufig durch Spiegelung oder synchrone Reproduktion reproduziert.

Netzwerkgeräte-Bonding (bevorzugt) #

Beim Netzwerkgeräte-Bonding werden zwei oder mehr Netzwerkschnittstellen in einem einzigen Bond-Gerät kombiniert, um die Bandbreite zu erhöhen und/oder Redundanz bereitzustellen. Bei Verwendung von Corosync wird das Bond-Gerät nicht von der Clustersoftware verwaltet. Daher muss das Bond-Gerät auf jedem Clusterknoten konfiguriert werden, der möglicherweise darauf zugreifen muss.

Pacemaker #

Pacemaker ist der Cluster-Ressourcenmanager (CRM) in SUSE Linux Enterprise High Availability, also das „Gehirn“, das auf Ereignisse im Cluster reagiert. Ereignisse können Knoten sein, die dem Cluster beitreten oder ihn verlassen, der Ausfall von Ressourcen oder geplante Aktivitäten wie Wartungen. Der Daemon pacemakerd startet und überwacht alle anderen zugehörigen Daemons.

Parameter (Instanzattribute) #

Die Parameter bestimmen, welche Instanz eines Diensts die Ressourcen steuert.

Primitiv #

Eine primitive Ressource ist der einfachste Typ einer Clusterressource.

QDevice #

QDevice und QNetd beteiligen sich an Quorum-Entscheidungen. Der Daemon corosync-qdevice wird auf jedem Clusterknoten ausgeführt und kommuniziert mit QNetd, um eine konfigurierbare Anzahl an Stimmen bereitzustellen, sodass ein Cluster mehr Knotenausfälle bewältigen kann, als die Standard-Quorum-Regeln erlauben.

QNetd #

QNetd ist ein Vermittler, der außerhalb des Clusters ausgeführt wird. Der Daemon corosync-qnetd stellt dem Daemon corosync-qdevice auf jedem Knoten eine Stimme bereit, damit dieser sich an Quorum-Entscheidungen beteiligen kann.

Quorum #

Eine Clusterpartition ist als Quorum (quorumfähig) definiert, wenn sie über die Mehrheit der Knoten (oder „Stimmen“) verfügt. Das Quorum steht genau für eine Partition. Dies ist Teil des Algorithmus, um zu verhindern, dass mehrere nicht verbundene Partitionen oder Knoten („Split Brain“) fortgesetzt werden und Daten- sowie Dienstbeschädigungen verursachen. Das Quorum ist eine Voraussetzung für das Fencing, das wiederum sicherstellt, dass das Quorum eindeutig ist.

ReaR (Relax and Recover) #

Ein Administrator-Werkzeugsatz zum Erstellen von Fehlerbehebung-Images.

Reihenfolgeneinschränkung #

Eine Art Ressourcenbeschränkung, die die Reihenfolge der Aktionen definiert.

Ressourcen #

Jede Art von Dienst oder Anwendung, die Pacemaker bekannt ist, z. B. eine IP-Adresse, ein Dateisystem oder eine Datenbank. Der Begriff Ressource wird auch für DRBD verwendet, wo er eine Gruppe aus Blockgeräten bezeichnet, die eine gemeinsame Verbindung für die Reproduktion nutzen.

Ressourcenagent (RA) #

Ein Skript, das als Proxy für die Verwaltung einer Ressourcen fungiert (z. B. zum Starten, Anhalten oder Überwachen einer Ressource). SUSE Linux Enterprise High Availability unterstützt verschiedene Arten von Ressourcenagenten.

Ressourcenbeschränkung #

Ressourcenbeschränkungen geben an, auf welchen Clusterknotenressourcen ausgeführt werden können, in welcher Reihenfolge Ressourcen geladen werden und von welchen anderen Ressourcen eine bestimmte Ressource abhängig ist.

Weitere Informationen finden Sie unter Koexistenzeinschränkung, Standorteinschränkung und Reihenfolgeneinschränkung.

Ressourcensatz #

Als alternatives Format zum Definieren von Standort-, Koexistenz- oder Reihenfolgeneinschränkungen können Sie Ressourcensätze verwenden, in denen primitive Ressourcen in einem Satz gruppiert sind. Beim Erstellen einer Einschränkung können Sie mehrere Ressourcen angeben, für die die Einschränkung gelten soll.

Ressourcenvorlage #

Um die Erstellung vieler Ressourcen mit ähnlichen Konfigurationen zu erleichtern, können Sie eine Ressourcenvorlage definieren. Nach dem Definieren kann in primitiven Ressourcen oder in bestimmten Arten von Einschränkungen auf sie verweisen werden. Wenn in einer primitiven Ressourcen auf eine Vorlage verwiesen wird, erbt die primitive Ressource alle in der Vorlage definierten Vorgänge, Instanzattribute (Parameter), Meta-Attribute und Nutzungsattribute.

SBD (STONITH Block Device) #

SBD bietet einen Fencing-Mechanismus für Knoten durch den Austausch von Nachrichten über einen gemeinsam genutzten Blockspeicher. Alternativ kann es auch im festplattenlosen Modus verwendet werden. In jedem Fall ist auf jedem Knoten ein Hardware- oder Software-Watchdog erforderlich, um sicherzustellen, dass problembehaftete Knoten wirklich angehalten werden.

Scheduler #

Der Scheduler ist als pacemaker-schedulerd implementiert. Wenn ein Clusterwechsel erforderlich ist, berechnet pacemaker-schedulerd den erwarteten nächsten Status des Clusters und bestimmt, welche Aktionen geplant werden müssen, um den nächsten Status zu erreichen.

Split Brain #

Ein Szenario, bei dem die Clusterknoten in zwei oder mehr Gruppen aufgeteilt sind, die sich gegenseitig nicht erkennen (entweder durch einen Software- oder Hardwarefehler). STONITH verhindert ein Split Brain-Szenario, das den gesamten Cluster beeinträchtigt. Dies ist auch als Szenario mit partitioniertem Cluster bekannt.

Der Begriff Split Brain wird auch in DRBD verwendet, bedeutet aber, dass die Knoten unterschiedliche Daten enthalten.

SPOF (Single Point of Failure) #

Eine beliebige Komponente eines Clusters, die bei einem Ausfall den Ausfall des gesamten Clusters auslöst.

Standort #

Im Kontext eines gesamten Clusters kann sich der Standort auf den physischen Standort der Knoten beziehen (z. B. könnten sich alle Knoten im selben Rechenzentrum befinden). Im Kontext einer Standorteinschränkung bezieht sich der Standort auf die Knoten, auf denen eine Ressource ausgeführt werden kann oder nicht.

Standorteinschränkung #

Eine Art Ressourcenbeschränkung, die die Knoten definiert, auf denen eine Ressource ausgeführt werden kann oder nicht.

STONITH #

Ein Akronym für Shoot the other Node in the Head (Schieß dem anderen Knoten in den Kopf). Es bezieht sich auf den Fencing-Mechanismus, der einen problembehafteten Knoten abschaltet, um zu verhindern, dass er Probleme in einem Cluster verursacht. In einem Pacemaker-Cluster wird STONITH vom Fencing-Subsystem pacemaker-fenced verwaltet.

Umschaltung #

Die geplante Verschiebung von Ressourcen auf andere Knoten in einem Cluster. Siehe auch Failover.

Vermittler #

Ein Vermittler ist ein Rechner, der außerhalb des Clusters ausgeführt wird und eine zusätzliche Instanz für Clusterberechnungen bereitstellt. Zum Beispiel bietet QNetd eine Stimme an, damit sich QDevice an Quorum-Entscheidungen beteiligen kann.

Watchdog #

Für SBD (STONITH Block Device) ist ein Watchdog erforderlich, um sicherzustellen, dass problembehaftete Knoten wirklich angehalten werden. SBD „füttert“ den Watchdog, indem es regelmäßig einen Dienstimpuls an ihn schreibt. Wenn SBD den Watchdog nicht mehr „füttert“, erzwingt die Hardware einen Neustart des Systems. Dies schützt vor Fehlern des SBD-Prozesses selbst, z. B. wenn er bei einem E/A-Fehler hängen bleibt.