Instalación de un clúster de alta disponibilidad básic…

Se aplica a SUSE Linux Enterprise High Availability 16.0

Glosario de HA (alta disponibilidad) #

activo/activo y activo/pasivo #

Cómo se ejecutan los recursos en los nodos. Activo/pasivo significa que los recursos solo se ejecutan en el nodo activo, pero pueden moverse al nodo pasivo si se produce un error en el nodo activo. Activo/activo significa que todos los nodos están activos a la vez y los recursos pueden ejecutarse en (y moverse a) cualquier nodo del clúster.

árbitro #

Un árbitro es una máquina que se ejecuta fuera del clúster para proporcionar una instancia adicional para los cálculos del clúster. Por ejemplo, QNetd proporciona un voto para ayudar a QDevice a participar en las decisiones de quórum.

atributos meta (opciones de recursos) #

Los parámetros que indican a CRM (gestor de recursos del clúster) cómo tratar un recurso específico. Por ejemplo, puede definir la prioridad o el rol de destino de un recurso.

CIB (base de información del clúster) #

Una representación XML de toda la configuración y el estado del clúster (opciones del clúster, nodos, recursos, restricciones y las relaciones entre sí). El gestor de CIB (pacemaker-based) mantiene el CIB sincronizado en todo el clúster y gestiona las solicitudes para modificarlo.

clon #

Un clon es una copia idéntica de un nodo existente, que se utiliza para simplificar el despliegue de varios nodos.

En el contexto de un recurso de clúster, un clon es un recurso que puede estar activo en varios nodos. Cualquier recurso se puede clonar si su agente de recursos lo admite.

clon promocionable #

Los clones promocionables son un tipo especial de recurso de clon que se puede promocionar. Las instancias activas de estos recursos se dividen en dos estados: promocionado y no promocionado (también conocidos como “activo y pasivo” o “primario y secundario”).

clúster #

Un clúster de alta disponibilidad es un grupo de servidores (físicos o virtuales) diseñados principalmente para asegurar la mayor disponibilidad posible de los datos, las aplicaciones y los servicios. No debe confundirse con un clúster de alto rendimiento, que comparte la carga de la aplicación para lograr resultados más rápidos.

clúster existente #

El término clúster existente se utiliza para hacer referencia a cualquier clúster que conste de al menos un nodo. Un clúster existente tiene una configuración de Corosync básica que define los canales de comunicación, pero que aún no tiene necesariamente una configuración de recursos.

clúster local #

Un único clúster en una ubicación (por ejemplo, todos los nodos se encuentran en un centro de datos). La latencia de red es mínima. Normalmente, todos los nodos acceden al almacenamiento de forma sincrónica.

clúster metro #

Un único clúster que puede extenderse por varios edificios o centros de datos, con todos los sitios conectados mediante Fibre Channel. La latencia de red suele ser baja. El almacenamiento se replica con frecuencia mediante la duplicación o la réplica sincrónica.

conjunto de recursos #

Como formato alternativo para definir restricciones de ubicación, colocación o rango, puede usar conjuntos de recursos, donde los recursos primitivos se agrupan en un conjunto. Al crear una restricción, puede especificar varios recursos a los que se aplicará la restricción.

Corosync #

Corosync proporciona un sistema confiable de mensajería, pertenencia a grupos y quórum sobre el clúster. Esa información se gestiona mediante Corosync Cluster Engine, un sistema de comunicación grupal.

CRM (gestor de recursos del clúster) #

La entidad de gestión responsable de coordinar todas las interacciones no locales en un clúster de alta disponibilidad. SUSE Linux Enterprise High Availability usa Pacemaker como CRM. Interactúa con varios componentes: ejecutores locales en su propio nodo y en los otros nodos, CRM no locales, comandos administrativos, la funcionalidad de fencing y la capa de pertenencia a grupos.

crmsh (shell CRM) #

La utilidad de línea de comandos crmsh gestiona el clúster, los nodos y los recursos.

Csync2 #

Una herramienta de sincronización para replicar archivos de configuración en todos los nodos del clúster.

DC (coordinador designado) #

El daemon pacemaker-controld es el controlador del clúster, que coordina todas las acciones. Este daemon tiene una instancia en cada nodo del clúster, pero solo se elige una instancia para que actúe como coordinador designado. El coordinador designado se elige cuando se inician los servicios de clúster, o si el coordinador designado falla o abandona el clúster. El coordinador designado decide si se debe realizar un cambio en todo el clúster, como aplicar fencing en un nodo o mover recursos.

desastre #

Una interrupción inesperada de la infraestructura crítica causada por la naturaleza, acción humana, fallos de hardware o errores de software.

DLM (gestor de bloqueo distribuido) #

El gestor de bloqueo distribuido coordina los accesos a los recursos compartidos de un clúster, por ejemplo, administrando el bloqueo de archivos en sistemas de archivos en clúster para aumentar el rendimiento y la disponibilidad.

dominio de failover #

Un subconjunto con nombre de nodos de clúster que son aptos para ejecutar un recurso si se produce un error en un nodo.

DRBD #

DRBD® es un dispositivo de bloques diseñado para crear clústeres de alta disponibilidad. Replica los datos de un dispositivo primario en dispositivos secundarios de una manera que garantiza que todas las copias de los datos permanezcan idénticas.

ejecutor local #

El ejecutor local se encuentra entre Pacemaker y los recursos de cada nodo. Mediante el daemon pacemaker-execd, Pacemaker puede iniciar, detener y supervisar recursos.

failover #

Se produce cuando hay un error en un recurso o nodo en un equipo y los recursos afectados se mueven a otro nodo.

fencing #

Una técnica que impide el acceso a un recurso compartido por parte de miembros del clúster aislados o con errores. Hay dos clases de fencing: de nivel de recursos y de nivel de nodo. El fencing de nivel de recursos garantiza el acceso exclusivo a un recurso. El de nivel de nodo evita que un nodo fallido acceda a los recursos compartidos y evita que los recursos se ejecuten en un nodo con un estado incierto. Esto generalmente se hace reiniciando o apagando el nodo.

gestor de volúmenes lógicos del clúster (LVM del clúster) #

El término LVM del clúster indica que se está usando gestión de volúmenes lógicos en un entorno de clústeres. Esto requiere ajustes de configuración para proteger los metadatos de LVM en el almacenamiento compartido.

GFS2 #

Global File System 2 (GFS2, sistema de archivos global 2) es un sistema de archivos de disco compartido para clústeres de equipos Linux. GFS2 permite que todos los nodos tengan acceso directo y simultáneo al mismo almacenamiento en bloques compartido. GFS2 no tiene modo de funcionamiento sin conexión ni roles de cliente o servidor. Todos los nodos de un clúster GFS2 funcionan como pares. GFS2 admite hasta 32 nodos de clúster El uso de GFS2 en un clúster requiere hardware para permitir el acceso al almacenamiento compartido y un gestor de bloqueo para controlar el acceso al almacenamiento.

grupo #

Los grupos de recursos contienen varios recursos que deben ubicarse juntos, iniciarse secuencialmente y detenerse en orden inverso.

Hawk (HA Web Konsole) #

Una interfaz basada en Web fácil de usar para supervisar y administrar un clúster de alta disponibilidad desde equipos Linux o no Linux. Se puede acceder a Hawk desde cualquier equipo que pueda conectarse a los nodos del clúster utilizando un navegador Web gráfico.

heurística #

QDevice admite el uso de un conjunto de comandos (heurística) que se ejecutan localmente al iniciar los servicios de clúster, el cambio de pertenencia al clúster, la conexión correcta al servidor QNetd o, opcionalmente, de forma periódica. El resultado se usa en los cálculos para determinar qué partición debe tener quórum.

infracción de simultaneidad #

Un recurso que debería ejecutarse solo en un nodo del clúster se ejecuta en varios nodos.

knet (kronosnet) #

Una capa de abstracción de red que admite redundancia, seguridad, tolerancia a fallos y failover rápido de los enlaces de red. En SUSE Linux Enterprise High Availability 16, knet es el protocolo de transporte por defecto para los canales de comunicación de Corosync.

nodo #

Cualquier servidor (físico o virtual) que sea miembro de un clúster.

nodo malinformado #

Una situación en la que los nodos del clúster se dividen en dos o más grupos que no se reconocen entre sí (ya sea por un error de software o de hardware). STONITH evita que un escenario de este tipo afecte gravemente a todo el clúster. También se conoce como clúster particionado.

El término nodo malinformado también se utiliza en DRBD, pero significa que los nodos contienen datos diferentes.

Pacemaker #

Pacemaker es el CRM (gestor de recursos del clúster) en SUSE Linux Enterprise High Availability, o el “cerebro” que reacciona a los eventos que ocurren en el clúster. Los eventos pueden ser nodos que se unen o abandonan el clúster, fallos de recursos o actividades programadas como el mantenimiento, por ejemplo. El daemon pacemakerd inicia y supervisa todos los demás daemons relacionados.

parámetros (atributos de instancia) #

Los parámetros determinan qué instancia de un servicio controla el recurso.

partición del clúster #

Una partición del clúster se produce cuando hay un error en la comunicación entre uno o varios nodos y el resto del clúster. Los nodos se dividen en particiones pero siguen activos. Solo pueden comunicarse con nodos de la misma partición y no reconocen los nodos de otras particiones. Esto se conoce como una situación de nodo malinformado.

pila de clúster #

El conjunto de tecnologías de software y componentes que componen un clúster.

plan de recuperación tras desastre #

Una estrategia para recuperarse de un desastre con el mínimo impacto en la infraestructura de TI.

plantilla de recurso #

Para ayudar a crear muchos recursos con configuraciones similares, puede definir una plantilla de recurso. Una vez definida, se puede hacer referencia a la plantilla en los recursos primitivos o en ciertos tipos de restricciones. Si se hace referencia a una plantilla en un recurso primitivo, este hereda todas las operaciones, los atributos de instancia (parámetros), los metaatributos y los atributos de utilización definidos en la plantilla.

primitivo #

Un recurso primitivo es el tipo más básico de recurso de clúster.

programador #

El programador se implementa como pacemaker-schedulerd. Cuando se necesita una transición de clúster, pacemaker-schedulerd calcula el siguiente estado esperado del clúster y determina qué acciones deben programarse para lograr el siguiente estado.

punto único de fallo #

Cualquier componente de un clúster que, si falla, desencadena que todo el clúster falle.

QDevice #

QDevice y QNetd participan en las decisiones de quórum. El daemon corosync-qdevice se ejecuta en cada nodo del clúster y se comunica con QNetd para proporcionar un número configurable de votos, lo que permite que un clúster mantenga más fallos de nodo de los que permiten las reglas de quórum estándar.

QNetd #

QNetd es un árbitro que se ejecuta fuera del clúster. El daemon corosync-qnetd proporciona un voto al daemon corosync-qdevice en cada nodo para ayudarlo a participar en las decisiones de quórum.

quórum #

Se define que una partición del clúster tiene quórum si tiene la mayoría de los nodos (o de los “votos”). El quórum distingue exactamente una partición. Esto es parte del algoritmo para evitar que haya varias particiones o nodos desconectados (“malinformados”) y se produzcan daños en los datos y servicios. El quórum es un requisito previo para el fencing, que a su vez garantiza que el quórum sea único.

RA (agente de recursos) #

Un guion que actúa como proxy para gestionar un recurso (por ejemplo, para iniciar, detener o supervisar un recurso). SUSE Linux Enterprise High Availability admite diferentes tipos de agentes de recursos.

ReaR (Relax and Recover) #

Un conjunto de herramientas de administrador para crear imágenes de recuperación tras desastre.

recuperación tras desastre #

El proceso por el cual una función se restaura al estado normal y estable después de un desastre.

recurso #

Cualquier tipo de servicio o aplicación que Pacemaker conozca; por ejemplo, una dirección IP, un sistema de archivos o una base de datos. El término recurso también se utiliza en DRBD, donde nombra un conjunto de dispositivos de bloque que usan una conexión común para la réplica.

restricción de colocación #

Un tipo de restricción de recursos que especifica qué recursos pueden o no ejecutarse juntos en un nodo.

restricción de rango #

Un tipo de restricción de recursos que define la secuencia de acciones.

restricción de recursos #

Las restricciones de recursos especifican en qué nodos del clúster se pueden ejecutar los recursos, en qué orden se cargan los recursos y de qué otros recursos depende un recurso específico.

Consulte también restricción de colocación, restricción de ubicación y restricción de rango.

restricción de ubicación #

Un tipo de restricción de recursos que define los nodos en los que se puede ejecutar o no un recurso.

SBD (dispositivo de bloques STONITH) #

SBD proporciona un mecanismo de fencing de nodos mediante el intercambio de mensajes a través del almacenamiento en bloques compartido. Como alternativa, se puede usar en modo sin disco. En cualquier caso, necesita un vigilante (watchdog) de hardware o software en cada nodo para garantizar que los nodos que se comportan mal se detengan.

STONITH #

Un acrónimo en inglés de interrumpir completamente el otro nodo. Se refiere al mecanismo de fencing que apaga un nodo que se comporta mal para evitar que cause problemas en un clúster. En un clúster de Pacemaker, STONITH se gestiona con el subsistema de fencing pacemaker-fenced.

switchover #

El traslado planeado de recursos a otros nodos de un clúster. Consulte también failover.

ubicación #

En el contexto de un clúster completo, la ubicación hace referencia a la localización física de los nodos (por ejemplo, todos los nodos pueden estar ubicados en el mismo centro de datos). En el contexto de restricción de ubicación, una ubicación son los nodos en los que se puede ejecutar o no un recurso.

utilización #

Indica al gestor de recursos del clúster qué capacidad debe tener un recurso concreto de un nodo.

vigilante (watchdog) #

SBD (dispositivo de bloques STONITH) necesita un vigilante en cada nodo para garantizar que los nodos que se comportan mal se detengan. SBD “alimenta” al vigilante escribiéndole regularmente un pulso de servicio. Si SBD deja de alimentar al vigilante, el hardware exige un reinicio del sistema. Esto protege contra fallos del proceso SBD en sí, como que se quede atascado en un error de E/S.

vínculo de dispositivos de red #

En la combinación de dispositivos de red se combinan dos o más interfaces de red en un solo dispositivo vinculado para aumentar el ancho de banda o proporcionar redundancia. Al usar Corosync, el software del clúster no gestiona el dispositivo vinculado. Por lo tanto, el dispositivo vinculado debe configurarse en cada nodo de clúster que pueda necesitar acceder a él.