Introdução ao SUSE Linux Enterprise High Availability

Aplica-se a SUSE Linux Enterprise High Availability 16.0

Glossário de HA #

arbitrador #

Um arbitrador é uma máquina executada fora do cluster que fornece uma instância adicional para cálculos de cluster. Por exemplo, QNetD fornece um voto para ajudar QDevice a participar das decisões de quorum.

ativo/ativo, ativo/passivo #

Como os recursos são executados nos nós. Ativo/passivo significa que os recursos são executados apenas no nó ativo, mas podem mover para o nó passivo em caso de falha no nó ativo. Ativo/ativo significa que todos os nós estão ativos ao mesmo tempo, e os recursos podem ser executados em (e movidos para) qualquer nó no cluster.

CIB (Cluster Information Base) #

Uma representação XML da configuração e do status de todo o cluster (opções, nós, recursos, restrições e relacionamentos entre os clusters). O gerenciador do CIB (pacemaker-based) mantém o CIB sincronizado com o cluster e processa as solicitações para modificá-lo.

clone #

O clone é uma cópia idêntica de um nó existente, usada para simplificar a implantação de vários nós.

No contexto de recurso do cluster, o clone é um recurso que pode estar ativo em vários nós. Se o agente do recurso oferecer suporte ao procedimento, qualquer recurso poderá ser clonado.

clone promovível #

Os clones promovíveis são um tipo especial de recurso de clone que pode ser promovido. As instâncias ativas desses recursos são divididas em dois estados: promovido e não promovido (também conhecidos como “ativo e passivo” ou “principal e secundário”).

cluster #

Um cluster de alta disponibilidade é um grupo de servidores (físicos ou virtuais) projetado principalmente para garantir a maior disponibilidade possível de aplicativos de dados e serviços. Não confunda com o cluster de alto desempenho, que compartilha a carga do aplicativo para acelerar os resultados.

cluster de área metropolitana #

Um único cluster que pode se estender por vários edifícios ou data centers, com todos os locais conectados por Fibre Channel. A latência da rede costuma ser baixa. O armazenamento é frequentemente replicado usando espelhamento ou replicação síncrona.

cluster existente #

O termo cluster existente é usado em referência a qualquer cluster que tenha pelo menos um nó. Um cluster existente tem uma configuração básica do Corosync que define os canais de comunicação, mas não necessariamente já tem uma configuração de recursos.

cluster local #

Um único cluster em um local (por exemplo, todos os nós localizados em um data center). A latência da rede é mínima. Normalmente, todos os nós acessam o armazenamento de forma síncrona.

conjunto de recursos #

Como um formato alternativo para definir as restrições de local, colocation ou ordem, você pode usar os conjuntos de recursos, em que os primitivos são agrupados em um único conjunto. Durante a criação de uma restrição, você pode especificar vários recursos aos quais a restrição será aplicada.

Corosync #

O Corosync fornece informações confiáveis sobre o cluster referentes a mensagens, participação e quorum. Isso é feito pelo Corosync Cluster Engine, um sistema de comunicação em grupo.

CRM (gerenciador de recursos de cluster) #

A entidade de gerenciamento responsável por coordenar todas as interações não locais em um cluster de alta disponibilidade. O SUSE Linux Enterprise High Availability usa o Pacemaker como CRM. Ele interage com vários componentes: executores locais no próprio nó e em outros nós, CRMs não locais, comandos administrativos, funcionalidade de fencing e camada de participação.

crmsh (shell de CRM) #

O utilitário de linha de comando crmsh gerencia o cluster, os nós e os recursos.

Csync2 #

Uma ferramenta de sincronização para replicar arquivos de configuração por todos os nós do cluster.

DC (coordenador designado) #

O daemon pacemaker-controld é o controlador do cluster, que coordena todas as ações. Esse daemon tem uma instância em cada nó do cluster, mas apenas uma instância é escolhida para atuar como DC. A escolha do DC é feita quando os serviços do cluster são iniciados, ou se o DC atual falhar ou sair do cluster. O DC decide se deve ser feita uma alteração em todo o cluster, como fencing de nó ou movimentação de recursos.

desastre #

Uma interrupção inesperada da infraestrutura crítica causada por forças da natureza, humanos, falhas de hardware ou bugs de software.

DLM (Distributed Lock Manager) #

O DLM coordena os acessos aos recursos compartilhados no cluster, por exemplo, gerenciando o bloqueio de arquivos em sistemas de arquivos em cluster para aumentar o desempenho e a disponibilidade.

domínio de failover #

Um subconjunto nomeado de nós do cluster qualificados para executar um recurso em caso de falha em um nó.

DRBD #

DRBD® é um dispositivo de blocos projetado para criar clusters de alta disponibilidade. Ele replica os dados de um dispositivo principal para dispositivos secundários a fim de garantir que todas as cópias dos dados permaneçam idênticas.

executor local #

O executor local está localizado entre o Pacemaker e os recursos em cada nó. Por meio do daemon pacemaker-execd, o Pacemaker pode iniciar, parar e monitorar os recursos.

failover #

Ocorre quando um recurso ou nó falha em uma máquina e os recursos afetados são movidos para outro nó.

fencing #

Impede que membros do cluster isolados ou com falha acessem um recurso compartilhado. Há duas classes de fencing: no nível do recurso e no nível do nó. O fencing no nível do recurso garante acesso exclusivo a um recurso. O fencing no nível do nó impede que um nó com falha acesse recursos compartilhados e que os recursos sejam executados em um nó com status incerto. Geralmente, isso é feito redefinindo ou desligando o nó.

Gerenciador de volumes lógicos de cluster (LVM de cluster) #

O termo LVM de cluster indica que o LVM é usado em um ambiente de cluster. Isso requer ajustes na configuração para proteger os metadados do LVM no armazenamento compartilhado.

GFS2 #

O sistema de arquivos global GFS2 (Global File System 2) é um sistema de arquivos em disco compartilhado para clusters de computadores Linux. O GFS2 permite que todos os nós tenham acesso direto e simultâneo ao mesmo armazenamento em blocos compartilhado. O GFS2 não tem um modo operacional desconectado nem funções de cliente ou de servidor. Todos os nós em um cluster GFS2 operam como pares. O GFS2 oferece suporte para até 32 nós do cluster. Para usar o GFS2 no cluster, é necessário um hardware para permitir o acesso ao armazenamento compartilhado e um gerenciador de bloqueio para controlar o acesso ao armazenamento.

group #

Os grupos de recursos contêm vários recursos que precisam estar juntos, ser iniciados em sequência e ser interrompidos na ordem inversa.

Hawk (HA Web Konsole) #

Uma interface baseada na Web e fácil de usar para monitorar e administrar um cluster de alta disponibilidade em máquinas Linux ou não Linux. É possível acessar o Hawk de qualquer máquina que tenha conexão com os nós do cluster usando um navegador da Web gráfico.

heurística #

O QDevice suporta o uso de um conjunto de comandos (heurística) que é executado localmente na inicialização dos serviços do cluster, na alteração da participação do cluster, na conexão bem-sucedida com o servidor QNetD ou, opcionalmente, em horários regulares. O resultado é usado em cálculos para determinar a partição que deve ter quorum.

knet (kronosnet) #

Uma camada de abstração de rede que suporta redundância, segurança, tolerância a falhas e failover rápido de links de rede. No SUSE Linux Enterprise High Availability 16, o knet é o protocolo de transporte padrão para os canais de comunicação do Corosync.

local #

No contexto do cluster inteiro, local pode se referir ao local físico dos nós (por exemplo, todos os nós podem estar no mesmo data center). No contexto de restrição de local, local se refere aos nós nos quais um recurso pode ou não ser executado.

meta-atributos (opções de recursos) #

Parâmetros que instruem como o CRM (gerenciador de recursos de cluster) deve tratar um recurso específico. Por exemplo, você pode definir a prioridade ou a função de destino de um recurso.

modelo de recurso #

Para ajudar a criar muitos recursos com configurações semelhantes, você pode definir um modelo de recurso. Após sua definição, ele poderá ser mencionado nos primitivos ou em determinados tipos de restrições. Se um modelo for mencionado em um primitivo, o primitivo herdará todas as operações, os atributos de instância (parâmetros), os meta-atributos e os atributos de utilização definidos no modelo.

nó #

Qualquer servidor (físico ou virtual) que seja membro de um cluster.

Pacemaker #

Pacemaker é o CRM (gerenciador de recursos de cluster) no SUSE Linux Enterprise High Availability, ou o “cérebro” que reage aos eventos que ocorrem no cluster. Os eventos podem ser nós que entram ou saem do cluster, falhas de recursos ou atividades programadas, como manutenção. O daemon pacemakerd inicia e monitora todos os outros daemons relacionados.

parâmetros (atributos de instância) #

Os parâmetros determinam qual instância de um serviço o recurso controla.

partição de cluster #

Uma partição de cluster ocorre quando a comunicação falha entre um ou mais nós e o restante do cluster. Os nós são divididos em partições, mas ainda estão ativos. Eles podem se comunicar apenas com os nós na mesma partição e não reconhecem os nós separados. Esse cenário é conhecido como split brain.

pilha do cluster #

O conjunto de tecnologias e componentes de software que compõem um cluster.

plano de recuperação de desastre #

Uma estratégia de recuperação após um desastre com impacto mínimo na infraestrutura de TI.

primitivo #

Um recurso primitivo é o tipo de recurso mais básico do cluster.

programador #

O programador é implementado como pacemaker-schedulerd. Quando uma transição de cluster é necessária, o pacemaker-schedulerd calcula o próximo estado esperado do cluster e determina as ações que precisam ser programadas para alcançar o próximo estado.

QDevice #

O QDevice e o QNetD participam das decisões de quorum. O daemon corosync-qdevice é executado em cada nó do cluster e se comunica com o QNetd para fornecer um número configurável de votos, permitindo que um cluster suporte mais falhas de nós do que o permitido pelas regras de quorum padrão.

QNetD #

O QNetD é um arbitrador executado fora do cluster. O daemon corosync-qnetd fornece um voto ao daemon corosync-qdevice em cada nó para ajudá-lo a participar das decisões de quorum.

quorum #

Uma partição de cluster será definida com quorum (como quorum atingido) se tiver a maioria dos nós (ou “votos”). O quorum distingue exatamente uma partição. Isso faz parte do algoritmo para impedir a execução de várias partições ou nós desconectados (“split brain”) que causa a corrupção de dados e de serviços. O quorum é um pré-requisito para o fencing, que depois garante a exclusividade do quorum.

RA (agente de recurso) #

Um script que atua como proxy para gerenciar um recurso (por exemplo, para iniciar, interromper ou monitorar um recurso). O SUSE Linux Enterprise High Availability oferece suporte a vários tipos de agentes de recursos.

ReaR (Relax and Recover) #

Um conjunto de ferramentas de administrador para criar imagens de recuperação de desastre.

recuperação de desastre #

O processo responsável por restaurar uma função ao estado normal e estável após um desastre.

recurso #

Qualquer tipo de serviço ou aplicativo conhecido do Pacemaker, por exemplo, endereço IP, sistema de arquivos ou banco de dados. O termo recurso também é usado para o DRBD, em que ele nomeia um conjunto de dispositivos de blocos que usam uma conexão comum para replicação.

restrição de colocation #

Um tipo restrição de recursos que especifica os recursos que podem ou não ser executados juntos em um nó.

restrição de local #

Um tipo de restrição de recursos que define os nós nos quais um recurso pode ou não ser executado.

restrição de ordem #

Um tipo de restrição de recursos que define a sequência de ações.

restrição de recursos #

As restrições de recursos especificam em quais nós do cluster os recursos podem ser executados, em que ordem os recursos são carregados e de quais outros recursos um recurso específico depende.

Consulte também restrição de colocation, restrição de local e restrição de ordem.

SBD (STONITH Block Device) #

O SBD fornece um mecanismo de fencing de nó por meio da troca de mensagens pelo armazenamento em blocos compartilhado. Como alternativa, ele pode ser usado no modo sem disco. Nos dois casos, ele precisa de um watchdog de hardware ou de software em cada nó para garantir que os nós com comportamento inadequado sejam realmente interrompidos.

split brain #

Um cenário no qual os nós do cluster são divididos em dois ou mais grupos que não se reconhecem (seja por uma falha de software ou de hardware). O STONITH evita que um cenário de split brain afete gravemente todo o cluster. Esse cenário também é conhecido como cluster particionado.

O termo split brain também é usado no DRBD, mas significa que os nós contêm dados diferentes.

SPOF (ponto único de falha) #

Qualquer componente de um cluster que, se falhar, acionará a falha de todo o cluster.

STONITH #

Acrônimo em inglês para shoot the other node in the head. Refere-se ao mecanismo de fencing que desliga um nó com comportamento inadequado para evitar que ele cause problemas no cluster. Em um cluster Pacemaker, o STONITH é gerenciado pelo subsistema de fencing pacemaker-fenced.

transição #

A movimentação planejada de recursos para outros nós em um cluster. Consulte também failover.

utilização #

Informa ao CRM a capacidade que um determinado recurso exige do nó.

vínculo de dispositivo de rede #

O vínculo de dispositivo de rede combina duas ou mais interfaces de rede em um único dispositivo vinculado para aumentar a largura de banda e/ou fornecer redundância. Durante o uso do Corosync, o dispositivo vinculado não é gerenciado pelo software de cluster. Portanto, o dispositivo vinculado deve ser configurado em cada nó do cluster que possa precisar acessá-lo.

violação de simultaneidade #

Um recurso que deve ser executado em apenas um nó no cluster e está sendo executado em vários nós.

watchdog #

O SBD (STONITH Block Device) precisa de um watchdog em cada nó para garantir que os nós com comportamento inadequado sejam realmente interrompidos. O SBD grava regularmente um pulso de serviço no watchdog para “alimentá-lo”. Se o SBD parar de alimentar o watchdog, o hardware forçará a reinicialização do sistema. Isso protege o próprio processo do SBD contra falhas, por exemplo, travar em um erro de E/S.