Perché il dominio del servizio OpenSearch di Amazon è bloccato nello stato "Elaborazione"?

Ultimo aggiornamento: 11/01/2023

Il mio cluster del servizio OpenSearch di Amazon è bloccato nello stato "Elaborazione".

Breve descrizione

Il cluster del servizio OpenSearch entra nello stato Elaborazione quando si trova nel mezzo di una modifica della configurazione. Il cluster può rimanere bloccato nello stato "Elaborazione" se si verifica una delle due situazioni:

  • Non si riesce ad avviare un nuovo set di nodi di dati.
  • La migrazione della partizione al nuovo set di nodi di dati non è riuscita.
  • Un controllo di convalida non è riuscito e ha restituito errori.

Se avvii una modifica alla configurazione, lo stato del dominio cambia in Elaborazione mentre il servizio OpenSearch crea un nuovo ambiente. Nel nuovo ambiente, il servizio OpenSearch lancia un nuovo set di nodi applicabili, come nodi di dati, master o UltraWarm. Al termine della migrazione, i nodi più vecchi vengono terminati.

Nota: se il dominio del servizio OpenSearch è bloccato nello stato Eliminazione dopo che hai tentato di eliminarlo dallo stato "Elaborazione", contatta il Supporto AWS.

Risoluzione

Impossibile avviare un nuovo set di nodi di dati

Quando si apportano modifiche simultanee alla configurazione del cluster prima del completamento della prima modifica, il cluster può rimanere bloccato. Assicurarsi di verificare la presenza di eventuali distribuzioni blu/verdi in corso nel proprio cluster. Per verificare se sono in corso implementazioni blu/verdi, controlla il numero totale di nodi in Amazon CloudWatch. Se osservi un numero di nodi superiore a quello previsto, è probabile che sia in corso un'implementazione blu o verde.

Utilizza la seguente chiamata API per recuperare ulteriori informazioni sui nodi aggiuntivi e sul processo di migrazione della partizione:

GET /_cluster/health?pretty and GET /_cat/recovery?pretty

Se utilizzi un dominio del cloud privato virtuale (VPC), accertati di disporre di un numero sufficiente di indirizzi IP gratuiti nella sottorete. Se non ci sono abbastanza indirizzi IP specificati nella sottorete, l'avvio di nuovi nodi non va a buon fine. Di conseguenza, il cluster rimane bloccato nello stato Elaborazione. Per ulteriori informazioni, consulta Prenotazione di indirizzi IP in una sottorete VPC.

Se hai crittografato un dominio del servizio OpenSearch, assicurati che la chiave AWS KMS sia presente nell'account AWS prima di apportare una modifica alla configurazione. Se hai eliminato accidentalmente la chiave AWS KMS, il cluster può rimanere bloccato nello stato Elaborazione.

Il cluster può anche rimanere bloccato per i seguenti motivi:

  • C'è un nodo principale sovraccarico con troppe attività in sospeso o livelli elevati di pressione della CPU e della memoria JVM. Utilizza l'API delle attività in sospeso di cat per verificare eventuali attività in sospeso. Puoi anche controllare i parametri di riferimento MasterCPUUtilization e MasterJVMMemoryPressure in Amazon CloudWatch.
  • I prerequisiti per l'autenticazione Amazon Cognito per OpenSearch Dashboards non sono stati soddisfatti. Se hai configurato l'autenticazione di Amazon Cognito per OpenSearch Dashboards, assicurati di aver soddisfatto i prerequisiti di autenticazione. Ad esempio, il servizio OpenSearch deve avere il pool di utenti, il pool di identità Amazon Cognito e il ruolo AWS Identity Access Management (AWS IAM) impostati con le autorizzazioni corrette. Il nome predefinito per questo ruolo è CognitoAccessForAmazonOpenSearch (con la policy AmazonESCognitoAccess allegata).
    Nota: se hai creato un ruolo IAM personalizzato, assicurati che il tuo ruolo abbia le stesse autorizzazioni di CognitoAccessForAmazonOpenSearch.

La migrazione della partizione al nuovo set di nodi di dati non ha esito positivo

Una migrazione dello shard (dal vecchio set al nuovo set di nodi di dati) potrebbe non avere esito positivo per i seguenti motivi:

  • Il cluster del servizio OpenSearch è attualmente in stato di integrità rosso. Se il cluster è in stato di integrità rosso, risolvi il problema dello stato rosso del cluster in modo che passi a uno stato integro.
    Nota: è consigliabile configurare il cluster quando è in uno stato integro.
  • I nodi sono fuori servizio a causa di un carico di elaborazione elevato provocato dall'elevata pressione della memoria JVM e dall'utilizzo della CPU. Per risolvere questo problema, riduci il traffico di rete verso il cluster o arresta completamente il traffico di rete per ripristinare lo stato integro del cluster. In caso contrario, il processo di implementazione blu o verde potrebbe scadere e richiedere un intervento manuale.
  • A causa di guasti hardware interni, le partizioni sui vecchi nodi di dati possono rimanere bloccate durante una migrazione.
    Nota: a seconda del problema hardware, il cluster potrebbe inoltre non ripristinarsi automaticamente. Se il cluster non si ripristina automaticamente, il servizio OpenSearch esegue script di riparazione automatica per riportare i nodi a uno stato integro. La perdita del volume root di un nodo può impedire al servizio OpenSearch di rispondere e un gruppo con scalabilità automatica sostituisce automaticamente i nodi difettosi. Se il volume EBS collegato per un nodo si interrompe, è necessario un intervento manuale per sostituire il volume EBS. Per individuare quali partizioni sono ancora in funzione da un set di nodi precedente, utilizza i seguenti comandi API: API di allocazione cat, API di nodi cat o API di partizioni cat.
  • C'è un trasferimento di partizioni bloccato perché la memoria libera nel nuovo set di nodi è insufficiente. Questo problema si verifica quando sono presenti nuovi dati che entrano nel cluster durante un processo di implementazione blu o verde.
    Nota: l'implementazione blu o verde non viene attivata se il servizio OpenSearch rileva meno spazio di quello necessario per una corretta migrazione dei dati.
  • Un trasferimento di partizioni bloccate causato da partizioni bloccate su un set di nodi più vecchio. Per accertarsi che i frammenti non siano fissati a nessun nodo prima che venga apportata una modifica alla configurazione, controllare l'impostazione dell'indice. In alternativa, verificare se il cluster ha un blocco di scrittura causato da un'elevata pressione della memoria JVM o da uno spazio su disco insufficiente.

Per identificare quali frammenti di indice sono bloccati e le impostazioni dell'indice corrispondenti, utilizzare i seguenti comandi:

curl -X GET "ENDPOINT/_cluster/allocation/explain?pretty"
curl -X GET "ENDPOINT/INDEX_NAME/_settings?pretty"

Nelle impostazioni dell'indice, controlla se viene visualizzata una di queste impostazioni:

{
    "index.routing.allocation.require._name": "NODE_NAME" (OR)
    "index.blocks.write": true
}

Se osservi "index.routing.allocation.require._name": "NODE_NAME" nelle impostazioni dell'indice, rimuovi la seguente impostazione:

curl -X PUT "ENDPOINT/INDEX_NAME/_settings?pretty" H 'Content-Type: application/json' -d'
{
    "index.routing.allocation.require._name": null
}

Per ulteriori informazioni, consultaIndex-level shard allocation filtering (Filtraggio dell'allocazione delle partizioni a livello di indice) sul sito Web di Elasticsearch.

Se osservi "index.blocks.write": true nelle impostazioni dell'indice, significa che il cluster ha un blocco di scrittura. Il blocco di scrittura è probabilmente causato da un'elevata pressione della memoria JVM o da uno spazio su disco insufficiente. Assicurarsi di risolvere questi problemi prima di implementare altri suggerimenti per la risoluzione dei problemi. Per ulteriori informazioni sulla risoluzione dei problemi di questa eccezione, consulta ClusterBlockException.

Nota: se il cluster rimane bloccato nello stato “Elaborazione” per più di 24 ore, vuol dire che il cluster necessita di un intervento manuale. Inoltre, se non sono state apportate modifiche alla configurazione ma il numero di nodi è superiore al previsto, è possibile che sia in corso una patch del software.

Un controllo di convalida non è riuscito e ha restituito errori

Un dominio può rimanere bloccato nello stato Elaborazione quando un aggiornamento del software di servizio o un controllo di convalida dell'aggiornamento della versione fallisce e restituisce errori. Per risolvere questo problema, consulta Risoluzione degli errori di convalida.


Questo articolo è stato utile?


Hai bisogno della fattura o di supporto tecnico?