Información general
Análisis escalable con Apache Druid en AWS es una solución de AWS que ayuda a configurar, operar y administrar Apache Druid en AWS de manera rápida y eficiente en un entorno de alojamiento rentable, de alta disponibilidad, resiliente y tolerante. Con esta solución, puede utilizar el conjunto completo de características y capacidades de Apache Druid y, al mismo tiempo, optimizar la elasticidad, la escalabilidad y los precios flexibles de las ofertas de procesamiento y almacenamiento en AWS.
Beneficios
Personalice de manera flexible las instalaciones con un motor de computación y el almacenamiento de AWS que elija de entre una variedad de instancias y opciones sin servidor.
Especifique un proveedor de identidad para autenticar a los usuarios mediante el protocolo OpenID Connect, utilice la compatibilidad inmediata de la solución con el protocolo ligero de acceso a directorios (LDAP) o configure los ajustes de autenticación básicos, como el nombre de usuario y la contraseña.
Utilice las entradas de registro emitidas por Druid en un grupo de registros centralizado de Amazon CloudWatch para facilitar las actividades de depuración y solución de problemas, configurar un panel de supervisión para realizar un seguimiento del estado
del clúster de Druid y ajustar las alarmas según las preferencias del cliente.
Instale y configure esta solución con soporte nativo para cargar extensiones de Druid, incluidas las extensiones principales y de la comunidad.
Detalles técnicos
Puede implementar automáticamente esta arquitectura mediante la guía de implementación.
Paso 1
AWS WAF (AWS WAF) protege la consola web de Druid y los puntos de conexión de la API de Druid contra las vulnerabilidades web y los bots comunes que pueden afectar a la disponibilidad, comprometer la seguridad o consumir recursos de manera excesiva. AWS WAF solo se aprovisiona e implementa para clústeres conectados a Internet.
Paso 2
Un servidor Linux con seguridad reforzada (host bastión) para administrar el acceso a los servidores Druid que se ejecutan en una red privada separada de una red externa. También se puede usar para acceder a la consola web de Druid a través de túneles SSH donde se implementa un equilibrador de carga de aplicación privado.
Paso 3
Un ALB sirve como punto de contacto único para los clientes. El equilibrador de carga distribuye el tráfico de aplicaciones entrante entre varios servidores de consultas en varias zonas de disponibilidad.
Paso 4
La subred privada se compone de lo siguiente:
- Grupo de escalado automático maestro de Druid: un grupo de escalado automático contiene una colección de servidores maestros de Druid. Un servidor maestro gestiona la ingesta y disponibilidad de los datos y es responsable de iniciar nuevos trabajos de ingesta y coordinar la disponibilidad de los datos en los “servidores de datos”. Dentro de un servidor maestro, la funcionalidad se divide entre dos procesos: Coordinator (coordinador) y Overlord (controlador principal).
- Grupo de escalado automático de datos de Druid: un grupo de escalado automático contiene una colección de servidores de datos de Druid. Un servidor de datos ejecuta trabajos de ingesta y almacena datos que pueden consultarse. Dentro de un servidor de datos, la funcionalidad se divide entre dos procesos: Historical (histórico) y MiddleManager (administrador intermedio).
- Grupo de escalado automático de consultas de Druid: un grupo de escalado automático contiene una colección de servidores de consultas de Druid. Un servidor de consultas proporciona los puntos de conexión con los que interactúan los usuarios y las aplicaciones de clientes, y redirige las consultas a servidores de datos u otros servidores de consultas. Dentro de un servidor de consultas, la funcionalidad se divide entre dos procesos: Broker (agente) y Router (enrutador).
- Grupo de escalado automático de ZooKeeper: un grupo de escalado automático contiene una colección de servidores de ZooKeeper. Apache Druid usa Apache ZooKeeper (ZK) para administrar el estado actual del clúster.
Paso 5
Un bucket de Amazon Simple Storage Service (S3) proporciona un almacenamiento profundo para el clúster de Apache Druid. El almacenamiento profundo es la ubicación en la que se almacenan los segmentos.
Paso 6
AWS Secrets Manager almacena los secretos que utiliza Apache Druid, incluido el secreto de Amazon Relational Database Service (RDS) y el secreto del usuario administrador. También almacena las credenciales de la cuenta del sistema que utilizan los componentes de Druid para autenticarse entre sí.
Paso 7
Amazon CloudWatch admite registros, métricas y paneles.
Paso 8
Una base de datos PostgreSQL de Amazon Aurora proporciona almacenamiento de metadatos para el clúster de Apache Druid. Druid usa el almacén de metadatos para almacenar únicamente metadatos sobre el sistema y no almacena datos reales.
Paso 9
El sistema de notificaciones, con tecnología de Amazon Simple Notification Service (Amazon SNS), envía alertas o alarmas con prontitud cuando se producen eventos en el sistema. Esto garantiza estar al tanto de manera inmediata de dichos eventos para tomar medidas cuando sea necesario.
- Fecha de publicación