Présentation
La solution AWS Analytique évolutive basée sur Apache Druid sur AWS vous permet de configurer, d’exploiter et de gérer rapidement et efficacement Apache Druid sur AWS, un environnement d’hébergement rentable, hautement disponible, résilient et tolérant aux pannes. Grâce à cette solution, vous pouvez utiliser la suite complète de fonctionnalités et de capacités d'Apache Druid, tout en optimisant l'élasticité, l'évolutivité et la tarification flexible des offres de calcul et de stockage sur AWS.
Avantages
Bénéficiez de la flexibilité nécessaire pour personnaliser les installations en utilisant le moteur de calcul et le stockage AWS de votre choix parmi une variété d’options d’instances et sans serveur.
Spécifiez un fournisseur d’identité pour authentifier les utilisateurs via le protocole OpenID Connect, utilisez la prise en charge prête à l’emploi de la solution pour le protocole LDAP (Lightweight Directory Access Protocol) ou configurez les paramètres d’authentification de base tels que le nom d’utilisateur et le mot de passe.
Utilisez les entrées des journaux, émises par Druid, dans un groupe de journaux Amazon CloudWatch centralisé pour faciliter les activités de débogage et de dépannage, configurer un tableau de bord de surveillance pour suivre l’état
du cluster Druid, et configurer des alarmes en fonction des préférences du client.
Installez et configurez cette solution avec une prise en charge native du chargement des extensions Druid, y compris les extensions de base et communautaires.
Détails techniques
Vous pouvez déployer automatiquement cette architecture à l’aide du guide d’implémentation.
Étape 1
AWS WAF pour protéger la console Web Druid et les points de terminaison de l’API Druid contre les robots et les failles web les plus courants susceptibles d’affecter la disponibilité, de compromettre la sécurité ou de provoquer une surconsommation des ressources. AWS WAF n’est provisionné et déployé que pour les clusters connectés à Internet.
Étape 2
Un serveur Linux sécurisé (hôte bastion) pour gérer l’accès aux serveurs Druid exécutés dans un réseau privé séparé d’un réseau externe. Il peut également être utilisé pour accéder à la console web de Druid par le biais d’un tunnel SSH où un Application Load Balancer (ALB)) privé est déployé.
Étape 3
Un ALB sert de point de contact unique pour les clients. L’équilibreur de charge répartit le trafic entrant des applications sur plusieurs serveurs de requêtes dans plusieurs zones de disponibilité.
Étape 4
Le sous-réseau privé comprend les éléments suivants :
- Groupe Auto Scaling principal de Druid : un groupe Auto Scaling contient une collection de serveurs principaux Druid. Un serveur principal gère l’ingestion et la disponibilité des données et est responsable du démarrage de nouvelles tâches d’ingestion et de la coordination de la disponibilité des données sur les « serveurs de données ». Au sein d’un serveur principal, les fonctionnalités sont réparties entre deux processus : Coordinator et Overlord.
- Groupe Auto Scaling de données Druid : un groupe Auto Scaling contient une collection de serveurs de données Druid. Un serveur de données exécute des tâches d’ingestion et stocke les données interrogeables. Au sein d’un serveur de données, les fonctionnalités sont réparties entre deux processus : Historical et MiddleManager.
- Groupe Auto Scaling de requêtes Druid : un groupe Auto Scaling contient une collection de serveurs de requêtes Druid. Un serveur de requêtes fournit les points de terminaison avec lesquels les utilisateurs et les applications clientes interagissent, en acheminant les requêtes vers des serveurs de données ou d’autres serveurs de requêtes. Au sein d’un serveur de requêtes, les fonctionnalités sont réparties entre deux processus : Broker et Router.
- Groupe Auto Scaling ZooKeeper : un groupe Auto Scaling contient une collection de serveurs ZooKeeper. Apache Druid utilise Apache ZooKeeper (ZK) pour la gestion de l’état actuel du cluster.
Étape 5
Un compartiment Amazon Simple Storage Service (S3) fournit un stockage profond pour le cluster Apache Druid. Le stockage profond est l’emplacement où sont stockés les segments.
Étape 6
AWS Secrets Manager stocke les secrets utilisés par Apache Druid, notamment le secret Amazon Relational Database Service (RDS) et le secret de l’utilisateur administrateur. Il stocke également les informations d’identification du compte système que les composants Druid utilisent pour s’authentifier les uns auprès des autres.
Étape 7
Amazon CloudWatch prend en charge les journaux, les métriques et les tableaux de bord.
Étape 8
Une base de données Amazon Aurora PostgreSQL fournit le stockage des métadonnées pour le cluster Apache Druid. Druid utilise le magasin de métadonnées pour héberger uniquement les métadonnées relatives au système et ne stocke pas les données réelles.
Étape 9
Le système de notification, à technologie Amazon Simple Notification Service (Amazon SNS), émet une alerte ou une alarme dès qu’un événement système se produit. Cela garantit une prise en compte et une action immédiates en cas de besoin.
- Date de publication