En esta guía, se aborda cómo configurar un entorno de análisis de datos de autoservicio que sea fácil de lanzar y acceder para los ingenieros y científicos de datos. El entorno de desarrollo integrado (IDE) se basa en los cuadernos de Jupyter, lo que proporciona una interfaz interactiva para una fácil exploración de datos e incluye todas las herramientas necesarias para depurar, crear y programar canalizaciones de datos casi en tiempo real. El entorno permite la colaboración segura en equipo con el aislamiento de la carga de trabajo y permite a los administradores autoaprovisionar, escalar y desaprovisionar los recursos desde una única interfaz sin exponer las complejidades de la infraestructura subyacente ni comprometer la seguridad, la gobernanza y los costes. Los administradores pueden gestionar de forma independiente las configuraciones de los clústeres y optimizar de manera continua los costes, la seguridad, la fiabilidad y el rendimiento.

Tenga en cuenta lo siguiente: [Descargo de responsabilidad]

Diagrama de la arquitectura

[Descripción del diagrama de arquitectura]

Descargue el diagrama de la arquitectura en PDF 

Pilares de AWS Well-Architected Framework

AWS Well-Architected Framework le permite comprender las ventajas y desventajas de las decisiones que tome durante la creación de sistemas en la nube. Los seis pilares de este marco permiten aprender las prácticas recomendadas arquitectónicas para diseñar y explotar sistemas confiables, seguros, eficientes, rentables y sostenibles. Con la Herramienta de AWS Well-Architected, que se encuentra disponible gratuitamente en la Consola de administración de AWS, puede revisar sus cargas de trabajo con respecto a estas prácticas recomendadas al responder a un conjunto de preguntas para cada pilar.

El diagrama de arquitectura mencionado es un ejemplo de una solución que se creó teniendo en cuenta las prácticas recomendadas de una buena arquitectura. Para tener completamente una buena arquitectura, debe seguir todas las prácticas recomendadas de buena arquitectura posibles.

  • Amazon EMR Studio proporciona un entorno de desarrollo integrado (IDE) totalmente gestionado y basado en la web con cuadernos de Jupyter, lo que les permite a los equipos de ingeniería o ciencia de datos desarrollar, visualizar y depurar aplicaciones de Spark Streaming de forma interactiva sin tener que gestionar servidores adicionales. Los equipos pueden autoaprovisionar clústeres de Amazon EMR predefinidos mediante plantillas de infraestructura como código (IaC) en AWS Service Catalog. Esto reduce la dependencia de los equipos de operaciones en la nube, mejora la agilidad del desarrollo y ayuda a las organizaciones a seguir las prácticas recomendadas de seguridad y gobernanza con gastos generales mínimos.

    Lea el documento técnico sobre excelencia operativa 
  • Amazon EMR Studio admite la autenticación y la autorización mediante AWS Identity and Access Management (AWS IAM), o AWS Identity Center, lo que elimina la necesidad de conectarse con SSH (Secure Shell) directamente a los clústeres de Spark. Lake Formation permite un control de acceso detallado y centralizado a los datos de sus lagos de datos, centralizando la administración del acceso de los usuarios y aumentando una postura sólida de seguridad y gobernanza en las canalizaciones de datos.

    Lea el documento técnico sobre seguridad 
  • Kinesis Data Streams y Amazon EMR brindan capacidades de escalabilidad automática para satisfacer la demanda de rendimiento del flujo de trabajo de transmisión de datos en tiempo real. Amazon EMR utiliza el marco Apache Spark, que distribuye y reintenta de manera automática los trabajos en caso de que se produzcan errores en la red o en la aplicación. Kinesis Data Streams también escala capacidades de manera automática y realiza una réplica sincronizada de los datos en tres zonas de disponibilidad, lo que proporciona un alto nivel de disponibilidad y durabilidad de los datos.

    Lea el documento técnico sobre fiabilidad 
  • Kinesis Data Streams escala capacidades de manera automática en respuesta a la variación del tráfico de datos, lo que permite que el flujo de trabajo de procesamiento en tiempo real satisfaga las demandas de rendimiento. Amazon EMR proporciona varias funciones de optimización del rendimiento para Spark, lo que permite a los usuarios una ejecución 3,5 veces más rápida sin ningún cambio en las aplicaciones. Además, Athena procesa de forma automática las consultas en paralelo y aprovisiona los recursos necesarios. Los datos también se pueden almacenar en claves de partición y formatos de columnas de Amazon S3 para aumentar el rendimiento de las consultas.

    Lea el documento técnico sobre eficacia del rendimiento 
  • Esta guía proporciona un ejemplo de plantilla de clúster de Amazon EMR que utiliza flotas de instancias con capacidad de instancias de spot de Amazon EC2 y especifica los tipos de instancias de Amazon EC2 Graviton3. Esto puede generar un ahorro de costes de hasta un 20 % con respecto a instancias comparables de Amazon Elastic Compute Cloud (Amazon EC2) basadas en x86. Además, el uso de tiempos límite de inactividad y niveles de almacenamiento de Amazon S3 permite un mejor uso de los recursos de procesamiento y almacenamiento con costes optimizados.

    Lea el documento técnico sobre optimización de costes 
  • Los tipos de instancia de Amazon EC2 Graviton3 usan hasta un 60 % menos de energía para obtener el mismo rendimiento que las instancias de Amazon EC2 comparables, lo que ayuda a reducir la huella de carbono. El uso de las instancias de spot de Amazon EC2 y la configuración de tiempo límite de inactividad de Amazon EMR ayuda a garantizar un mejor uso de los recursos y minimiza el impacto ambiental de la carga de trabajo.

    Lea el documento técnico sobre sostenibilidad 
[Tipo de contenido]

[Título]

En esta [entrada de blog/libro electrónico/orientación/código de muestra] se demuestra cómo [insertar una descripción breve].

Descargo de responsabilidad

El código de muestra; las bibliotecas de software; las herramientas de línea de comandos; las pruebas de concepto; las plantillas; o cualquier otra tecnología relacionada (incluida cualquiera de las anteriores que proporcione nuestro personal) se brinda como contenido de AWS bajo el Contrato de cliente de AWS, o el contrato escrito pertinente entre usted y AWS (lo que sea aplicable). No debe utilizar este contenido de AWS en sus cuentas de producción, ni en producción ni en otros datos críticos. Es responsable de probar, proteger y optimizar el contenido de AWS, como el código de muestra, según corresponda para el uso de grado de producción en función de sus prácticas y estándares de control de calidad específicos. La implementación de contenido de AWS puede incurrir en cargos de AWS por crear o utilizar recursos con cargo de AWS, como ejecutar instancias de Amazon EC2 o utilizar el almacenamiento de Amazon S3.

Las referencias a servicios u organizaciones de terceros en esta Guía no implican un respaldo, patrocinio o afiliación entre Amazon o AWS y el tercero. La orientación de AWS es un punto de partida técnico, y puede personalizar su integración con servicios de terceros al implementar la arquitectura.

¿Le resultó útil esta página?