Comenzar con el proyecto

5 pasos  |  60 minutos

Analyze_Big_Data_HERO-ART_SM

P: ¿Qué es Amazon EMR?

Amazon EMR es un servicio de Hadoop administrado que permite ejecutar las versiones más recientes de marcos de big data populares como Apache Spark, Presto, Hbase, Hive, entre otros, en clústeres completamente personalizables. Amazon EMR le brinda el control total de la configuración de los clústeres y del software que instale en ellos.

P: ¿Qué puedo hacer con Amazon EMR?

Con Amazon EMR, es posible aprovisionar de manera instantánea marcos populares de código abierto, como Hadoop y Spark, con la capacidad que desee para realizar tareas intensivas con datos. Algunos casos de uso comunes son: indexación web, minería de datos, análisis de archivos de log, extracción, transformación y carga (ETL), aprendizaje automático, análisis financiero, simulación científica e investigación bioinformática. Amazon EMR le permite centrarse en el procesamiento o análisis de datos sin tener que preocuparse de dedicar tiempo a preparar, administrar o ajustar clústeres de Hadoop, ni de la capacidad de cómputo de la que disponen.

Amazon EMR es idóneo para problemas que necesitan el procesamiento rápido y eficiente de grandes volúmenes de datos. Esta interfaz de servicio web permite construir flujos de trabajo para procesamiento y monitorizar programáticamente el progreso de los clústeres en ejecución. Además, puede usar la interfaz web simple de la consola de administración de AWS para lanzar clústeres y monitorear cálculos con un alto volumen de procesos.

P: ¿Puedo usar este proyecto para analizar mis propios logs?

Sí. Puede cargar sus propios logs de datos a un bucket de Amazon S3 y utilizar un clúster similar para ejecutar consultas en sus propios datos. Sin embargo, tenga en cuenta que este proyecto no se diseñó para entornos de producción.

P: ¿Cómo transfiero mis datos a Amazon S3?
Puede crear buckets, cargar objetos y definir controles de acceso de manera fácil y segura mediante la consola de administración de AWS. La Guía de introducción de Amazon S3 le indica cómo comenzar a utilizar la consola de administración de AWS con Amazon S3.

Amazon S3 también se integra con varios otros productos de AWS y conectores de terceros para ayudarlo a enviar datos desde y hacia la nube. Más información sobre las herramientas de migración de datos a la nube.

P: ¿Cómo de seguros están mis datos?

Amazon S3 es seguro de forma predeterminada. Solo los propietarios del objeto y el bucket tienen acceso a los recursos de Amazon S3 que crean. Amazon S3 admite la autenticación de usuario para controlar el acceso a los datos. Puede cargar/descargar de forma segura los datos en Amazon S3 a partir de puntos de enlace SSL con el protocolo HTTPS. Puede utilizar las herramientas de AWS Identity and Access Management (IAM), como las funciones y los usuarios de IAM, para controlar el acceso y los permisos. Por ejemplo, puede otorgar permisos de lectura, pero no de escritura, a determinados usuarios en los clústeres. Además, puede utilizar las configuraciones de seguridad de Amazon EMR para definir diversas opciones de cifrado en reposo y en tránsito, incluida la compatibilidad con el cifrado de Amazon S3. Obtenga más información sobre el control del acceso a su clúster y el cifrado de Amazon EMR.

Comenzar con el proyecto