Características de Amazon Athena

¿Por qué elegir Athena?

Amazon Athena es un servicio de consultas interactivo que facilita el análisis de datos directamente en Amazon S3 con SQL estándar. Athena no tiene servidores, por lo que no hay que configurar ni administrar ninguna infraestructura y puede elegir pagar en función de las consultas que ejecute o de la computación que necesiten sus consultas. Puede utilizar Athena para procesar registros, analizar datos y ejecutar consultas interactivas. Athena se escala automáticamente, ejecutando las consultas en paralelo, por lo que los resultados son rápidos, incluso con conjuntos de datos de gran tamaño y consultas complejas.  

Page Topics

Beneficios clave

Beneficios clave

Amazon Athena es un servicio sin servidor, por lo que no hay que administrar infraestructura. No es necesario preocuparse por configuraciones, actualizaciones del software, errores ni del escalado de la infraestructura cuando crezcan sus conjuntos de datos y cantidad de usuarios. Athena se ocupa de todo esto automáticamente, para que pueda concentrarse en los datos y no en la infraestructura.

Para comenzar, inicie sesión en la consola de Athena, defina los esquemas con el asistente de la consola o mediante la introducción de declaraciones DDL y comience a realizar consultas inmediatamente con el editor de consultas integrado. También puede usar AWS Glue para rastrear de manera automática orígenes de datos con el fin de encontrar datos y completar su catálogo de datos con definiciones de particiones y tablas nuevas y modificadas. Los resultados se muestran en la consola en cuestión de segundos y se escriben automáticamente en la ubicación que elija de S3. También puede descargarlos en su escritorio. Con Athena, no es necesario realizar trabajos complejos de ETL para preparar los datos para el análisis. Por ello, cualquier persona con habilidades SQL puede analizar conjuntos de datos a gran escala de forma rápida y sencilla.

Amazon Athena se basa en Trino y Presto, motores SQL distribuidos de código abierto optimizados para el análisis de datos interactivos y de baja latencia. Eso significa que puede hacer consultas en conjuntos de datos de gran tamaño en Amazon S3 con ANSI SQL, con compatibilidad para combinaciones grandes, funciones de ventanas y matrices. Athena admite una amplia variedad de formatos de datos, como CSV, JSON, ORC, Avro o Parquet. Con los conectores federados de origen de datos de Athena, puede consultar almacenes de datos adicionales y combinar los datos con datos almacenados en Simple Storage Service (Amazon S3). Puede acceder a Athena y ejecutar consultas desde la consola de Athena, la API, la CLI, el SDK de AWS y las aplicaciones compatibles de desarrollo de SQL e inteligencia empresarial mediante los controladores JDBC y ODBC de Athena.

Amazon Athena ofrece dos modelos de precios flexibles. De forma predeterminada, las consultas se facturan en función de los datos escaneados por consulta en terabytes (TB). Esto le permite enviar consultas sin planificar la computación con antelación. Si prefiere pagar en función de la computación que consumen sus consultas o desea controlar la simultaneidad y priorizar las cargas de trabajo, utilice los precios basados en la capacidad disponibles en Provisioned Capacity. Para mayor flexibilidad, puede usar la facturación por consulta y los precios basados en la capacidad al mismo tiempo en la misma cuenta.

Con Amazon Athena, no tiene que preocuparse por administrar o ajustar clústeres para obtener un rendimiento ágil. Athena está optimizado para lograr un rendimiento ágil con Amazon S3. Athena ejecuta las consultas en paralelo automáticamente, de manera que obtenga los resultados en cuestión de segundos, incluso en conjuntos de datos de gran tamaño.  

Amazon Athena tiene alta disponibilidad y ejecuta consultas con recursos informáticos en varias ubicaciones, lo que le permite direccionar las consultas automáticamente según corresponda si una ubicación en particular no se encuentra disponible. Athena utiliza Amazon S3 como almacenamiento de datos subyacente, por lo que los datos son duraderos y están altamente disponibles. Amazon S3 ofrece una infraestructura duradera que permite almacenar datos importantes y está diseñado para ofrecer una durabilidad del 99,999999999% de los objetos. Sus datos se almacenan de forma redundante en diversas instalaciones y en diferentes dispositivos de cada instalación.

Amazon Athena le permite controlar el acceso a los datos mediante políticas de AWS Identity and Access Management (IAM), listas de control del acceso (ACL) y políticas de buckets de Amazon S3. Con las políticas de IAM, puede otorgar a los usuarios de IAM un control minucioso de sus buckets de S3. Al controlar el acceso a los datos de S3, puede impedir que los usuarios realicen consultas en ellos con Athena. Athena también le permite consultar datos cifrados almacenados en Amazon S3 y escribir los resultados cifrados nuevamente en su bucket de S3. Se soportan ambas encriptaciones, la del lado del servidor y la del lado del cliente.

Amazon Athena se integra directamente con AWS Glue. Con el catálogo de datos de AWS Glue, podrá crear un repositorio de metadatos unificado en diversos servicios, rastrear orígenes de datos para descubrir esquemas y completar su catálogo con definiciones de particiones y tablas nuevas y modificadas, y mantener las versiones de los esquemas. También puede usar las capacidades ETL totalmente administradas de Glue para transformar datos o convertirlos en formatos de columna con el fin de reducir los costos y optimizar el rendimiento de las consultas. Más información sobre AWS Glue.

Athena proporciona conectores integrados a 30 almacenes de datos populares de AWS, en las instalaciones y otros almacenes de datos en la nube, incluidos Amazon Redshift, Amazon DynamoDB, Google BigQuery, Google Cloud Storage, Azure Synapse, Azure Data Lake Storage, Redis, Snowflake y SAP Hana. Con los conectores de orígenes de datos de Athena, puede generar información a partir de múltiples orígenes de datos mediante la sintaxis SQL de Athena y sin la necesidad de mover ni transformar los datos. Los conectores de datos se ejecutan como funciones de AWS Lambda y pueden habilitarse para el acceso entre cuentas con el fin de escalar las consultas SQL a cientos de usuarios finales. Para obtener una lista de los orígenes admitidos, consulte Conectores de orígenes de datos disponibles. Para obtener información sobre cómo crear un conector de orígenes de datos personalizado, consulte el SDK de conectores de Athena.

Es posible invocar modelos de Machine Learning de SageMaker en una consulta SQL de Athena para ejecutar tareas de inferencia. La posibilidad de utilizar modelos de machine learning en consultas SQL permite que tareas complejas, como la detección de anomalías, el análisis de cohortes de clientes y las predicciones de ventas, sean tan simples como escribir una consulta SQL. Athena facilita a cualquier persona con experiencia en SQL la ejecución de modelos de machine learning implementados en Amazon SageMaker.