Con Amazon Athena, solo paga por las consultas que ejecuta. Se le cobra en función de la cantidad de datos escaneados por cada consulta. Puede lograr significantes mejoras en el desempeño y el ahorro de costes al comprimir, dividir en particiones o convertir sus datos en un formato de columna, ya que cada una de esas operaciones reduce la cantidad de datos que Athena debe escanear para ejecutar una consulta.

Amazon Athena ya se encuentra disponible en general

Introducción a Amazon Athena
  • 5 USD por TB de datos escaneados.  

Puede ahorrar entre un 30% y un 90% en sus costos por consulta y obtener un desempeño mejor al comprimir, separar y convertir los datos en formatos de columna.

Se le cobra por la cantidad de bytes escaneados por Amazon Athena, redondeados al megabyte más cercano, con 10 MB mínimo por consulta. No se aplican cargos por declaraciones de lenguaje de definición de datos (DDL) como CREATE/ALTER/DROP TABLE, declaraciones de administración de particiones o consultas fallidas. Las consultas canceladas se cobran en función de la cantidad de datos escaneados.

La compresión de sus datos permite a Athena escanear menos datos. La conversión de sus datos a un formato de columna permite a Athena leer de forma selectiva solamente las columnas necesarias para procesar los datos. Athena admite Apache ORC y Apache Parquet. La división de los datos en particiones también permite a Athena restringir la cantidad de datos escaneados Eso se traduce en ahorros de costos y un desempeño mejorado. Puede ver la cantidad de datos escaneados por consulta en la consola de Athena. Para obtener más información, consulte el ejemplo de precios de Athena.

Amazon Athena realiza consultas en los datos directamente desde Amazon S3. La realización de consultas en sus datos con Athena no conlleva cargos de almacenamiento adicionales. Se le cobran las tarifas estándar de S3 por el almacenamiento, solicitudes y la transferencia de datos. Por defecto, los resultados de las consultas se almacenan en el bucket de S3 que elija y se facturan de acuerdo con las tarifas estándar de Amazon S3.

Si usa el catálogo de datos de AWS Glue con Athena, se le cobrarán las tarifas estándar del catálogo de datos de AWS. Para obtener detalles, haga clic aquí.

Considere una tabla con 3 columnas del mismo tamaño, almacenada en Amazon S3 como archivo de texto sin comprimir con un tamaño total de 3 TB. Para realizar una consulta en los datos de una sola columna de la tabla, Amazon Athena tendrá que escanear todo el archivo, ya que los formatos de texto no se pueden dividir.

  • Esta consulta costaría: 15 USD. (El precio por 3 TB escaneados es 3 * 5 USD/TB = 15 USD)

Si comprime el archivo con GZIP, podrá experimentar una ganancia de 3:1 en la compresión. En ese caso, dispondría de un archivo comprimido de 1 B. Realizar la misma consulta en este archivo costaría 5 USD. Athena tiene que escanear todo el archivo igualmente, pero como su tamaño es tres veces inferior, solo paga un tercio en comparación con el caso anterior.

Si comprime su archivo y lo convierte a un formato de columnas como Apache Parquet, lo que proporciona una compresión de 3:1, seguiría teniendo 1 TB de datos en Amazon S3. Sin embargo, en este caso, como Parquet tiene un formato de columnas, Amazon Athena puede leer solo la columna pertinente a la consulta ejecutada. Como la consulta en cuestión solo hace referencia a una única columna, Athena lee solamente esa columna, evitando leer dos tercios del archivo. Puesto que Athena solo lee un tercio del archivo, escanea nada más que 0,33 TB de datos de S3.

  • La consulta costaría: 1,67 USD. Eso supone el triple de ahorro de la compresión y el triple de ahorro por leer solo una columna.
    (Tamaño del archivo= 3 TB/3 = 1 TB. Datos escaneados al leer una sola columna = 1 TB/3 = 0,33 TB. Precio por 0,33 TB = 0,33 * 5/TB USD = 1,67 USD)