Blog de Amazon Web Services (AWS)

Category: AWS Big Data

Cree tableros en Microsoft Power BI utilizando el conector de Amazon Athena

Por Lesly Reyes, Telco Specialist Solutions Architect   Amazon Athena permite realizar consultas interactivas sobre datos almacenados en Amazon S3 mediante el estándar SQL. Una de las características de Athena es que solo se paga por las consultas que ejecuta, debido a que no utiliza servidor por lo que no es necesario desplegar infraestructura para visualizar sus datos. […]

Mejores prácticas para ejecutar Apache Kafka en AWS

Por Prasad Alle, Consultor Senior de Big Data de AWS. NOTA: Esta publicación en el blog fue escrita antes del lanzamiento de Amazon MSK, un servicio totalmente administrado, de alta disponibilidad y seguro para Apache Kafka. Te recomendamos usar Amazon MSK en lugar de ejecutar tu propio clúster Apache Kafka en Amazon EC2. Si necesitas […]

Documents being fed to a funnel for filtering

Ahorra dinero y tiempo en tus consultas con Amazon Athena

Amazon Athena permite consultar datos en Amazon S3 mediante SQL, sin tener que gestionar servidores y pagando en función de cuántos datos leemos en cada consulta. Utilizando técnicas como la compresión de ficheros, el particionado de los datos, o los formatos de fichero especialmente diseñados para analítica de datos, reduciremos significativamente la cantidad de datos que escaneamos, ahorrando así tanto en nuestra factura como en el tiempo de respuesta.

En este artículo demostraremos cómo diferentes optimizaciones en nuestros ficheros en S3 afectan al rendimiento y al coste de nuestras consultas en Athena. Estas técnicas también nos ayudarían si estamos analizando datos con Amazon Redshift Spectrum o con Amazon EMR.

El camino hacia lo administrado: el caso de Amazon Elasticsearch Service

Por Kevin Fallis, Arquitecto Especialista en Búsqueda de Soluciones de AWS   Antes de unirme a AWS, lideré un equipo de desarrollo que creaba soluciones de publicidad móvil con Elasticsearch. Elasticsearch es un popular motor de búsqueda y análisis de código abierto para análisis de registros, monitoreo de aplicaciones en tiempo real, análisis de flujos […]

Cómo Verizon Media Group migró de Apache Hadoop y Spark de su centro de datos a Amazon EMR

Este es un artículo de los autores invitados por Verizon Media Group   En Verizon Media Group (VMG), uno de los principales problemas a los que nos enfrentábamos era la dificultad de ampliar la capacidad de informática en el tiempo que se requiere para adquirir hardware, lo que a menudo llevaba meses. No era rentable […]

Usando Python shell y Pandas en AWS Glue para procesar conjuntos de datos pequeños y medianos

Angelo Carvalho es Arquitecto de Big Data Solutions Architect para Amazon Web Services AWS Glue es un servicio de ETL totalmente administrado. Entre muchos recursos, este ofrece un ambiente de ejecución sin servidor para ejecutar sus trabajos de ETL. Muchos clientes de AWS están usando el ambiente Spark de AWS Glue para ejecutar tales tareas, […]

Cómo Liberar Datos de Mainframe con AWS y Attunity Replicate

Por Jordan Martz, Director of Technology Solutions en Attunity,  Clive Bearman, Director of Product Marketing en Attunity, y Phil de Valence, Solutions Architect for Mainframe Modernization en AWS Se estima que el 80 por ciento de los datos corporativos del mundo residen o se originan en mainframes, de acuerdo con IBM. Históricamente, los mainframes han […]