El blog de big data de AWS está pensado para que arquitectos de soluciones, científicos de datos y desarrolladores aprendan prácticas recomendadas para big data, descubran qué servicios administrados de big data de AWS son la mejor opción para cada caso de uso y para comenzar a profundizar en los servicios de big data de AWS. El objetivo de este blog es convertirse en un lugar de encuentro para descubrir nuevas maneras de recopilar, almacenar, procesar y visualizar datos a cualquier escala. Los lectores encontrarán tutoriales cortos con ejemplos de código, casos prácticos que demuestran los beneficios específicos de trabajar con big data en AWS, anuncios de nuevas características, demostraciones y tutoriales elaborados por socios y clientes, además de consejos y prácticas recomendadas para el uso de los servicios de big data de AWS.



El programa de conjuntos de datos públicos de Amazon está pensado para hospedar conjuntos de datos interesantes de disponibilidad libre para todo el mundo con objeto de fomentar la innovación y contribuir al avance de la ciencia y la investigación. Por eso, tanto si desea extraer datos del corpus web abierto Common Crawl como alinear algunos genomas o explorar imágenes de la NASA, AWS proporciona los datos, los servicios y la infraestructura necesarios para ello.


DynamoDB es un servicio de bases de datos NoSQL rápido y totalmente gestionado que permite almacenar y recuperar de manera fácil y económica cualquier cantidad de datos, así como atender cualquier nivel de tráfico de solicitudes. Su desempeño de confianza y una latencia de milisegundos de un solo dígito lo convierten en la opción ideal para aplicaciones de juegos, de tecnología publicitaria, móviles y muchas otras aplicaciones.

Amazon Elastic MapReduce (Amazon EMR) es un servicio web que facilita el procesamiento rápido y rentable de grandes cantidades de datos.

Amazon EMR utiliza Hadoop, un marco de código abierto, para distribuir los datos y el procesamiento en un clúster de tamaño variable de instancias de Amazon EC2. Amazon EMR se utiliza en diversas aplicaciones, como el análisis de registros, la indización web, el almacenamiento de datos, el aprendizaje de máquinas, el análisis financiero, la simulación científica y la bioinformática. Los clientes lanzan millones de clústeres de Amazon EMR cada año.

Amazon Kinesis es un servicio totalmente administrado para el procesamiento de streaming de datos en tiempo real a una escala masiva. Amazon Kinesis puede recopilar y procesar cientos de terabytes de datos por hora desde cientos de miles de fuentes de datos, de manera que le permite escribir con facilidad aplicaciones que procesen información en tiempo real, desde fuentes como∙clickstreams de sitios web, información de marketing y financiera, instrumentos de fabricación y redes sociales, así como datos de medición y logs operativos.

Con las aplicaciones de Amazon Kinesis, puede compilar paneles en tiempo real, capturar excepciones y generar alertas, administrar recomendaciones y tomar otras decisiones empresariales u operativas en tiempo real. También puede enviar datos fácilmente a una variedad de servicios diferentes como Amazon Simple Storage Service (Amazon S3), Amazon DynamoDB o Amazon Redshift. Con unos clics y un par de líneas de códigos, puede empezar a compilar aplicaciones que respondan a los cambios de los flujos de datos en cuestión de segundos y a cualquier escala, para lo que solo tiene que pagar por los recursos que utilice.

Amazon S3 es un servicio de almacenamiento para Internet y un componente esencial en todas las arquitecturas de big data en AWS. Está diseñado para facilitar a los desarrolladores recursos informáticos escalables basados en web.

Amazon S3 proporciona una sencilla interfaz de servicios web que puede utilizarse para almacenar y recuperar la cantidad de datos que desee, en cualquier momento y desde cualquier parte de la web. Concede acceso a todos los desarrolladores a la misma infraestructura económica, de alta escalabilidad, de confianza y rápida que utiliza Amazon para ejecutar su propia red global de sitios web. Este servicio tiene como fin maximizar los beneficios del escalado y trasladarlos a los desarrolladores.

Amazon Redshift es un servicio rápido y totalmente gestionado de almacén de datos con escalado de petabyte que permite que el análisis eficaz de todos los datos resulte sencillo y rentable con la utilización de las herramientas de inteligencia empresarial existentes. Puede empezar por tan solo 0,25 USD por hora sin asumir compromisos ni incurrir en costos iniciales y, posteriormente, escalar a un petabyte o más por 1 000 USD por terabyte al año, menos de una décima parte de lo que se cobra por la mayoría de las soluciones de almacenamiento de datos.


Muchas organizaciones están aprovechando ya la nube para crear e implementar aplicaciones de big data. Un nuevo informe de 451 Research muestra que la nube puede ayudar a una amplia variedad de organizaciones a obtener valor mensurable de big data.

En este informe, The Cloud-Based Approach to Achieving Business Value from Big Data (El método basado en la nube para obtener valor empresarial de big data), los investigadores realizan un análisis en profundidad de seis organizaciones y sus esfuerzos de adopción de big data basado en la nube.