Data Lakes y Analytics en AWS

La cartera de servicios más completa, segura, escalable y rentable para crear soluciones de data lakes y analytics

AWS ofrece un conjunto integrado de servicios que proveen todo lo necesario para crear y administrar de manera rápida y sencilla un data lake destinado al análisis. Los ldata lakes con tecnología de AWS pueden manejar el nivel de escala, agilidad y flexibilidad requerido para combinar diferentes tipos de datos y enfoques analíticos a los fines de obtener información más detallada. Para lograrlo, utilizan procesos que son inviables con los almacenes de datos y los silos de datos tradicionales. AWS ofrece a los clientes la gama más amplia de servicios de análisis y aprendizaje automático para que puedan obtener acceso a todos los datos relevantes de manera sencilla, sin poner en riesgo la seguridad ni el control.

El número de organizaciones que utilizan data lakes y tareas de análisis en AWS supera al de cualquier otra plataforma. Clientes como Cencosud, Rappi, NASDAQ, Zillow, Yelp, iRobot y FINRA confían en AWS para ejecutar cargas de trabajo de análisis fundamentales para sus empresas.

Data lakes y analytics en AWS

Data lakes y analytics en AWS

AWS le ofrece el conjunto más amplio de servicios para migrar, almacenar y analizar datos con el fin de que pueda crear su solución de data lakes y analytics.

aws-datalake-diagram-simplified

Migración de datos

Importe sus datos de On-Premises en tiempo real.

Data lakes

Almacene cualquier tipo de datos de manera segura, desde gigabytes a exabytes.

Analytics

Analice datos con la selección más amplia de servicios de análisis.

Machine Learning

Prediga resultados futuros e imponga acciones para lograr una respuesta rápida.

Migración de datos

El primer paso para crear lagos de datos en AWS consiste en migrar datos a la nube. Las limitaciones físicas del ancho de banda y las velocidades de transferencia restringen la posibilidad de migrar datos sin interrupciones importantes, costos elevados ni plazos prolongados. Con el fin de lograr una transferencia de datos sencilla y flexible, AWS ofrece la serie de opciones más amplia para transferir datos a la nube.

Si desea crear trabajos de ETL y transformaciones de aprendizaje automático para un data lake, lea más información acerca del servicio AWS Lake Formation.

Transferencia de datos desde el On-Premise

AWS ofrece varias formas de migrar datos desde un centro de datos a AWS. Puede usar AWS Direct Connect para establecer una conexión de red exclusiva entre su red y AWS. Para migrar de petabytes a exabytes de datos a AWS con dispositivos físicos, puede usar AWS Snowball y AWS Snowmobile. Si desea que sus aplicaciones locales almacenen datos directamente en AWS, puede usar AWS Storage Gateway.  

Consumo de datos en tiempo real

AWS ofrece varias maneras para incorporar datos generados en tiempo real a partir de nuevos orígenes, como sitios web, aplicaciones móviles y dispositivos conectados a Internet. Para simplificar la recopilación y la carga de datos de streaming o datos de dispositivos compatibles con IoT, puede usar Amazon Kinesis Data Firehose, Amazon Kinesis Video Streams y AWS IoT Core.  

Data lake

Una vez que los datos están preparados para la nube, AWS facilita su almacenamiento en cualquier formato, de manera segura y a gran escala, con Amazon S3 y Amazon Glacier. Para que los usuarios finales puedan encontrar con mayor facilidad los datos relevantes que deben utilizar en sus análisis, el servicio AWS Glue crea automáticamente un catálogo único en el cual los usuarios pueden realizar búsquedas y consultas.

AWS Lake Formation

Cree un lago de datos seguro en cuestión de días

AWS Lake Formation es un servicio que facilita la configuración de un lago de datos seguro en cuestión de días. Con él, puede trasladar, almacenar, catalogar y limpiar los datos más rápido, además de poder utilizarlo a fin de definir la seguridad, el gobierno y las políticas de auditoría en un solo lugar, en vez de realizar estas tareas por servicio, y luego aplicar esas políticas para sus usuarios en sus aplicaciones de análisis. Con Lake Formation, puede aún crear un catálogo de datos que describe los distintos conjuntos de datos que están disponibles junto a los grupos de usuarios que tienen acceso a cada uno. Si desea crear un data lake seguro con mayor rapidez, lea más información acerca del servicio AWS Lake Formation.

Almacenamiento de objetos

Amazon S3

El servicio Amazon S3 permite almacenar objetos de manera segura, duradera y con alta escalabilidad. Además, el acceso a los datos se concreta con una latencia de milisegundos. S3 se diseñó para almacenar todos los tipos de datos provenientes de cualquier origen: sitios web y aplicaciones móviles, aplicaciones corporativas y datos de sensores o dispositivos compatibles con IoT. El servicio se creó para almacenar y recuperar cualquier volumen de datos con un nivel de disponibilidad único. Además, se creó desde cero para ofrecer una durabilidad del 99,999999999 % (11 nueves). S3 Select concentra la lectura y la recuperación de datos, lo que reduce los tiempos de respuesta en hasta un 400 %. S3 ofrece capacidades de conformidad y seguridad integrales que cumplen los requisitos normativos más estrictos.  

Copias de seguridad y archivo

Amazon Glacier

El servicio Amazon Glacier ofrece almacenamiento seguro, duradero y de muy bajo costo destinado al archivo y las copias de seguridad a largo plazo en el cual es posible obtener acceso a los datos en cuestión de minutos. De manera similar a S3 Select, con Glacier Select es posible leer y recuperar únicamente los datos que se necesitan. El servicio está diseñado para ofrecer una durabilidad del 99,999999999 % (11 nueves) y suministra capacidades de conformidad y seguridad integrales que pueden ayudar a cumplir los requisitos normativos más estrictos. Los clientes pueden almacenar datos por tan solo 0,004 USD por gigabyte al mes, lo que representa un ahorro significativo en comparación con las soluciones locales.

Catálogo de datos

AWS Glue

AWS Glue es un servicio completamente administrado que proporciona un catálogo de datos para permitir encontrar datos en un lago de datos. Además, es capaz de realizar operaciones de extracción, transformación y carga (ETL) con el fin de preparar datos para análisis. El catálogo de datos se crea automáticamente como un almacén de metadatos persistente para todos los recursos de datos, lo que permite realizar búsquedas y consultas en los datos en una única vista.

Webinar On-Demand

Data Lake & Analytics

Vea gratis y bajo demanda nuestro Webinar de Data Lake y Analytics, que tuvo lugar durante nuestro Webinar-A-Thon de abril. Inicialmente se presenta una visión general de Data Lake, pero además también se puede aprender más sobre el consumo de datos (carga) en el Data Lake, análisis, visualización y aprendizaje automático. Para obtener más información sobre los temas relacionados con la nube de AWS al tener acceso a este y otros webinars que ya han tenido lugar y suscribirse a los siguientes, ¡visite nuestra página de Webinars 2019!

Analytics

AWS provee el conjunto más amplio y rentable de servicios de análisis que se ejecutan en el lago de datos. Cada servicio de análisis se creó específicamente para una amplia gama de casos de uso de análisis, como el análisis interactivo, el procesamiento de big data con Apache Spark y Hadoop, el almacenamiento de datos, el análisis en tiempo real, el análisis operacional, los paneles y las visualizaciones.

Si desea administrar un acceso seguro y tipo autoservicio de los datos que se encuentran en un data lake para utilizar servicios de análisis, lea más información sobre AWS Lake Formation.

Análisis interactivo

Amazon Athena

Para el análisis interactivo, Amazon Athena facilita el análisis de los datos directamente en S3 y Glacier mediante el uso de consultas de SQL estándar. Athena es un servicio sin servidor, por lo que no es necesario configurar ni administrar infraestructura. Puede empezar a realizar consultas en los datos de manera instantánea, obtener resultados en segundos y pagar únicamente por las consultas que ejecuta. Simplemente señale los datos en Amazon S3, defina el esquema y comience a realizar consultas con SQL estándar. La mayoría de los resultados se proporciona en cuestión de segundos.  

Procesamiento de big data

Amazon EMR

Para procesar big data con los marcos Spark y Hadoop, Amazon EMR ofrece un servicio administrado que permite procesar grandes volúmenes de datos de manera sencilla, ágil y rentable. Amazon EMR admite 19 proyectos de código abierto diferentes, incluidos Hadoop, Spark, HBase y Presto, con EMR Notebooks para tareas de ingeniería de datos, desarrollo de ciencia de datos y colaboraciones. Cada proyecto se actualiza en EMR dentro de los 30 días posteriores al lanzamiento de una versión, lo que garantiza que tendrá lo más reciente y óptimo de la comunidad, sin esfuerzo alguno.

Almacenamiento de datos

Amazon RedShift

Para el almacenamiento de datos, Amazon Redshift ofrece la posibilidad de ejecutar consultas analíticas complejas en petabytes de datos estructurados. Además, el servicio incluye Redshift Spectrum, que ejecuta consultas de SQL directamente en exabytes de datos estructurados o no estructurados en S3 sin el requisito de tener que realizar migraciones de datos innecesarias. El costo de Amazon Redshift es menor a la décima parte de lo que cuesta una solución tradicional. Comience por tan solo 0,25 USD la hora y aumente la escala a petabytes de datos por 1000 USD por terabyte al año.

Análisis en tiempo real

Amazon Kinesis y MSK

Para el análisis en tiempo real, Amazon Kinesis facilita la recopilación, el procesamiento y el análisis de datos de streaming, como datos de telemetría basados en IoT, registros de aplicaciones y secuencias de clics de sitios web. Amazon MSK es un servicio completamente administrado que facilita la tarea de crear y ejecutar aplicaciones que utilizan Apache Kafka, una plataforma de código abierto para crear aplicaciones y canalizaciones de datos de streaming con funcionamiento en tiempo real, para procesar datos de streaming.

Análisis operacionales

Amazon Elasticsearch Service

Para los análisis operacionales como la monitorización de aplicaciones, el análisis de registros y el análisis de secuencias de clics, Amazon Elasticsearch Service le permite buscar, analizar, filtrar, agregar y visualizar los datos casi en tiempo real. Amazon Elasticsearch Service pone a su alcance las API de uso sencillo y las capacidades de análisis en tiempo real de Elasticsearch junto con el nivel de disponibilidad, escalabilidad y seguridad que necesitan las cargas de trabajo de producción.

 

Paneles y visualizaciones

Amazon QuickSight

Para los paneles y las visualizaciones, Amazon QuickSight le ofrece un servicio de análisis empresarial ágil y basado en la nube que facilita la creación de visualizaciones impactantes y paneles completos a los que se puede obtener acceso desde cualquier navegador o dispositivo móvil.

 

Machine Learning

Para los casos de uso de análisis predictivo, AWS ofrece un amplio conjunto de servicios de aprendizaje automático y herramientas que se ejecutan en su lago de datos en AWS. Nuestros servicios están basados en los conocimientos y las capacidades que hemos ido desarrollando en Amazon, donde el aprendizaje automático ha sido el soporte de los motores de recomendaciones, la cadena de suministro, las previsiones, los centros de procesamiento de pedidos y la planificación de capacidad de Amazon.com.  

Marcos e interfaces

Para científicos de datos y profesionales expertos en aprendizaje automático, AWS ofrece AMI de aprendizaje profundo de AWS que facilitan la creación de modelos de aprendizaje profundo y de clústeres con instancias con GPU optimizadas para aprendizaje automático y profundo. AWS admite la mayoría de los marcos de trabajo de aprendizaje automático, incluidos Apache MXNet, TensorFlow y Caffe2, para que pueda incorporar o desarrollar cualquier modelo que elija. Estas capacidades ofrecen el nivel de capacidad, velocidad y eficiencia único que necesitan las cargas de trabajo de aprendizaje profundo y automático.

Servicios de la plataforma

Los desarrolladores que deseen incursionar en el aprendizaje automático pueden usar Amazon SageMaker, un servicio de la plataforma que simplifica el proceso completo de crear, entrenar e implementar modelos de aprendizaje automático mediante el suministro de todo lo que necesita para conectarse con sus datos de entrenamiento, seleccionar y optimizar el algoritmo y el marco óptimos, e implementar su modelo en clústeres de Amazon EC2 cuya escala se ajusta automáticamente. SageMaker también incluye blocs de notas de Jupyter hospedados que facilitan el análisis y la visualización de datos de entrenamiento almacenados en Amazon S3.

Servicios para aplicaciones

Los desarrolladores que deseen introducir funcionalidades de inteligencia artificial previamente creadas en sus aplicaciones pueden usar las API de AWS orientadas a soluciones para visión artificial y procesamiento de lenguaje natural. Estos servicios permiten a los desarrolladores incorporar inteligencia a sus aplicaciones sin necesidad de desarrollar ni entrenar modelos propios.

Webinar On-Demand

AI/ML y Big Data

Vea gratis y bajo demanda nuestro Webinar de AI/ML y Big Data en julio. Fue una sesión completa de preguntas y respuestas sobre IA/ML (Inteligencia Artificial / Machine Learning) y Big Data, directamente con nuestros expertos. La presentación de cada tema duró 30 minutos, con una presentación inicial y un tiempo dedicado para despejar todas las dudas técnicas de los asistentes. Para obtener más información sobre los temas relacionados con la nube de AWS al tener acceso a este y otros seminarios web que ya han tenido lugar y suscribirse a los siguientes, ¡visite nuestra página de Webinars 2019!

El número de tareas de data lakes y analytics que se crea en AWS supera al de las demás plataformas

¿Cuáles son los beneficios de crear data lakes y tareas de análisis en AWS?

Flexibilidad y opciones

AWS ofrece el conjunto más amplio de motores y herramientas de análisis para analizar datos con formatos y estándares abiertos. Puede almacenar datos en los formatos de datos basados en estándares de su preferencia, como CSV, ORC, Grok, Avro y Parquet, y cuenta con la flexibilidad para analizar los datos de diferentes maneras, como almacenamiento de datos, consultas SQL interactivas, análisis en tiempo real y procesamiento de big data. La amplitud de los servicios de análisis que puede utilizar en sus datos en AWS garantiza que se satisfarán sus necesidades vinculadas con casos de uso de análisis tanto existentes como futuras.

Escalabilidad y disponibilidad inigualables

Amazon S3 se creó para almacenar y recuperar cualquier volumen de datos con un nivel de disponibilidad único. Además, se creó desde cero para ofrecer una durabilidad del 99,999999999 % (11 nueves). Es el único servicio de almacenamiento que puede almacenar sus datos en varios centros de datos distribuidos en tres zonas de disponibilidad dentro de una sola región de AWS para lograr una resiliencia inigualable en comparación con los problemas que implica contar con un solo centro de datos. Además, es el único que replica datos entre cualquier región de manera continua.

Alto nivel de seguridad

S3 es la única plataforma de almacenamiento en la nube que le permite implementar políticas de acceso, registro y auditoría a nivel de la cuenta y de los objetos. S3 proporciona cifrado automático del lado del servidor, cifrado con claves administradas por AWS Key Management Service (KMS) y cifrado con claves que usted administra. S3 cifra los datos en tránsito al momento de realizar replicaciones entre regiones y le permite usar cuentas diferentes para regiones de origen y destino con el fin de protegerse de eliminaciones internas malintencionadas. Para detectar proactivamente un ataque en su etapa inicial, Amazon Macie, un servicio de seguridad basado en aprendizaje automático, controla la actividad de acceso a los datos constantemente en busca de anomalías y genera alertas detalladas cuando detecta un posible acceso no autorizado o filtraciones de datos involuntarias.

Rentabilidad

Los lagos de datos que se crean en AWS son los más rentables. Los datos que se utilizan con poca frecuencia se pueden migrar a Amazon Glacier, que ofrece archivo y respaldo a largo plazo a un costo muy bajo. Las capacidades de administración de Amazon S3 pueden analizar los patrones de acceso a los objetos para migrar datos que se utilicen con poca frecuencia a Glacier bajo demanda o automáticamente mediante políticas de ciclo de vida. Puede empezar a realizar consultas en los datos con Amazon Athena por tan solo 0,005 USD por GB consultado. Otros servicios de análisis y aprendizaje automático se cobran con esquemas de pago por uso en función de los recursos que se consumen.

Rendimiento ágil

Los servicios de análisis de AWS, como Amazon Redshift y Amazon Athena, se crearon para lograr un rendimiento de consultas interactivas ágil que permite ejecutar grandes cantidades de consultas interactivas simultáneas. Cuando la amplia cartera de servicios de aprendizaje automático y análisis de AWS se utiliza con Amazon S3 Select, solo se devuelven los subconjuntos de datos necesarios dentro de los objetos, lo que agiliza la velocidad de las consultas en hasta un 400 % y reduce radicalmente los costos. Glacier Select ofrece una capacidad similar que le permite recuperar datos archivados con mayor rapidez y ampliar la capacidad analítica a un lago de datos a los fines de incluir el almacenamiento en archivo.  

 

La mayor red de partners

La red de partners de AWS (APN) tiene el doble de integraciones con socios que cualquier otra red, con decenas de miles de socios, incluidos proveedores de software independientes y consultores de todo el mundo. Esta característica facilita la posibilidad de realizar trabajos e integraciones con muchas de las mismas herramientas que ya utiliza y valora hoy en día. Los Quick Starts para lagos de datos, que fueron desarrollados por socios y arquitectos de soluciones de AWS, lo ayudan a crear, probar e implementar soluciones de lagos de datos basadas en las prácticas recomendadas de AWS para lograr mayor seguridad y disponibilidad con unos pocos pasos simples. 

 

Introducción a AWS

Step 1 - Sign up for an AWS account

Regístrese para obtener una cuenta de AWS

Obtenga acceso instantáneo a la capa gratuita de AWS
 
icon2

Cree un data lake seguro en cuestión de días

Lea más información sobre AWS Lake Formation

 
icon3

Comience a crear con AWS

Lea más información sobre cómo implementar lagos de datos en AWS

 

Introducción a los data lakes en AWS

Implemente un lago de datos con AWS Lake Formation
¿Tiene más preguntas?
Contacte con nosotros