Almacenamiento de lago de datos en AWS

El almacenamiento más seguro, duradero y escalable para crear un lago de datos

Amazon Simple Storage Service (S3) es el mayor servicio de almacenamiento de objetos y el de mejor rendimiento para datos estructurados y no estructurados, y el principal servicio de almacenamiento para crear un lago de datos. Con Amazon S3, puede crear y escalar de forma rentable un lago de datos de cualquier tamaño en un entorno seguro donde los datos están protegidos por un 99,999999999 % (11 nueves) de durabilidad.

Si crea un lago de datos en Amazon S3, podrá utilizar servicios de AWS nativos para ejecutar aplicaciones de análisis de macrodatos, inteligencia artificial (IA), machine learning (ML), computación de alto rendimiento (HPC) y procesamiento de datos multimedia para obtener información a partir de conjuntos de datos no estructurados. Gracias al uso de Amazon FSx for Lustre, puede lanzar sistemas de archivos para aplicaciones de HPC y ML, y procesar grandes cargas de trabajo multimedia directamente desde su lago de datos. También tiene flexibilidad para utilizar sus aplicaciones preferidas de análisis, IA, ML y HPC de la red de socios de Amazon (APN). Debido a que Amazon S3 es compatible con una amplia gama de características, los administradores de TI, los administradores de almacenamiento y los científicos de datos pueden aplicar políticas de acceso, administrar objetos a escala y auditar actividades en sus lagos de datos de S3.

Amazon S3 aloja decenas de miles de lagos de datos para marcas populares, como Netflix, Airbnb, Sysco, Expedia, GE y FINRA, que los utilizan para escalar de forma segura según sus necesidades y para descubrir información empresarial a cada minuto.

Store & analyze unstructured data with an S3 data lake (Almacenamiento y análisis de datos no estructurados con un lago de datos de S3) (1:43)

¿Por qué crear un lago de datos en Amazon S3?

Amazon S3 está diseñado para ofrecer una durabilidad de los datos del 99,999999999 % (11 nueves). Con ese nivel de durabilidad, se puede esperar que, si se almacenan 10 000 000 de objetos en Amazon S3, solo se debería esperar perder un único objeto cada 10 000 años. De forma automática, el servicio crea y almacena copias de todos los objetos de S3 cargados en varios sistemas. Esto significa que los datos están disponibles cuando se necesitan y protegidos frente a errores y amenazas.

Infraestructura del almacenamiento de lagos de datos
Security by Design
Proteja los datos con una infraestructura diseñada para las organizaciones que manejan datos altamente confidenciales.

Escalabilidad bajo demanda
De forma instantánea, escale verticalmente la capacidad de almacenamiento, sin que se produzcan largos ciclos de adquisición de recursos.

Durabilidad frente a errores en toda una zona de disponibilidad de AWS
Almacene de forma automática copias de datos en un mínimo de tres zonas de disponibilidad (AZ). Para proporcionar tolerancia a errores, las zonas de disponibilidad están separadas por varias millas, aunque no más de cien, para garantizar latencias bajas.

Servicios de AWS para análisis, HPC, IA, ML y procesamiento de datos multimedia
Utilice los servicios nativos de AWS para ejecutar las aplicaciones en su lago de datos.

Integraciones con proveedores de servicios de terceros
Lleve sus plataformas de análisis preferidas a su lago de datos de S3 desde la APN.

Amplia gama de características de administración de datos
Gran flexibilidad para operar a nivel de objeto mientras administra a escala, configurar el acceso, habilitar la eficiencia de costos y auditar los datos en un lago de datos de S3.

Resolución de los desafíos de los macrodatos con los lagos de datos

Las organizaciones de todos los tamaños, en todos los sectores, utilizan lagos de datos para transformar los datos de un costo que debe administrarse a un activo empresarial valioso. Los lagos de datos son fundamentales para darle sentido a los datos a nivel organizacional. Los lagos de datos eliminan los silos de datos, lo que facilita el análisis de diversos conjuntos de datos, mientras mantienen los datos seguros e incorporan el machine learning.

En su artículo “How Amazon is solving big-data challenges with data lakes” (Cómo Amazon resuelve los desafíos de los macrodatos con los lagos de datos), el doctor Werner Vogels, CTO de AWS, explica lo siguiente: “Una de las principales razones por las que las empresas eligen crear lagos de datos es para desglosar los silos de datos. Tener pequeños grupos de datos en diferentes lugares y controlados por diferentes grupos hace que, de forma inherente, sea más difícil acceder a los datos”.

Amazon S3 le permite migrar, almacenar, administrar y proteger todos los datos estructurados y no estructurados a escala ilimitada, desglosando los silos de datos.

Lea el artículo completo »

Componentes clave de un lago de datos

Transferencia de datos a la nube

AWS proporciona un paquete de servicios de transferencia de datos con el fin de brindar la solución adecuada para cualquier proyecto de migración de datos. El nivel de conectividad es un factor importante en la migración de datos, y AWS cuenta con ofertas que pueden abordar su almacenamiento de nube híbrida, transferencia de datos en línea y necesidades de transferencia de datos sin conexión.

Almacenamiento híbrido en la nube

AWS Storage Gateway es un servicio de almacenamiento de nube híbrida que le permite conectar y extender sus aplicaciones en las instalaciones a AWS Storage. Los clientes utilizan Storage Gateway para reemplazar sin inconvenientes las bibliotecas de cinta con el almacenamiento en la nube, proporcionar intercambios de archivos con respaldo en el almacenamiento en la nube o crear un caché de baja latencia para acceder a los datos en AWS para las aplicaciones en las instalaciones. Con AWS Direct Connect, puede establecer una conectividad privada entre AWS y su centro de datos, oficina o entorno de coubicación, lo que puede reducir los costos de red, aumentar el rendimiento y suministrar una experiencia de red más estable que las conexiones de Internet pública.

Transferencia de datos en línea

AWS DataSync facilita y optimiza la transferencia de cientos de terabytes y millones de archivos a Amazon S3, Amazon EFS o Amazon FSx for Windows File Server, hasta 10 veces más rápido que las herramientas de código abierto. DataSync maneja o elimina automáticamente muchas tareas manuales, incluidos los trabajos de copia de scripting, la programación y la supervisión de transferencias, la validación de datos y la optimización de la utilización de la red. Amazon S3 Transfer Acceleration facilita la transferencia rápida de archivos a largas distancias entre su cliente y su bucket de Amazon S3. Amazon Kinesis y AWS IoT Core hacen que sea simple y seguro registrar y cargar datos de streaming desde dispositivos de IoT a Amazon S3.

Transferencia de datos sin conexión

La familia de AWS Snow está personalizada para usarla en ubicaciones de borde en las que la capacidad de red está limitada o no existe y proporciona capacidades de almacenamiento e informática en entornos difíciles. El servicio de AWS Snowball utiliza dispositivos informáticos de borde y almacenamiento portátil para la recopilación, el procesamiento y lamigración de datos. Los clientes pueden enviar el dispositivo Snowball físico de la migración de datos sin conexión a AWS. AWS Snowmobile es un servicio de transferencia de datos de escala exabyte utilizado para la transferencia de volúmenes masivos de datos a la nube, incluidas bibliotecas de vídeos, repositorios de imágenes o incluso la migración de un centro de datos completo.

Obtenga más información sobre los servicios de migración de datos a la nube de AWS »

Utilice los servicios de AWS en su lago de datos

Los clientes del lago de datos de S3 tienen acceso a numerosas aplicaciones de análisis de AWS, servicios de IA y ML, y sistemas de archivos de alto rendimiento. Esto significa que puede ejecutar varias cargas de trabajo en su lago de datos, sin necesidad de procesar datos adicionales o transferirlos a otros almacenes. También puede incorporar sus herramientas preferidas de análisis y machine learning de terceros a su lago de datos de S3. 

Cree un lago de datos en cuestión de días en lugar de meses con AWS Lake Formation

AWS Lake Formation le permite crear un lago de datos seguro en cuestión de días en lugar de meses e implica la sencilla de tarea de definir dónde se ubican los datos y qué políticas de acceso y de seguridad de datos se aplican. A continuación, Lake Formation recopila datos de diferentes orígenes y los traslada a un lago de datos nuevo en Amazon S3. El servicio limpia, cataloga y clasifica los datos mediante algoritmos de machine learning y le permite definir las políticas de control de acceso. Luego, los usuarios pueden acceder a un catálogo de datos centralizado que enumera los conjuntos de datos disponibles y los términos de uso.

Obtenga más información sobre AWS Lake Formation y regístrese »

Announcing AWS Lake Formation (Presentación de AWS Lake Formation) (2:44)

Ejecute aplicaciones de análisis de AWS sin necesidad de transferir datos

Una vez que los datos se encuentran en un lago de datos de S3, puede utilizar cualquiera de los siguientes servicios de análisis diseñados especialmente para una serie de casos de uso, desde el análisis de conjuntos de datos a escala de petabytes hasta la consulta de los metadatos de un solo objeto. Con un lago de datos de S3, esto se puede lograr sin trabajos de extracción, transformación y carga (ETL) que requieren muchos recursos y tiempo. También puede incorporar sus plataformas de análisis preferidas al lago de datos de S3.

Tech trends: Data lakes and analytics (Tendencias tecnológicas: lagos de datos y análisis) (9:00)
Amazon Athena

Consulte rápidamente conjuntos de datos en su lago de datos de S3 con expresiones SQL sencillas y obtenga resultados en cuestión de segundos. Athena es ideal para realizar consultas ad hoc y no requiere que se administren los clústeres, pero también puede realizar análisis complejos, como combinaciones grandes, funciones de ventana y matrices.

Amazon EMR

Analice los datos de S3 con su elección de marcos distribuidos de código abierto, como Spark y Hadoop. Active y escale un clúster de EMR en cuestión de minutos (sin aprovisionamiento de los nodos, configuración y ajuste de los clústeres, ni configuración de Hadoop) y ejecute varios clústeres en paralelo sobre el mismo conjunto de datos.

AWS Glue

Simplifique los trabajos de ETL en su lago de datos de S3 para que se puedan buscar y consultar los datos. Con unos pocos clics en la consola de AWS, registre sus orígenes de datos y luego AWS Glue los rastreará para construir un catálogo de datos utilizando los metadatos (para definiciones de tablas y esquemas).

Amazon Redshift Spectrum

Ejecute consultas rápidas y complejas con expresiones SQL en exabytes de datos de S3 sin necesidad de trasladarse a Redshift. Puede ejecutar varios clústeres en paralelo en los mismos conjuntos de datos. Los clientes actuales de Redshift pueden utilizar esta característica para extender el análisis a sus datos no estructurados en Amazon S3.

Obtenga más información sobre los mencionados servicios de análisis de AWS para los lagos de datos »


Lance trabajos de IA y machine learning con los datos almacenados en S3

Puede lanzar rápidamente los servicios de IA de AWS, como Amazon Comprehend, Amazon Forecast, Amazon Personalize y Amazon Rekognition, para descubrir información de los conjuntos de datos no estructurados, obtener pronósticos precisos, crear máquinas de recomendación, y analizar imágenes y vídeos almacenados en S3. También puede implementar Amazon Sagemaker para crear, entrenar e implementar modelos de ML rápidamente con sus conjuntos de datos almacenados en S3.


Consulte los datos en el lugar rápidamente con S3 Select

S3 Select permite a las aplicaciones dejar que S3 se ocupe de la pesada carga de filtrar y obtener acceso a los datos dentro de los objetos. Con S3 Select, puede consultar los metadatos de los objetos sin tener que trasladar el objeto a otro almacén de datos. Como se reduce el volumen de datos que deben cargar y procesar las aplicaciones, S3 Select puede mejorar el rendimiento de la mayoría de las aplicaciones que obtienen acceso frecuentemente a los datos desde S3 en un 400 % y reducir los costos de consulta hasta en un 80 %.

Puede utilizar S3 Select con Spark, Hive y Presto en Amazon EMR, Amazon Athena y Amazon Redshift, así como con los socios de APN.

Obtenga más información sobre S3 Select »

Query data in place with S3 Select (Consulta de los datos en el lugar con S3 Select) (3:51)

Conecte datos a sistemas de archivos para obtener cargas de trabajo de alto rendimiento

Amazon FSx for Lustre ofrece un sistema de archivos de alto rendimiento optimizado que funciona de forma nativa con su lago de datos de S3 y está optimizado para lograr un procesamiento rápido de cargas de trabajo, como el machine learning, la computación de alto rendimiento (HPC), el procesamiento de videos, el modelado financiero y Electronic Design Automation (EDA). En minutos, puede lanzar un sistema de archivos que proporciona una latencia de acceso de menos de un milisegundo a sus datos de S3 y que le permite realizar tareas de lectura y escritura en los datos a velocidades de hasta cientos de gigabytes por segundo (GBps) de rendimiento y millones de operaciones de entrada/salida por segundo (IOPS). Cuando está vinculado con un bucket de S3, un sistema de archivos de FSx for Lustre presenta de manera transparente los objetos de S3 como archivos y le permite escribir los resultados en S3.

Obtenga más información sobre Amazon FSx for Lustre »

Introduction to Amazon FSx for Lustre (Introducción a Amazon FSx for Lustre) (45:48)

Administre su lago de datos de forma rentable con las características de S3

Amazon S3 cuenta con una amplia gama de características y es el servicio ideal para crear (o redefinir la plataforma) y administrar un lago de datos de cualquier tamaño y para cualquier uso. Es el único servicio de almacenamiento en la nube que le permite lo siguiente: administrar los datos a nivel de objeto, bucket y cuenta; realizar cambios en decenas o miles de millones de objetos con unos pocos clics; configurar políticas detalladas de acceso a los datos; ahorrar costos mediante el almacenamiento de objetos en varias clases de almacenamiento, y auditar todas las actividades en sus recursos de S3.

Administre los datos en todos los niveles de su lago de datos

Amazon S3 le permite administrar datos con un grado de detalle a nivel de objeto, así como a nivel de bucket y cuenta. Puede agregar etiquetas de metadatos a un objeto y utilizarlas para organizar los datos de forma que funcionen para su empresa. También puede organizar los objetos por prefijos y buckets. Con estas capacidades, señale rápidamente un objeto o un grupo de ellos para replicarlos entre las regiones, restringirles el acceso o transferirlos a clases de almacenamiento más baratas, entre otras tareas.

Tome medidas sobre miles de millones de objetos con unos pocos clics

Con las operaciones por lotes de S3, puede tomar medidas sobre miles de millones de objetos con una sola solicitud de API o con unos pocos clics en la consola de administración de S3 y auditar el progreso de sus solicitudes. Modifique las propiedades y los metadatos de los objetos, copie objetos entre buckets, sustituya los conjuntos de etiquetas, configure los controles de acceso, restaure archivos desde S3 Glacier e invoque funciones de AWS Lambda, en cuestión de minutos en lugar de meses.

Configure políticas de acceso a la información confidencial sofisticadas

Utilice políticas de buckets, etiquetas de objetos y listas de control de acceso (ACL) para restringir el acceso a buckets y objetos específicos. También puede utilizar AWS Identity and Access Management para definir el acceso de los usuarios dentro de una cuenta de AWS. Las organizaciones que necesitan bloquear todas las solicitudes de acceso a sus datos pueden configurar S3 Block Public Access para aplicar una política de “sin acceso público” a un bucket de objetos específico o a toda una cuenta de AWS.

Almacene objetos de manera rentable en las clases de almacenamiento de S3

Todos los clientes de S3 pueden almacenar los datos en 6 clases de almacenamientos distintas que están diseñadas para adaptarse a diferentes requisitos de acceso con su costo correspondiente. Utilice el análisis de clases de almacenamiento de S3 para conocer los patrones de acceso a sus datos. Luego, configure las políticas del ciclo de vida para transferir los objetos a los que se accede con menos frecuencia a clases más económicas o archívelos en S3 Glacier o S3 Glacier Deep Archive para obtener el máximo ahorro.

Audite todas las solicitudes de acceso a los recursos de S3 y otras actividades

Con las herramientas de generación de informes de S3, descubra rápidamente quién solicita acceso a qué datos y desde dónde, audite los metadatos de los objetos (como la clase de almacenamiento, la fecha de retención, la unidad empresarial y el estado de cifrado), supervise el uso y los costos, y conozca los patrones de acceso, entre otras actividades relacionadas con sus recursos de S3. Con esta información, realice cambios para optimizar su lago de datos y las aplicaciones que dependen de él, y reduzca los costos.

Más lagos de datos creados en AWS que en cualquier otro lugar

¿Listo para comenzar?

Más información sobre Amazon S3
Comience a utilizar Amazon S3

Obtenga más información sobre Amazon S3 »

Regístrese para obtener una cuenta de AWS
Regístrese para obtener una cuenta de AWS
Obtenga acceso instantáneo al nivel gratuito de AWS »
Lea la guía de implementación de lagos de datos
Implemente un lago de datos en AWS

Comience a crear su lago de datos en Amazon S3

Creación de un lago de datos
¿Tiene más preguntas?
Contacte con nosotros