AWS Lake Formation

Cree un lago de datos seguro en cuestión de días

AWS Lake Formation es un servicio que facilita la configuración de un lago de datos seguro en cuestión de días. Un lago de datos es un repositorio centralizado, seleccionado y seguro que almacena todos sus datos, tanto en su forma original como preparados para análisis. Un lago de datos le permite desglosar los silos de datos y combinar diferentes tipos de análisis para obtener información y tomar mejores decisiones empresariales.

En la actualidad, la configuración y la administración de lagos de datos implican muchas tareas manuales, complejas y que llevan mucho tiempo. Este trabajo incluye cargar datos de diversas fuentes, monitorear esos flujos de datos, configurar particiones, activar el cifrado y administrar claves, definir trabajos de transformación y monitorear su operación, reorganizar los datos en un formato de columnas, desduplicar datos redundantes y relacionar registros vinculados. Una vez que se cargaron los datos en el lago de datos, debe permitir el acceso minucioso a los conjuntos de datos y auditar el acceso a lo largo del tiempo a una amplia gama de herramientas y servicios de análisis y machine learning (ML).

Crear un lago de datos con Lake Formation es tan simple como definir los orígenes de los datos y qué políticas de seguridad y acceso desea aplicar. Lake Formation lo ayuda a recopilar y catalogar los datos de bases de datos y almacenamiento de objetos, los traslada al nuevo lago de datos de Amazon Simple Storage Service (S3), los limpia y los clasifica mediante algoritmos de machine learning y protege el acceso a su información confidencial mediante controles pormenorizados en los niveles de columna, fila y celda. Los usuarios pueden acceder a un catálogo de datos centralizado que describe los conjuntos de datos disponibles y su uso adecuado. Los usuarios aprovechan estos conjuntos de datos con los servicios de análisis y machine learning que prefieran, como Amazon Redshift, Amazon Athena, Amazon EMR para Apache Spark y Amazon QuickSight. Lake Formation se basa en las capacidades disponibles en AWS Glue.

AWS re:Invent 2018 - Announcing AWS Lake Formation (2:44)

Beneficios

Crear lagos de datos rápidamente

Con Lake Formation, puede trasladar, almacenar, catalogar y limpiar los datos más rápido. Solo tiene que dirigir Lake Formation hacia sus orígenes de datos. Este servicio rastrea esos orígenes y traslada los datos a su nuevo lago de datos de Amazon S3. Lake Formation organiza los datos en S3 en los términos de consulta frecuentes y en porciones de tamaño correcto para aumentar la eficacia. También cambia datos a formatos como Apache Parquet y ORC para realizar análisis con mayor rapidez. Además, Lake Formation cuenta con machine learning integrado para desduplicar y encontrar registros coincidentes (dos entradas que se refieren a lo mismo) a fin de aumentar la calidad de los datos.

Simplificar la administración de la seguridad

Lake Formation ofrece un lugar único para definir y aplicar los controles de acceso que operan a nivel de tabla, columna, fila y celda para todos los usuarios y los servicios que acceden a sus datos. Sus políticas se implementan de manera constante, lo que elimina la necesidad de configurarlas manualmente en los servicios de seguridad como AWS Identity and Access Management (IAM) y AWS Key Management Service (KMS); en los servicios de almacenamiento, como S3; y en los servicios de análisis y machine learning, como Redshift, Athena, AWS Glue y EMR para Apache Spark. Esto reduce el esfuerzo en las políticas de configuración en los servicios y proporciona una conformidad consistente.

Proporcionar acceso de autoservicio a los datos

Con Lake Formation, puede crear un catálogo de datos que describa los distintos conjuntos de datos que están disponibles, junto con los grupos de usuarios que tienen acceso a cada uno. Esto hace que los usuarios sean más productivos, ya que los ayuda a encontrar el conjunto de datos correcto para analizar. Lake Formation facilita el uso de su servicio de análisis preferido a los analistas y los científicos de datos a través de un catálogo para sus datos con un cumplimiento de seguridad uniforme.  Pueden utilizar EMR para Apache Spark, Redshift, Athena, AWS Glue y Amazon QuickSight en varios conjuntos de datos que ahora se alojan en un lago de datos único. Los usuarios también pueden combinar estos servicios sin tener que trasladar los datos entre los silos.

Funcionamiento

Funcionamiento

Lake Formation ayuda a crear, asegurar y administrar su lago de datos. Primero, identifique los almacenes de datos existentes en S3 o bases de datos relacionales y NoSQL y traslade los datos en el lago de datos. A continuación, rastree, catalogue y prepare los datos para su análisis. Luego, proporcione un acceso de autoservicio seguro a los datos para los usuarios mediante los servicios de análisis que ellos elijan. Otros servicios de AWS y aplicaciones de terceros también pueden acceder a los datos mediante los servicios que se muestran. Lake Formation administra todas las tareas que se muestran el cuadro naranja y se integra con los almacenes y servicios de datos que se muestran en los cuadros azules.

Casos de uso

Crear lagos de datos rápidamente

Utilice esquemas en Lake Formation para trasladar, almacenar, catalogar, limpiar y organizar sus datos más rápido. Convierta los datos a formatos como Parquet y ORC para llevar a cabo análisis más rápidos, y utilice machine learning integrado para desduplicar y encontrar registros coincidentes. Simplifique la forma en que almacena y mantiene los datos con las tablas regidas, un nuevo tipo de tabla de Amazon S3. Estas tablas utilizan transacciones ACID (atómicas, consistentes, aisladas y duraderas), que administran los conflictos automáticamente y garantizan visualizaciones de datos consistentes para todos los usuarios. Además, estas tablas monitorean y optimizan automáticamente los datos para mejorar el rendimiento del motor al momento de su consulta.

Defina y administre los controles de acceso de manera centralizada

Lake Formation proporciona un lugar único para definir, clasificar, etiquetar y administrar permisos detallados para los datos en Amazon S3. Puede definir una lista jerárquica de etiquetas, asignar etiquetas a bases de datos, tablas y columnas, y configurar la seguridad a nivel de columna y celda.

Aplique la clasificación de datos y el acceso pormenorizado

Lake Formation aplica políticas sin tener que configurar controles de acceso a datos en cada servicio consumidor. Este servicio filtra los datos automáticamente y solo comparte los datos que permite la política definida a los usuarios autorizados, sin la necesidad de duplicarlos.

Habilite la administración de datos continua, la capacidad de volver en el tiempo y la optimización del almacenamiento

Mejore la fiabilidad y la integridad del lago de datos para la actualización de datos de streaming y lotes. Consulte versiones de datos históricos y audite los datos modificados. Compacte automáticamente los archivos pequeños y habilite los filtros de inserción para reducir los escaneos de datos y mejorar el rendimiento de las consultas.

Habilite los lagos de datos federados con uso compartido entre cuentas

Ofrezca productos de datos descentralizados y orientados al dominio en toda su organización mediante el uso compartido y controlado de datos, con un traslado de datos mínimo o nulo.

Para obtener más información, consulte “¿Qués es un lago de datos?”.

Clientes

Nu Skin

Nu Skin Enterprises es una empresa de venta directa global que distribuye más de 200 productos de alta calidad contra el envejecimiento en las categorías de cuidado personal y suplementos nutricionales.

“La capacidad de expansión y escalado de nuestros sistemas de análisis existentes suponía un desafío para nosotros. Nuestros datos estaban distribuidos en diferentes soluciones SaaS y bases desconectadas, lo que hacía que fuera difícil analizar datos a escala a la vez que se limitaba el acceso a datos confidenciales. Para superar este desafío, construimos una solución de lago de datos en AWS. De este modo, pudimos agregar datos desde varios silos de datos a Amazon S3, donde fueron catalogados y asegurados mediante AWS Lake Formation. Sin AWS Lake Formation, hubiera sido imposible lograr una capa de seguridad escalable y fácil de utilizar para todos los datos que se encuentran en Amazon S3. Fue fácil configurarlo y aplicar controles de acceso precisos según los roles de los usuarios”.

Joe Sueper, vicepresidente de Arquitectura Empresarial y Tecnología Global en Nu Skin Enterprises

Panasonic

Panasonic Avionics Corporation es el proveedor líder mundial de sistemas de entretenimiento y comunicación durante el vuelo.

“Queríamos crear una plataforma de datos con la capacidad de administrar la configuración de seguridad para todas las diferentes aplicaciones en nuestro entorno. Con AWS Lake Formation, ahora podemos definir políticas una vez y aplicarlas de la misma manera, en todas partes, para los múltiples servicios que utilizamos, incluidos AWS Glue y Amazon Athena. El nivel mejorado de control nos brinda un acceso seguro a los datos y los metadatos para columnas y tablas, no solo para objetos en masa, que es una parte importante de nuestro estándar de seguridad y gobernanza de datos”.

Anand Desikan, director de Servicios en la Nube y Datos en Panasonic Avionics

Accenture

Accenture es una empresa internacional líder de servicios profesionales que proporciona una amplia variedad de servicios y soluciones en las áreas de consultoría, estrategia, entornos digitales, tecnología y operaciones.

“Me concentro en ayudar a los clientes en su experiencia de ‘datos en la nube’. Específicamente, hemos visto que las organizaciones están lidiando con la falta de datos confiables cuando necesitan analizar datos provenientes de varias fuentes. La limpieza de datos es un paso crítico en el análisis de datos y puede afectar en gran medida al resultado del negocio y a la toma de decisiones. Las nuevas características de AWS Lake Formation han sido enormemente beneficiosas para abordar el desafío de la veracidad de los datos y asegurar el acceso al lago de datos. Nos pareció realmente útil usar las técnicas avanzadas de aprendizaje automático para la preparación de datos a fin de encontrar registros que coincidan, limpiar y desduplicar datos de diferentes orígenes de datos. Esto ayudará a reducir el tiempo, el esfuerzo y el costo, mientras que mejora la calidad y la precisión de los datos en los lagos de datos de un cliente”.

Namrata Maheshwary, arquitecta sénior del Grupo de Negocios de Datos en Accenture

Zalando

Zalando es la plataforma en línea líder en Europa para la moda y el estilo de vida.

“Como la compañía de tecnología más moderna de Europa, trabajamos para encontrar soluciones digitales para cada aspecto del recorrido de la moda. AWS Lake Formation nos dio un punto central de control escalable para el acceso a datos a través de Amazon Redshift que no solo simplificó el proceso, sino que lo mejoró a través del control granular sobre cómo se utilizan nuestros datos. Ahora podemos descubrir, acceder y analizar datos en nuestro lago de datos con nuestras herramientas preferidas, y aprovecharlo para la inteligencia empresarial y la ciencia de datos. Este flujo de trabajo simplificado ayuda a nuestros ejecutivos a tomar las decisiones correctas a tiempo y fomenta la innovación a través del aprendizaje automático”.

Alberto Miorin, director de Ingeniería en Zalando SE

Life360

Life360 es el servicio líder mundial de tranquilidad para las familias. La aplicación de Life360 acerca a las familias con características inteligentes diseñadas para proteger y conectar las personas que más importan.

“Queríamos utilizar AWS Lake Formation para crear nuestro lago de datos y, así, admitir datos de series de tiempo basadas en la ubicación, y hacer que sea mucho más fácil cargar datos. Los esquemas prefabricados ayudaron a ingresar datos en el lago de datos sin que nuestro equipo de Ingeniería de Datos tuviera que escribir código desde cero y, así, poder centrarse en la ingesta operativa, sin tener que reinventar la rueda. Con AWS Lake Formation, pudimos desbloquear rápidamente los datos disponibles en Amazon S3 y ponerlos a disposición para analizarlos en un amplio espectro de servicios de datos de AWS. Los datos permanecen en su lugar en Amazon S3, podemos analizarlos de varias maneras y mantenemos un control total sobre ellos”.

Richard Chennault, jefe de Servicios de Nube y Datos de Life360, Inc.

Change Healthcare

Change Healthcare es una importante empresa de tecnología sanitaria independiente que proporciona soluciones orientadas a datos y análisis que alcanzan las 2100 conexiones de pago comerciales y gubernamentales, 5500 hospitales, 900 000 médicos y 33 000 farmacias.

“Administramos datos de millones de transacciones todos los días, al mismo tiempo que mantenemos la conformidad con las regulaciones del sector sanitario, incluida la HIPAA. Estamos muy contentos con el lanzamiento de AWS Lake Formation, que proporciona un punto de control central para cargar, limpiar, proteger y catalogar fácilmente los datos de miles de nuestros clientes en nuestro lago de datos basado en AWS, lo que reduce de manera radical nuestra carga operacional. Los controles de acceso de datos en Lake Formation facilitan la definición de nuestras políticas una sola vez y hacen que se cumplan en todos los servicios de análisis y de aprendizaje automático que utilicemos, con registros de auditoría para demostrar la conformidad”.

Aaron Symanski, director técnico en Change Healthcare

Fender Digital

Fender Digital forma parte de Fender, la famosa marca de guitarras, que crea aplicaciones, sitios web, plataformas y herramientas para complementar las guitarras, los amplificadores y los equipos de sonido que fabrica Fender.

“Generamos toneladas de datos del usuario y de uso de nuestras aplicaciones digitales y los dispositivos. Estamos planificando crear un lago de datos en AWS para operar junto a nuestro almacenamiento de datos basado en Amazon Redshift. No puedo esperar a que nuestro equipo comience a trabajar con AWS Lake Formation. Lake Formation facilitará la carga, transformación y catalogación de nuestros datos y hará que esté disponible de manera segura en nuestra organización, en una cartera amplia de servicios de AWS. Con una opción preparada para el mercado como Lake Formation, podremos invertir más tiempo a fin de obtener valor de nuestros datos, en vez de realizar el arduo trabajo relacionado con la configuración manual y la administración de nuestro lago de datos”.

Joshua Couch, vicepresidente de Ingeniería en Fender Digital

Cloudreach

Sobrealimentado por la plataforma de software de administración y migración, Cloudamize, Cloudreach aporta simplicidad y absoluta confianza a la toma de decisiones basada en datos.

“AWS Lake Formation está democratizando el lago de datos y creando un punto de aceleración para la estrategia de datos empresariales. AWS Lake Formation centraliza la seguridad y el gobierno de los servicios, agiliza la administración y reduce la sobrecarga operativa. Mediante la aceleración del proceso de integración de datos en toda la empresa, otras iniciativas de datos, como machine learning, comienzan a generar un mayor valor empresarial”.

Kevin Davis, CTO de práctica de AWS en Cloudreach

Amgen

Amgen es la compañía de biotecnología independiente más grande del mundo.

“En Amgen, hemos hecho un uso importante de los clústeres de Amazon EMR y Amazon Redshift durante más de tres años. Configurar controles de seguridad y acceso para cada cuenta, servicio, usuario y conjunto de datos de AWS al nivel de detalle requerido podría ser muy complicado. AWS Lake Formation agiliza el proceso con un punto central de control y, al mismo tiempo, nos permite controlar quién está utilizando nuestros datos y cómo con más detalle. AWS Lake Formation nos permite administrar permisos en objetos de Amazon S3 como lo haríamos con permisos de datos en una base de datos. Nuestros usuarios podrán encontrar, acceder y analizar los datos que necesitan con las herramientas que prefieran. Este nuevo flujo de trabajo puede hacer que todos sean más productivos cuando utilicen Amgen”.

Kerby Johnson, propietario de un producto de lago de datos empresarial en Amgen

Alcon

Alcon es líder en innovación y desarrollo de productos para el cuidado de la vista y la transformación de la visión.

“Como muchas empresas, iniciamos nuestra iniciativa de lago de datos para dejar atrás los conjuntos de datos aislados e inaccesibles. Con AWS Lake Formation, podemos agregar rápidamente el acceso a buckets de Amazon S3 existentes y definir qué contienen y cómo pueden utilizarse. Los datos permanecen en su lugar en S3, pero tenemos control total sobre ellos para otros usos”.

Srinivas Ravilisetty, director de Análisis de TI en Alcon

Quantiphi

Quantiphi es una empresa de servicios y software basados en big data e inteligencia artificial impulsada por el deseo de resolver problemas empresariales complejos. Quantiphi se especializa en la creación de lagos de datos y soluciones de inteligencia artificial para que los clientes brinden un valor cuantificable.

“AWS Lake Formation nos permite entregar un lago de datos seguro con acceso a datos relevantes en días. Ahora tenemos la capacidad de ofrecer lo mejor de ambos mundos para nuestros clientes: seguridad total, además de un acceso simplificado a datos relevantes para que sus usuarios tomen decisiones fácilmente. Nuestros clientes pueden centrarse en tomar decisiones comerciales más inteligentes y basadas en análisis aprovechando un origen de datos poderoso y centralizado”.

Arnav Gupta, director de Práctica de AWS en Quantiphi

Curvo Labs

Curvo es una empresa de software como servicio con centrado exclusivamente en la cadena de suministro de sanidad. Con un extensivo dominio del campo y prácticas ágiles de desarrollo, la empresa crea los análisis, el flujo de trabajo y la automatización necesarios para que la administración de gastos en la sanidad sea más fácil y rápida.

“La normalización de datos es un paso fundamental para brindar mejores resultados a los pacientes, ya que brinda transparencia a los datos de análisis comparativos de precios para los productos clínicos y médicos. Con las transformaciones de ML en AWS Lake Formation, procesamos conjuntos de datos en cuatro horas, en lugar de hacerlo en una semana. Nuestro nivel de precisión mejoró casi hasta el 100 %. Esta velocidad y precisión permiten que nuestros clientes del área de sanidad puedan responder rápidamente ante los cambios en el mercado y, finalmente, brindar un servicio más asequible sin tener que degradar los resultados ofrecidos a los pacientes. Les entregamos en un día lo que a nuestros competidores les lleva entre 4 y 6 semanas”.

Nic Sagez, director técnico en Curvo

Novedades

fecha
  • fecha
1
Standard Product Icons (Features) Squid Ink
Más información acerca de las características de AWS Lake Formation

Visite la página de características para obtener más información sobre las características de AWS Lake Formation.

Más información 
Sign up for a free account
Regístrese para obtener una cuenta

Obtenga acceso instantáneo a la capa gratuita de AWS. 

Registrarse 
Standard Product Icons (Start Building) Squid Ink
Comience a crear en la consola

Comience a crear con AWS Lake Formation en la consola de administración de AWS.

Inicie sesión