- Análisis›
- Amazon SageMaker›
- Procesamiento de datos
Procesamiento de datos de Amazon SageMaker
Analice, prepare e integre datos para el análisis y la IA a cualquier escala
¿Por qué elegir el procesamiento de datos de SageMaker?
Prepare, integre y organice sus datos con las capacidades de procesamiento de datos de Amazon Athena, Amazon EMR, AWS Glue y Amazon Managed Workflows for Apache Airflow (Amazon MWAA). Procese e integre sus datos, dondequiera que se encuentren, con una conectividad rápida y sencilla a cientos de orígenes de datos.
Utilice marcos de procesamiento de datos de código abierto, como Apache Spark, Trino y Apache Flink. Analice datos a escala sin administrar la infraestructura y cree análisis en tiempo real sin problemas con Apache Flink y Apache Spark.
Confíe en que sus datos son precisos y seguros al automatizar la calidad de los datos, la identificación de datos confidenciales, el seguimiento del linaje y la aplicación de controles de acceso detallados.
Beneficios
El procesamiento de datos de Amazon SageMaker proporciona acceso completo a marcos de procesamiento de datos y transmisiones, a motores de consulta de SQL distribuidos de código abierto y a las herramientas más populares, como cuadernos, editores de consultas y extracción, transformación y carga (ETL) visuales.
Puede acceder a los marcos más populares, como Apache Spark para preparar e integrar sus datos a cualquier escala. Responda a las necesidades empresariales en tiempo real con el procesamiento de transmisiones con Apache Flink y Apache Spark Streaming y analice los datos con los principales marcos SQL de código abierto, como Trino. Simplifique la orquestación del flujo de trabajo sin tener que administrar la infraestructura mediante la integración nativa de Amazon MWAA.
El procesamiento de datos de SageMaker accede a los datos desde el lago en Amazon SageMaker, lo que le permite procesar e integrar con una copia de los datos todos sus casos de uso, incluidos el análisis, las consultas ad hoc, el aprendizaje automático (ML) y la IA generativa.
La arquitectura open lakehouse de Amazon SageMaker unifica los datos en los lagos de datos de Amazon Simple Storage Service (Amazon S3) y los almacenes de datos de Amazon Redshift, lo que proporciona un acceso unificado a sus datos. Puede descubrir y analizar datos unificados en el lakehouse con cientos de conectores, integraciones sin ETL y orígenes de datos federados, lo que le brinda una visión completa de su negocio. SageMaker funciona de forma inmediata con su arquitectura de datos existente, sin estar limitado por opciones específicas de formato de almacenamiento o motor de consulta.
Mejore la eficiencia con un rendimiento de consultas rápido en las tablas de Apache Iceberg. Obtenga información hasta 2 veces más rápido que los sistemas de código abierto tradicionales con versiones de Apache Spark, Apache Airflow, Apache Flink, Trino y más, de alto rendimiento y compatibles con API de código abierto.
El procesamiento de datos de SageMaker permite centrarse en transformar y analizar los datos sin administrar la capacidad de procesamiento o las aplicaciones de código abierto, lo que permite ahorrar tiempo y reducir los costos. Puede aprovisionar la capacidad de forma automática en Amazon EMR en Amazon Elastic Compute Cloud (Amazon EC2) o en Amazon EMR en Amazon Elastic Kubernetes Service (Amazon EKS). Las reglas de escalado administran los cambios en la demanda de computación para optimizar el rendimiento y las versiones ejecutables.
Adquiera fiabilidad y transparencia con informes automatizados sobre la calidad de los datos, detección de datos confidenciales y seguimiento del linaje de los datos y los modelos de IA mediante la integración del catálogo de Amazon SageMaker. Aumente la confianza en la calidad de sus datos con medidas, supervisión y recomendaciones automáticas para las reglas de calidad de los datos.
Procese y analice sus datos de forma segura mediante el cumplimiento y la aplicación de controles de acceso detallados definidos en los conjuntos de datos de Lakehouse, lo que le permite definir los permisos una vez y hacer que sus datos sean accesibles para los usuarios autorizados de toda la organización. Lakehouse se integra con AWS Glue Data Quality y reúne la integración de datos sin servidor, la administración de la calidad de los datos y las capacidades avanzadas de aprendizaje automático en un entorno unificado.
Servicios de AWS
Integración de datos simplificada
AWS SageMaker ofrece integración de datos sin servidor, lo que simplifica la exploración, preparación e integración de datos de varias fuentes. Conéctese a diversas fuentes de datos, administre sus datos en un catálogo de datos centralizado y cree, ejecute, orqueste y supervise visualmente las canalizaciones y los trabajos de ETL para cargar datos en su lago. Si los trabajos de Apache Spark fallan, puedes usar la solución de problemas de IA generativa para identificar las causas principales y resolver los problemas rápidamente. Amazon SageMaker escala automáticamente según demanda, para que pueda centrarse en obtener información a partir de sus datos sin tener que gestionar la infraestructura.
Ejecute y escale Apache Spark, Apache Hive, Trino y otras cargas de trabajo
Amazon EMR hace que sea más fácil y rentable ejecutar cargas de trabajo de procesamiento de datos como Apache Spark, Apache Airflow, Apache Flink, Trino y más. Cree y ejecute canalizaciones de procesamiento de datos y escale automáticamente más rápido que las soluciones locales.
Controle los costos
Athena ofrece una forma simplificada y flexible de analizar los datos a cualquier escala. Athena es un servicio de consultas interactivo que simplifica el análisis de datos en Amazon S3 mediante SQL estándar. Athena funciona sin servidor, por lo que no hay que configurar ni administrar ninguna infraestructura y puede elegir pagar en función de las consultas que ejecute o de los recursos de computación que requieran sus consultas. Puede utilizar Athena para procesar registros, analizar datos y ejecutar consultas interactivas. Athena se escala automáticamente, ejecuta las consultas en paralelo, por lo que los resultados son rápidos, incluso con conjuntos de datos de gran tamaño y consultas complejas.
Orquestación de flujos de trabajo altamente disponibles y enfocados en la seguridad para Apache Airflow
Amazon MWAA es un servicio administrado para Apache Airflow que le permite usar su plataforma Apache Airflow actual y conocida para organizar sus trabajos de procesamiento de datos. Obtiene escalabilidad, disponibilidad y seguridad mejoradas sin la carga operativa de administrar la infraestructura subyacente. Amazon MWAA organiza sus flujos de trabajo mediante gráficos acíclicos dirigidos (DAG) escritos en Python o en un estudio de flujos de trabajo visuales. Le brinda a Amazon MWAA un bucket de S3 donde permanecen sus DAG, complementos y requisitos de Python. Despliegue Apache Airflow a escala sin la carga operativa de la administración de la infraestructura subyacente.
Casos de uso
Identifique y acceda rápidamente los datos en AWS, en las instalaciones y en otras nubes y, a continuación, pónganlos disponibles al instante para consultarlos y transformarlos. Utilice la federación de consultas y Zero-ETL para simplificar el acceso a los datos de los servicios de bases de datos de AWS y de aplicaciones de terceros.
Procesamiento de los datos mediante marcos como Apache Spark, Apache Flink y Trino, y diversas cargas de trabajo, como lotes, microlotes y streaming.
Ejecute procesamientos de datos a gran escala y análisis hipotéticos mediante algoritmos estadísticos y modelos predictivos para descubrir patrones ocultos, correlaciones, tendencias del mercado y preferencias de los clientes.