Перейти к главному контенту

Обработка данных Amazon SageMaker

Обработка данных Amazon SageMaker

Анализируйте, подготавливайте и интегрируйте данные для использования в аналитике и с искусственным интеллектом при любом масштабировании

Почему обработка данных с помощью SageMaker?

Подготовьте, интегрируйте и координируйте свои данные с помощью возможностей обработки данных Amazon Athena, Amazon EMR, AWS Glue и Amazon Managed Workflow для Apache Airflow (Amazon MWAA). Обрабатывайте и интегрируйте данные, где бы они ни находились, с помощью быстрого и простого подключения к сотням источников данных.

Используйте платформы обработки данных с открытым исходным кодом, такие как Apache Spark, Trino и Apache Flink. Анализируйте данные в требуемом масштабе с помощью Trino без необходимости в управлении инфраструктурой и легко создавайте аналитику в режиме реального времени с помощью Apache Flink и Apache Spark.

Обеспечьте точность и безопасность своих данных, автоматизируя качество данных, идентификацию конфиденциальных данных, отслеживание родословных и применяя детальные средства контроля доступа.

Преимущества

Обработки данных Amazon SageMaker предоставляют полный доступ к платформам обработки данных и потоков, механизмам распределенных SQL-запросов с открытым исходным кодом и самым популярным инструментам, таким как блокноты, редакторы запросов и визуальное извлечение, преобразование и загрузка (ETL).

Вы можете использовать самые популярные фреймворки, такие как Apache Spark, для подготовки и интеграции данных в любом масштабе. Реагируйте на потребности компании в режиме реального времени с помощью потоковой обработки благодаря Apache Flink и Apache Spark и анализируйте данные с помощью ведущих SQL-платформ с открытым исходным кодом, таких как Trino. Упростите оркестрацию рабочих процессов без необходимости управлять инфраструктурой с помощью встроенной интеграции с Amazon MWAA.

SageMaker Data Processing обеспечивает доступ к данным из хранилища Amazon SageMaker, что позволяет обрабатывать и интегрировать данные, используя одну копию, для всех сценариев использования, включая аналитику, специальные запросы, машинное обучение (ML) и генеративный искусственный интеллект.

Открытая архитектура Amazon SageMaker объединяет данные в озерах данных Amazon Simple Storage Service (Amazon S3) и хранилищах данных Amazon Redshift, обеспечивая унифицированный доступ к вашим данным. Вы можете обнаруживать и анализировать данные, объединенные в Lakehouse, с помощью сотен коннекторов, интеграций с нулевым использованием ETL и объединенных источников данных, что дает вам полное представление о своем бизнесе. SageMaker работает «из коробки» с существующей архитектурой данных, не ограничиваясь определенным форматом хранения или выбором движка запросов.

Повысьте эффективность за счет быстрой обработки запросов по сравнению с таблицами Apache Iceberg. Получайте аналитику вдвое быстрее по сравнению с традиционными решениями с открытым исходным кодом благодаря высокопроизводительным версиям Apache Spark, Apache Airflow, Apache Flink, Trino и другим, полностью совместимым с открытым исходным кодом.

Обработка данных SageMaker упрощает преобразование и анализ данных, избавляя от необходимости управлять вычислительными ресурсами или приложениями с открытым исходным кодом. Это помогает сократить затраты и сэкономить время. Вы можете автоматически выделять ресурсы через Amazon EMR на базе Amazon Elastic Compute Cloud (Amazon EC2) или Amazon EMR на Эластичном сервисе Amazon Kubernetes (Amazon EKS). Управление масштабированием обеспечивает адаптацию к изменяющимся нагрузкам, оптимизируя производительность и время работы.

Обеспечьте доверие и прозрачность благодаря автоматической отчетности о качестве данных, обнаружению конфиденциальных данных и отслеживанию происхождения данных и моделей ИИ благодаря интеграции с каталогом Amazon SageMaker. Повысьте уверенность в качестве данных с помощью автоматических измерений, мониторинга и рекомендаций по правилам качества данных.

Безопасно обрабатывайте и анализируйте данные, соблюдая и применяя детальные средства контроля доступа, определенные для наборов данных в озере. Это позволит вам один раз определить разрешения и сделать ваши данные доступными для авторизованных пользователей в вашей организации. Дом озера интегрируется с AWS Glue Data Quality, объединяя бессерверную интеграцию данных, управление качеством данных и расширенные возможности машинного обучения в единой среде.

Сервисы AWS

Упрощенная интеграция данных

AWS SageMaker обеспечивает бессерверную интеграцию данных, упрощая исследование, подготовку и интеграцию данных из нескольких источников. Подключайтесь к различным источникам данных, управляйте данными в централизованном каталоге данных, визуально создавайте, запускайте, координируйте и отслеживайте конвейеры и задания ETL для загрузки данных в ваше озеро.  Если задания Apache Spark терпят неудачу, вы можете использовать генеративное устранение неполадок с помощью искусственного интеллекта для выявления первопричин и быстрого решения проблем. Amazon SageMaker автоматически масштабируется по требованию, поэтому вы можете сосредоточиться на извлечении ценной информации из данных без управления инфраструктурой.

Запускайте и масштабируйте Apache Spark, Apache Hive, Trino и другие рабочие нагрузки

Amazon EMR упрощает и экономично запускает рабочие нагрузки по обработке данных, такие как Apache Spark, Apache Airflow, Apache Flink, Trino и другие. Создавайте и запускайте конвейеры обработки данных и автоматически масштабируйте их быстрее, чем локальные решения.

Отслеживайте затраты

Athena предоставляет простой и гибкий способ анализа данных в любом масштабе. Athena – это интерактивный сервис запросов, который упрощает анализ данных в Amazon S3 с помощью стандартного SQL. Athena работает без серверов, поэтому нет необходимости настраивать инфраструктуру или управлять ею, и вы можете выбрать оплату в зависимости от выполняемых запросов или вычислительных ресурсов, необходимых для ваших запросов. Сервис можно использовать для обработки журналов, выполнения анализа данных и интерактивных запросов к ним. Athena масштабируется автоматически и выполняет запросы параллельно, поэтому результаты возвращаются очень быстро даже при выполнении сложных запросов на больших наборах данных.

Ориентированная на безопасность и высокодоступная управляемая оркестрация рабочих процессов для Apache Airflow

Amazon MWAA — это управляемый сервис для Apache Airflow, который позволяет использовать текущую знакомую платформу Apache Airflow для организации заданий по обработке данных. Вы получаете улучшенную масштабируемость, доступность и безопасность без эксплуатационной нагрузки, связанной с управлением базовой инфраструктурой. Amazon MWAA организует рабочие процессы с помощью направленных ациклических графиков (DAG), написанных на языке Python или в студии визуальных рабочих процессов. Вы предоставляете Amazon MWAA корзину S3, в которой хранятся ваши DAG, плагины и требования Python. Развертывание Apache Airflow в больших масштабах без необходимости управления базовой инфраструктурой.

Примеры использования

Быстро находите данные в AWS, локальной среде или других облаках, и мгновенно делайте их доступными для опроса и преобразования. Используйте федерацию запросов и Zero-etl для упрощения доступа к данным в сервисах баз данных AWS и сторонних приложениях.

Обрабатывайте данные с помощью таких платформ, как Apache Spark, Apache Flink и Trino, а также различных рабочих нагрузок, включая пакетную обработку, микропакетную обработку и потоковую передачу.

Обработка данных в большом масштабе и анализ «что, если» с помощью статистических алгоритмов и прогнозных моделей для обнаружения скрытых закономерностей, взаимосвязей, рыночных тенденций и предпочтений клиентов.