Обработка данных Amazon SageMaker
Анализируйте, подготавливайте и интегрируйте данные для использования в аналитике и с искусственным интеллектом при любом масштабировании
Почему обработка данных с помощью SageMaker?
Проводите подготовку, интеграцию и координацию данных с помощью возможностей обработки данных Amazon Athena, Amazon EMR, AWS Glue и Управляемых рабочих процессов Amazon для Apache Airflow (Amazon MWAA). Обрабатывайте и интегрируйте данные, где бы они ни находились, с помощью быстрого и простого подключения к сотням источников данных.
Используйте платформы обработки данных с открытым исходным кодом, такие как Apache Spark, Trino и Apache Flink. Анализируйте данные в требуемом масштабе с помощью Trino без необходимости в управлении инфраструктурой и легко создавайте аналитику в режиме реального времени с помощью Apache Flink и Apache Spark.
Благодаря встроенной интеграции с Amazon SageMaker Lakehouse убедитесь в точности и безопасности данных, автоматизировав их качество, идентификацию конфиденциальных данных, отслеживание их происхождения и обеспечение точного контроля доступа.
Преимущества
Сервисы AWS
Упрощенная интеграция данных
AWS Glue обеспечивает бессерверную интеграцию данных из нескольких источников, упрощая их изучение и подготовку. Подключайтесь к различным источникам данных, управляйте ими в централизованном каталоге данных, визуально создавайте, запускайте и отслеживайте конвейеры ETL для загрузки данных в ваше озеро. AWS Glue автоматически масштабируется по требованию, поэтому вы можете сосредоточиться на извлечении ценной информации из данных без управления инфраструктурой.
Запускайте и масштабируйте Apache Spark, Apache Hive, Trino и другие рабочие нагрузки
Amazon EMR упрощает и экономично запускает рабочие нагрузки по обработке данных, такие как Apache Spark, Apache Airflow, Apache Flink, Trino и другие. Создавайте и запускайте конвейеры обработки данных и автоматически масштабируйте их быстрее, чем локальные решения.
Отслеживайте затраты
Amazon Athena предоставляет простой и гибкий способ анализа данных в любом масштабе. Athena – это интерактивный сервис запросов, который упрощает анализ данных в Amazon S3 с помощью стандартного SQL. Athena работает без серверов, поэтому нет необходимости настраивать инфраструктуру или управлять ею, и вы можете выбрать оплату в зависимости от выполняемых запросов или вычислительных ресурсов, необходимых для ваших запросов. Сервис можно использовать для обработки журналов, выполнения анализа данных и интерактивных запросов к ним. Athena масштабируется автоматически и выполняет запросы параллельно, поэтому результаты возвращаются очень быстро даже при выполнении сложных запросов на больших наборах данных.
Ориентированная на безопасность и высокодоступная управляемая оркестрация рабочих процессов для Apache Airflow
Amazon MWAA – это управляемый сервис для Apache Airflow, который позволяет использовать текущую знакомую вам платформу Apache Airflow для организации рабочих процессов. Вы получаете улучшенную масштабируемость, доступность и безопасность без эксплуатационной нагрузки, связанной с управлением базовой инфраструктурой. Управляемые рабочие процессы Amazon для Apache Airflow (Amazon MWAA) организуют рабочие процессы с помощью ориентированных ациклических графов (DAG), написанных на языке Python. Вы предоставляете Amazon MWAA корзину S3, в которой хранятся ваши DAG, плагины и требования Python. Развертывание Apache Airflow в больших масштабах без необходимости управления базовой инфраструктурой.