AWS Glue – это бессерверный сервис интеграции данных, который поддерживает несколько движков для интеграции данных ваших пользователей и рабочих нагрузок. С помощью AWS Glue вы можете использовать подходящий движок для любой рабочей нагрузки, исходя из ее характеристик, а также предпочтений ваших разработчиков и аналитиков.
Основные возможности
AWS Glue для Apache Spark
AWS Glue предоставляет оптимизированную по производительности бессерверную инфраструктуру для пользователей Apache Spark для интеграции данных и заданий извлечения, преобразования и загрузки данных (ETL). AWS Glue для Apache Spark поддерживает пакетную и потоковую обработку, ускоряет получение, обработку и интеграцию данных. Затем вы можете создавать и обновлять озеро и хранилище данных, а также быстрее извлекать из данных полезные сведения.
AWS Glue для Ray
AWS Glue для Ray помогает инженерам данных и разработчикам обрабатывать большие наборы данных с помощью языка Python и его популярных библиотек. Сервис AWS Glue использует Ray (Ray.io), унифицированную вычислительную платформу с открытым исходным кодом, которая помогает масштабировать рабочие нагрузки Python. AWS Glue для Ray включает популярные библиотеки обработки данных Python, поэтому вы можете использовать свои собственные библиотеки для настройки заданий по интеграции данных.
AWS Glue для Python Shell
С помощью AWS Glue для Python Shell вы можете использовать задания Python Shell, чтобы запускать скрипты Python на AWS Glue. Благодаря этому можно писать сложные задания по интеграции данных и аналитике на Python. Задания AWS Glue для Python Shell поддерживают распространенные аналитические библиотеки, готовые к использованию, включая Pandas, NumPy и Amazon SageMaker Data Wrangler. Вы можете использовать встроенные возможности для подключения к различным базам, хранилищам данных и сервисам AWS.