Amazon EMR
Без труда запускайте и масштабируйте Apache Spark, Trino и другие рабочие нагрузки с большими данными
Почему именно Amazon EMR?
Amazon EMR – это сервис обработки больших данных, который ускоряет аналитические нагрузки с максимальной гибкостью и масштабируемостью. EMR предлагает оптимизированные по производительности среды выполнения для Apache Spark, Trino, Apache Flink и Apache Hive, что значительно снижает затраты и время обработки. Сервис легко интегрируется с AWS, упрощая работу с хранилищами данных и архитектурами корпоративного уровня. Благодаря встроенному автоскалированию, интеллектуальному мониторингу и управляемой инфраструктуре вы можете сосредоточиться на получении аналитики, а не на управлении кластерами, обеспечивая эффективную аналитику в петабайтных масштабах без эксплуатационных издержек традиционных решений.

Гибкие варианты развертывания
Преимущества бессерверной конфигурации EMR
Бессерверная конфигурация Amazon EMR упрощает запуск аналитических фреймворков с открытым исходным кодом, таких как Apache Spark: аналитикам и инженерам больше не нужно настраивать, управлять и масштабировать кластеры или серверы. Бессерверная конфигурация EMR – самый быстрый способ начать работу со всеми функциями и преимуществами Amazon EMR без необходимости привлекать специалистов для планирования и управления кластерами.
Почему именно Amazon EMR на Amazon EC2?
Amazon EMR на Amazon EC2 предоставляет полный контроль над конфигурацией кластера и поддерживает кластеры с длительным временем работы, что идеально подходит для непрерывной обработки данных с особыми требованиями к аппаратному обеспечению. Вы можете устанавливать собственные приложения наряду с популярными фреймворками, такими как Apache Spark и Trino, а также выбирать из широкого спектра типов инстансов EC2 для оптимизации затрат и производительности. Интеграция с другими сервисами AWS и возможность использовать спотовые инстансы делают это решение экономически эффективным для организаций, которым нужен детальный контроль над обработкой больших данных.
Почему именно Amazon EMR на Amazon EKS?
Amazon EMR на Amazon Elastic Kubernetes Service (EKS) позволяет запускать задания Apache Spark по запросу на EKS без необходимости развертывания кластеров EMR. С EMR на EKS вы можете выполнять аналитические задачи в том же кластере Amazon EKS, где работают другие приложения на базе Kubernetes, что повышает эффективность использования ресурсов и упрощает управление инфраструктурой.
Обрабатывайте данные с помощью Amazon EMR в Amazon SageMaker нового поколения
Amazon EMR доступен в новом поколении Amazon SageMaker, что позволяет без лишних усилий запускать Apache Spark, Trino и другие аналитические фреймворки с открытым исходным кодом в единой среде для разработки решений в области данных и искусственного интеллекта.

Преимущества
Выгодная обработка больших данных
Amazon EMR объединяет оптимизированный по производительности Apache Spark для более быстрого и экономичного анализа с гибкостью выбора типов инстансов, включая спотовые, а также с полностью управляемым автоматическим масштабированием, которое динамически подбирает размер кластера. Это устраняет необходимость в избыточном резервировании ресурсов и снижает общие расходы.
Ускоренное получение инсайтов и повышение производительность
Amazon EMR обеспечивает производительность до 3,9 раз выше по сравнению с Apache Spark с открытым исходным кодом, при этом полностью совместим с его API. Сервис позволяет использовать любые фреймворки с открытым исходным кодом — Apache Spark, Trino, Apache Flink и Apache Hive. EMR поддерживает популярные форматы открытых таблиц, такие как Iceberg, Hudi и Delta, что помогает ускорить переход от данных к инсайтам.
Непревзойденная гибкость развертывания
Amazon EMR предлагает несколько вариантов развертывания: EMR Serverless для полностью управляемой обработки без инфраструктуры, EMR на Amazon EC2 для точной настройки кластеров и EMR на Amazon EKS для нативных рабочих нагрузок Kubernetes. Независимо от того, запускаете ли вы временные кластеры для задач по запросу или длительные для постоянной обработки, EMR адаптируется к вашим операционным требованиям и оптимизирует расходы за счет гибкого распределения ресурсов и эффективного масштабирования.
Оптимизация обработки данных в Amazon SageMaker
Amazon EMR в новом поколении Amazon SageMaker позволяет запускать фреймворки с открытым исходным кодом, такие как Apache Spark, Trino и Apache Flink, и масштабировать аналитические рабочие нагрузки без необходимости в управлении инфраструктурой. Используя возможности EMR в Amazon SageMaker, вы можете объединить обработку данных и разработку моделей в единую сквозную среду – от трансформации исходных данных до развертывания ИИ.