Интеграция Amazon Redshift для Apache Spark

Создание приложений Apache Spark с чтением и записью данных из Amazon Redshift

Почему стоит выбрать интеграцию Amazon Redshift для Apache Spark?

Интеграция Amazon Redshift для Apache Spark упрощает и ускоряет доступ приложений Apache Spark к данным Amazon Redshift из аналитических сервисов AWS, таких как Amazon EMR, AWS Glue и Amazon SageMaker. При использовании Amazon EMR, AWS Glue и SageMaker можно быстро создавать приложения Apache Spark, которые считывают информацию из хранилищ данных Amazon Redshift и записывают в них без ущерба для производительности и согласованности транзакций. Интеграция Amazon Redshift для Apache Spark также использует учетные данные Управления идентификацией и доступом AWS (IAM) для повышения безопасности. При использовании интеграции Amazon Redshift для Apache Spark не требуется ручной настройки и обслуживания несертифицированных соединителей сторонних производителей. Начать работу с заданиями Apache Spark, использующими данные Amazon Redshift, можно за считанные секунды. Эта новая интеграция повышает производительность приложений Apache Spark, использующих данные Amazon Redshift.

Преимущества Amazon Redshift

Расширьте диапазон источников данных, которые можно использовать в своих приложениях глубокой аналитики и машинного обучения, работающих в Amazon EMR, AWS Glue или SageMaker, путем чтения и записи данных в хранилище данных.
Оптимизируйте громоздкий и зачастую ручной процесс настройки несертифицированных соединителей и драйверов JDBC, сократив время подготовки задач аналитики и машинного обучения.
Используйте возможности pushdown-оптимизации, такие как функции сортировки, агрегирования, ограничения, объединения и скалярные функции, чтобы из хранилища данных Amazon Redshift передавались только значимые данные.

Как это работает

Используйте сервисы AWS для создания приложений Apache Spark, которые считывают и записывают данные в хранилищах данных Amazon Redshift.
Схема использования сервисов AWS для создания приложений Apache Spark, которые считывают и записывают данные в хранилищах данных Amazon Redshift.

Примеры использования

Создавайте приложения Apache Spark на Java, Scala и Python с помощью аналитических сервисов AWS на основе Apache Spark.
Считывайте и записывайте данные в Amazon Redshift с помощью Amazon EMR, AWS Glue и SageMaker, а также сервисов AWS для аналитики и машинного обучения.
Используйте Amazon EMR или AWS Glue для получения кода кадра данных из задания или записной книжки Apache Spark и подключения к Amazon Redshift.
Оптимизируйте процессы благодаря отсутствию настройки и тестирования, повышенной безопасности (учетные данные IAM), pushdown-оптимизации операций и файлу формата PARQUET для повышения производительности.

Клиенты

Huron

Huron — это международная фирма, которая оказывает квалифицированные услуги по реализации на практике надежных стратегий, оптимизации операций, ускорению цифровой трансформации и подготовке компаний и их сотрудников к будущему.

«Мы даем нашим инженерам возможность создавать конвейеры данных и приложения с помощью Apache Spark с использованием Python и Scala. Нам нужно было специализированное решение, которое бы упростило операции и обеспечило более быструю и эффективную доставку клиентам — и именно это мы получили с новой интеграцией Amazon Redshift для Apache Spark.»

Кори Джонсон, менеджер по архитектуре данных Huron Consulting

GE Aerospace

GE Aerospace — это международный поставщик реактивных двигателей, компонентов и систем для коммерческих и военных самолетов. Эта компания занимается проектированием, разработкой и производством реактивных двигателей со времен Первой мировой войны.

«GE Aerospace использует аналитику AWS и Amazon Redshift, для получения ключевых бизнес-данных, которые помогают принимать важные бизнес-решения. Благодаря поддержке автоматического копирования Amazon S3 мы можем создавать более простые конвейеры данных для перемещения данных из Amazon S3 в Amazon Redshift. Это повышает возможности наших специалистов по продуктам для работы с данными в отношении доступа к данным и предоставления информации конечным пользователям. Мы тратим больше времени на добавление ценности с помощью данных и меньше времени на интеграцию.»

Алкуин Вейдус, старший директор по архитектуре данных GE Aerospace

Goldman Sachs

The Goldman Sachs Group, Inc. — ведущая мировая финансовая организация, предоставляющая широкий спектр финансовых услуг в области инвестиционно-банковских услуг, ценных бумаг, управления инвестициями и потребительских банковских услуг большой и диверсифицированной клиентской базе, в которую входят корпорации, финансовые учреждения, правительства и частные лица. 

«В Goldman Sachs мы сосредоточены на предоставлении доступа к данным в режиме самообслуживания для всех наших пользователей. С помощью Legend, нашей платформы для руководства и управления данными с открытым исходным кодом, мы даем пользователям возможность разрабатывать приложения, ориентированные на данные, и получать аналитику на основе данных в ходе нашего сотрудничества в сфере финансовых услуг. Благодаря интеграции Amazon Redshift для Apache Spark наша команда по платформам данных сможет получать доступ к данным Amazon Redshift с минимальным количеством ручных действий, что позволит использовать операции извлечение-преобразование-загрузка без написания кода. Это позволит инженерам уделять больше внимания совершенствованию рабочих процессов, получая при этом полную и актуальную информацию. Мы ожидаем повышения производительности приложений и повышения безопасности, поскольку теперь наши пользователи могут легко получать доступ к самым свежим данным в Amazon Redshift.»

Нима Рафаэль, директор по обработке и анализу данных Goldman Sachs