Интеграция Amazon Redshift для Apache Spark

Создание приложений Apache Spark с чтением и записью данных из Amazon Redshift

Интеграция Amazon Redshift для Apache Spark упрощает и ускоряет доступ приложений Apache Spark к данным Amazon Redshift из аналитических сервисов AWS, таких как Amazon EMR, AWS Glue и Amazon SageMaker. При использовании Amazon EMR, AWS Glue и SageMaker можно быстро создавать приложения Apache Spark, которые считывают информацию из хранилищ данных Amazon Redshift и записывают в них без ущерба для производительности и согласованности транзакций. Интеграция Amazon Redshift для Apache Spark также использует учетные данные Управления идентификацией и доступом AWS (IAM) для повышения безопасности. При использовании интеграции Amazon Redshift для Apache Spark не требуется ручной настройки и обслуживания несертифицированных соединителей сторонних производителей. Начать работу с заданиями Apache Spark, использующими данные Amazon Redshift, можно за считанные секунды. Эта новая интеграция повышает производительность приложений Apache Spark, использующих данные Amazon Redshift.

Интеграция Amazon Redshift для Apache Spark (1:24)

Преимущества

Расширение возможностей аналитики Apache Spark с помощью данных Amazon Redshift

Расширьте диапазон источников данных, которые можно использовать в своих приложениях глубокой аналитики и машинного обучения, работающих в Amazon EMR, AWS Glue или SageMaker, путем чтения и записи данных в хранилище данных.

Доступ к данным Amazon Redshift с минимальными настройками

Оптимизируйте громоздкий и зачастую ручной процесс настройки несертифицированных соединителей и драйверов JDBC, сократив время подготовки задач аналитики и машинного обучения.

Повышение производительности и безопасности с помощью сертифицированного Amazon соединителя

Используйте возможности pushdown-оптимизации, такие как функции сортировки, агрегирования, ограничения, объединения и скалярные функции, чтобы из хранилища данных Amazon Redshift передавались только значимые данные. 

Как это работает

Используйте сервисы AWS для создания приложений Apache Spark, которые считывают и записывают данные в хранилищах данных Amazon Redshift.
Схема использования сервисов AWS для создания приложений Apache Spark, которые считывают и записывают данные в хранилищах данных Amazon Redshift.

Примеры использования

Создание приложений для операций извлечение-преобразование-загрузка, машинного обучения и интерактивного взаимодействия

Создавайте приложения Apache Spark на Java, Scala и Python с помощью аналитических сервисов AWS на основе Apache Spark.

Подключение к хранилищу данных Amazon Redshift

Считывайте и записывайте данные в Amazon Redshift с помощью Amazon EMR, AWS Glue и SageMaker, а также сервисов AWS для аналитики и машинного обучения.

Выполнение запросов за секунды

Используйте Amazon EMR или AWS Glue для получения кода кадра данных из задания или записной книжки Apache Spark и подключения к Amazon Redshift. 

Сертифицированный AWS соединитель для немедленного использования

Оптимизируйте процессы благодаря отсутствию настройки и тестирования, повышенной безопасности (учетные данные IAM), pushdown-оптимизации операций и файлу формата PARQUET для повышения производительности.

Клиенты

Huron

Huron — это международная фирма, которая оказывает квалифицированные услуги по реализации на практике надежных стратегий, оптимизации операций, ускорению цифровой трансформации и подготовке компаний и их сотрудников к будущему.

«Мы даем нашим инженерам возможность создавать конвейеры данных и приложения с помощью Apache Spark с использованием Python и Scala. Нам нужно было специализированное решение, которое бы упростило операции и обеспечило более быструю и эффективную доставку клиентам — и именно это мы получили с новой интеграцией Amazon Redshift для Apache Spark.»

Кори Джонсон, менеджер по архитектуре данных Huron Consulting

GE Aerospace

GE Aerospace — это международный поставщик реактивных двигателей, компонентов и систем для коммерческих и военных самолетов. Эта компания занимается проектированием, разработкой и производством реактивных двигателей со времен Первой мировой войны.

«GE Aerospace использует аналитику AWS и Amazon Redshift, для получения ключевых бизнес-данных, которые помогают принимать важные бизнес-решения. Благодаря поддержке автоматического копирования Amazon S3 мы можем создавать более простые конвейеры данных для перемещения данных из Amazon S3 в Amazon Redshift. Это повышает возможности наших специалистов по продуктам для работы с данными в отношении доступа к данным и предоставления информации конечным пользователям. Мы тратим больше времени на добавление ценности с помощью данных и меньше времени на интеграцию.»

Алкуин Вейдус, старший директор по архитектуре данных GE Aerospace

Goldman Sachs

The Goldman Sachs Group, Inc. — ведущая мировая финансовая организация, предоставляющая широкий спектр финансовых услуг в области инвестиционно-банковских услуг, ценных бумаг, управления инвестициями и потребительских банковских услуг большой и диверсифицированной клиентской базе, в которую входят корпорации, финансовые учреждения, правительства и частные лица. 

«В Goldman Sachs мы сосредоточены на предоставлении доступа к данным в режиме самообслуживания для всех наших пользователей. С помощью Legend, нашей платформы для руководства и управления данными с открытым исходным кодом, мы даем пользователям возможность разрабатывать приложения, ориентированные на данные, и получать аналитику на основе данных в ходе нашего сотрудничества в сфере финансовых услуг. Благодаря интеграции Amazon Redshift для Apache Spark наша команда по платформам данных сможет получать доступ к данным Amazon Redshift с минимальным количеством ручных действий, что позволит использовать операции извлечение-преобразование-загрузка без написания кода. Это позволит инженерам уделять больше внимания совершенствованию рабочих процессов, получая при этом полную и актуальную информацию. Мы ожидаем повышения производительности приложений и повышения безопасности, поскольку теперь наши пользователи могут легко получать доступ к самым свежим данным в Amazon Redshift.»

Нима Рафаэль, директор по обработке и анализу данных Goldman Sachs

Начало работы c Amazon Redshift

Что такое Amazon Redshift?
Что такое Amazon Redshift?

Узнайте об Amazon Redshift из этого руководства по управлению Amazon Redshift, чтобы приступить к работе с полностью управляемым облачным сервисом хранилища данных петабайтного объема.

Дополнительные сведения »
Узнайте о переносе данных в Amazon Redshift и из него с помощью AWS Glue
Соединитель Spark Amazon Redshift в AWS Glue

Перемещайте данные в Amazon Redshift и из него с помощью ETL-заданий AWS Glue.

Дополнительные сведения »
Версии драйвера JDBC с поддержкой AWS Glue
Версии драйвера JDBC с поддержкой AWS Glue

 Узнайте о типах подключения и параметрах ETL-операций в AWS Glue.

Дополнительные сведения »