Amazon Redshift

Интеграция Amazon Redshift для Apache Spark

Создание приложений Apache Spark с чтением и записью данных из Amazon Redshift

Попробовать соединитель при помощи Amazon EMR 6.9

Почему стоит выбрать интеграцию Amazon Redshift для Apache Spark?

Интеграция Amazon Redshift для Apache Spark упрощает и ускоряет доступ приложений Apache Spark к данным Amazon Redshift из аналитических сервисов AWS, таких как Amazon EMR, AWS Glue и Amazon SageMaker. При использовании Amazon EMR, AWS Glue и SageMaker можно быстро создавать приложения Apache Spark, которые считывают информацию из хранилищ данных Amazon Redshift и записывают в них без ущерба для производительности и согласованности транзакций. Интеграция Amazon Redshift для Apache Spark также использует учетные данные Управления идентификацией и доступом AWS (IAM) для повышения безопасности. При использовании интеграции Amazon Redshift для Apache Spark не требуется ручной настройки и обслуживания несертифицированных соединителей сторонних производителей. Начать работу с заданиями Apache Spark, использующими данные Amazon Redshift, можно за считанные секунды. Эта новая интеграция повышает производительность приложений Apache Spark, использующих данные Amazon Redshift.

Преимущества Amazon Redshift

Расширьте диапазон источников данных, которые можно использовать в своих приложениях глубокой аналитики и машинного обучения, работающих в Amazon EMR, AWS Glue или SageMaker, путем чтения и записи данных в хранилище данных.

Оптимизируйте громоздкий и зачастую ручной процесс настройки несертифицированных соединителей и драйверов JDBC, сократив время подготовки задач аналитики и машинного обучения.

Используйте возможности pushdown-оптимизации, такие как функции сортировки, агрегирования, ограничения, объединения и скалярные функции, чтобы из хранилища данных Amazon Redshift передавались только значимые данные.

Как это работает

Используйте сервисы AWS для создания приложений Apache Spark, которые считывают и записывают данные в хранилищах данных Amazon Redshift.

Увеличить и прочитать описание изображения

A diagram illustrating integration between AWS Glue, Amazon EMR, Amazon SageMaker, and Amazon Redshift using Amazon Redshift Integration for Apache Spark, enabling access to Redshift data through Apache Spark applications.

Примеры использования

Создавайте приложения Apache Spark на Java, Scala и Python с помощью аналитических сервисов AWS на основе Apache Spark.

Считывайте и записывайте данные в Amazon Redshift с помощью Amazon EMR, AWS Glue и SageMaker, а также сервисов AWS для аналитики и машинного обучения.

Используйте Amazon EMR или AWS Glue для получения кода кадра данных из задания или записной книжки Apache Spark и подключения к Amazon Redshift.

Оптимизируйте процессы благодаря отсутствию настройки и тестирования, повышенной безопасности (учетные данные IAM), pushdown-оптимизации операций и файлу формата PARQUET для повышения производительности.

Клиенты

Кори Джонсон, менеджер по архитектуре данных Huron Consulting

Huron — это международная фирма, которая оказывает квалифицированные услуги по реализации на практике надежных стратегий, оптимизации операций, ускорению цифровой трансформации и подготовке компаний и их сотрудников к будущему.

«Мы даем нашим инженерам возможность создавать конвейеры данных и приложения с помощью Apache Spark с использованием Python и Scala. Нам нужно было специализированное решение, которое бы упростило операции и обеспечило более быструю и эффективную доставку клиентам — и именно это мы получили с новой интеграцией Amazon Redshift для Apache Spark.»

Алкуин Вейдус, старший директор по архитектуре данных GE Aerospace

GE Aerospace — это международный поставщик реактивных двигателей, компонентов и систем для коммерческих и военных самолетов. Эта компания занимается проектированием, разработкой и производством реактивных двигателей со времен Первой мировой войны.

«GE Aerospace использует аналитику AWS и Amazon Redshift, для получения ключевых бизнес-данных, которые помогают принимать важные бизнес-решения. Благодаря поддержке автоматического копирования Amazon S3 мы можем создавать более простые конвейеры данных для перемещения данных из Amazon S3 в Amazon Redshift. Это повышает возможности наших специалистов по продуктам для работы с данными в отношении доступа к данным и предоставления информации конечным пользователям. Мы тратим больше времени на добавление ценности с помощью данных и меньше времени на интеграцию.»

Нима Рафаэль, директор по обработке и анализу данных Goldman Sachs

The Goldman Sachs Group, Inc. — ведущая мировая финансовая организация, предоставляющая широкий спектр финансовых услуг в области инвестиционно-банковских услуг, ценных бумаг, управления инвестициями и потребительских банковских услуг большой и диверсифицированной клиентской базе, в которую входят корпорации, финансовые учреждения, правительства и частные лица.

«В Goldman Sachs мы сосредоточены на предоставлении доступа к данным в режиме самообслуживания для всех наших пользователей. С помощью Legend, нашей платформы для руководства и управления данными с открытым исходным кодом, мы даем пользователям возможность разрабатывать приложения, ориентированные на данные, и получать аналитику на основе данных в ходе нашего сотрудничества в сфере финансовых услуг. Благодаря интеграции Amazon Redshift для Apache Spark наша команда по платформам данных сможет получать доступ к данным Amazon Redshift с минимальным количеством ручных действий, что позволит использовать операции извлечение-преобразование-загрузка без написания кода. Это позволит инженерам уделять больше внимания совершенствованию рабочих процессов, получая при этом полную и актуальную информацию. Мы ожидаем повышения производительности приложений и повышения безопасности, поскольку теперь наши пользователи могут легко получать доступ к самым свежим данным в Amazon Redshift.»

Ресурсы

Видео

Посмотрите техническое видео об интеграции Amazon Redshift для Apache Spark.

Смотреть сейчас

Блог

Читайте статью в блоге об интеграции Amazon Redshift для Apache Spark.

Подробнее

Документация

Прочитайте руководство по техническому управлению интеграцией Amazon Redshift для Apache Spark.

Больше информации здесь

Начать работу c Amazon Redshift

Что такое Amazon Redshift?

Подробнее

Соединитель Spark Amazon Redshift в AWS Glue

Подробнее

Версии драйвера JDBC с поддержкой AWS Glue

Подробнее

Нашли то, что искали сегодня?

Скажите, как улучшить качество контента на наших страницах

Интеграция Amazon Redshift для Apache Spark

Почему стоит выбрать интеграцию Amazon Redshift для Apache Spark?

Преимущества Amazon Redshift

Как это работает

Примеры использования

Клиенты

Кори Джонсон, менеджер по архитектуре данных Huron Consulting

Алкуин Вейдус, старший директор по архитектуре данных GE Aerospace

Нима Рафаэль, директор по обработке и анализу данных Goldman Sachs

Ресурсы

Посмотрите техническое видео об интеграции Amazon Redshift для Apache Spark.

Читайте статью в блоге об интеграции Amazon Redshift для Apache Spark.

Прочитайте руководство по техническому управлению интеграцией Amazon Redshift для Apache Spark.

Начать работу c Amazon Redshift

Что такое Amazon Redshift?

Соединитель Spark Amazon Redshift в AWS Glue

Версии драйвера JDBC с поддержкой AWS Glue

Нашли то, что искали сегодня?

Подробнее

Ресурсы

Разработчики

Поддержка

Интеграция Amazon Redshift для Apache Spark

Почему стоит выбрать интеграцию Amazon Redshift для Apache Spark?

Преимущества Amazon Redshift

Расширение возможностей аналитики Apache Spark с помощью данных Amazon Redshift

Доступ к данным Amazon Redshift с минимальными настройками

Повышение производительности и безопасности с помощью сертифицированного Amazon соединителя

Как это работает

Примеры использования

Создание приложений для операций извлечение-преобразование-загрузка, машинного обучения и интерактивного взаимодействия

Подключение к хранилищу данных Amazon Redshift

Выполнение запросов за секунды

Сертифицированный AWS соединитель для немедленного использования

Клиенты

Кори Джонсон, менеджер по архитектуре данных Huron Consulting

Алкуин Вейдус, старший директор по архитектуре данных GE Aerospace

Нима Рафаэль, директор по обработке и анализу данных Goldman Sachs

Ресурсы

Посмотрите техническое видео об интеграции Amazon Redshift для Apache Spark.

Читайте статью в блоге об интеграции Amazon Redshift для Apache Spark.

Прочитайте руководство по техническому управлению интеграцией Amazon Redshift для Apache Spark.

Начать работу c Amazon Redshift

Что такое Amazon Redshift?

Соединитель Spark Amazon Redshift в AWS Glue

Версии драйвера JDBC с поддержкой AWS Glue

Нашли то, что искали сегодня?

Подробнее

Ресурсы

Разработчики

Поддержка