Перейти к главному контенту

Архитектура хранилища в озере данных

Архитектура Amazon SageMaker, построенная на озере

Упростите аналитику и искусственный интеллект с помощью унифицированной, открытой и безопасной архитектуры данных

Обзор

Следующее поколение Amazon SageMaker построено на открытой архитектуре, полностью совместимой с Apache Iceberg. Объедините все данные в озерах данных Amazon Simple Storage Service (Amazon S3), включая таблицы S3 и хранилища данных Amazon Redshift, чтобы создать мощные аналитические приложения и приложения искусственного интеллекта и машинного обучения на одной копии данных. Гибкий доступ к данным и запросы к ним на месте с помощью всех инструментов и движков, совместимых с Apache Iceberg. Защитите свои данные, определив детальные разрешения, применимые ко всем инструментам и движкам аналитики и машинного обучения (ML). Переносите данные из операционных баз данных и приложений в свое озеро практически в режиме реального времени с помощью интеграции с нулевым использованием ETL. Кроме того, выполняйте объединенные запросы к данным, хранящимся в нескольких сторонних источниках, для доступа к данным и запроса к ним на месте.

Решение в действии

Узнайте, как получить доступ к унифицированным данным из озер данных S3, таблиц S3 и хранилищ данных Redshift в открытом и безопасном хранилище данных.

Missing alt text value

Преимущества

Объедините все данные в озерах данных Amazon S3, включая таблицы S3 и хранилища данных Amazon Redshift. Переносите информацию из операционных баз данных и приложений на озеро в режиме, близком к реальному времени, благодаря интеграции с нулевым использованием ETL. Для интеграции данных из различных источников можно использовать сотни коннекторов. Кроме того, вы можете получать доступ к данным и запрашивать их на месте с помощью функций объединенных запросов из сторонних источников данных.

Получите возможность получать доступ к данным и запрашивать их на месте с помощью всех совместимых с Apache Iceberg аналитических инструментов и движков, таких как SQL, Apache Spark, бизнес-аналитика (BI) и инструменты искусственного интеллекта и машинного обучения, для доступа к унифицированным данным в вашем озере.

Защитите свои данные с помощью интегрированных и детальных средств контроля доступа, применяемых ко всем данным во всех аналитических инструментах и движках. Определите разрешения один раз и уверенно делитесь данными в своей организации.

Примеры использования

Объедините все данные в озерах данных Amazon S3 и хранилищах данных Amazon Redshift для реализации инициатив по аналитике и искусственному интеллекту с помощью единой копии данных. Интегрированные средства контроля доступа позволяют точно определять разрешения и безопасно передавать единую копию данных по всей организации.

Доступ к данным в операционных базах данных и приложениях практически в реальном времени благодаря интеграции Zero-ETL. Получайте доступ к данным и запрашивайте их на месте с помощью широкого спектра сервисов AWS, инструментов и движков сторонних разработчиков с открытым исходным кодом, поддерживающих Apache Iceberg.

Перенесите существующие данные из нескольких хранилищ данных Amazon Redshift на озеро, чтобы запрашивать и объединять данные, хранящиеся в кластерах и рабочих группах Amazon Redshift. Масштабируйте рабочие нагрузки для процессов извлечения, преобразования и загрузки (ETL), отчетов бизнес-аналитики и анализа по мере необходимости без управления несколькими общими данными.

Клиенты

Lennar

«Последние 18 месяцев мы работали с AWS над преобразованием нашей базы данных для использования экономичных и лучших в своем классе решений. Благодаря таким инновациям, как единая студия Amazon SageMaker и хранилище в озере данных Amazon SageMaker, мы ускоряем доставку с помощью беспрепятственного доступа к данным и сервисам, что позволит нашим инженерам, аналитикам и исследователям получать аналитические данные, представляющие материальную ценность для нашего бизнеса».

Ли Слезак, старший вице-президент по данным и аналитике, Lennar

Missing alt text value

Roche

Международная компания Roche является лидером в сферах фармацевтики и диагностики. Основная ее цель – с помощью научных открытий улучшить качество жизни людей.

«Мы используем Amazon Redshift для анализа структурированных и полуструктурированных данных во всех наших репозиториях. Новое хранилище в озере данных Amazon SageMaker восхищает меня своим потенциалом по расширению и унификации доступа к озеру данных и другим источникам данных с помощью таких сервисов, как Amazon Redshift, каталог данных AWS Glue и AWS Lake Formation. Это нововведение позволит нашим специалистам по работе с данными и инженерам упростить доступ к данным и повысить совместимость рабочих нагрузок, связанных с данными, аналитикой и приложениями. Я прогнозирую значительное уменьшение количества ошибок в данных благодаря сокращению копирования данных, снижению времени обработки на 40 %, более быстрой записи аналитических данных в системы транзакций для лучшего принятия решений и предоставления нашим командам возможности сосредоточиться на создании ценности для бизнеса».

Янник Мистели (Yannick Misteli), руководитель отдела разработки глобальной продуктовой стратегии, Roche

Blue outline logo with the word 'Roche' in the center, displayed within a hexagonal border on a transparent background.

Idealista

Idealista поддерживает агентов по недвижимости и частных лиц в Южной Европе, предоставляя онлайн-платформу объявлений о недвижимости.

«Наша цель – упростить доступ к данным Salesforce для расширенной аналитики в нашем озере данных. Используя новую функцию интеграции приложений с нулевым использованием ETL в Хранилище в озере данных Amazon SageMaker, мы можем упростить процессы извлечения и приема данных, устраняя необходимость применять нескольких ETL для прямого доступа к Salesforce. Такой централизованный подход снижает сложность операций и значительно повышает эффективность управления данными. Мы ожидаем существенной экономии времени при извлечении и обработке данных, что позволит нашей команде сосредоточиться на получении полезной информации из наших данных, а не на управлении их сбором».

Хавьер Монтеррубио, инженер-менеджер платформы данных, Idealista

The word 'idealista' displayed in a pixel-style, black font on a white background.

Carrier

«В компании Carrier применение нового поколения Amazon SageMaker позволяет изменить стратегию корпоративных данных, оптимизируя процесс создания и масштабирования продуктов данных. Благодаря подходу единой студии SageMaker к обнаружению, обработке данных и разработке моделей мы значительно ускорили внедрение нашей системы в озере данных. Особенно впечатляет то, что с помощью беспрепятственной интеграции с существующим каталогом данных и встроенными средствами управления можно демократизировать доступ к данным при соблюдении стандартов безопасности, помогая нашим командам быстро внедрять передовые аналитические решения и решения искусственного интеллекта в масштабах предприятия».

Missing alt text value

Партнеры

Tableau

Tableau помогает людям и организациям в большей степени ориентироваться на данные.

«Партнерство между Amazon и Salesforce Tableau отражает общую приверженность инновациям и успеху клиентов. Благодаря новой интеграции Amazon с нулевым использованием ETL мы объединяем данные и аналитику Tableau на основе искусственного интеллекта с мощной инфраструктурой данных Amazon, чтобы трансформировать методы извлечения информации организациями из своих данных. Эта простая интеграция позволяет нашим клиентам получать ценную информацию из всех структурированных и неструктурированных данных, используя возможности Хранилища в озере данных Amazon SageMaker и Amazon Redshift, что значительно уменьшает сложность проектирования и время развертывания. Вместе представители Tableau и Amazon помогают клиентам ускорить цифровую трансформацию и повысить ценность бизнеса в больших масштабах».

Али Торе (Ali Tore), старший вице-президент по расширенной аналитике, Tableau

The image shows the Tableau logo with a colorful, geometric icon followed by the word 'Tableau' in stylized blue text.

dbt Labs

Миссия dbt Labs – помогать аналитикам создавать и распространять организационные знания.

«Мы уже давно стали эталоном трансформации Amazon Redshift, предлагая гибкость, совместную работу и доверие. С новым хранилищем в озере данных Amazon SageMaker мы рады предоставить эту возможность большему числу клиентов и еще большему количеству данных в среде AWS. Теперь клиенты могут получить доступ ко всем своим данным в системе AWS, включая хранилища и озера данных. Мы рады объединить наши возможности с новым сервисом Amazon SageMaker, чтобы обеспечить управление, каталогизацию и оптимизацию данных для наших общих клиентов».

Шон Толдо (Shawn Toldo), вице-президент по партнерским отношениям, dbt Labs

The DataRobot company logo with a red and black design.

Informatica

Informatica, лидер в области управления корпоративными облачными данными на основе искусственного интеллекта, переносит данные и искусственный интеллект в реальную жизнь, позволяя компаниям использовать преобразующую силу своих важнейших активов.

«С помощью платформы интеллектуального управления данными (IDMC) и Amazon SageMaker организации могут использовать возможности данных, внедрять инновации и повысить эффективность. Являясь партнером по запуску Хранилища в озере данных Amazon SageMaker, мы гордимся тем, что предлагаем решение корпоративного уровня, отвечающее высоким стандартам современных организаций, работающих с данными. Вместе с инфраструктурой AWS мы помогаем принимать более быстрые и обоснованные решения для достижения эффективных результатов в разных отраслях».

Пратик Парех (Pratik Parekh), старший вице-президент по управлению продуктами, Informatica

The logo for Informatica, featuring an orange geometric shape with a blue arrow and the company name 'Informatica' in modern font.