- Аналитика›
- Amazon SageMaker›
- Архитектура хранилища в озере данных
Архитектура Amazon SageMaker, построенная на озере
Упростите аналитику и искусственный интеллект с помощью унифицированной, открытой и безопасной архитектуры данных
Обзор
Следующее поколение Amazon SageMaker построено на открытой архитектуре, полностью совместимой с Apache Iceberg. Объедините все данные в озерах данных Amazon Simple Storage Service (Amazon S3), включая таблицы S3 и хранилища данных Amazon Redshift, чтобы создать мощные аналитические приложения и приложения искусственного интеллекта и машинного обучения на одной копии данных. Гибкий доступ к данным и запросы к ним на месте с помощью всех инструментов и движков, совместимых с Apache Iceberg. Защитите свои данные, определив детальные разрешения, применимые ко всем инструментам и движкам аналитики и машинного обучения (ML). Переносите данные из операционных баз данных и приложений в свое озеро практически в режиме реального времени с помощью интеграции с нулевым использованием ETL. Кроме того, выполняйте объединенные запросы к данным, хранящимся в нескольких сторонних источниках, для доступа к данным и запроса к ним на месте.
Решение в действии
Узнайте, как получить доступ к унифицированным данным из озер данных S3, таблиц S3 и хранилищ данных Redshift в открытом и безопасном хранилище данных.
Преимущества
Объедините все данные в озерах данных Amazon S3, включая таблицы S3 и хранилища данных Amazon Redshift. Переносите информацию из операционных баз данных и приложений на озеро в режиме, близком к реальному времени, благодаря интеграции с нулевым использованием ETL. Для интеграции данных из различных источников можно использовать сотни коннекторов. Кроме того, вы можете получать доступ к данным и запрашивать их на месте с помощью функций объединенных запросов из сторонних источников данных.
Получите возможность получать доступ к данным и запрашивать их на месте с помощью всех совместимых с Apache Iceberg аналитических инструментов и движков, таких как SQL, Apache Spark, бизнес-аналитика (BI) и инструменты искусственного интеллекта и машинного обучения, для доступа к унифицированным данным в вашем озере.
Примеры использования
Объедините все данные в озерах данных Amazon S3 и хранилищах данных Amazon Redshift для реализации инициатив по аналитике и искусственному интеллекту с помощью единой копии данных. Интегрированные средства контроля доступа позволяют точно определять разрешения и безопасно передавать единую копию данных по всей организации.
Доступ к данным в операционных базах данных и приложениях практически в реальном времени благодаря интеграции Zero-ETL. Получайте доступ к данным и запрашивайте их на месте с помощью широкого спектра сервисов AWS, инструментов и движков сторонних разработчиков с открытым исходным кодом, поддерживающих Apache Iceberg.
Перенесите существующие данные из нескольких хранилищ данных Amazon Redshift на озеро, чтобы запрашивать и объединять данные, хранящиеся в кластерах и рабочих группах Amazon Redshift. Масштабируйте рабочие нагрузки для процессов извлечения, преобразования и загрузки (ETL), отчетов бизнес-аналитики и анализа по мере необходимости без управления несколькими общими данными.
Клиенты
Lennar
«Последние 18 месяцев мы работали с AWS над преобразованием нашей базы данных для использования экономичных и лучших в своем классе решений. Благодаря таким инновациям, как единая студия Amazon SageMaker и хранилище в озере данных Amazon SageMaker, мы ускоряем доставку с помощью беспрепятственного доступа к данным и сервисам, что позволит нашим инженерам, аналитикам и исследователям получать аналитические данные, представляющие материальную ценность для нашего бизнеса».
Ли Слезак, старший вице-президент по данным и аналитике, Lennar
Roche
Международная компания Roche является лидером в сферах фармацевтики и диагностики. Основная ее цель – с помощью научных открытий улучшить качество жизни людей.
«Мы используем Amazon Redshift для анализа структурированных и полуструктурированных данных во всех наших репозиториях. Новое хранилище в озере данных Amazon SageMaker восхищает меня своим потенциалом по расширению и унификации доступа к озеру данных и другим источникам данных с помощью таких сервисов, как Amazon Redshift, каталог данных AWS Glue и AWS Lake Formation. Это нововведение позволит нашим специалистам по работе с данными и инженерам упростить доступ к данным и повысить совместимость рабочих нагрузок, связанных с данными, аналитикой и приложениями. Я прогнозирую значительное уменьшение количества ошибок в данных благодаря сокращению копирования данных, снижению времени обработки на 40 %, более быстрой записи аналитических данных в системы транзакций для лучшего принятия решений и предоставления нашим командам возможности сосредоточиться на создании ценности для бизнеса».
Янник Мистели (Yannick Misteli), руководитель отдела разработки глобальной продуктовой стратегии, Roche
Idealista
Idealista поддерживает агентов по недвижимости и частных лиц в Южной Европе, предоставляя онлайн-платформу объявлений о недвижимости.
«Наша цель – упростить доступ к данным Salesforce для расширенной аналитики в нашем озере данных. Используя новую функцию интеграции приложений с нулевым использованием ETL в Хранилище в озере данных Amazon SageMaker, мы можем упростить процессы извлечения и приема данных, устраняя необходимость применять нескольких ETL для прямого доступа к Salesforce. Такой централизованный подход снижает сложность операций и значительно повышает эффективность управления данными. Мы ожидаем существенной экономии времени при извлечении и обработке данных, что позволит нашей команде сосредоточиться на получении полезной информации из наших данных, а не на управлении их сбором».
Хавьер Монтеррубио, инженер-менеджер платформы данных, Idealista
Carrier
«В компании Carrier применение нового поколения Amazon SageMaker позволяет изменить стратегию корпоративных данных, оптимизируя процесс создания и масштабирования продуктов данных. Благодаря подходу единой студии SageMaker к обнаружению, обработке данных и разработке моделей мы значительно ускорили внедрение нашей системы в озере данных. Особенно впечатляет то, что с помощью беспрепятственной интеграции с существующим каталогом данных и встроенными средствами управления можно демократизировать доступ к данным при соблюдении стандартов безопасности, помогая нашим командам быстро внедрять передовые аналитические решения и решения искусственного интеллекта в масштабах предприятия».
Партнеры
Tableau
Tableau помогает людям и организациям в большей степени ориентироваться на данные.
«Партнерство между Amazon и Salesforce Tableau отражает общую приверженность инновациям и успеху клиентов. Благодаря новой интеграции Amazon с нулевым использованием ETL мы объединяем данные и аналитику Tableau на основе искусственного интеллекта с мощной инфраструктурой данных Amazon, чтобы трансформировать методы извлечения информации организациями из своих данных. Эта простая интеграция позволяет нашим клиентам получать ценную информацию из всех структурированных и неструктурированных данных, используя возможности Хранилища в озере данных Amazon SageMaker и Amazon Redshift, что значительно уменьшает сложность проектирования и время развертывания. Вместе представители Tableau и Amazon помогают клиентам ускорить цифровую трансформацию и повысить ценность бизнеса в больших масштабах».
Али Торе (Ali Tore), старший вице-президент по расширенной аналитике, Tableau
dbt Labs
Миссия dbt Labs – помогать аналитикам создавать и распространять организационные знания.
«Мы уже давно стали эталоном трансформации Amazon Redshift, предлагая гибкость, совместную работу и доверие. С новым хранилищем в озере данных Amazon SageMaker мы рады предоставить эту возможность большему числу клиентов и еще большему количеству данных в среде AWS. Теперь клиенты могут получить доступ ко всем своим данным в системе AWS, включая хранилища и озера данных. Мы рады объединить наши возможности с новым сервисом Amazon SageMaker, чтобы обеспечить управление, каталогизацию и оптимизацию данных для наших общих клиентов».
Шон Толдо (Shawn Toldo), вице-президент по партнерским отношениям, dbt Labs
Informatica
Informatica, лидер в области управления корпоративными облачными данными на основе искусственного интеллекта, переносит данные и искусственный интеллект в реальную жизнь, позволяя компаниям использовать преобразующую силу своих важнейших активов.
«С помощью платформы интеллектуального управления данными (IDMC) и Amazon SageMaker организации могут использовать возможности данных, внедрять инновации и повысить эффективность. Являясь партнером по запуску Хранилища в озере данных Amazon SageMaker, мы гордимся тем, что предлагаем решение корпоративного уровня, отвечающее высоким стандартам современных организаций, работающих с данными. Вместе с инфраструктурой AWS мы помогаем принимать более быстрые и обоснованные решения для достижения эффективных результатов в разных отраслях».
Пратик Парех (Pratik Parekh), старший вице-президент по управлению продуктами, Informatica