Перейти к главному контенту

Хранилище в озере данных Amazon SageMaker

Часто задаваемые вопросы об архитектуре на озере

Общие вопросы

Открыть все

Сервис Amazon SageMaker нового поколения разработан на базе открытой архитектуры хранилища в озере данных. Она объединяет все ваши данные в озерах данных Amazon Simple Storage Service (Amazon S3), включая Таблицы S3, и хранилищах данных Amazon Redshift, и помогает создавать мощные аналитические приложения и приложения искусственного интеллекта, а также машинного обучения, используя одну копию данных. Дом на озере обеспечивает гибкий доступ к данным и запросы к ним с помощью всех инструментов и движков, совместимых с Apache Iceberg. Можно также подключиться к федеративным источникам данных, таким как Amazon DynamoDB, Google BigQuery и Snowflake, и запрашивать данные на месте. Переносите данные из операционных баз данных и приложений в свое озеро в режиме, близком к реальному времени, с помощью интеграции с нулевым использованием ETL. Защитите свои данные с помощью интегрированных детальных средств контроля доступа, которые применяются во всех инструментах и движках аналитики и машинного обучения. С помощью Amazon SageMaker вы можете создать открытое озеро на основе существующих инвестиций в данные, не меняя архитектуру данных.

SageMaker Lakehouse предоставляет 3 основных преимущества:

a) Унифицированный доступ к данным: SageMaker Lakehouse сокращает разрозненность данных, предоставляя унифицированный доступ к вашим данным в озерах данных Amazon S3 и хранилищах данных Amazon Redshift. Можно также подключиться к федеративным источникам данных, таким как Amazon DynamoDB, Google BigQuery и Snowflake. Кроме того, данные из операционных баз данных и приложений могут поступать в ваше озеро практически в реальном времени с помощью интеграций Zero-ETL.

b) Совместимость с открытым исходным кодом: SageMaker Lakehouse предоставляет гибкий доступ и запросы ко всем вашим данным на месте с помощью широкого спектра сервисов AWS, инструментов и движков сторонних разработчиков, совместимых с Apache Iceberg. Вы можете использовать аналитические инструменты и движки по своему выбору, в том числе SQL, Apache Spark, средства бизнес-аналитики (BI), искусственного интеллекта и машинного обучения, а также сотрудничать с единой копией данных, хранящихся на Amazon S3 или Amazon Redshift.

c) Безопасный доступ к данным: SageMaker Lakehouse обеспечивает интегрированный детальный контроль доступа к вашим данным. Это означает, что вы можете определять разрешения и последовательно применять их ко всем инструментам и движкам аналитики и машинного обучения независимо от используемых базовых форматов хранения данных или движков запросов.

SageMaker Lakehouse — это открытая архитектура SageMaker Unified Studio, объединяющая данные в вашем массиве данных. Данные из различных источников упорядочиваются в логические контейнеры, которые в Хранилище в озере данных Amazon SageMaker называются каталогами. В каждом каталоге представлены такие источники, как хранилища данных Amazon Redshift, озера данных S3 или базы данных. Можно также создать новые каталоги для хранения данных в Amazon S3 или управляемом хранилище Redshift (RMS). Доступ к данным в SageMaker Lakehouse возможен из движков, совместимых с Apache Iceberg, таких как Apache Spark, Athena или Amazon EMR. Кроме того, вы также можете подключаться к данным в своем озере и анализировать их с помощью инструментов SQL. Защита данных обеспечивается за счет детального управления доступом, применяемого всеми инструментами и механизмами, использующими доступ к данным.

Возможности

Открыть все

SageMaker Lakehouse обеспечивает унификацию контроля доступа к вашим данным с помощью двух возможностей. 1) SageMaker Lakehouse дает вам возможность задавать точные параметры разрешений. Эти разрешения применяются механизмами обработки запросов (например, Amazon EMR, Athena и Amazon Redshift). 2) SageMaker Lakehouse дает возможность доступа к данным по месту, избавляя от необходимости делать копии данных. Вы можете хранить единую копию данных и один набор политик управления доступом, используя преимущества унифицированного точного управления доступом в SageMaker Lakehouse.

SageMaker Lakehouse создан на основе нескольких технических каталогов в Каталоге данных AWS Glue, Lake Formation и Amazon Redshift с целью обеспечения унифицированного доступа к информации в озерах и хранилищах данных. SageMaker Lakehouse использует Каталог данных AWS Glue и Lake Formation для хранения определений таблиц и разрешений. Разрешения с точной настройкой Lake Formation доступны для таблиц, заданных в SageMaker Lakehouse. Вы можете управлять определениями таблиц в Каталоге данных AWS Glue и задавать детальные настройки разрешений, в том числе на уровне таблиц, столбцов и ячеек. Все это способствует защите данных. Кроме того, при помощи возможностей совместного использования данных между аккаунтами можно организовать общий доступ к данным с нулевым копированием, чтобы предоставить информацию для безопасной работы.

Да. Для доступа к SageMaker Lakehouse требуется клиентская библиотека Apache Iceberg с открытым исходным кодом. Клиенты, которые используют сторонние или самоуправляемые движки с открытым исходным кодом (например, Apache Spark или Trino), должны подключить клиентскую библиотеку Apache Iceberg к своим движкам запросов, что позволит получить доступ к SageMaker Lakehouse.

Да, используя клиентскую библиотеку Apache Iceberg, можно читать и записывать данные в имеющийся компонент Amazon Redshift из ядер Apache Spark на сервисах AWS (например, в Amazon EMR, AWS Glue, Athena и Amazon SageMaker или стороннем Apache Spark). Однако для записи данных в таблицы у вас должны быть соответствующие разрешения на такие действия.

Да, с помощью выбранного вами движка (например, Apache Spark) можно объединить таблицы вашего озера данных на Amazon S3 с таблицами вашего хранилища данных Amazon Redshift в разных базах данных.

Таблицы Amazon S3 теперь легко интегрируются с SageMaker Lakehouse, что позволяет легко запрашивать таблицы S3 и объединять их с данными в озерах данных S3, хранилищах данных Amazon Redshift и сторонних источниках данных. Хранилище в озере данных SageMaker обеспечивает гибкие возможности доступа и запроса данных на месте в таблицах и корзинах S3, а также в хранилищах Redshift с использованием открытого стандарта Apache Iceberg. Вы можете централизованно защищать и контролировать свои данные в этом хранилище, задав подробные разрешения, которые будут согласованно применяться к всем инструментам и движкам аналитики и машинного обучения.

Интеграции с нулевым использованием ETL

Открыть все

SageMaker Lakehouse поддерживает интеграцию с нулевым использованием ETL для Amazon DynamoDB, Amazon Aurora и Amazon RDS для MySQL, а также восьми программ: Zoho CRM, Salesforce, Salesforce Pardot, ServiceNow, рекламы в Facebook и Instagram, Zendesk, а также SAP.

Можно настраивать и отслеживать интеграцию с нулевым использованием ETL через консоль AWS Glue в Обработке данных Amazon SageMaker с AWS Glue. Получив данные, вы можете обращаться к ним и запрашивать их через совместимые с Apache Iceberg движки запросов. Дополнительные сведения см. на странице, посвященной интеграции с нулевым использованием ETL.

Чтобы подробнее узнать о стоимости решений, посетите страницы с ценами на SageMaker Lakehouse и AWS Glue.

Подробную информацию см. на странице цен на SageMaker Lakehouse.

Доступность

Открыть все

SageMaker Lakehouse доступен в регионах Восток США (Северная Вирджиния), Восток США (Огайо), Запад США (Орегон), Азиатско-Тихоокеанский регион (Гонконг), Азиатско-Тихоокеанский регион (Сеул), Азиатско-Тихоокеанский регион (Сингапур), Азиатско-Тихоокеанский регион (Сидней), Азиатско-Тихоокеанский регион (Токио), Канада (Центральная), Европа (Франкфурт), Европа (Ирландия), Европа (Лондон), Европа (Стокгольм) и Южная Америка (Сан-Паулу).

Да. SageMaker Lakehouse хранит метаданные в Каталоге данных AWS Glue и использует то же SLA, что и Amazon Glue.

Начало работы

Открыть все

SageMaker Lakehouse доступен в унифицированной студии Amazon SageMaker. В SageMaker Unified Studio можно создать новый проект или выбрать существующий. В своем проекте нажмите «Данные» на левой панели навигации, чтобы открыть панель обозревателя данных. Панель обозревателя данных позволяет просматривать данные, к которым у вас есть доступ в SageMaker Lakehouse. Чтобы помочь вам начать работу, вместе с проектом автоматически создается управляемый каталог S3 по умолчанию, в который можно добавлять новые файлы данных в свой домик озера. Кроме того, на панели обозревателя данных, нажав (+) Добавить данные, вы сможете продолжить создание своего водохранилища, создав дополнительные управляемые каталоги в управляемом хранилище Redshift, подключившись к федеративным источникам данных или загрузив данные в управляемые каталоги.

Если у вас есть существующие базы данных и каталоги, вы можете добавить их в хранилище, предоставив разрешения своей проектной роли с помощью AWS Lake Formation. Например, можно перенести хранилище данных Amazon Redshift в SageMaker Lakehouse, зарегистрировав кластер Redshift или бессерверное пространство имен в каталоге данных Glue. Затем вы можете принять приглашение кластера или пространства имен и предоставить соответствующие разрешения в Lake Formation, чтобы сделать его доступным для доступа.

Нет, чтобы использовать SageMaker Lakehouse, выполнять миграцию данных не нужно. Решение SageMaker Lakehouse позволяет получить доступ к данным и запрашивать их по месту, используя открытый стандарт Apache Iceberg. Прямой доступ к данным можно получить в озерах данных Amazon S3, таблицах S3 и хранилищах данных Amazon Redshift. Вы также можете подключиться к федеративным источникам данных, таким как хранилища данных Snowflake и Google BigQuery, а также к операционным базам данных, таким как PostgreSQL и SQL Server. Данные из операционных баз данных и сторонних приложений можно вводить в управляемые каталоги на озере практически в режиме реального времени благодаря интеграции Zero-ETL без необходимости обслуживания инфраструктуры или сложных конвейеров. К тому же доступны сотни коннекторов AWS Glue для интеграции с существующими источниками данных. 

Чтобы перенести хранилище данных Amazon Redshift в SageMaker Lakehouse, перейдите в консоль управления Redshift и зарегистрируйте кластер Redshift или бессерверное пространство имен в каталоге данных Glue в раскрывающемся меню Action. Затем вы можете перейти в Lake Formation и принять приглашение кластера или пространства имен создать интегрированный каталог и предоставить соответствующие разрешения, чтобы сделать его доступным для доступа в SageMaker Lakehouse. Инструкции доступны в документации здесь. Эти задачи также можно выполнять с помощью интерфейса командной строки AWS (AWS CLI) или API/SDK.

Чтобы перенести озеро данных S3 в SageMaker Lakehouse, сначала необходимо каталогизировать озеро данных S3 в каталоге данных AWS Glue, следуя приведенным здесь инструкциям. После каталогизации озера данных Amazon S3 с помощью каталога данных AWS Glue данные станут доступны в SageMaker Lakehouse. В AWS Lake Formation вы можете предоставить разрешения роли проекта Unified Studio, чтобы сделать озеро данных S3 доступным для использования в SageMaker Unified Studio. 

Amazon SageMaker Lakehouse объединяет доступ ко всем данным в озерах данных Amazon S3, хранилищах данных Amazon Redshift и сторонних источниках данных. Amazon S3 Tables предоставляет первое облачное хранилище объектов со встроенной поддержкой Apache Iceberg. Amazon SageMaker Lakehouse интегрируется с таблицами Amazon S3, поэтому вы можете получить доступ к таблицам S3 из аналитических сервисов AWS, таких как Amazon Redshift, Amazon Athena, Amazon EMR, AWS Glue или движков, совместимых с Apache Iceberg (Apache Spark или PyIceberg). SageMaker Lakehouse также обеспечивает централизованное управление детальными разрешениями на доступ к таблицам S3 и другим данным и последовательно применяет их во всех движках.


Для начала перейдите в консоль Amazon S3 и включите интеграцию корзины S3 Table с аналитическими сервисами AWS. После включения интеграции перейдите в AWS Lake Formation и предоставьте вашей проектной роли SageMaker Unified Studio разрешения на использование корзины S3 Table. Затем вы используете интегрированные аналитические сервисы в SageMaker Unified Studio для запроса и анализа данных в таблицах S3. Можно даже объединить данные из таблиц Amazon S3 с другими источниками, такими как хранилища данных Amazon Redshift, сторонние и федеративные источники данных (Amazon DynamoDB, Snowflake или PostgreSQL). 

Хранилище в озере данных Amazon SageMaker можно использовать напрямую из Единой студии Amazon SageMaker. SageMaker Unified Studio предоставляет интегрированный интерфейс доступа ко всем данным из SageMaker Lakehouse и их использования с помощью знакомых инструментов AWS для разработки моделей, генеративного искусственного интеллекта, обработки данных и аналитики SQL. Для начала вы можете войти в свой домен SageMaker, используя свои корпоративные учетные данные в SageMaker Unified Studio. Выполнив несколько простых действий в SageMaker Unified Studio, администраторы могут создавать проекты, выбирая для них определенный профиль. Затем вы можете выбрать проект для работы с данными в SageMaker Lakehouse. После выбора проекта вы получаете унифицированное представление данных в своем озере на панели Data Explorer и получаете доступ к движкам запросов и инструментам разработчика в одном месте.

SageMaker Lakehouse также предоставляет гибкий доступ к данным и запросы к ним с помощью всех инструментов и движков, совместимых с Apache Iceberg. Вы можете использовать инструменты и движки аналитики по вашему выбору, такие как SQL, Apache Spark, бизнес-аналитика (BI) и инструменты искусственного интеллекта и машинного обучения, а также совместно работать с данными, хранящимися в SageMaker Lakehouse.

Да. Хранилище в озере данных SageMaker предоставляет гибкие возможности для доступа к данным и выполнения запросов с помощью всех инструментов и движков, совместимых с Apache Iceberg. Вы можете использовать инструменты и движки аналитики по вашему выбору, такие как SQL, Apache Spark, бизнес-аналитика (BI) и инструменты искусственного интеллекта и машинного обучения, а также совместно работать с данными, хранящимися в SageMaker Lakehouse.