Каталог Amazon SageMaker теперь экспортирует метаданные активов в виде набора данных с возможностью запроса
Каталог Amazon SageMaker теперь экспортирует метаданные ресурсов в виде таблицы Apache Iceberg через таблицы Amazon S3. Это позволяет специалистам по обработке данных отправлять запросы по содержимому каталогов и отвечать в том числе на следующие вопросы: «Сколько ресурсов было зарегистрировано в прошлом месяце?», «Какие ресурсы классифицируются как конфиденциальные?» или «Какие ресурсы не имеют бизнес-описания?» При этом можно использовать стандартный язык SQL без необходимости создавать собственную инфраструктуру извлечения, преобразования и загрузки (ETL) для создания отчетов.
Данная возможность автоматически преобразует метаданные ресурсов каталога в таблицу с возможностью запроса, доступную из Amazon Athena, блокнотов Единой студии SageMaker, агентов искусственного интеллекта (ИИ) и других инструментов аналитики и бизнес-аналитики. Экспортированная таблица содержит технические метаданные (такие как resource_id, resource_type), бизнес-метаданные (такие как asset_name, business_description), сведения о владельцах и метки времени. Данные подразделяются по snapshot_date для запросов по прошлым периодам и автоматически появляются в Единой студии SageMaker в корзине aws-sagemaker-catalog.
Такая возможность доступна во всех регионах AWS, где поддерживается каталог SageMaker, без дополнительной платы. Вы платите только за используемые сервисы, включая хранилище таблиц S3 и запросы Amazon Athena. Чтобы контролировать стоимость хранилища, можно настроить политики хранения экспортированных таблиц так, чтобы из них автоматически удалялись записи старше заданного периода.
Для начала активируйте экспорт наборов данных с помощью Интерфейса командной строки AWS (AWS CLI), а затем откройте таблицу ресурсов в таблицах S3 или на вкладке «Данные» в Единой студии SageMaker в течение 24 часов. Для запросов можно использовать Amazon Athena, блокноты Единой студии или подключать внешние инструменты бизнес-аналитики через адрес каталога REST API Iceberg для таблиц S3. Инструкции см. в руководстве пользователя Amazon SageMaker.