- Аналитика›
- AWS Clean Rooms›
- Возможности
Возможности AWS Clean Rooms
Создавайте пустые комнаты за считаные минуты. Сотрудничайте с партнерами, не передавая необработанные данные
Что такое AWS Clean Rooms?
Создайте собственную пустую комнату, добавьте участников и начните совместную работу без лишних усилий
Сотрудничайте с любой компанией, не передавая и не раскрывая исходные данные
Защитите базовые данные с помощью широкого набора средств управления пустыми комнатами, повышающих уровень конфиденциальности
Связывайте и сопоставляйте записи клиентов, используйте гибкие инструменты аналитики, а также обучайте и развертывайте модели машинного обучения совместно с партнерами
Темы страниц
Многосторонность
Открыть всеСовместная работа с данными там, где они хранятся
Открыть всеПолный программный доступ
Открыть всеНастраиваемые роли
Открыть всеРазрешение сущностей AWS в AWS Clean Rooms
Открыть всеPySpark
Открыть всеГибкий SQL
Открыть всеПравила анализа – это ограничения, которые предоставляют встроенные способы контроля использования данных. Участники совместной работы, создающие или присоединяющиеся к ней в качестве назначенных исполнителей запросов, могут писать запросы для пересечения и анализа таблиц данных в соответствии с установленными правилами анализа. AWS Clean Rooms поддерживает три типа правил анализа: объединение, список и настройка.
Правило агрегированного анализа: правило агрегированного анализа позволяет выполнять запросы, генерирующие агрегированную статистику, например, размер пересечения двух наборов данных. Используя правило анализа «объединение», можно обеспечить выполнение только объединенных запросов к данным и наложить ограничения на определенные части выполняемых запросов, например на то, какие столбцы должны использоваться только в слепом совпадении и какие столбцы могут быть использованы в объединениях, таких как суммы, подсчеты или средние значения. Вы также управляете минимальным ограничением объединения в выходных данных. Кроме того, можно установить минимальные ограничения для объединений, которые дают возможность устанавливать условия для возвратов строк выходных данных. Эти ограничения устанавливаются в форме COUNT DISTINCT (Столбец) ≥ Порог. Если строка выходных данных в результатах запроса не соответствует ни одному из ограничений, она удаляется из набора результатов. Это помогает обеспечить автоматическое применение минимальных пороговых значений для объединения, а также обеспечивает гибкость для участников совместной работы с данными, которые могут писать запросы по своему усмотрению.
Правило анализа списков: правило анализа списка позволяет выполнять запросы, которые извлекают список пересечений нескольких наборов данных на уровне строк, например перекрытие двух наборов данных. Используя правило анализа «списки», можно обеспечить выполнение только запросов списков к данным и наложить ограничения на выполняемые запросы, например на то, какие столбцы должны использоваться только в слепом совпадении, а какие можно выводить в виде списка в выходных данных.
Настраиваемое правило анализа. Настраиваемое правило анализа позволяет создавать собственные запросы с использованием большинства стандартных стандартов ANSI SQL, таких как общие табличные выражения (CTE) и оконные функции. Кроме того, можно просматривать и разрешать запросы до того, как участники совместной работы их запустят, и проверять запросы других участников, прежде чем им будет разрешено выполнять их в ваших таблицах. При использовании правила анализа «настройка» вы можете использовать встроенные средства управления, чтобы заранее определить или ограничить способы анализа базовых данных вместо того, чтобы полагаться на журналы запросов после завершения анализа. При использовании настраиваемых SQL-запросов вы также можете создавать или использовать шаблоны анализа для хранения настраиваемых запросов с параметрами при совместной работе. Это позволяет клиентам легче помогать друг другу в совместной работе. Например, участник, обладающий большим опытом работы с SQL, может создавать шаблоны, которые другие участники могут просматривать и, возможно, запускать. Это также упрощает повторный анализ в ходе совместной работы. Можно также использовать дифференциальную конфиденциальность AWS Clean Rooms, выбрав собственное правило анализа, а затем настроив параметры дифференциальной конфиденциальности.
Можно выполнять запросы AWS Clean Rooms для данных, имеющих криптографическую защиту. Если у вас есть политики обработки данных, требующие шифрования конфиденциальных данных, вы можете предварительно зашифровать свои данные с помощью общего ключа, предназначенного для конкретной совместной работы, чтобы данные оставались зашифрованными даже при выполнении запросов. Криптографические вычисления сохраняют шифрование данных, используемых для совместных вычислений: в месте хранения, при передаче и при использовании (обработке).
Криптографические вычисления для чистых помещений (C3R) — это Java SDK с открытым исходным кодом и интерфейсом командной строки, доступный на GitHub. Эта функция доступна без дополнительной оплаты. Если у вас есть большие данные, вы можете ознакомиться с документацией, чтобы узнать, как можно интегрировать C3R в Apache Spark.
Эта функция является последней из широкого спектра криптографических вычислительных инструментов AWS, созданных для удовлетворения требований безопасности и соответствия требованиям, а также позволяет использовать преимущества гибкости, масштабируемости, производительности и простоты использования AWS.
Машинное обучение, повышающее конфиденциальность
Открыть всеAWS Clean Rooms ML помогает вам и вашим партнерам применять машинное обучение, повышающее конфиденциальность (ML), для получения прогнозной информации без необходимости делиться друг с другом необработанными данными. Сервис AWS Clean Rooms ML поддерживает настраиваемое моделирование машинного обучения и моделирование машинного обучения по схожим признакам. Настраиваемое моделирование позволяет использовать собственную модель для обучения и выполнять логические выводы на основе совокупных наборов данных, не передавая сотрудникам базовые данные или интеллектуальную собственность. Моделирование по схожим признакам позволяет использовать модель, разработанную AWS, для создания расширенного набора схожих профилей на основе небольшой выборки профилей, которые ваши партнеры используют в рамках сотрудничества.
Сервис AWS Clean Rooms ML эффективен в нескольких сценариях использования. Например, рекламодатели могут использовать свою собственную модель и данные для сотрудничества в Clean Rooms и предложить издателям объединить свои данные для обучения и внедрения настраиваемой модели машинного обучения, которая поможет им повысить эффективность кампаний. Финансовые учреждения могут использовать записи транзакций за предыдущие периоды для обучения настраиваемой модели машинного обучения и приглашать партнеров к сотрудничеству в рамках Clean Rooms для выявления потенциально мошеннических транзакций. Исследовательские учреждения и сети больниц могут найти кандидатов, похожих на существующих участников клинических исследований, чтобы ускорить клинические испытания. Бренды и издатели могут моделировать похожие сегменты клиентов на рынке и предоставлять самые актуальные рекламные материалы, не передавая друг другу основные данные.
Моделирование по схожим признакам AWS Clean Rooms ML на базе авторизованной AWS модели было создано и протестировано на различных наборах данных, таких как электронная коммерция и потоковое видео, и повышает точность моделирования по схожим признакам до 36 % по сравнению с репрезентативными отраслевыми базовыми показателями. В реальных приложениях, таких как поиск новых клиентов, такое повышение точности может привести к экономии миллионов долларов.
AWS Clean Rooms позволяет вам и вашим партнерам создавать синтетические наборы данных на основе коллективных данных для обучения моделей регрессии и классификации машинного обучения (ML). AWS Clean Rooms ML применяет средства управления, повышающие конфиденциальность, чтобы защитить ваши собственные данные и модели машинного обучения и одновременно генерировать прогнозную аналитику. В целях повышения конфиденциальности синтетическая генерация наборов данных позволяет вам и вашим партнерам создавать обучающие наборы данных со статистическими свойствами, аналогичными исходным, открывая новые сценарии использования моделей машинного обучения для коллективных наборов данных, которые ранее ограничивались соображениями конфиденциальности данных.
Генерация синтетических наборов данных для индивидуального машинного обучения в AWS Clean Rooms ML, повышающая конфиденциальность, заключается в обезличивании субъектов, таких как люди или организации, о которых были собраны данные, в исходных данных, что снижает риск того, что модель запомнит информацию об отдельных лицах в наборе данных. Процесс генерации синтетических наборов данных оптимизирован для создания наборов данных, совместимых с выбранными вами алгоритмами регрессии и классификации.