- Phân tích›
- AWS Clean Rooms›
- Tính năng
Các tính năng của AWS Clean Rooms
Tạo phòng sạch chỉ trong vài phút. Cộng tác với các đối tác mà không cần chia sẻ dữ liệu thô
Tại sao nên chọn AWS Clean Rooms?
Tạo phòng sạch của riêng bạn, thêm người tham gia và bắt đầu cộng tác chỉ trong vài bước
Cộng tác với bất kỳ công ty nào mà không cần chia sẻ hay tiết lộ dữ liệu cơ bản
Bảo vệ dữ liệu cơ bản với một loạt các biện pháp kiểm soát tăng cường quyền riêng tư cho phòng sạch
Liên kết và so khớp hồ sơ khách hàng, sử dụng các công cụ phân tích linh hoạt, cũng như đào tạo và triển khai mô hình ML với các đối tác của bạn
Chủ đề trang
Đa bên
Mở tất cảCộng tác xử lý dữ liệu ngay tại nơi lưu trữ
Mở tất cảQuyền truy cập theo lập trình toàn phần
Mở tất cảCác vai trò có thể cấu hình
Mở tất cảGiải pháp thực thể AWS trên AWS Clean Rooms
Mở tất cảPySpark
Mở tất cảSQL linh hoạt
Mở tất cảQuy tắc phân tích là những hạn chế cung cấp cho bạn các biện pháp kiểm soát được tích hợp sẵn về cách dữ liệu của bạn có thể được phân tích. Thành viên cộng tác tạo hoặc tham gia một phiên cộng tác với tư cách là người chạy truy vấn được chỉ định có thể viết truy vấn để giao cắt và phân tích bảng dữ liệu của bạn theo các quy tắc phân tích mà bạn đặt ra. AWS Clean Rooms hỗ trợ ba loại quy tắc phân tích: tổng hợp, danh sách và tùy chỉnh.
Quy tắc phân tích tổng hợp: Quy tắc phân tích tổng hợp cho phép bạn chạy các truy vấn tạo ra số liệu thống kê tổng hợp, chẳng hạn như độ lớn giao điểm của hai tập dữ liệu. Khi sử dụng quy tắc phân tích tổng hợp, bạn có thể thực thi quy tắc chỉ cho phép chạy các truy vấn tổng hợp trên dữ liệu của bạn và thực thi các hạn chế đối với các phần cụ thể của truy vấn được chạy, chẳng hạn như chỉ được sử dụng cột nào trong quá trình so khớp không tiết lộ giá trị thực sự và có thể sử dụng cột nào trong việc tổng hợp như tính tổng, đếm số hoặc tính trung bình. Bạn cũng kiểm soát ràng buộc tổng hợp tối thiểu ở đầu ra. Bạn cũng có thể thiết lập các điều kiện ràng buộc tổng hợp tối thiểu để cho phép bạn thiết lập điều kiện trả về hàng đầu ra. Các điều kiện ràng buộc này có dạng COUNT DISTINCT (Cột) >= Ngưỡng. Nếu một hàng đầu ra trong kết quả truy vấn không đáp ứng bất kỳ điều kiện ràng buộc nào, nó sẽ bị xóa khỏi tập kết quả. Điều này giúp bạn đảm bảo ngưỡng tổng hợp tối thiểu được tự động thực thi, đồng thời cung cấp tính linh hoạt cho các đối tượng cộng tác dữ liệu có khả năng viết các truy vấn tùy ý.
Quy tắc phân tích danh sách: Quy tắc phân tích danh sách cho phép bạn chạy các truy vấn trích xuất danh sách cấp hàng của giao điểm của nhiều tập dữ liệu, chẳng hạn như sự chồng chắp của hai tập dữ liệu. Khi sử dụng quy tắc phân tích danh sách, bạn có thể thực thi quy tắc chỉ cho phép chạy các truy vấn danh sách trên dữ liệu của bạn và thực thi các hạn chế đối với truy vấn được chạy, chẳng hạn như chỉ được sử dụng cột nào trong quá trình so khớp không tiết lộ giá trị thực sự và cột nào có thể được xuất ra dưới dạng một danh sách ở đầu ra.
Quy tắc phân tích tùy chỉnh: Quy tắc phân tích tùy chỉnh cho phép bạn tạo các truy vấn tùy chỉnh bằng cách sử dụng hầu hết các SQL tiêu chuẩn ANSI, chẳng hạn như biểu thức bảng phổ biến (CTE) và các hàm cửa sổ. Bạn cũng có thể xem xét và cho phép các truy vấn trước khi đối tác cộng tác chạy truy vấn và xem xét các truy vấn của đối tượng cộng tác khác trước khi họ được phép chạy trên bảng của bạn. Khi sử dụng quy tắc phân tích tùy chỉnh, bạn có thể sử dụng các biện pháp kiểm soát được tích hợp sẵn để xác định hay giới hạn trước cách dữ liệu cơ bản của bạn có thể được phân tích, thay vì phải dựa vào bản ghi truy vấn sau khi phân tích hoàn tất. Khi sử dụng truy vấn SQL tùy chỉnh, bạn cũng có thể tạo hoặc sử dụng mẫu phân tích để lưu trữ các truy vấn tùy chỉnh với các tham số trong phiên cộng tác. Điều này cho phép khách hàng dễ dàng giúp đỡ lẫn nhau hơn trong phiên cộng tác. Ví dụ: một thành viên có nhiều kinh nghiệm SQL hơn có thể tạo mẫu để các thành viên khác xem xét và có thể chạy. Việc này cũng tạo điều kiện áp dụng các phân tích có thể tái sử dụng trong phiên cộng tác. Bạn cũng có thể sử dụng Quyền riêng tư khác biệt của AWS Clean Rooms bằng cách chọn quy tắc phân tích tùy chỉnh và sau đó cấu hình các tham số quyền riêng tư khác biệt của bạn.
Bạn có thể chạy truy vấn AWS Clean Rooms trên dữ liệu được bảo vệ bằng mật mã. Nếu bạn sở hữu các chính sách xử lý dữ liệu yêu cầu mã hóa dữ liệu nhạy cảm, bạn có thể mã hóa trước dữ liệu của mình bằng khóa mã hóa dùng chung cho từng phiên cộng tác để mã hóa dữ liệu đó ngay cả khi chạy truy vấn. Điện toán mật mã hóa đảm bảo rằng dữ liệu được sử dụng trong các hoạt động điện toán cộng tác sẽ duy trì trạng thái mã hóa khi đang được lưu trữ, đang được truyền và đang được sử dụng (trong lúc đang được xử lý).
Cryptographic Computing for Clean Rooms (C3R) là một SDK Java mã nguồn mở với một CLI, có sẵn trong GitHub. Tính năng này được cung cấp mà không tính thêm phí. Nếu bạn có dữ liệu lớn, bạn có thể xem lại tài liệu để xem cách C3R có thể được tích hợp vào Apache Spark.
Tính năng này là tính năng mới nhất trong một loạt các công cụ điện toán mật mã AWS được xây dựng để giúp bạn đáp ứng nhu cầu bảo mật và tuân thủ đồng thời cho phép bạn tận dụng tính linh hoạt, khả năng mở rộng, hiệu suất và tính dễ sử dụng mà AWS cung cấp.
ML tăng cường quyền riêng tư
Mở tất cảAWS Clean Rooms ML giúp bạn và các đối tác của bạn áp dụng máy học tăng cường quyền riêng tư (ML) để tạo thông tin chi tiết dự đoán mà không cần phải chia sẻ dữ liệu thô với nhau. AWS Clean Rooms ML hỗ trợ tính năng lập mô hình máy học (ML) tùy chỉnh và tương tự. Với tính năng lập mô hình tùy chỉnh, bạn có thể đưa vào một mô hình tùy chỉnh để đào tạo và chạy suy luận trên các tập dữ liệu chung mà không cần chia sẻ dữ liệu cơ sở hoặc sở hữu trí tuệ giữa các cộng tác viên. Với tính năng lập mô hình tương tự, bạn có thể sử dụng mô hình do AWS tạo ra để tạo một tập hợp mở rộng gồm bản ghi tương tự, dựa trên một mẫu nhỏ gồm các bản ghi mà đối tác của bạn đưa vào quá trình cộng tác.
AWS Clean Rooms ML giúp khách hàng trong nhiều trường hợp sử dụng. Ví dụ: nhà quảng cáo có thể đưa mô hình và dữ liệu độc quyền của họ vào quá trình cộng tác Clean Rooms, sau đó mời các bên gửi kết nối dữ liệu của họ để đào tạo và triển khai mô hình ML tùy chỉnh để giúp tăng hiệu quả chiến dịch; tổ chức tài chính có thể sử dụng lịch sử hồ sơ giao dịch để đào tạo mô hình ML tùy chỉnh và mời các đối tác tham gia quá trình cộng tác Clean Rooms để phát hiện các giao dịch có khả năng gian lận; tổ chức nghiên cứu và mạng lưới bệnh viện có thể tìm ứng viên tương tự những người tham gia thử nghiệm lâm sàng hiện tại để giúp tăng tốc độ nghiên cứu lâm sàng; các thương hiệu và nhà xuất bản có thể lập mô hình các phân khúc tương tự của khách hàng trong thị trường và cung cấp trải nghiệm quảng cáo có mức độ liên quan cao mà không cần chia sẻ dữ liệu cơ sở giữa hai công ty với nhau.
Tính năng lập mô hình tương tự của AWS Clean Rooms ML, sử dụng mô hình do AWS tạo ra, được xây dựng và kiểm thử trên nhiều tập dữ liệu khác nhau như thương mại điện tử và phát trực tuyến video, dịch vụ này có thể giúp bạn cải thiện độ chính xác của mô hình tương tự lên đến 36%, khi so sánh với mức cơ sở đại diện trong ngành. Trong trường hợp áp dụng thực tế như tìm kiếm khách hàng mới, mức cải thiện độ chính xác này có thể tiết kiệm hàng triệu đô la.
AWS Clean Rooms cho phép bạn và các đối tác tạo tập dữ liệu tổng hợp từ dữ liệu tập thể để đào tạo các mô hình học máy (ML) hồi quy và phân loại. AWS Clean Rooms ML áp dụng các biện pháp kiểm soát nâng cao quyền riêng tư để giúp bảo vệ dữ liệu độc quyền và mô hình ML của bạn đồng thời tạo thông tin chi tiết dự đoán. Là một kiểm soát nâng cao quyền riêng tư, việc tạo tập dữ liệu tổng hợp cho phép bạn và các đối tác của mình tạo các bộ dữ liệu đào tạo với các thuộc tính thống kê tương tự như bản gốc, mở khóa các trường hợp sử dụng đào tạo mô hình ML mới cho các tập dữ liệu tập thể trước đây bị hạn chế bởi các mối quan tâm về quyền riêng tư dữ liệu.
Việc tạo tập dữ liệu tổng hợp nâng cao quyền riêng tư cho máy học tùy chỉnh trong AWS Clean Rooms ML hoạt động bằng cách xóa nhận dạng đối tượng — chẳng hạn như người hoặc thực thể mà dữ liệu đã được thu thập — trong dữ liệu gốc, giảm thiểu rủi ro mô hình sẽ ghi nhớ thông tin về các cá nhân trong tập dữ liệu. Quy trình tạo tập dữ liệu tổng hợp được tối ưu hóa để tạo các bộ dữ liệu tương thích với thuật toán hồi quy và phân loại mà bạn chọn.