Amazon SageMaker Feature Store

Layanan terkelola penuh untuk fitur machine learning

Bagaimana cara kerja Amazon SageMaker Feature Store?

Menyimpan, berbagi, dan mengelola fitur model ML untuk pelatihan serta inferensi

Cara kerja

Cara kerja: Amazon SageMaker Feature Store

Keuntungan Tempat Penyimpanan Fitur SageMaker

Serap fitur dari semua sumber data termasuk streaming dan batch seperti log aplikasi, log layanan, clickstream, sensor, dan data tabel dari AWS atau sumber data pihak ketiga
Simpan, bagikan, dan kelola fitur model ML untuk pelatihan dan inferensi guna mempromosikan penggunaan ulang fitur di seluruh aplikasi ML
Ubah data menjadi fitur ML dan buat jalur fitur yang mendukung praktik MLOps dan mempercepat waktu untuk memodelkan deployment

Manajemen Fitur

Pemrosesan dan penyerapan fitur

Anda dapat menyerap data ke Penyimpanan Fitur SageMaker dari berbagai sumber, seperti log aplikasi dan layanan, clickstream, sensor, dan data tabular dari Amazon S3, Amazon Redshift, AWS Lake Formation, Snowflake, dan Databricks Delta Lake. Dengan pemrosesan fitur, Anda dapat menentukan sumber data batch dan fungsi transformasi fitur (misalnya, jumlah tampilan produk atau agregat jendela waktu) dan SageMaker Feature Store mengubah data tersebut pada saat diserap ke dalam fitur ML. Dengan Amazon SageMaker Data Wrangler, Anda dapat memublikasikan fitur secara langsung ke Penyimpanan Fitur SageMaker. Dengan konektor Apache Spark, Anda dapat menyerap batch data bervolume tinggi hanya dengan satu baris kode.

Tangkapan layar

Penyimpanan, katalog, pencarian, penggunaan kembali fitur

Penyimpanan Fitur Amazon SageMaker menandai dan mengindeks grup fitur sehingga dapat ditemukan dengan mudah melalui antarmuka visual Amazon SageMaker Studio. Menjelajahi katalog fitur memungkinkan tim menemukan fitur yang ada yang dapat dengan yakin mereka gunakan kembali dan menghindari duplikasi pipeline. Penyimpanan Fitur SageMaker menggunakan Katalog Data AWS Glue secara default, tetapi Anda dapat menggunakan katalog yang berbeda jika Anda menginginkannya. Anda juga dapat mengueri fitur menggunakan SQL yang biasa digunakan dengan Amazon Athena atau alat kueri lain pilihan Anda.

Gambar menampilkan katalog grup fitur

Konsistensi fitur

SageMaker Feature Store mendukung penyimpanan offline untuk pelatihan dan penyimpanan online untuk inferensi waktu nyata. Pelatihan dan inferensi adalah kasus penggunaan yang sangat berbeda dan persyaratan penyimpanannya berbeda untuk tiap-tiap kasus. Selama pelatihan, model sering kali menggunakan set data lengkap dan membutuhkan waktu penyelesaian selama berjam-jam, sedangkan inferensi terjadi dalam hitungan milidetik dan biasanya memerlukan subset data. Saat digunakan bersama-sama, SageMaker Feature Store akan memastikan set data offline dan online tetap tersinkronkan. Hal ini menjadi sangat penting karena jika menyimpang, set data tersebut dapat berdampak negatif terhadap akurasi model.

Gambar menampilkan pembuatan grup fitur

Perjalanan waktu

Ilmuwan data mungkin perlu melatih model dengan serangkaian nilai fitur yang tepat dari waktu tertentu di masa lalu tanpa risiko memasukkan data yang berasal dari luar waktu tersebut (juga dikenal sebagai kebocoran fitur), seperti data medis pasien sebelum diagnosis. API Offline Penyimpanan Fitur SageMaker mendukung kueri titik waktu untuk mengambil status setiap fitur pada riwayat waktu yang dituju.  

Gambar menampilkan aliran kueri API Offline Penyimpanan Fitur untuk mengambil status setiap fitur pada riwayat waktu yang dituju