Amazon SageMaker Data Wrangler

Cara tercepat dan termudah untuk menyiapkan data berbentuk tabel dan gambar untuk machine learning

Kenapa SageMaker Data Wrangler?

Amazon SageMaker Data Wrangler mengurangi waktu yang diperlukan untuk menggabungkan dan menyiapkan data berbentuk tabel dan gambar untuk ML dari minggu ke menit. Dengan SageMaker Data Wrangler, Anda dapat menyederhanakan proses penyiapan data dan rekayasa fitur, serta menyelesaikan setiap langkah alur kerja penyiapan data (termasuk pemilihan, pembersihan, eksplorasi, visualisasi, dan pemrosesan data dalam skala besar) melalui antarmuka visual tunggal. Anda dapat menggunakan SQL untuk memilih data yang Anda inginkan dari berbagai sumber data lalu mengimpornya dengan cepat. Selanjutnya, Anda dapat menggunakan laporan kualitas data dan wawasan untuk secara otomatis memverifikasi kualitas data dan mendeteksi anomali, seperti baris duplikat dan kebocoran target. SageMaker Data Wrangler berisi lebih dari 300 transformasi data bawaan sehingga Anda dapat mengubah data dengan cepat tanpa harus menulis kode apa pun.

Gambaran umum Amazon SageMaker Data Wrangler

Manfaat Pengatur Data SageMaker

Pilih data, pahami wawasan data, dan transformasikan data guna menyiapkannya untuk machine learning (ML) dalam hitungan menit.
Perkirakan akurasi model ML dan diagnosis masalah sebelum model dilakukan deployment ke dalam produksi secara cepat.
Bawa penyiapan data ke produksi lebih cepat tanpa perlu menulis kode PySpark, menginstal Apache Spark, atau mempercepat klaster.

Cara kerja

Cara kerja Amazon SageMaker Data Wrangler

Akses, pilih, dan lakukan kueri data dengan lebih cepat

Dengan alat pemilihan data SageMaker Data Wrangler, Anda dapat dengan cepat mengakses dan memilih data berbentuk tabel dan gambar dari berbagai sumber populer (seperti Amazon Simple Storage Service [Amazon S3], Amazon Athena, Amazon Redshift, AWS Lake Formation, Snowflake, dan Databricks) serta lebih dari 50 sumber pihak ketiga lainnya (seperti Salesforce, SAP, Facebook Ads, dan Google Analytics). Anda juga dapat menulis kueri untuk sumber data menggunakan SQL dan mengimpor data secara langsung ke SageMaker dari berbagai format file, seperti CSV, Parquet, dan JSON, serta tabel basis data.

Buat wawasan data dan pahami kualitas data

SageMaker Data Wrangler memberikan laporan kualitas data dan wawasan yang secara otomatis memverifikasi kualitas data (seperti nilai yang hilang, baris duplikat, dan tipe data) serta membantu mendeteksi anomali (seperti pencilan, ketidakseimbangan kelas, dan kebocoran data) dalam data Anda. Setelah Anda dapat memverifikasi kualitas data secara efektif, Anda dapat dengan cepat menerapkan pengetahuan domain guna memproses set data untuk pelatihan model ML.

Pahami data Anda dengan visualisasi

SageMaker Data Wrangler membantu Anda memahami data dan mengidentifikasi potensi kesalahan serta nilai ekstrem dengan set templat visualisasi prakonfigurasi yang kuat. Histogram, plot tebar, plot kotak dan whisker, plot garis, serta diagram batang sudah tersedia secara bawaan untuk diterapkan pada data Anda. Tersedia juga visualisasi khusus ML yang lebih canggih (seperti laporan bias, korelasi fitur, kolinearitas ganda, kebocoran target, dan seri waktu) yang menunjukkan signifikansi fitur dan korelasi fitur. Alat-alat tersebut dapat diakses dari tab Analisis.

Transformasikan data dengan lebih efisien

SageMaker Data Wrangler menawarkan pilihan lebih dari 300 transformasi data berbasis PySpark prabangun sehingga Anda dapat mentransformasikan data dan menskalakan alur kerja penyiapan data tanpa perlu menulis satu pun baris kode. Transformasi prakonfigurasi mencakup kasus penggunaan umum, seperti meratakan file JSON, menghapus baris duplikat, melakukan imputasi data yang hilang dengan nilai rata-rata atau median, enkode one hot, dan transformator khusus deret waktu guna mempercepat penyiapan data deret waktu untuk ML. Untuk data berbentuk gambar, SageMaker Data Wrangler menawarkan augmentasi gambar umum (seperti Buramkan, Tingkatkan, Ubah Ukuran) dan operasi pembersihan (seperti menghapus gambar dan duplikat yang rusak). Anda juga dapat membuat transformasi kustom di PySpark, SQL, dan Pandas. SageMaker Data Wrangler menawarkan pustaka gambar (imgaug, OpenCV) guna membuat transformasi kustom untuk kasus penggunaan CV dan pustaka snippet kode yang kaya untuk mempermudah pembuatan transformasi kustom.

Pahami kekuatan prediksi data Anda

Fitur Model Cepat SageMaker Data Wrangler Quick memberikan perkiraan daya prediksi data Anda yang diharapkan. Model Cepat secara otomatis membagi data Anda menjadi set data pelatihan dan pengujian serta melatih data pada model XGBoost dengan hyperparameter default. Berdasarkan tugas yang sedang Anda selesaikan (misalnya, klasifikasi atau regresi), SageMaker Data Wrangler memberikan ringkasan model, ringkasan fitur, serta matriks confusion, yang membantu mengiterasi dengan cepat pada alur penyiapan data Anda.

Otomatisasi dan deploy alur kerja persiapan data ML

Dengan UI SageMaker Data Wrangler, Anda dapat meluncurkan set data hingga skala besar tanpa perlu menulis kode PySpark, menginstal Apache Spark, atau mempercepat klaster. Anda dapat meluncurkan atau menjadwalkan tugas untuk memproses data dengan cepat atau mengekspornya ke notebook SageMaker Studio. SageMaker Data Wrangler menawarkan beberapa opsi ekspor, termasuk tugas SageMaker Data Wrangler, SageMaker Feature Store, dan SageMaker Pipelines sehingga Anda dapat mengintegrasikan alur penyiapan data ke alur kerja ML Anda. Atau, Anda dapat melakukan deployment alur kerja penyiapan data ke titik akhir yang dilakukan host oleh SageMaker. Terakhir, Anda dapat mengekspor data langsung untuk melatih model ML menggunakan antarmuka visual dengan SageMaker Canvas

Pelanggan

Invista
“Di INVISTA, kami didorong oleh transformasi dan berupaya mengembangkan produk serta teknologi yang bermanfaat bagi pelanggan di seluruh dunia. Kami melihat ML sebagai cara untuk meningkatkan pengalaman pelanggan. Namun, dengan set data yang menjangkau ratusan juta baris, kami membutuhkan solusi untuk membantu menyiapkan data, dan mengembangkan, melakukan deployment, serta mengelola model ML dalam skala besar. Dengan Amazon SageMaker Data Wrangler, kami sekarang dapat secara interaktif memilih, membersihkan, mengeksplorasi, dan memahami data secara efektif, sehingga dapat memberdayakan tim ilmu data untuk membuat pipeline rekayasa fitur yang dapat menskalakan dengan mudah ke set data yang menjangkau ratusan juta baris. Dengan Amazon SageMaker Data Wrangler, kami dapat mengoperasionalkan alur kerja ML dengan lebih cepat.”

Caleb Wilkinson, Former Lead Data Scientist, INVISTA

3M
“Dengan ML, 3M meningkatkan produk yang sudah diuji coba, seperti ampelas, dan mendorong inovasi di beberapa bidang lain, termasuk layanan kesehatan. Seiring dengan rencana kami untuk menskalakan ML ke lebih banyak area di 3M, kami mendapati bahwa jumlah data dan model terus berkembang secara pesat dengan jumlah yang berlipat ganda setiap tahun. Kami sangat antusias terkait fitur SageMaker baru karena fitur tersebut akan membantu kami menskalakan. Amazon SageMaker Data Wrangler memudahkan penyiapan data untuk pelatihan model, dan Amazon SageMaker Feature Store akan menghapus kebutuhan untuk membuat fitur model yang sama berulang kali. Terakhir, Amazon SageMaker Pipelines akan membantu kami mengotomatiskan penyiapan data, pembuatan model, dan deployment model ke dalam alur kerja ujung ke ujung sehingga kami dapat mempercepat waktu masuk pasar untuk model kami. Peneliti kami sangat menantikan untuk dapat memperoleh manfaat kecepatan baru dari sains di 3M.”

David Frazee, Eks Technical Director, 3M Corporate Systems Research Lab

Deloitte
“Amazon SageMaker Data Wrangler membuat kami dapat memulai dengan cepat dalam memenuhi kebutuhan penyiapan data dengan beraneka ragam koleksi alat transformasi yang mempercepat proses penyiapan data ML yang diperlukan untuk menghadirkan produk baru ke pasar. Selanjutnya, klien kami mendapatkan manfaat dari tingkat penskalaan model yang dilakukan deployment sehingga kami dapat memberikan hasil yang terukur dan berkelanjutan yang akan memenuhi kebutuhan klien kami dalam hitungan hari, bukan bulan.”

Frank Farrall, Principal, AI Ecosystems and Platforms Leader, Deloitte

NRI
“Sebagai Partner Konsultasi Premier AWS, tim rekayasa kami bekerja sama dengan AWS untuk membangun solusi inovatif guna membantu pelanggan kami agar dapat terus meningkatkan efisiensi operasi mereka. ML adalah inti dari solusi inovatif kami, tetapi alur kerja penyiapan data kami memerlukan teknik penyiapan data canggih yang, oleh karenanya, memerlukan banyak waktu agar dapat dioperasionalkan dalam lingkungan produksi. Dengan Amazon SageMaker Data Wrangler, ilmuwan data kami dapat menyelesaikan setiap langkah alur kerja penyiapan data, termasuk pemilihan, pembersihan, eksplorasi, dan visualisasi data, yang membantu kami mempercepat proses penyiapan data serta menyiapkan data dengan mudah untuk ML. Dengan Amazon SageMaker Data Wrangler, kami dapat menyiapkan data untuk ML secara lebih cepat.”

Shigekazu Ohmoto, Senior Corporate Managing Director, NRI Japan

equilibrium
“Karena jejak kami di pasar manajemen kesehatan populasi terus meluas ke lebih banyak payor kesehatan, penyedia, pengelola manfaat farmasi, dan organisasi kesehatan lainnya, kami membutuhkan sebuah solusi untuk mengotomatiskan proses ujung ke ujung untuk sumber data yang digunakan oleh model ML kami, termasuk data klaim, data pendaftaran, dan data farmasi. Dengan Amazon SageMaker Data Wrangler, kami sekarang dapat mempercepat waktu yang diperlukan untuk mengagregasikan serta menyiapkan data untuk ML menggunakan set alur kerja yang lebih mudah untuk divalidasi dan digunakan kembali. Hal ini secara signifikan mempercepat waktu pengiriman dan kualitas model sehingga meningkatkan efektivitas ilmuwan data kami, dan mengurangi waktu penyiapan data hingga hampir 50%. Selain itu, SageMaker Data Wrangler telah membantu kami menghemat banyak iterasi ML dan waktu GPU secara signifikan sehingga dapat mempercepat seluruh proses ujung ke ujung untuk klien karena kami sekarang dapat membangun data mart dengan ribuan fitur termasuk farmasi, kode diagnosis, kunjungan UGD, rawat inap, serta determinan demografis dan determinan sosial lainnya. Dengan SageMaker Data Wrangler, kami dapat mentransformasikan data dengan efisiensi tinggi untuk membangun set data pelatihan, menghasilkan wawasan data pada set data sebelum menjalankan model ML, dan menyiapkan data dunia nyata untuk inferensi/prediksi dalam skala besar.”

Lucas Merrow, CEO, Equilibrium Point IoT

Mulai menggunakan SageMaker Data Wrangler

Blog

BLOG

Percepat persiapan data dengan kualitas data dan wawasan di Amazon SageMaker Data Wrangler

BLOG

Amazon SageMaker Data Wrangler Mendukung Aplikasi SaaS sebagai Sumber Data

Blog

Siapkan data dari Databricks untuk machine learning menggunakan Amazon SageMaker Data Wrangler

BLOG

Siapkan data dengan cuplikan kode PySpark dan Altair di Amazon SageMaker Data Wrangler

BLOG

Impor data dari Amazon Redshift lintas akun ke Amazon SageMaker Data Wrangler

BLOG

Gunakan Amazon SageMaker Data Wrangler di Amazon SageMaker Studio dengan konfigurasi siklus hidup bawaan

Latihan praktis

Tutorial

Tutorial langkah demi langkah untuk memulai SageMaker Data Wrangler

LOKAKARYA

Jelajahi cara menggunakan SageMaker Data Wrangler untuk kasus penggunaan

Video demo

Video

re:Invent 2022: Percepat persiapan data dengan SageMaker Data Wrangler

re:Invent 2022: Percepat persiapan data (56:45)
VIDEO

Siapkan data untuk ML dengan cepat menggunakan Lokakarya Virtual SageMaker Data Wrangler

Siapkan data dengan cepat untuk Lokakarya Virtual ML (1:18:08)
VIDEO

AWS On Air 2020: AWS What’s Next ft. SageMaker Data Wrangler

AWS on Air 2020: AWS What’s Next ft. SageMaker Data Wrangler (27:51)
VIDEO

Demo Pendalaman Lebih Jauh Wrangler Data SageMaker

Demo Pendalaman Lebih Jauh Wrangler Data SageMaker (28:13)

Apa yang baru

  • Tanggal (Terbaru hingga Terlama)
Hasil tidak ditemukan
1