Pelajari Mengotomatiskan Pemrosesan Data Tidak Terstruktur dengan Amazon SageMaker

Mengotomatiskan Pemrosesan Data Tidak Terstruktur dengan Amazon SageMaker

Bagaimana konten ini?

oleh Nikhil Dinesh, Head of Startup Business Development, DACH Region, AWS, dan Sayon Saha, Machine Learning Specialist Solutions Architect, AWS

Data yang tidak terstruktur seperti gambar, video, dan teks yang muncul di daftar produk e-commerce memiliki dampak signifikan pada tingkat konversi. Sebuah studi oleh penelitian eBay menemukan bahwa gambar berukuran super besar dapat meningkatkan konversi sebesar 15,3%, dengan faktor-faktor lain seperti jumlah foto dan kondisi item memainkan peran penting. Marketplace dan penjual harus mengoptimalkan konversi berdasarkan serangkaian faktor terbuka yang ditentukan oleh tim pemasaran. Penggunaan ilmu data dan machine learning (ML) untuk mengatasi masalah ini bukanlah hal yang baru: AWS telah membuat beberapa layanan untuk membantu aspek ML yang tidak terdiferensiasi, seperti Amazon Rekognition (untuk gambar dan video), Amazon Comprehend (untuk teks), Amazon SageMaker (untuk pengembangan dan deployment model), dan Amazon SageMaker GroundTruth (untuk anotasi data).

Super.AI, startup yang berbasis di Berlin, percaya bahwa ada peluang signifikan untuk merakit blok bangunan ini dengan cara yang benar dan dengan pengalaman pengguna yang tepat terhadap apa yang mereka sebut Pemrosesan Data Tidak Terstruktur (UDP) di berbagai industri. Menurut Gartner, 80% data dalam perusahaan sejenis tidak terstruktur. Platform Super.AI mengekstrak informasi yang dapat ditindaklanjuti dari data yang tidak terstruktur, yang memungkinkan perusahaan untuk mengotomatiskan proses bisnis yang kompleks. Menurut Brad Cordova, pengusaha AI serial dan Pendiri/CEO super.AI: “Pelanggan di seluruh e-commerce, TIC (Pengujian, Inspeksi, dan Sertifikasi) Layanan, Asuransi, Perawatan Kesehatan, Manufaktur, dan Pertanian menggunakan platform super.AI untuk mengotomatiskan kasus penggunaan yang kompleks seperti penilaian kualitas daftar produk, inspeksi visual, deteksi kerusakan kendaraan, dan penilaian hasil panen. Pelanggan kami mencapai ROI yang signifikan melalui pengurangan waktu dan biaya, lebih sedikit kesalahan, dan peningkatan kepuasan pelanggan.”

Bagian ini akan menunjukkan kepada Anda tempat penyerapan data, prapelabelan, jalur pembelajaran aktif, dan pelabelan bantuan secara waktu nyata berada dalam arsitektur super.AI di AWS, diikuti dengan diskusi tentang tujuan, risiko, dan di mana kami melihat peluang untuk perbaikan.

Product image tagging in an eCommerce setting

The detection of serial and model numbers, with options for manual correction.

Platform Pemrosesan Data Tidak Terstruktur Super.AI

Platform super.AI membantu pelanggan untuk mengubah proses yang melibatkan data tidak terstruktur, seperti gambar, video, teks, dokumen, dan audio serta mengotomatiskannya menggunakan kombinasi AI, perangkat lunak, dan manusia. Demo Kategorisasi Gambar Produk super.AI ini menunjukkan bagaimana kategorisasi gambar produk super.AI dapat membantu peritel meningkatkan percakapan situs web.

Pembelajaran Aktif dan Pralabel

Pelanggan super.AI meminta mekanisme pelabelan yang lebih efisien dan sangat akurat. Jadi, mereka baru-baru ini merilis fitur baru yang disebut Pembelajaran Aktif dan Prapelabelan, di mana jalur melakukan praproses titik data menggunakan model ML yang berjalan di SageMaker. Solusi ini memprioritaskan pelabelan titik data yang paling berguna bagi model. Model ML dijalankan di semua titik data yang diunggah guna menghasilkan output, misalnya, skor kepercayaan, yang digunakan untuk melayani titik data dengan cara yang diprioritaskan. Pralabel dibuat jika memungkinkan dan disajikan ke pemberi label manusia untuk ditinjau atau diedit.

Jalur kemudian diskalakan sesuai permintaan. Pelanggan dapat mengunggah data melalui API (atau UI) dan menerapkan beberapa model untuk pembelajaran aktif dan prapelabelan. Pelanggan dapat memilih dari pilihan model yang disediakan oleh super.AI atau membawa model mereka sendiri. Super.AI menggunakan skor kepercayaan yang dihasilkan oleh model ML untuk memprioritaskan titik data dan melayani mereka secara lebih efisien. Jika diperlukan, pemberi label manusia dapat menggunakan pralabel yang dihasilkan oleh sistem untuk memberi label data manual secara akurat.

Pelabelan Bantuan Waktu Nyata

Platform ini memanfaatkan arsitektur nirserver dengan SageMaker. Pelanggan harus memiliki layanan ini secara waktu nyata untuk memberi label pada gambar mereka. Alat ini memanfaatkan AWS Lambda digabungkan dengan Titik Akhir Amazon SageMaker untuk melayani permintaan bersamaan secara waktu nyata dengan waktu respons kurang dari 10 detik. Anda dapat menjelajahi aplikasi penandaan Gambar dari super.AI dalam dokumentasi online mereka.

Membangun Jalur Pembelajaran Aktif dengan Amazon SageMaker GroundTruth

SageMaker Ground Truth adalah layanan pelabelan data terkelola untuk membangun set data ML berlabel akurat berskala besar dengan beberapa opsi tenaga kerja. Seiring dengan berbagai alur kerja pelabelan data bawaan dan khusus untuk teks, gambar, video, dan cloud titik 3D, SageMaker Ground Truth memungkinkan Anda untuk membangun jalur pelabelan data otomatis dengan pembelajaran aktif dengan menganotasi objek secara otomatis dengan model ML yang relevan serta menetapkan objek dengan tingkat kepercayaan diri yang lebih rendah untuk anotasi manusia.

Langkah pertama dari jalur termasuk SageMaker Ground Truth mengirimkan sampel acak dari set data untuk anotasi manusia guna melatih dan memvalidasi model yang digunakan untuk pelabelan otomatis. Skor kepercayaan output model yang dilatih serta metrik kualitas dalam data validasi dibandingkan dengan ambang batas untuk menentukan label kualitas guna menganotasi sisa set data. Tergantung pada apakah skor kepercayaan memenuhi ambang batas yang diinginkan, baik objek dianggap berlabel otomatis atau dikirim ke tenaga kerja manusia untuk anotasi. Pada gilirannya, anotasi ini digunakan untuk memperbarui dan meningkatkan model pelabelan otomatis. Jalur pembelajaran aktif ini terus diproses hingga set data yang diperlukan diberi label penuh atau kondisi penghentian lainnya terpenuhi (Pelajari selengkapnya di artikel ini untuk Mengotomatiskan Pelabelan Data). Proses Pembelajaran Aktif diilustrasikan dalam diagram berikut:

Meski banyak pelanggan AWS hanya menggunakan model ML, SageMaker Ground Truth memungkinkan Anda untuk membawa model Anda sendiri jika Anda memiliki kasus penggunaan khusus. Anda dapat membaca selengkapnya tentang hal ini di blog “Bawa Model Anda Sendiri untuk Alur Kerja Pelabelan Amazon SageMaker dengan Pembelajaran Aktif.”

Teknik pembelajaran aktif membuat proses pelabelan data menjadi jauh lebih cepat dengan mengidentifikasi subset data yang harus dilabeli oleh pemberi label Anda. Teknik ini juga mengurangi biaya tenaga kerja secara signifikan dengan menjaga akurasi anotasi tetap tinggi. Anda dapat membaca tentang contoh kasus penggunaan pekerjaan deteksi objek dengan pelabelan data otomatis di blog “Anotasi Data Lebih Hemat dengan Amazon SageMaker Ground Truth dan Pelabelan Data Otomatis.”

Penutup

Selama beberapa tahun terakhir, otomatisasi proses robotik (RPA) telah menjadi salah satu kategori perangkat lunak yang tumbuh dengan pesat karena perusahaan berusaha untuk mencapai transformasi digital. Namun, 80% data perusahaan tidak terstruktur dan terbatas untuk otomatisasi. Solusi Pemrosesan Data Tidak Terstruktur yang muncul dari perusahaan seperti super.AI yang memanfaatkan layanan AWS ML membantu perusahaan memperluas cakupan otomatisasi dengan mengekstraksi informasi yang dapat ditindaklanjuti dari data yang tidak terstruktur, seperti gambar, video, audio, dokumen, dan teks. Platform tersebut dapat menangani berbagai kasus penggunaan, mulai dari inspeksi visual hingga penilaian kualitas daftar produk online dengan intervensi manusia yang minimal. Adaptor awal dari platform tersebut mendapatkan keunggulan kompetitif yang menurunkan biaya, mengurangi kesalahan, dan memberikan pengalaman pelanggan yang berbeda.

AWS Editorial Team

Tim Pemasaran Konten AWS Startupss bekerja sama dengan Startups dari semua ukuran dan di semua sektor untuk memberikan konten luar biasa yang mendidik, menghibur, dan menginspirasi.

Bagaimana konten ini?