Sorotan: Datagen Membuat Data Sintetis Fidelitas Tinggi untuk Mengatasi Masalah yang Berpusat pada Manusia

Bagaimana konten ini?

Ketika Gil Elbaz dan Ofir Zuk mendirikan Datagen pada tahun 2018, perusahaan tersebut memiliki tujuan menginovasikan kembali proses yang rusak mengenai bagaimana klien memperoleh data untuk pelatihan jaringan penglihatan komputer. Lebih khusus lagi, mereka ingin membawa simulasi data ke setiap tim penglihatan komputer secara berkelanjutan dan dapat diskalakan.

Karena performa model AI bergantung pada kualitas model dan kualitas data yang digunakan untuk melatihnya, penting untuk memiliki sejumlah besar data yang baik, dan seringkali sulit untuk mengumpulkan sebanyak yang diperlukan. Data dunia nyata juga cenderung bermasalah dalam hal kecepatan akuisisi, presisi, biaya, dan bias. “Seseorang akan mengumpulkan data [dunia nyata] dari identitas yang berbeda, misalnya, untuk wajah, dan mereka tidak akan cukup mengumpulkan data mengenai etnis, atau usia, atau jenis kelamin tertentu,” jelas Shay Navon, Datagen’s Senior Product Marketing Manager. “Lalu Anda menemukan bias ini.”

Untuk membantu tim penglihatan komputer melawan bias, Datagen menawarkan cara unik untuk menghasilkan data menggunakan algoritma komputer. Data sintetiknya mirip dengan data dunia nyata, baik secara statistik maupun matematis, tetapi dapat dihasilkan dengan cepat, dengan biaya lebih sedikit, dan bebas dari kesalahan manusia. Alih-alih menugaskan manusia dengan tugas mengumpulkan dan membuat anotasi data secara manual, yaitu sebuah tugas padat karya, yang mengharuskan mereka mengambil foto wajah lalu memberi label fitur-fiturnya secara manual, data sintetis dihasilkan dalam skala besar, dengan anotasi kebenaran dasar bawaan, seperti arah pandangan mata, yang tidak mungkin ditentukan oleh manusia. Hasilnya adalah anotasi data yang lebih akurat dan terperinci tanpa tantangan penandaan manual.

“Kami menyimulasikan dunia untuk membawa AI ke produksi lebih cepat,” kata Karine Regev, Datagen’s VP of Marketing. “Membawa AI ke produksi dengan sendirinya merupakan tantangan yang belum terpecahkan bagi sebagian besar perusahaan di luar sana, jadi kami membuatnya lebih profesional, lebih akurat, memecahkan masalah seperti privasi, bias dalam data yang merupakan hambatan terbesar dalam AI modern.”

Datagen menawarkan platform swalayan yang menggunakan simulasi 3D kepada klien untuk melatih algoritma mereka. “Untuk melatih model, Anda membutuhkan jutaan gambar berbeda,” kata Regev. “Dan di sinilah kami cocok. [Pelanggan Datagen] memiliki kemampuan untuk mengontrol adegan, kemampuan untuk mengontrol latar belakang, modalitas yang berbeda, label berbeda yang Anda butuhkan, pencahayaan, jenis kelamin, etnis, semuanya.”

Selain menghasilkan beragam data yang terlihat nyata, berskala, dan sempurna pikselnya, Datagen menawarkan kerahasiaan penuh kepada pelanggannya. “Kerahasiaan ini sepenuhnya sesuai dengan privasi, karena data mengandung nol PII (Informasi Pengenal Pribadi),” kata Shay Navon tentang data sintetis. “Tidak ada yang bisa mengatakan, 'Ini adalah seseorang yang kami gunakan yang merupakan masalah privasi.’ Keahlian dan data kami yang berpusat pada manusia berfokus pada beberapa domain, mulai dari deteksi tengara wajah, estimasi tatapan, dan analisis ekspresi hingga pose tubuh manusia secara utuh, bagian tubuh seperti mata, tangan, dll.”

Dalam waktu dekat, diperkirakan akan lebih umum untuk melatih model dengan data sintetis daripada mengumpulkannya dari sumber dunia nyata. Sesuai dengan hal itu, Datagen telah berkembang pesat, berkembang dari sekitar 40 karyawan menjadi hampir 100 selama sembilan bulan terakhir. “Kami bekerja dengan beberapa perusahaan teknologi terbesar di dunia dalam berbagai vertikal,” kata Regev. “Memecahkan kasus penggunaan yang berbeda, mulai dari AR/VR/Metaverse hingga pemantauan pengemudi untuk otomotif di dalam kabin, hingga keamanan rumah, dan kantor pintar.”

Untuk memenuhi permintaan baru ini, Datagen memutuskan untuk beralih ke arsitektur cloud. Prioritas mereka adalah menskalakan menggunakan model GPU terbaru. Setelah analisis mendalam mengenai penyedia cloud, mereka beralih ke AWS, bertekad untuk mengembangkan sistemnya di atas Kubernetes. Datagen merancang sistem perangkat lunak penjadwalan khusus yang disebut Agni yang terintegrasi dengan Elastic Kubernetes Service (Amazon EKS) dan menggunakan penskalaan otomatis Kubernetes dan Grup AWS Auto Scaling.

Agni dan seluruh platform pembuatan data Datagen sekarang bergantung pada instans spot CPU dan GPU, yang telah membantu mereka mengurangi biaya dan membangun sistem yang lebih efisien. Agni juga memungkinkan mereka untuk mempertahankan sistem yang relatif kecil yang dapat tumbuh secara dinamis hingga ratusan ribu tugas secara bersamaan dan menyusut sesuai permintaan, yang menghasilkan platform swalayan yang di-hosting oleh AWS.

Ke depannya, tim Datagen memprediksi bahwa kebutuhan data sintetis akan terus tumbuh. “Kami melihat banyak permintaan, baik dalam traksi maupun prospek, kebutuhan akan kepemimpinan pemikiran, kebutuhan akan teknologi, dan solusi seperti kami yang benar-benar paham tentang data sintetis,” kata Regev.

AWS Editorial Team

AWS Editorial Team

Tim Pemasaran Konten AWS Startupss bekerja sama dengan Startups dari semua ukuran dan di semua sektor untuk memberikan konten luar biasa yang mendidik, menghibur, dan menginspirasi.

Bagaimana konten ini?