Apa itu Data Sintetis?

Data sintetis adalah data yang dibuat bukan oleh manusia dan meniru data sesungguhnya. Data ini dibuat oleh simulasi dan algoritma komputasi berdasarkan teknologi kecerdasan buatan generatif. Kumpulan data sintetis memiliki sifat matematika yang sama dengan data sebenarnya yang menjadi dasarnya, tetapi tidak berisi informasi yang sama. Organisasi menggunakan data sintetis untuk penelitian, pengujian, pengembangan baru, dan penelitian machine learning. Inovasi terbaru dalam AI telah menjadikan pembuatan data sintetis efisien dan cepat, serta meningkatkan pentingnya hal ini dalam masalah regulasi data.

Apa saja manfaat dari data sintetis?

Data sintetis menawarkan beberapa manfaat bagi organisasi. Kami membahas beberapa di bawah ini.

Pembuatan data tanpa batas

Anda dapat menghasilkan data sintetis sesuai permintaan dan pada skala yang hampir tidak terbatas. Alat pembuatan data sintetis adalah cara yang hemat biaya untuk mendapatkan lebih banyak data. Alat tersebut juga dapat memberi label sebelumnya (mengategorikan atau menandai) data yang mereka hasilkan untuk kasus penggunaan machine learning. Anda mendapatkan akses ke data terstruktur dan berlabel tanpa melalui proses mengubah data mentah dari awal. Anda juga dapat menambahkan data sintetis ke volume total data yang Anda miliki sehingga menghasilkan lebih banyak data pelatihan untuk analisis.

Perlindungan privasi

Bidang seperti layanan kesehatan, keuangan, dan sektor hukum memiliki banyak peraturan privasi, hak cipta, dan kepatuhan untuk melindungi data sensitif. Namun, mereka harus menggunakan data untuk analisis dan penelitian yang sering kali harus mengalihdayakan data ke pihak ketiga untuk pemanfaatan maksimal. Alih-alih data pribadi, mereka dapat menggunakan data sintetis untuk mencapai tujuan yang sama dengan set data pribadi ini. Mereka membuat data serupa yang menunjukkan informasi yang sama yang relevan secara statistik tanpa mengekspos data pribadi atau sensitif. Pertimbangkan penelitian medis yang membuat data sintetis dari set data langsung, di mana data sintetis mempertahankan persentase karakteristik biologis dan penanda genetik yang sama dengan set data asli, tetapi semua nama, alamat, dan informasi pasien pribadi lainnya adalah palsu.

Pengurangan bias

Anda dapat menggunakan data sintetis untuk mengurangi bias dalam model pelatihan AI. Karena model besar biasanya melatih data yang tersedia untuk umum, bias bisa muncul dalam teks. Para peneliti dapat menggunakan data sintetis untuk memberikan gambaran perbedaan bahasa atau informasi bias yang dikumpulkan oleh model AI. Misalnya, jika konten berbasis opini tertentu mendukung grup tertentu, Anda dapat membuat data sintetis untuk menyeimbangkan seluruh set data.

Apa saja tipe data sintetis?

Ada dua tipe utama data sintetis, yaitu sebagian dan penuh.

Data sintetis sebagian

Data sintetis sebagian menggantikan sebagian kecil dari set data nyata dengan informasi sintetis. Anda dapat menggunakannya untuk melindungi bagian sensitif dari set data. Misalnya, jika Anda perlu menganalisis data khusus pelanggan, Anda dapat menyintesis atribut, seperti nama, detail kontak, dan informasi dunia nyata lainnya yang dapat dilacak oleh seseorang ke orang tertentu.

Data sintetis penuh

Data sintetis penuh adalah jika Anda membuat data baru sepenuhnya. Set data yang sepenuhnya sintetis tidak akan berisi data dunia nyata. Namun, data tersebut akan menggunakan hubungan, distribusi plot, dan properti statistik yang sama dengan data nyata. Meskipun data ini tidak berasal dari data rekaman aktual, tetapi Anda dapat membuat kesimpulan yang sama.

Anda dapat menggunakan data sintetis penuh saat menguji model machine learning. Hal ini berguna ketika Anda ingin menguji atau membuat model baru, tetapi tidak memiliki data pelatihan dunia nyata yang cukup untuk meningkatkan akurasi ML.

Bagaimana data sintetis dihasilkan?

Pembuatan data sintetis melibatkan penggunaan metode komputasi dan simulasi untuk membuat data. Hasilnya meniru sifat statistik data dunia nyata, tetapi tidak mengandung pengamatan dunia nyata yang sebenarnya. Data yang dihasilkan ini dapat mengambil berbagai bentuk, termasuk teks, angka, tabel, atau jenis yang lebih kompleks, seperti gambar dan video. Ada tiga pendekatan utama untuk menghasilkan data sintetis, masing-masing menawarkan tingkat akurasi dan tipe data yang berbeda.

Distribusi statistik

Dalam pendekatan ini, data nyata dianalisis terlebih dahulu untuk mengidentifikasi distribusi statistik yang mendasarinya, seperti distribusi normal, eksponensial, atau chi-kuadrat. Ilmuwan data kemudian menghasilkan sampel sintetis dari distribusi yang diidentifikasi ini untuk membuat set data yang secara statistik menyerupai aslinya.

Berbasis model

Dalam pendekatan ini, model machine learning dilatih untuk memahami dan mereplikasi karakteristik data nyata. Setelah dilatih, model tersebut dapat menghasilkan data buatan yang mengikuti distribusi statistik yang sama dengan data nyata. Pendekatan ini sangat berguna untuk membuat set data hibrida, yang menggabungkan sifat statistik data nyata dengan elemen sintetis tambahan.

Metode deep learning

Teknik canggih seperti jaringan adversarial generatif (GAN), enkoder otomatis variasional (VAE), dan lainnya dapat digunakan untuk menghasilkan data sintetis. Metode ini sering digunakan untuk tipe data yang lebih kompleks, seperti gambar atau data deret waktu, dan dapat menghasilkan set data sintetis berkualitas tinggi.

Apa itu teknologi pembuatan data sintetis?

Kami menguraikan beberapa teknologi canggih yang dapat Anda gunakan untuk pembuatan data sintetis di bawah ini.

**Jaringan adversarial generatif**

Model jaringan adversarial generatif (GAN) menggunakan dua jaringan saraf yang bekerja sama untuk menghasilkan dan mengklasifikasikan data baru. Yang pertama menggunakan data mentah untuk menghasilkan data sintetis, sementara yang kedua mengevaluasi, mencirikan, dan mengklasifikasikan informasi itu. Kedua jaringan tersebut bersaing satu sama lain hingga jaringan evaluasi tidak dapat lagi membedakan antara data sintetis dan data asli.

Anda dapat menggunakan GAN untuk membuat data buatan yang sangat naturalistik dan menyajikan variasi data dunia nyata, seperti video dan gambar yang tampak realistis.

Baca tentang jaringan adversarial generatif (GAN)”

Enkoder otomatis variasional

Enkoder otomatis variasional (VAE) adalah algoritma yang menghasilkan data baru berdasarkan representasi data asli. Algoritma tanpa pengawasan mempelajari distribusi data mentah, lalu menggunakan arsitektur enkoder-dekoder untuk menghasilkan data baru melalui transformasi ganda. Enkoder mengompresi data input ke dalam representasi dimensi yang lebih rendah, dan dekoder merekonstruksi data baru dari representasi laten ini. Model ini menggunakan perhitungan probabilistik untuk kreasi ulang yang mulus.

VAE paling berguna saat menghasilkan data sintetis yang sangat mirip dengan variasi. Misalnya, Anda dapat menggunakan VAE saat menghasilkan gambar baru.

Model berbasis transformator

Transformator pra-terlatih generatif atau model berbasis GPT menggunakan kumpulan data asli yang besar untuk memahami struktur dan distribusi data yang khas. Anda terutama menggunakannya dalam pembuatan pemrosesan bahasa alami (NLP). Misalnya, jika model teks berbasis transformator dilatih pada set data besar teks bahasa Inggris, model tersebut mempelajari struktur, tata bahasa, dan bahkan nuansa bahasa. Saat menghasilkan data sintetis, model dimulai dengan teks awal (atau perintah) dan memprediksi kata berikutnya berdasarkan probabilitas yang telah dipelajarinya sehingga menghasilkan urutan lengkap.

Baca tentang GPT”

Apa saja tantangan dalam pembuatan data sintetis?

Ada beberapa tantangan saat membuat data sintetis. Di bawah ini adalah beberapa batasan umum dan tantangan yang mungkin Anda alami dengan data sintetis.

Kontrol kualitas

Kualitas data sangat penting dalam statistik dan analitik. Sebelum Anda memasukkan data sintetis ke dalam model pembelajaran, Anda harus memeriksa apakah data tersebut akurat dan memiliki tingkat kualitas data minimum. Namun, memastikan bahwa tidak ada yang dapat melacak titik data sintetis kembali ke informasi nyata mungkin memerlukan pengurangan akurasi. Pertukaran dalam privasi dan akurasi dapat memengaruhi kualitas.

Anda dapat melakukan pemeriksaan manual terhadap data sintetis sebelum menggunakannya, yang dapat membantu mengatasi masalah ini. Namun, pemeriksaan secara manual dapat memakan waktu jika Anda perlu menghasilkan banyak data sintetis.

Tantangan teknis

Membuat data sintetis itu sulit. Anda harus memahami teknik, aturan, dan metode saat ini untuk memastikan keakuratan dan kegunaannya. Anda membutuhkan keahlian tinggi di bidang ini sebelum Anda dapat menghasilkan data sintetis yang berguna.

Tidak peduli seberapa banyak keahlian yang Anda miliki, menghasilkan data sintetis sebagai tiruan sempurna dari data dunia nyata merupakan tantangan tersendiri. Misalnya, data dunia nyata sering kali mencakup outlier dan anomali yang jarang dapat dibuat ulang oleh algoritma pembuatan data sintetis.

Kebingungan pemangku kepentingan

Meskipun data sintetis adalah alat pelengkap yang berguna, tidak semua pemangku kepentingan memahami pentingnya data tersebut. Sebagai teknologi yang lebih baru, beberapa pengguna bisnis mungkin tidak menerima analitik data sintetis yang memiliki relevansi dengan dunia nyata. Di sisi lain, orang lain mungkin terlalu menekankan hasil karena aspek pembuatan yang terkontrol. Komunikasikan batas-batas teknologi ini dan hasilnya kepada para pemangku kepentingan untuk memastikan bahwa mereka memahami manfaat dan kekurangannya.

Bagaimana AWS dapat mendukung upaya pembuatan data sintetis Anda?

Amazon SageMaker adalah layanan terkelola sepenuhnya yang digunakan untuk menyiapkan data dan membangun, melatih, dan menerapkan model pembelajaran mesin (ML). Model ini cocok untuk kasus penggunaan apa pun dengan infrastruktur, alat, dan alur kerja terkelola penuh. SageMaker menawarkan dua opsi yang memungkinkan Anda untuk memberi label data mentah, seperti gambar, file teks, dan video, serta menghasilkan data sintetis berlabel untuk membuat set data berkualitas tinggi guna melatih model ML.

Amazon SageMaker Ground Truth adalah penawaran layanan mandiri yang memudahkan pelabelan data. Amazon SageMaker Ground Truth memberi Anda opsi untuk menggunakan anotator manusia melalui Amazon Mechanical Turk, vendor pihak ketiga, atau tenaga kerja pribadi Anda sendiri.
Amazon SageMaker Ground Truth Plus adalah layanan terkelola penuh yang memungkinkan Anda membuat set data pelatihan berkualitas tinggi. Anda tidak perlu membuat aplikasi pelabelan atau mengelola tenaga kerja pelabelan sendiri.

Pertama, Anda menentukan persyaratan gambar sintetis Anda atau menyediakan aset 3D dan gambar dasar, seperti gambar desain berbantuan komputer (CAD). Seniman digital AWS kemudian membuat gambar dari awal atau menggunakan aset yang disediakan pelanggan. Gambar yang dihasilkan meniru pose dan penempatan objek, menyertakan variasi objek atau pemandangan, dan secara opsional menambahkan inklusi spesifik, seperti goresan, penyok, dan perubahan lainnya. Hal ini menghilangkan proses pengumpulan data yang memakan waktu atau keharusan untuk merusak beberapa bagian untuk memperoleh gambar. Anda dapat menghasilkan ratusan ribu gambar sintetis yang secara otomatis diberi label dengan akurasi tinggi.

Mulailah dengan pembuatan data sintetis di AWS dengan membuat akun gratis hari ini.

Apa itu Data Sintetis?