Apa itu Pembersihan Data?

Buat Akun AWS

Apa Itu Pembersihan Data?

Pembersihan data adalah proses penting untuk menyiapkan data mentah bagi aplikasi machine learning (ML) dan kecerdasan bisnis (BI). Data mentah mungkin berisi banyak kesalahan, yang dapat memengaruhi keakuratan model ML dan menyebabkan salah prediksi, serta dampak bisnis yang negatif.

Langkah-langkah utama pembersihan data, meliputi memodifikasi dan menghapus bidang data yang salah dan tidak lengkap, mengidentifikasi dan menghapus informasi duplikat dan data yang tidak terkait, serta mengoreksi format, nilai yang hilang, dan kesalahan ejaan.

Mengapa Pembersihan Data Penting?

Saat perusahaan menggunakan data untuk mendorong pengambilan keputusan, mereka perlu menggunakan data yang relevan, lengkap, dan akurat. Namun, set data sering mengandung kesalahan yang harus dihilangkan sebelum analisis. Kesalahan tersebut mungkin termasuk kesalahan format, seperti salah menulis tanggal, moneter, dan unit ukuran lain yang dapat secara signifikan memengaruhi prediksi. Outlier menjadi perhatian khusus karena selalu mencondongkan hasil. Kesalahan data lain yang biasa ditemukan meliputi titik data yang rusak, informasi yang hilang, dan kesalahan ketik. Data bersih dapat membantu mencapai model ML yang sangat akurat.

Data yang bersih dan akurat sangat penting untuk melatih model ML, karena menggunakan set data pelatihan yang buruk dapat menghasilkan kesalahan prediksi dalam model yang dilakukan deployment. Inilah alasan utama para ilmuwan data menghabiskan sebagian besar waktu mereka untuk menyiapkan data untuk ML.

Bagaimana Cara Memvalidasi Bahwa Data Anda Bersih?

Proses pembersihan data memerlukan beberapa langkah untuk mengidentifikasi dan memperbaiki entri masalah. Langkah pertama adalah menganalisis data untuk mengidentifikasi kesalahan. Langkah ini dapat melibatkan penggunaan alat analisis kualitatif yang menggunakan aturan, pola, dan batasan untuk mengidentifikasi nilai yang tidak valid. Langkah selanjutnya adalah menghapus atau memperbaiki kesalahan.

Langkah-langkah pembersihan data yang umum dilakukan meliputi pemulihan:

Data duplikat: Buang informasi duplikat
Data yang tidak relevan: Identifikasi bidang kritis untuk analisis tertentu dan buang data yang tidak relevan dari analisis
Outlier: Outlier dapat secara dramatis memengaruhi performa model, jadi identifikasikan outlier dan tentukan tindakan yang tepat
Data yang hilang: Tandai dan buang atau hubungkan data yang hilang
Kesalahan struktural: Perbaiki kesalahan ketik dan ketidakkonsistenan lainnya, serta buat data sesuai dengan pola atau konvensi umum

Cara AWS Dapat Membantu dalam Pembersihan Data

Amazon SageMaker Data Wrangler adalah fitur Amazon SageMaker yang memungkinkan Anda menyiapkan data untuk ML dengan cepat dan mudah. Dengan Amazon SageMaker Data Wrangler, Anda dapat menyelesaikan setiap langkah alur kerja dari persiapan data, meliputi pemilihan data, pembersihan, eksplorasi, deteksi bias, dan visualisasi dari satu antarmuka visual.

Dengan menggunakan alat pemilihan data dari SageMaker Data Wrangler, Anda dapat memilih data yang Anda inginkan dari berbagai sumber data dan mengimpornya dengan satu klik. Setelah data diimpor, Anda dapat menggunakan kualitas data dan laporan wawasan untuk memverifikasi kualitas data secara otomatis dan mendeteksi kelainan, seperti baris rangkap dan kebocoran target. SageMaker Data Wrangler berisi lebih dari 300 transformasi data bawaan sehingga Anda dapat dengan cepat menormalkan, mengubah, dan menggabungkan fitur tanpa harus menulis kode apa pun.

Untuk memulai dengan SageMaker Data Wrangler, jelajahi tutorialnya.

Langkah Berikutnya Pembersihan Data

Lihat sumber daya terkait produk tambahan

Pelajari selengkapnya tentang Layanan Machine Learning

Daftar untuk akun gratis

Dapatkan akses langsung ke AWS Tingkat Free.

Daftar

Mulai membangun di konsol

Mulai membangun di konsol manajemen AWS.

Masuk

Browse all cloud computing concepts

Browse all cloud computing concepts content here:

Memuat

Did you find what you were looking for today?

Let us know so we can improve the quality of the content on our pages

Apa itu Pembersihan Data?