Lewati ke Konten Utama

Apa itu teknik penambangan data?

Teknik penambangan data memungkinkan organisasi untuk mengungkap pola-pola tersembunyi dan hubungan halus dalam data mereka. Teknik ini mengubah data mentah menjadi pengetahuan praktis yang dapat digunakan untuk memecahkan masalah, menganalisis dampak masa depan dari keputusan bisnis, dan meningkatkan margin keuntungan. Panduan ini mengeksplorasi berbagai teknik penambangan data dan cara menerapkannya di AWS.

Organisasi menyimpan dan memproses informasi dalam jumlah besar dari berbagai proses bisnis. Penambangan data membantu mereka mendapatkan wawasan berharga dari data historis melalui pemodelan data dan analitik prediktif. Penambangan data modern sering menggunakan teknologi kecerdasan buatan dan machine learning (AI/ML) untuk mempercepat wawasan bisnis dan mendorong hasil yang lebih baik.

Namun, bisnis menghadapi tantangan saat melakukan penemuan pengetahuan dengan infrastruktur on-premise. Secara khusus, mereka perlu mengintegrasikan alat penambangan data dengan beragam sumber data, menghubungkan dengan aplikasi pihak ketiga, dan menyampaikan hasil kepada berbagai pemangku kepentingan, yang jika menggunakan infrastruktur konvensional, biayanya bisa sangat mahal.

AWS menawarkan layanan terkelola yang membantu organisasi menskalakan proses penambangan data mereka di cloud. Kami menggabungkan kemampuan penambangan data yang kuat, keahlian AI generatif, dan praktik terbaik tata kelola data dengan Amazon SageMaker. Hal ini memungkinkan ilmuwan data untuk menyatukan data dari berbagai sumber, menjalankan kueri analitik data yang kompleks, dan memantau data sesuai kebijakan keamanan dengan lebih efektif.

Selain meningkatkan aliran data, organisasi juga dapat memberikan analitik lanjutan dengan biaya lebih terjangkau tanpa harus menyediakan infrastruktur mereka sendiri. Misalnya, Lennar mengubah fondasi datanya menggunakan Studio Terpadu Amazon Sagemaker dan Amazon Sagemaker Lakehouse sehingga tim datanya dapat memperoleh wawasan bisnis secara lebih efektif.

Berikut adalah penjelasan tentang berbagai teknik penambangan data, beserta cara alat AWS membantu menerapkannya.

Bagaimana prapemrosesan data digunakan dalam penambangan data?

Prapemrosesan data mengubah data mentah menjadi format yang dapat dimengerti oleh jaringan neural penambangan data. Ini adalah bagian penting dari penambangan data karena secara signifikan memengaruhi kinerja model data. Sering kali, data mentah mungkin mengandung kesalahan, duplikasi, dan informasi yang hilang, yang dapat berdampak negatif pada hasil model. Dengan prapemrosesan data, Anda dapat membersihkan data dan menghapus anomali tersebut. Selain itu, ilmuwan data dapat memilih fitur-fitur tertentu yang berkontribusi pada wawasan bisnis dan menghilangkan informasi yang tidak diperlukan. Misalnya, saat memprediksi churn pelanggan, Anda memilih fitur-fitur, seperti penggunaan bulanan rata-rata, tanggal masuk terakhir, dan frekuensi permintaan dukungan. Kami menyebut fitur ini sebagai rekayasa, yang memungkinkan Anda mengurangi sumber daya komputasi yang diperlukan untuk penambangan data.

Amazon SageMaker Data Wrangler adalah alat persiapan data yang membantu Anda meningkatkan kualitas data dan, pada akhirnya, hasil analitik. Anda dapat menggunakan Amazon SageMaker Data Wrangler di berbagai sumber data yang terhubung ke pipeline data Anda. Alih-alih menghabiskan waktu berjam-jam untuk membersihkan data, Amazon SageMaker Data Wrangler mampu melakukannya dalam hitungan menit berkat pendekatan tanpa kode. Berikut cara menyiapkan data untuk model machine learning Anda dengan SageMaker Data Wrangler.

Langkah 1 — Pilih dan kueri

Gunakan pembuat kueri visual untuk mengakses dan mengambil data teks, gambar, dan tabular di seluruh AWS serta penyimpanan pihak ketiga. Kemudian, terapkan temuan dalam laporan kualitas data untuk mendeteksi anomali, seperti pencilan, ketidakseimbangan kelas, dan kebocoran data.

Langkah 2 — Bersihkan dan perkaya

Transformasikan data Anda dengan transformasi PySpark bawaan dan antarmuka bahasa alami. Amazon SageMaker Data Wrangler mendukung transformasi data umum, termasuk vektorisasi teks, pengubahan data tanggal dan waktu, pengodean, dan penyeimbangan data. Selain itu, Anda dapat dengan mudah membuat transformasi khusus untuk mendukung kasus penggunaan Anda.

Langkah 3 — Visualisasi dan pahami

Validasi data yang disiapkan dengan bagan, diagram, dan alat visual lainnya. Kemudian, jalankan analisis cepat untuk memprediksi hasil model sebelum benar-benar melatihnya.

Apa itu analisis data eksplorasi?

Analisis data eksplorasi (EDA) adalah teknik ilmu data yang memungkinkan ilmuwan data mengungkap pola tersembunyi, mengidentifikasi hubungan yang bermakna, dan mendeteksi anomali dalam data. Sering kali, EDA dipandu oleh alat visual, seperti histogram, bagan, dan grafik. Tujuan utama EDA adalah memberikan panduan untuk analisis data selanjutnya. Selain itu, EDA membantu ilmuwan data membebaskan penilaian mereka dari asumsi dan bias.

Sederhananya, EDA memberikan bukti yang dapat diamati melalui pemodelan statistik dan teknik, seperti analisis deret waktu, analisis spasial, dan plot pencar. Namun, pelaksanaan EDA memerlukan serangkaian alat penambangan data yang harus bekerja bersama secara terintegrasi. Pengaturan awalnya bisa cukup mahal. 

Studio Terpadu Amazon SageMaker adalah platform AI dan data tunggal yang memungkinkan tim Anda membangun, melakukan deployment, dan berbagi beban kerja analitik data. Anda dapat menggunakannya untuk bekerja dengan alat AI/ML, penyimpanan, dan analitik yang sudah dikenal dari AWS, termasuk Amazon EMR, AWS Glue, Amazon Athena, Amazon Redshift, Amazon Bedrock, dan Amazon SageMaker AI.

Berikut beberapa cara untuk mempercepat analisis data eksplorasi (EDA) dengan Studio Terpadu Amazon SageMaker.

  • Berlangganan, mengelola, dan menetapkan aturan untuk aset data yang ingin Anda gunakan dalam melatih model analitik data.
  • Melakukan kueri terhadap data yang disimpan di danau data, gudang data, dan sumber lainnya.
  • Membuat alur kerja dengan antarmuka visual bawaan untuk menambahkan modul transformasi di antara sumber data dan tujuan.

Apa itu analitik prediktif dalam penambangan data?

Analitik prediktif dalam penambangan data memanfaatkan pola data yang ditemukan untuk memprediksi hasil pada masa mendatang. Untuk melakukannya, data dimasukkan ke dalam model machine learning, yang, berdasarkan pengetahuan yang sudah mereka pelajari, membuat prediksi yang membantu bisnis mendukung keputusan mereka. Misalnya, perusahaan keuangan menggunakan analitik prediktif untuk memprediksi tren pasar, mendeteksi penipuan, dan menilai risiko kredit.

Amazon SageMaker Canvas adalah alat pengembangan visual yang memungkinkan Anda melatih, menguji, dan menerapkan model prediktif dalam skala besar. Alat ini menyediakan akses ke model dasar dan algoritma machine learning (ML) khusus, yang memungkinkan pembuatan prediksi akurat untuk berbagai kasus penggunaan.

Selain itu, Anda dapat membangun seluruh alur kerja data dengan bahasa percakapan menggunakan Amazon Q Developer. Ini adalah asisten AI generatif yang memungkinkan Anda mendeksripsikan tugas machine learning dan analitik data dalam bahasa sehari-hari. Kemudian, deskripsi Anda diubah menjadi kueri, skrip SQL, langkah-langkah yang dapat ditindaklanjuti, rekomendasi kode, dan banyak lagi untuk membantu Anda bekerja dengan AI dan data secara lebih efisien.

Di bawah ini adalah model yang dapat Anda buat dan deploy dengan Amazon SageMaker Canvas untuk mengaktifkan analitik prediktif.

Klasifikasi

Model klasifikasi dapat memberikan label pada data yang belum pernah dilihat sebelumnya berdasarkan karakteristik yang telah dipelajari. Misalnya, sistem dukungan pelanggan yang didukung AI dapat mengklasifikasikan umpan balik sebagai positif, negatif, atau netral dengan menganalisis kata-kata dalam percakapan. Amazon SageMaker Canvas mendukung model klasifikasi untuk berbagai jenis masalah, termasuk klasifikasi teks, klasifikasi gambar, deteksi anomali, dan deteksi objek.

Penambangan aturan asosiasi

Penambangan aturan asosiasi (ARM) menemukan hubungan antar-titik data dan dapat digunakan untuk memperkuat pipeline analitik prediktif. Misalnya, Anda dapat menggunakan ARM untuk menjalankan analisis keranjang pasar dan mencari tahu barang mana yang sering dibeli bersamaan di supermarket. Amazon SageMaker memungkinkan Anda membuat algoritma ARM kustom sendiri menggunakan kerangka kerja, seperti Python, dan menerapkannya dalam alur kerja AI/ML Anda di AWS.

Pembuatan klaster

Pembuatan klaster secara tidak langsung mendukung analitik prediktif dengan mengelompokkan data berdasarkan atribut yang mirip. Misalnya, Anda dapat mengelompokkan pelanggan berdasarkan nilai pengeluaran rata-rata. Kemudian, segmen pelanggan tersebut digunakan sebagai salah satu fitur dalam model prediktif. Untuk mengelompokkan data, ilmuwan data sering menggunakan algoritma K-mean. Amazon SageMaker menggunakan versi modifikasi dari algoritma K-mean, yang memberikan hasil lebih akurat dan skalabilitas yang lebih tinggi.

Deteksi anomali

Model machine learning dapat dilatih untuk mendeteksi pencilan dalam pola data. Misalnya, pabrik menggunakan model prediktif untuk mengidentifikasi potensi kegagalan pada mesin. Deteksi anomali mendukung tindakan mitigasi proaktif, seperti melakukan pemeliharaan preventif untuk mencegah gangguan operasional.

Dengan Amazon SageMaker, Anda dapat mendeteksi pola abnormal dengan algoritma Random Cut Forest, yang menetapkan skor rendah (normal) dan tinggi (abnormal) untuk data.

Apa itu penambangan dokumen?

Penambangan dokumen adalah teknik machine learning yang mampu menemukan, mengekstrak, dan menganalisis data berupa teks, gambar, atau tabel yang terdapat di dalam dokumen. Organisasi dapat mengurangi biaya, meningkatkan pengalaman pelanggan, dan meningkatkan efisiensi operasional dengan menerapkan teknologi penambangan data pada dokumen yang mereka simpan. Misalnya, firma hukum dapat secara otomatis mengekstrak klausul tertentu dari kontrak menggunakan penambangan dokumen.

Anda dapat menerapkan model penambangan dokumen siap pakai dengan Amazon SageMaker Canvas. Model-model ini sudah dilatih sebelumnya sehingga dapat langsung diintegrasikan ke dalam alur kerja penambangan data tanpa perlu penyempurnaan tambahan. Setelah diatur, model menganalisis data mentah dalam dokumen untuk menemukan pola yang bermakna. Kemudian, model akan mengekstrak, mengategorikan, atau memberi label sesuai kebutuhan.

Sebagai contoh, model deteksi informasi pribadi dapat mengenali data, seperti alamat, nomor rekening bank, dan nomor telepon dari data berbentuk teks. Sementara itu, model analisis pengeluaran dapat mengambil informasi, seperti jumlah transaksi, tanggal, dan item dari tanda terima dan faktur.

Berikut cara menerapkan teknik penambangan dokumen dengan Amazon SageMaker Canvas.

  1. Buat domain AI SageMaker Anda dan aktifkan model Siap Pakai Canvas.
  2. Impor set data dokumen yang ingin Anda analisis. Ini memungkinkan Anda membuat aliran data.
  3. Pilih model penambangan data untuk menghasilkan prediksi. Anda dapat membuat prediksi tunggal atau batch dari pengaturan.

Bagaimana AWS dapat membantu teknik penambangan data?

Teknik penambangan data memungkinkan bisnis menemukan wawasan berharga dari data yang mereka hasilkan sehingga dapat mengambil keputusan yang lebih matang. Agar berhasil, penambangan data membutuhkan pipeline data yang efisien, yang menghubungkan data mentah dari berbagai sumber ke model AI/ML yang kuat.

Pipeline data ini mengotomatiskan proses ekstraksi, penyimpanan, pembersihan, dan transformasi data untuk memastikan model berikutnya menerima data berkualitas tinggi dan akurat. Setelah itu, berbagai jenis teknik penambangan data dapat diterapkan untuk mendapatkan wawasan yang bermakna.

Jelajahi Amazon SageMaker untuk menyederhanakan alur kerja data yang kompleks dan memperoleh wawasan prediktif yang mendukung hasil bisnis yang lebih baik.