Apa itu ilmu data?

Ilmu data adalah disiplin ilmu tentang data untuk mengekstraksi wawasan yang penuh arti bagi bisnis. Ilmu data merupakan pendekatan multidisiplin yang menggabungkan prinsip dan praktik dari bidang matematika, statistika, kecerdasan buatan, dan teknik komputer untuk menganalisis data dalam jumlah besar. Analisis ini membantu ilmuwan data untuk mengajukan dan menjawab berbagai pertanyaan, seperti apa yang terjadi, mengapa itu terjadi, apa yang akan terjadi, dan apa yang harus dilakukan selanjutnya.

Mengapa ilmu data penting?

Ilmu data penting karena mengombinasikan alat, metode, dan teknologi untuk mengartikan data. Organisasi modern tenggelam dalam data karena makin banyak perangkat yang dapat secara otomatis mengumpulkan dan menyimpan informasi. Sistem online dan portal pembayaran menangkap lebih banyak data di bidang perdagangan elektronik, kedokteran, keuangan, dan setiap aspek kehidupan manusia. Kita memiliki data teks, audio, video, dan gambar dalam jumlah yang besar.  

Sayangnya, data mentah tidak bernilai kecuali jika dapat ditindaklanjuti. Ilmuwan data dapat mengubah data mentah menjadi rekomendasi bermakna. Mereka dapat mengungkap dan menyelesaikan masalah yang bahkan mungkin tidak diketahui keberadaannya oleh banyak bisnis. Organisasi dapat menggunakan rekomendasi ini agar pelanggan lebih bahagia, mengoptimalkan rantai pasokan, atau meluncurkan produk baru.

Sejarah ilmu data

Walaupun istilah ilmu data bukan sesuatu yang baru, arti dan konotasinya telah berubah seiring waktu. Kata ini pertama muncul pada tahun 60-an sebagai nama alternatif untuk statistik. Di akhir 90-an, para profesional ilmu komputer memformalkan istilah tersebut. Sebuah definisi menganggap ilmu data sebagai bidang tersendiri yang memiliki tiga aspek: desain, pengumpulan, dan analisis data. Butuh waktu beberapa dekade, hingga akhirnya istilah tersebut digunakan di luar akademia. 

Masa depan ilmu data

Inovasi kecerdasan buatan dan machine learning telah membuat pemrosesan data menjadi lebih cepat dan lebih efisien. Permintaan industri telah menciptakan ekosistem kursus, gelar, dan posisi pekerjaan dalam bidang ilmu data. Karena keterampilan dan keahlian lintas fungsi diperlukan, ilmu data menunjukkan proyeksi pertumbuhan yang kuat selama beberapa dekade mendatang.

Apa kegunaan ilmu data?

Ilmu data digunakan untuk mempelajari data dengan empat cara utama:

1. Analisis deskriptif

Analisis deskriptif memeriksa data untuk mendapatkan wawasan mengenai apa yang telah terjadi atau apa sedang terjadi di lingkungan data. Analisis ini dicirikan dengan visualisasi data seperti diagram lingkaran, diagram batang, diagram garis, tabel, atau narasi yang dihasilkan. Misalnya, layanan pemesanan penerbangan mencatat data seperti nomor tiket yang dipesan setiap hari. Analisis deskriptif akan mengungkap lonjakan pemesanan, penurunan pemesanan, dan bulan dengan pemesanan terpadat untuk layanan ini.

2. Analisis diagnostik

Analisis diagnostik merupakan pemeriksaan data yang mendalam atau terperinci untuk memahami alasan terjadinya suatu hal. Analisis ini dicirikan dengan teknik seperti penelusuran, penemuan data, pengumpulan data, dan korelasi. Beberapa operasi dan transformasi data mungkin dilakukan pada set data tertentu untuk menemukan pola unik di setiap teknik ini. Misalnya, layanan penerbangan mungkin ingin menelusuri khususnya bulan dengan pemesanan terpadat untuk lebih memahami lonjakan pemesanan. Hasil analisis dapat mengungkap bahwa banyak pelanggan mengunjungi kota tertentu untuk menghadiri acara olahraga bulanan.

3. Analisis prediktif

Analisis prediktif menggunakan data historis untuk membuat prakiraan yang akurat mengenai pola data yang mungkin terjadi di masa mendatang. Analisis ini dicirikan dengan teknik seperti machine learning, prakiraan, pencocokan pola, dan pemodelan prediktif. Di masing-masing teknik, komputer dilatih untuk merekayasa balik hubungan kausalitas dalam data. Misalnya, tim layanan penerbangan mungkin menggunakan ilmu data untuk memprediksi pola pemesanan penerbangan untuk tahun yang akan datang pada awal masing-masing tahun. Program komputer atau algoritme dapat melihat data masa lampau dan memprediksi lonjakan pemesanan untuk tujuan tertentu di bulan Mei. Setelah mengantisipasi kebutuhan perjalanan pelanggan di masa mendatang, perusahaan dapat memulai iklan tertarget untuk kota-kota tersebut dari bulan Februari.

4. Analisis preskriptif

Analitik preskriptif membawa data prediktif ke level berikutnya. Bukan hanya memprediksi kemungkinan yang akan terjadi, analisis ini juga menyarankan respons optimal untuk hasil tersebut. Analisis ini dapat mengkaji potensi implikasi berbagai pilihan yang berbeda dan merekomendasikan tindakan terbaik. Analisis ini menggunakan analisis grafis, simulasi, pemrosesan peristiwa kompleks, jaringan neural, dan mesin rekomendasi dari machine learning.         
Kembali ke contoh pemesanan penerbangan, analisis preskriptif dapat melihat riwayat kampanye pemasaran untuk memaksimalkan keuntungan dari lonjakan pemesanan mendatang. Ilmuwan data dapat memproyeksikan hasil pemesanan untuk berbagai level biaya pemasaran pada berbagai saluran pemasaran. Prakiraan data ini akan membuat perusahaan pemesanan penerbangan lebih percaya diri dengan keputusan pemasaran mereka.

Apa manfaat ilmu data bagi bisnis?

Ilmuwan data mengubah cara perusahaan beroperasi. Banyak bisnis, dari berbagai ukuran, memerlukan strategi ilmu data yang kuat untuk mendorong pertumbuhan dan menjaga keunggulan kompetitif. Beberapa manfaat utamanya meliputi:

Temukan pola transformatif yang belum diketahui

Ilmu data memungkinkan bisnis untuk menemukan pola baru dan hubungan yang berpotensi mengubah organisasi. Ilmu ini dapat mengungkapkan perubahan berbiaya murah kepada manajemen sumber daya untuk dampak maksimal pada margin profit. Misalnya, perusahaan perdagangan elektronik, dengan menggunakan ilmu data, menemukan bahwa ada terlalu banyak kueri pelanggan yang dihasilkan setelah jam kerja. Investigasi mengungkap bahwa pelanggan akan cenderung membeli jika mereka ditanggapi dengan segera, bukan pada jam kerja esok hari. Dengan menerapkan layanan pelanggan selama 24 jam sehari dan 7 hari seminggu, bisnis akan meningkatkan pendapatannya hingga 30%.

Inovasikan produk dan solusi baru

Ilmu data dapat mengungkap celah dan masalah yang mungkin tidak akan terdeteksi. Wawasan yang lebih luas mengenai keputusan pembelian, umpan balik pelanggan, dan proses bisnis dapat mendorong inovasi dalam operasi internal dan solusi eksternal. Misalnya, solusi pembayaran online menggunakan ilmu data untuk memeriksa dan menganalisis komentar pelanggan tentang perusahaan di media sosial. Analisis mengungkapkan bahwa pelanggan cenderung lupa kata sandinya selama periode pembelian puncak dan tidak senang dengan sistem pemulihan kata sandi yang ada sekarang. Perusahaan dapat memperkenalkan solusi yang lebih baik dan melihat peningkatan yang signifikan dalam kepuasan pelanggan.

Optimisasi waktu nyata

Merupakan sebuah tantangan tersendiri bagi bisnis, terutama korporasi skala besar, untuk merespons kondisi yang berubah-ubah dalam waktu nyata. Hal ini dapat menyebabkan kerugian atau disrupsi yang signifikan dalam aktivitas bisnis. Ilmu data dapat membantu perusahaan memprediksi perubahan dan bereaksi secara optimal dalam berbagai kondisi. Misalnya, perusahaan pengiriman berbasis truk menggunakan ilmu data untuk mengurangi waktu henti operasi saat truk rusak. Mereka mengidentifikasi rute dan pola sif yang menyebabkan kerusakan lebih cepat dan menyesuaikan jadwal truk. Mereka juga menyiapkan inventaris suku cadang umum yang sering memerlukan penggantian sehingga truk dapat diperbaiki lebih cepat.  

Apa itu proses ilmu data?

Masalah bisnis biasanya akan menginisiasi proses ilmu data. Ilmuwan data akan bekerja dengan pemangku kepentingan bisnis untuk memahami apa yang diperlukan oleh bisnis. Setelah masalah diketahui, ilmuwan data bisa memecahkannya dengan menggunakan proses ilmu data OSEMN:

O – Obtain (dapatkan) data

Data dapat berupa data yang sudah ada, data yang baru diperoleh, atau repositori data yang dapat diunduh dari internet. Ilmuwan data dapat mengekstraksi dari basis data internal atau eksternal, perangkat lunak CRM perusahaan, log server web, media sosial, atau membelinya dari sumber pihak ketiga tepercaya.

S – Scrub (gosok) data

Penggosokan data, atau pembersihan data, adalah proses standardisasi data sesuai dengan format yang sudah ditentukan. Proses ini mencakup penanganan data yang hilang, perbaikan kesalahan data, dan penghapusan setiap pencilan data. Berikut adalah beberapa contoh penggosokan data: 

  • Mengubah semua nilai data menjadi format standar yang umum.  
  • Memperbaiki kesalahan ejaan atau tambahan spasi.  
  • Memperbaiki ketidakakuratan matematika atau menghapus koma dari angka yang berjumlah banyak.

E – Explore (eksplorasi) data

Eksplorasi data adalah analisis data pendahuluan yang digunakan untuk merencanakan strategi pemodelan data lebih lanjut. Ilmuwan data mendapatkan pemahaman data awal dengan menggunakan statistik deskriptif dan alat visualisasi data. Mereka kemudian mengeksplorasi data untuk mengidentifikasi pola menarik yang dapat dipelajari atau ditindaklanjuti.      

M – Model (buat model) data

Algoritme perangkat lunak dan machine learning digunakan untuk mendapatkan wawasan lebih dalam, memprediksi hasil, dan merekomendasikan tindakan terbaik. Teknik machine learning seperti asosiasi, klasifikasi, dan pembuatan klaster diterapkan ke kumpulan data pelatihan (training data). Model tersebut dapat diuji dengan data uji yang telah ditentukan untuk menilai akurasi hasil. Model data dapat disesuaikan berkali-kali untuk meningkatkan hasil. 

N - Interpret (tafsirkan) hasil

Ilmuwan data bekerja sama dengan analis dan bisnis untuk mengubah wawasan data menjadi tindakan. Mereka membuat diagram, grafik, dan bagan untuk menunjukkan tren dan prediksi. Peringkasan data membantu pemangku kepentingan memahami dan menerapkan hasil secara efektif.

Apa itu teknik ilmu data?

Para profesional ilmu data menggunakan sistem komputer untuk mengikuti proses ilmu data. Teknik teratas yang digunakan oleh ilmuwan data meliputi:

Klasifikasi

Klasifikasi adalah penyortiran data ke dalam grup atau kategori tertentu. Komputer dilatih untuk mengidentifikasi dan menyortir data. Set data yang sudah diketahui digunakan untuk membangun algoritme keputusan di komputer yang dengan cepat memproses dan mengelompokkan data. Misalnya:  

  • Sortir produk berdasarkan populer atau tidak populer  
  • Sortir aplikasi asuransi berdasarkan risiko tinggi atau risiko rendah  
  • Sortir komentar media sosial ke dalam kelompok positif, negatif, atau netral.

Para profesional ilmu data menggunakan sistem komputer untuk mengikuti proses ilmu data. 

Regresi

Regresi adalah metode untuk menemukan hubungan antara dua titik data yang tampaknya tidak berhubungan. Koneksi biasanya dimodelkan dengan rumus matematika dan ditampilkan dalam bentuk grafik atau kurva. Ketika nilai satu titik data diketahui, regresi digunakan untuk memprediksi titik data lainnya. Misalnya:  

  • Tingkat penyebaran penyakit yang ditularkan melalui udara. 
  •  Hubungan antara kepuasan pelanggan dengan jumlah karyawan.  
  • Hubungan antara jumlah stasiun pemadam kebakaran dan jumlah korban terluka akibat kebakaran di lokasi tertentu. 

Pembuatan klaster

Pembuatan klaster adalah metode pengelompokan data yang terkait erat untuk mencari pola dan anomali. Pembuatan klaster berbeda dari penyortiran karena data tidak dapat diklasifikasikan secara akurat ke dalam kategori tetap. Oleh karena itu, data dikelompokkan ke dalam hubungan yang paling mungkin. Pola dan hubungan baru dapat ditemukan dengan pembuatan klaster. Misalnya:  
  • Mengelompokkan pelanggan dengan perilaku pembelian serupa untuk meningkatkan layanan pelanggan.  
  • Mengelompokkan lalu lintas jaringan untuk mengidentifikasi pola penggunaan harian dan mengidentifikasi serangan jaringan secara lebih cepat.  
  • Mengelompokkan artikel ke dalam beberapa kategori berita yang berbeda dan menggunakan informasi ini untuk menemukan konten berita palsu.

Prinsip dasar di balik teknik ilmu data

Meskipun detailnya bervariasi, prinsip yang mendasari teknik ini adalah:
  • Mengajari mesin cara menyortir data berdasarkan kumpulan data yang diketahui. Misalnya, contoh kata kunci diberikan ke komputer dengan nilai sortirnya. “Gembira” adalah positif, sementara “Benci” adalah negatif.
  • Memberikan data yang tidak diketahui ke mesin dan memungkinkan perangkat menyortir set data secara mandiri.
  •  Mengizinkan ketidakakuratan hasil dan menangani faktor probabilitas hasil.  

Apa saja ragam teknologi ilmu data?

Praktisi ilmu data bekerja dengan teknologi yang kompleks, seperti:

  1. Kecerdasan buatan: Model machine learning dan perangkat lunak terkait digunakan untuk analisis prediktif dan preskriptif.
  2. Komputasi cloudTeknologi cloud memberi ilmuwan data fleksibilitas dan daya pemrosesan yang diperlukan untuk analitik data lanjutan.
  3. Internet untuk segala (IoT): IoT adalah berbagai perangkat yang secara otomatis terhubung ke internet. Perangkat ini mengumpulkan data untuk inisiatif ilmu data. Perangkat ini menghasilkan data masif yang dapat digunakan untuk penambangan data dan ekstraksi data.
  4. Komputasi kuantum: Komputer kuantum dapat melakukan perhitungan kompleks dengan kecepatan tinggi. Ilmuwan data dengan keterampilan tinggi menggunakannya untuk membangun algoritme kuantitatif kompleks.

Ilmu data adalah istilah yang mencakup semua peran dan bidang yang terkait data lainnya. Mari melihat beberapa contohnya:

Apa perbedaan antara ilmu data dan analitik data?

Meskipun keduanya dapat digunakan secara bergantian, analitik data adalah bagian dari ilmu data. Ilmu data adalah payung untuk semua aspek pemrosesan data—mulai dari pengumpulan, pemodelan, hingga wawasan. Di lain sisi, analitik data utamanya berkaitan dengan statistik, matematika, dan analisis secara statistik. Analitik data hanya berfokus pada analisis data, sementara ilmu data berkaitan dengan gambaran yang lebih besar mengenai data organisasi. Di banyak tempat kerja, ilmuwan data dan analis data bekerja sama demi tujuan bisnis yang sama. Analis data mungkin menghabiskan lebih banyak waktu untuk analisis rutin, sehingga menghasilkan laporan reguler. Ilmuwan data bisa merancang cara data disimpan, dimanipulasi, dan dianalisis. Singkatnya, analis data menafsirkan data yang sudah ada, sementara ilmuwan data membuat metode dan alat baru untuk memproses data yang digunakan oleh analis.

Apakah perbedaan antara ilmu data dan analitik bisnis?

Meskipun ilmu data dan analitik bisnis memiliki persamaan, keduanya berbeda dalam hal penggunaan teknologi di masing-masing bidang. Ilmuwan data bekerja lebih dekat dengan teknologi data daripada analis bisnis. Analis bisnis menjadi jembatan antara bisnis dan TI. Mereka menentukan kasus bisnis, mengumpulkan informasi dari pemangku kepentingan, atau memvalidasi solusi. Sebaliknya, ilmuwan data menggunakan teknologi untuk bekerja dengan data bisnis. Mereka menulis program, menerapkan teknik machine learning untuk membuat model, dan mengembangkan algoritme baru. Ilmuwan data tidak hanya memahami masalah, tetapi juga membangun alat yang memberikan solusi untuk masalah tersebut. Analis bisnis dan ilmuwan data dapat bekerja sama dalam satu tim. Analis bisnis mengambil hasil dari ilmuwan data dan menggunakannya untuk menyampaikan suatu hal agar dapat dipahami oleh bisnis yang lebih luas.

Apakah perbedaan antara ilmu data dan rekayasa data?

Rekayasawan data membangun dan memelihara sistem yang memungkinkan ilmuwan data untuk mengakses dan menafsirkan data. Mereka bekerja secara lebih dekat dengan teknologi dasar daripada ilmuwan data. Peran tersebut umumnya melibatkan pembuatan model data, pembangunan data pipeline, dan pengawasan proses extract, transform, load (ETL). Bergantung pada penyiapan dan ukuran organisasi, rekayasawan data dapat juga mengelola infrastruktur terkait seperti penyimpanan big data, streaming, dan platform pemrosesan seperti Simple Storage Service (Amazon S3). Ilmuwan data menggunakan data yang telah diproses oleh rekayasawan data untuk membangun dan melatih model prediktif. Ilmuwan data kemudian menyerahkan hasil yang didapatkan kepada analis untuk pembuatan keputusan lebih lanjut.

Apakah perbedaan antara ilmu data dan machine learning?

Machine learning adalah ilmu untuk melatih mesin guna menganalisis dan mempelajari data seperti manusia. Ini adalah salah satu metode yang digunakan dalam proyek ilmu data untuk mendapatkan wawasan terotomatisasi dari data. Rekayasawan machine learning memiliki spesialisasi dalam keterampilan komputasi, algoritme, dan pengkodean khusus untuk metode machine learning. Ilmuwan data menggunakan metode machine learning sebagai alat atau bekerja sama dengan rekayasawan machine learning lainnya untuk memproses data.

Apakah perbedaan antara ilmu data dan statistik? 

Statistik adalah bidang ilmu berbasis matematis yang mengumpulkan dan menafsirkan data kuantitatif. Sebaliknya, ilmu data adalah bidang multidisiplin yang menggunakan metode, proses, dan sistem ilmiah untuk mengekstraksi pengetahuan dari data dalam berbagai bentuk. Ilmuwan data menggunakan metode dari banyak disiplin ilmu, termasuk statistik. Namun, bidang-bidang tersebut berbeda dalam hal proses dan masalah yang dipelajari.  

Apa saja alat ilmu data?

AWS memiliki berbagai alat untuk mendukung ilmuwan data di seluruh dunia:

Penyimpanan data

Untuk penggudangan data, Amazon Redshift dapat menjalankan kueri kompleks terhadap data terstruktur atau tidak terstruktur. Analis dan ilmuwan data dapat menggunakan AWS Glue untuk mengelola dan mencari data. AWS Glue secara otomatis membuat katalog terpadu dari semua data di danau data, dengan metadata yang dilampirkan untuk membuatnya dapat ditemukan.

Machine learning

Amazon SageMaker adalah layanan machine learning terkelola penuh yang berjalan di Amazon Elastic Compute Cloud (EC2). Amazon SageMaker memungkinkan pengguna untuk mengatur data, membangun, melatih dan melakukan deployment model machine learning, serta menskalakan operasi.

Analitik

  •  Amazon Athena adalah layanan kueri interaktif yang memudahkan analisis data di Amazon S3 atau Glacier. Layanan ini cepat, nirserver, dan bekerja dengan menggunakan kueri SQL standar.
  • Amazon Elastic MapReduce (EMR) memproses big data dengan menggunakan server seperti Spark dan Hadoop.
  •  Amazon Kinesis memungkinkan agregasi dan pemrosesan data streaming secara waktu nyata. Amazon Kinesis menggunakan aliran klik (clickstream) situs web, log aplikasi, dan data telemetri dari perangkat IoT. 
  • Amazon OpenSearch memungkinkan pencarian, analisis, dan visualisasi petabita data.

Apa tugas ilmuwan data?

Seorang ilmuwan data dapat menggunakan berbagai teknik, alat, dan teknologi yang berbeda sebagai bagian dari proses ilmu data. Dengan berdasar pada masalah, mereka memilih kombinasi terbaik untuk hasil yang lebih cepat dan akurat.

Peran dan pekerjaan sehari-hari seorang ilmuwan data dapat bervariasi bergantung pada ukuran dan persyaratan organisasi. Meskipun mereka biasanya mengikuti proses ilmu data, detailnya mungkin berbeda. Dalam tim ilmu data yang lebih besar, ilmuwan data dapat bekerja dengan analis, rekayasawan, pakar machine learning, dan ahli statistik lain untuk memastikan proses ilmu data dilakukan dari awal sampai akhir dan tujuan bisnis dapat tercapai. 

Namun, dalam tim yang lebih kecil, seorang ilmuwan data mungkin memiliki beberapa peran lain. Berdasarkan pengalaman, keterampilan, dan latar belakang pendidikan, mereka dapat menjalankan beberapa peran atau peran-peran yang saling tumpang tindih. Dalam hal ini, tanggung jawab harian mereka mencakup rekayasa, analisis, dan machine learning bersama dengan metodologi ilmu data inti. 

Tantangan apa saja yang dihadapi oleh ilmuwan data?

Banyaknya sumber data

Berbagai jenis aplikasi dan alat dapat menghasilkan data dalam berbagai format. Ilmuwan data harus membersihkan dan mempersiapkan data untuk membuatnya konsisten. Hal ini bisa membosankan dan memakan waktu.

Memahami masalah bisnis

Ilmuwan data harus bekerja dengan banyak pemangku kepentingan dan manajer bisnis untuk menentukan masalah yang harus dipecahkan. Ini bisa menjadi tantangan—terutama di perusahaan besar dengan banyak tim yang memiliki persyaratan yang berbeda-beda.

Eliminasi bias

Alat machine learning tidak sepenuhnya akurat, dan beberapa ketidakpastian atau bias dapat muncul sebagai hasilnya. Bias adalah ketidakseimbangan dalam data pelatihan atau perilaku prediksi model di berbagai kelompok, seperti kelompok usia atau pendapatan. Misalnya, jika model ML dilatih terutama pada data dari individu paruh baya, ia mungkin akan kurang akurat saat membuat prediksi yang melibatkan orang yang lebih muda dan lebih tua. Bidang ilmu machine learning memberikan peluang untuk mengatasi bias dengan mendeteksi dan mengukurnya dalam data dan model Anda.

Langkah selanjutnya ilmu data

Standard Product Icons (Features) Squid Ink
Lihat sumber daya tambahan yang berkaitan dengan produk
Pelajari lebih lanjut tentang danau data dan analitik 
Sign up for a free account
Daftar untuk akun gratis

Dapatkan akses secara instan ke AWS Tingkat Gratis. 

Daftar 
Standard Product Icons (Start Building) Squid Ink
Mulai membangun di konsol

Mulai membangun dengan AWS di Konsol Manajemen AWS.

Masuk