Apa itu visi komputer?
Penglihatan komputer adalah teknologi yang digunakan mesin untuk mengenali citra secara otomatis dan mendeskripsikannya secara akurat dan efisien. Saat ini, sistem komputer memiliki akses ke sejumlah besar data citra dan video yang bersumber dari atau dibuat oleh ponsel cerdas, kamera lalu lintas, sistem keamanan, serta perangkat lainnya. Aplikasi penglihatan komputer menggunakan kecerdasan buatan dan machine learning (AI/ML) untuk memproses data ini secara akurat untuk identifikasi objek dan pengenalan wajah, serta klasifikasi, rekomendasi, pemantauan, dan deteksi.
Mengapa penglihatan komputer itu penting?
Ketika teknologi pemrosesan informasi visual telah ada selama beberapa waktu, banyak dari proses tersebut memerlukan campur tangan manusia dan memakan waktu serta rawan kesalahan. Misalnya, menerapkan sistem pengenalan wajah pada masa lalu mewajibkan developer untuk menandai ribuan citra secara manual dengan titik data kunci, seperti lebar jembatan hidung dan jarak antara mata. Mengotomatiskan tugas-tugas ini membutuhkan daya komputasi yang besar karena data citra tidak terstruktur dan rumit untuk diatur oleh komputer. Oleh karena itu, aplikasi penglihatan mahal dan tidak dapat diakses oleh sebagian besar organisasi.
Saat ini, perkembangan di lapangan yang dikombinasikan dengan peningkatan daya komputasi yang cukup besar telah meningkatkan skala dan akurasi pemrosesan data citra. Sistem penglihatan komputer yang didukung oleh sumber daya komputasi cloud kini dapat diakses oleh semua orang. Setiap organisasi dapat menggunakan teknologi untuk verifikasi identitas, moderasi konten, analisis video streaming, deteksi kesalahan, dan lainnya.
Apa saja kasus penggunaan penglihatan komputer?
Banyak aplikasi penglihatan komputer digunakan dalam hiburan, bisnis, layanan kesehatan, transportasi, dan kehidupan sehari-hari. Kami melihat beberapa kasus penggunaan di bawah ini:
Keamanan dan keselamatan
Pemerintah dan perusahaan menggunakan penglihatan komputer untuk meningkatkan keamanan aset, lokasi, serta fasilitas. Misalnya, kamera dan sensor memantau ruang publik, lokasi industri, serta lingkungan dengan keamanan tinggi. Kamera dan sensor mengirim pemberitahuan otomatis jika terjadi sesuatu yang tidak biasa, seperti individu yang tidak berwenang memasuki area terlarang.
Demikian pula, penglihatan komputer dapat meningkatkan keselamatan pribadi di rumah maupun di tempat kerja. Misalnya, teknologi pengenalan dapat memantau berbagai masalah terkait keselamatan. Ini termasuk aliran waktu nyata di rumah yang mendeteksi hewan peliharaan, atau kamera pintu depan langsung yang mendeteksi pengunjung atau paket yang dikirimkan. Di tempat kerja, pemantauan tersebut mencakup pemakaian alat pelindung diri yang sesuai oleh pekerja, menginformasikan sistem peringatan, atau membuat laporan.
Efisiensi operasional
Penglihatan komputer dapat menganalisis citra dan mengekstrak metadata untuk inteligensi bisnis, menciptakan peluang pendapatan baru, serta efisiensi operasional. Misalnya, penglihatan komputer dapat:
- Secara otomatis mengidentifikasi cacat kualitas sebelum produk meninggalkan pabrik
- Mendeteksi perawatan mesin dan masalah keselamatan
- Menganalisis citra media sosial untuk menemukan tren dan pola perilaku pelanggan
- Mengautentikasi karyawan dengan pengenalan wajah otomatis
Layanan kesehatan
Layanan kesehatan adalah salah satu industri terkemuka yang menerapkan teknologi penglihatan komputer. Khususnya, analisis citra medis menciptakan visualisasi organ dan jaringan untuk membantu profesional medis membuat diagnosis yang cepat dan akurat, menghasilkan hasil perawatan yang lebih baik serta harapan hidup. Misalnya:
- Deteksi tumor dengan menganalisis tahi lalat dan lesi kulit
- Analisis sinar-X otomatis
- Penemuan gejala dari pemindaian MRI
Kendaraan otonom
Teknologi kendaraan otonom menggunakan penglihatan komputer untuk mengenali citra waktu nyata dan membangun peta 3D dari beberapa kamera yang dipasang ke transportasi otonom. Penglihatan komputer dapat menganalisis citra dan mengidentifikasi pengguna jalan lainnya, rambu jalan, pejalan kaki, atau rintangan.
Pada kendaraan semiotonom, penglihatan komputer menggunakan machine learning (ML) untuk memantau perilaku pengemudi. Misalnya, mencari tanda-tanda gangguan, kelelahan, dan kantuk berdasarkan posisi kepala pengemudi, pelacakan mata, serta gerakan tubuh bagian atas. Jika teknologi mengambil tanda-tanda peringatan tertentu, teknologi akan memberi tahu pengemudi dan mengurangi kemungkinan insiden mengemudi.
Pertanian
Dari meningkatkan produktivitas hingga mengurangi biaya dengan otomatisasi cerdas, aplikasi penglihatan komputer meningkatkan fungsi keseluruhan sektor pertanian. Pencitraan satelit serta rekaman UAV membantu menganalisis bidang tanah yang luas dan meningkatkan praktik pertanian. Aplikasi penglihatan komputer mengotomatiskan tugas-tugas seperti memantau kondisi lapangan, mengidentifikasi penyakit tanaman, memeriksa kelembapan tanah, dan memprediksi cuaca serta hasil panen. Pemantauan hewan dengan penglihatan komputer adalah strategi kunci lain dari pertanian cerdas.
Bagaimana cara kerja penglihatan komputer?
Sistem penglihatan komputer menggunakan teknologi kecerdasan buatan (AI) untuk meniru kemampuan otak manusia yang bertanggung jawab atas pengenalan objek dan klasifikasi objek. Ilmuwan komputer melatih komputer untuk mengenali data visual dengan memasukkan sejumlah besar informasi. Algoritma machine learning (ML) mengidentifikasi pola umum dalam citra atau video ini dan menerapkan pengetahuan tersebut untuk mengidentifikasi citra yang tidak dikenal secara akurat. Misalnya, jika komputer memproses jutaan citra mobil, komputer akan mulai membuat pola identitas yang dapat mendeteksi kendaraan secara akurat dalam sebuah citra. Penglihatan komputer menggunakan teknologi seperti yang diberikan di bawah ini.
Deep learning
Deep learning adalah tipe ML yang menggunakan jaringan neural. Jaringan neural deep learning terbuat dari banyak lapisan modul perangkat lunak yang disebut neuron buatan yang bekerja sama di dalam komputer. Neuron buatan menggunakan perhitungan matematis untuk secara otomatis memproses berbagai aspek data citra dan secara bertahap mengembangkan pemahaman gabungan tentang citra.
Jaringan neural konvolusional
Jaringan neural konvolusional (CNN) menggunakan sistem pelabelan untuk mengategorikan data visual dan memahami keseluruhan citra. Jaringan neural konvolusional menganalisis citra sebagai piksel dan memberi setiap piksel nilai label. Nilai tersebut dimasukkan untuk melakukan operasi matematis yang disebut konvolusi dan membuat prediksi tentang gambar. Seperti manusia yang mencoba mengenali objek dari kejauhan, CNN pertama-tama mengidentifikasi garis besar dan bentuk sederhana sebelum mengisi detail tambahan seperti warna, bentuk internal, serta tekstur. Terakhir, CNN mengulangi proses prediksi selama beberapa iterasi untuk meningkatkan akurasi.
Jaringan neural berulang
Jaringan neural berulang (RNN) mirip dengan CNN, tetapi dapat memproses serangkaian citra untuk menemukan tautan di antara citra. Saat CNN digunakan untuk analisis citra tunggal, RNN dapat menganalisis video dan memahami hubungan di antara citra.
Apa saja tugas umum yang dapat dilakukan oleh penglihatan komputer?
Mari kita lihat beberapa contoh tugas penglihatan komputer yang dapat diterapkan organisasi di bawah ini.
Klasifikasi citra
Klasifikasi citra memungkinkan komputer untuk melihat citra dan secara akurat mengklasifikasikan citra dalam kelas. Penglihatan komputer memahami kelas dan melabelinya, misalnya pohon, pesawat, atau bangunan. Salah satu contohnya adalah kamera dapat mengenali wajah dalam sebuah foto dan fokus pada wajah tersebut.
Deteksi objek
Deteksi objek adalah tugas penglihatan komputer untuk mendeteksi dan melokalkan citra. Deteksi objek menggunakan klasifikasi untuk mengidentifikasi, mengurutkan, dan mengatur citra. Deteksi objek digunakan dalam proses industri dan manufaktur untuk mengontrol aplikasi otonom serta memantau jalur produksi. Produsen dan penyedia layanan kamera rumah yang terhubung juga mengandalkan deteksi objek untuk memproses aliran video langsung dari kamera guna mendeteksi orang dan objek secara waktu nyata serta memberikan pemberitahuan yang dapat ditindaklanjuti kepada pengguna akhirnya.
Pelacakan objek
Pelacakan objek menggunakan model deep learning untuk mengidentifikasi dan melacak item yang termasuk dalam kategori. Pelacakan objek memiliki beberapa aplikasi di dunia nyata di berbagai industri. Elemen pertama pelacakan objek adalah deteksi objek; objek memiliki kotak pembatas yang dibuat di sekitarnya, diberi ID objek, dan dapat dilacak melalui bingkai. Misalnya, pelacakan objek dapat digunakan untuk pemantauan lalu lintas di lingkungan perkotaan, pengawasan manusia, dan pencitraan medis.
Segmentasi
Segmentasi adalah algoritma penglihatan komputer yang mengidentifikasi objek dengan cara membagi citra objek tersebut menjadi wilayah yang berbeda berdasarkan piksel yang terlihat. Segmentasi juga menyederhanakan citra, seperti menyimpan bentuk atau garis besar item untuk menentukan item apa. Dengan begitu, segmentasi juga mengenali jika terdapat lebih dari satu objek dalam sebuah citra atau bingkai.
Misalnya, jika terdapat kucing dan anjing dalam sebuah citra, segmentasi dapat digunakan untuk mengenali kedua hewan tersebut. Tidak seperti deteksi objek, yang membuat kotak di sekeliling objek, segmentasi melacak piksel untuk menentukan bentuk objek, membuatnya lebih mudah untuk dianalisis dan diberi label.
Pengambilan citra berbasis konten
Pengambilan citra berbasis konten adalah aplikasi teknik penglihatan komputer yang dapat mencari citra digital tertentu dalam basis data besar. Pengambilan citra berbasis konten menganalisis metadata seperti tanda, deskripsi, label, dan kata kunci. Pengambilan semantik menggunakan perintah seperti 'temukan gambar bangunan' untuk mengambil konten yang sesuai.
Apa perbedaan antara penglihatan komputer dan pemrosesan citra?
Pemrosesan citra menggunakan algoritma untuk mengubah citra, termasuk mempertajam, menghaluskan, memfilter, atau meningkatkan. Penglihatan komputer berbeda karena tidak mengubah citra, tetapi memahami apa yang dilihatnya dan melakukan tugas, seperti pelabelan. Dalam beberapa kasus, Anda dapat menggunakan pemrosesan citra untuk mengubah citra agar sistem penglihatan komputer dapat memahaminya dengan lebih baik. Dalam kasus lain, Anda menggunakan penglihatan komputer untuk mengidentifikasi citra atau bagian dari citra lalu menggunakan pemrosesan citra untuk mengubah citra lebih lanjut.
Bagaimana AWS membantu tugas penglihatan komputer Anda?
AWS menyediakan rangkaian layanan kecerdasan buatan dan machine learning (AI/ML) terluas dan terlengkap yang terhubung ke set sumber data komprehensif untuk pelanggan dari semua tingkat keahlian.
Untuk pelanggan yang membangun kerangka kerja dan mengelola infrastrukturnya sendiri, kami mengoptimalkan versi kerangka kerja deep learning yang paling populer, termasuk PyTorch, MXNet, dan TensorFlow. AWS menyediakan portofolio yang luas dan mendalam untuk layanan ML infrastruktur komputasi, jaringan, dan penyimpanan dengan pilihan prosesor serta akselerator untuk memenuhi kebutuhan performa dan anggaran yang unik.
Untuk pelanggan yang ingin membuat solusi penglihatan komputer standar di seluruh bisnis mereka, Amazon SageMaker memudahkan untuk menyiapkan data dan membangun, melatih, serta melakukan deployment model ML untuk setiap kasus penggunaan dengan infrastruktur, alat, dan alur kerja yang terkelola penuh, termasuk penawaran tanpa kode untuk analis bisnis.
Bagi pelanggan yang tidak memiliki keterampilan ML, membutuhkan waktu masuk pasar yang lebih cepat, atau ingin menambahkan kecerdasan ke proses atau aplikasi yang sudah ada, AWS menawarkan berbagai layanan penglihatan komputer berbasis ML. Layanan ini memungkinkan Anda dengan mudah menambahkan kecerdasan ke aplikasi AI melalui API yang dilatih sebelumnya. Amazon Rekognition mengotomatiskan analisis citra dan video Anda dengan ML dan menganalisis jutaan citra, aliran langsung, serta video yang disimpan dalam hitungan detik.
Mulai menggunakan penglihatan komputer dengan membuat akun AWS gratis sekarang.