Apa Itu OCR (Pengenalan Karakter Optik)?
Apa Itu OCR (Pengenalan Karakter Optik)?
Pengenalan Karakter Optik (OCR) adalah proses yang mengonversi gambar teks menjadi format teks yang dapat dibaca mesin. Misalnya, jika Anda memindai formulir atau tanda terima, komputer Anda akan menyimpan pindaian tersebut sebagai file citra. Anda tidak dapat menggunakan editor teks untuk mengedit, mencari, atau menghitung kata dalam file citra. Namun, Anda dapat menggunakan OCR untuk mengonversi gambar menjadi dokumen teks beserta kontennya yang disimpan sebagai data teks.
Mengapa OCR penting?
Sebagian besar alur kerja bisnis mencakup penerimaan informasi dari media cetak. Formulir kertas, tagihan, dokumen hukum yang dipindai, dan kontrak tertulis adalah bagian dari proses bisnis. Dokumen dalam jumlah yang besar ini membutuhkan banyak waktu dan ruang agar dapat disimpan dan dikelola. Meskipun manajemen dokumen tanpa kertas adalah jalan keluarnya, pemindaian dokumen menjadi citra menciptakan tantangan. Proses tersebut memerlukan intervensi manual dan dapat menjadi melelahkan serta lambat.
Selain itu, mendigitalkan konten dokumen ini menghasilkan file citra dengan teks yang tersembunyi di dalamnya. Teks dalam citra tidak dapat diproses oleh perangkat lunak pengolah kata seperti halnya saat dokumen teks. Teknologi OCR memecahkan masalah dengan mengonversi citra teks menjadi data teks yang dapat dianalisis oleh perangkat lunak bisnis lainnya. Anda kemudian dapat menggunakan data tersebut untuk melakukan analitik, menyederhanakan operasi, mengotomatiskan proses, dan meningkatkan produktivitas.
Apa saja manfaat dari OCR?
Berikut ini adalah manfaat utama dari teknologi OCR:
Teks yang dapat dicari
Bisnis dapat mengonversi dokumen yang sudah ada dan yang baru menjadi arsip pengetahuan yang dapat dicari sepenuhnya. Bisnis juga dapat memproses basis data teks secara otomatis menggunakan perangkat lunak analitik data untuk pemrosesan pengetahuan lebih lanjut.
Efisiensi operasional
Anda dapat meningkatkan efisiensi dengan menggunakan perangkat lunak OCR untuk mengintegrasikan alur kerja dokumen dan alur kerja digital dalam bisnis Anda secara otomatis. Berikut adalah beberapa contoh yang dapat dilakukan oleh perangkat lunak OCR:
- Memindai formulir yang diisi dengan tulisan tangan untuk verifikasi, tinjauan, pengeditan, dan analisis otomatis. Pemindaian ini menghemat waktu yang diperlukan untuk pemrosesan dokumen dan entri data manual.
- Mencari dokumen yang diperlukan dengan mencari istilah dalam basis data secara cepat sehingga Anda tidak perlu menyortir file secara manual di dalam kotak.
- Mengonversi catatan tulisan tangan menjadi teks dan dokumen yang dapat diedit.
Solusi kecerdasan buatan
OCR sering menjadi bagian dari solusi kecerdasan buatan lain yang dapat diterapkan oleh bisnis. Misalnya, OCR memindai dan membaca plat nomor serta rambu jalan di mobil kemudi otomatis, mendeteksi logo merek di postingan media sosial, atau mengidentifikasi kemasan produk dalam gambar iklan. Teknologi kecerdasan buatan semacam itu membantu bisnis untuk membuat keputusan pemasaran dan operasional lebih baik yang dapat mengurangi pengeluaran serta meningkatkan pengalaman pelanggan.
Bagaimana sejarah dan perkembangan OCR?
Salah satu perkembangan awal OCR yang tercatat adalah mesin Emanuel Goldberg pada tahun 1920-an, yang dapat membaca karakter dan mengonversinya ke dalam kode telegraf. Hal ini menjadi landasan bagi munculnya gagasan pembacaan berbasis mesin.
Adopsi awal
Pada tahun 1950-an, OCR mulai terbentuk sebagai teknologi komersial. Perusahaan seperti RCA mengembangkan sistem yang dapat membaca fon tertentu untuk aplikasi perbankan dan pos. Sistem ini digunakan untuk mengotomatiskan pemrosesan cek dan penyortiran pesan—penggunaan yang terbatas, tetapi berdampak besar.
Selama tahun 1960-an, fon OCR-A dan OCR-B dirancang agar mudah dibaca oleh manusia dan mesin. Pengenalannya memungkinkan OCR menjadi lebih konsisten di seluruh sektor keuangan dan pemerintahan.
Ekspansi
Penyempurnaan pemindai dan algoritma perangkat lunak membantu membuat OCR praktis untuk digunakan sehari-hari dalam bisnis. Program awal dapat memindai dokumen kertas cetak dan mengonversinya menjadi teks yang dapat diedit meskipun akurasinya terbatas.
Pada tahun 2000-an, jaringan neural dan teknologi machine learning awal memungkinkan OCR mengatasi keterbatasan fon dan tata letak tetap. Sistem modern saat ini dapat menafsirkan teks tulisan tangan, pemindaian berkualitas buruk, dan tata letak yang kompleks dengan akurasi yang jauh lebih tinggi.
Masa kini
Saat ini, OCR telah berevolusi dari sekadar alat khusus menjadi teknologi dasar bagi transformasi digital. Teknologi ini tersemat dalam segala hal, mulai dari aplikasi seluler hingga platform otomatisasi korporasi. OCR mendukung berbagai bahasa dan memungkinkan pengambilan gambar secara waktu nyata dengan mempertimbangkan konteks. Kini, OCR menjadi bagian yang tidak terpisahkan dari otomatisasi cerdas.
Apa saja kasus penggunaan OCR dalam pemrosesan dokumen?
OCR adalah bagian yang tidak dapat dipisahkan dari alur kerja pemrosesan dokumen korporasi. Pertimbangkan kasus penggunaan berikut.
Pencarian cerdas arsip dokumen
Teknologi OCR memungkinkan pembuatan arsip digital yang dapat dicari dengan mengekstraksi teks dari dokumen berbasis gambar dan PDF. Setelah teks dikenali, teks dapat diindeks dan digunakan dalam sistem pencarian yang ditenagai AI. Pengguna dapat mencari file yang relevan di antara jumlah file yang besar dengan cepat dan akurat, tanpa perlu klasifikasi dokumen tambahan. Misalnya, pencarian berdasarkan nama pelanggan akan menampilkan semua surat perintah bayar, faktur, dan formulir yang awalnya diserahkan dalam bentuk dokumen kertas.
Bisnis dapat mengonversi dokumen cetak lama dan yang baru menjadi arsip pengetahuan yang dapat dicari secara menyeluruh. Bisnis juga dapat memproses basis data teks secara otomatis menggunakan perangkat lunak analitik data untuk pemrosesan pengetahuan lebih lanjut.
Pemrosesan bahasa alami
OCR mengenali dan mengekstraksi teks pada tingkat kata, baris, atau sel tabel sehingga memberikan kontrol yang lebih besar atas bagaimana konten disiapkan untuk tugas pemrosesan bahasa alami (NLP) lanjutan, seperti klasifikasi dokumen, pembuatan ringkasan, analisis sentimen, pemodelan topik, pengenalan entitas, dan lainnya. Misalnya, perangkuman akan memerlukan ekstraksi teks dalam bentuk paragraf, sedangkan pengenalan entitas mungkin lebih sesuai menggunakan ekstraksi teks dalam pasangan kunci-nilai, misalnya dalam bentuk file JSON.
Standardisasi data
Alur kerja dokumen sering memproses data yang tidak terstruktur dari berbagai format dan industri. OCR membantu menormalisasi data ini dengan mengekstraksi teks dan tabel dari berbagai jenis dokumen seperti laporan keuangan, catatan klinis, dan laporan teknis. Anda mendapatkan pemrosesan yang lebih cepat dan penanganan data yang lebih konsisten di seluruh sistem.
Mengotomatiskan pemrosesan formulir
Teknologi OCR memainkan peran penting dalam mengotomatiskan pemrosesan formulir. Teknologi ini dapat mengidentifikasi bidang dan mengekstraksi informasi terstruktur dari berbagai jenis formulir, yang memungkinkan bisnis untuk mengintegrasikan data ini langsung ke basis data tanpa entri manual.
Fitur aplikasi
Kemampuan OCR dapat disematkan langsung ke aplikasi bisnis sehingga pengguna dapat melakukan ekstraksi teks mandiri secara waktu nyata. Hal ini mengurangi beban kerja analitik karena data dikumpulkan secara tepat langsung dari sumbernya.
Bagaimana OCR digunakan di industri yang berbeda?
Berikut ini adalah beberapa kasus penggunaan OCR yang umum di berbagai industri:
Perbankan
Industri perbankan menggunakan OCR untuk memproses dan memverifikasi dokumen untuk dokumen pinjaman, cek deposito, dan transaksi keuangan lainnya. Verifikasi ini telah meningkatkan pencegahan penipuan dan meningkatkan keamanan transaksi. Misalnya, BlueVine adalah perusahaan teknologi keuangan yang menyediakan pembiayaan untuk usaha kecil dan menengah. BlueVine menggunakan Amazon Textract, layanan OCR berbasis cloud, untuk mengembangkan produk bagi usaha kecil di AS agar mengakses pinjaman Program Perlindungan Paycheck (PPP) dengan cepat sebagai bagian dari paket stimulus bantuan COVID-19. Amazon Textract memproses dan menganalisis puluhan ribu formulir PPP per hari secara otomatis sehingga BlueVine dapat membantu beberapa ribu bisnis untuk mendapatkan dana, yang menghemat lebih dari 400.000 tugas dalam prosesnya.
Pemeliharaan Kesehatan
Industri pemeliharaan kesehatan menggunakan OCR untuk memproses catatan pasien, termasuk perawatan, tes, catatan rumah sakit, dan pembayaran asuransi. OCR membantu menyederhanakan alur kerja dan mengurangi pekerjaan manual di rumah sakit sembari tetap memperbarui catatan. Misalnya, nib Group menyediakan asuransi kesehatan dan medis untuk lebih dari satu juta warga Australia dan menerima ribuan klaim medis per hari. Pelanggan nib Group dapat mengambil foto dari tagihan medisnya dan mengirimkannya melalui aplikasi seluler nib. Amazon Textract memproses gambar-gambar ini secara otomatis sehingga perusahaan dapat menyetujui klaim lebih cepat.
Logistik
Perusahaan logistik menggunakan OCR untuk melacak label kemasan, tagihan, kuitansi, dan dokumen lainnya secara lebih efisien. Misalnya, Grup Foresight menggunakan Amazon Textract untuk mengotomatiskan pemrosesan faktur di SAP. Entri manual dari dokumen bisnis ini memakan waktu dan rawan kesalahan karena karyawan Foresight harus memasukkan data ke dalam beberapa sistem akuntansi. Dengan Amazon Textract, perangkat lunak Foresight dapat membaca karakter lebih akurat di berbagai tata letak sehingga meningkatkan efisiensi bisnis.
Bagaimana cara kerja OCR?
Mesin OCR atau perangkat lunak OCR bekerja dengan melalui langkah-langkah berikut:
Akuisisi citra
Pemindai membaca dokumen dan mengonversinya menjadi data biner. Perangkat lunak OCR menganalisis citra yang dipindai dan mengklasifikasikan area terang sebagai latar belakang dan area gelap sebagai teks.
Prapemrosesan
Perangkat lunak OCR pertama-tama membersihkan citra dan menghilangkan kesalahan untuk mempersiapkannya agar dapat dibaca. Ini adalah beberapa teknik pembersihannya:
- Sedikit memutar atau memiringkan dokumen yang dipindai untuk memperbaiki masalah penyelarasan selama pemindaian.
- Menghilangkan bintik-bintik atau bercak pada citra digital atau menghaluskan tepi gambar teks.
- Menghapus kotak dan garis pada citra.
- Pengenalan skrip untuk teknologi OCR multibahasa
Pengenalan teks
Dua tipe utama algoritma OCR atau proses perangkat lunak yang digunakan oleh perangkat lunak OCR dalam pengenalan teks disebut pencocokan pola dan ekstraksi fitur.
Pencocokan pola
Pencocokan pola bekerja dengan cara mengisolasi citra karakter, yang disebut glyph, dan membandingkannya dengan glyph serupa yang tersimpan. Pengenalan pola hanya berfungsi jika glyph yang disimpan memiliki fon dan skala yang serupa dengan glyph input. Metode ini efektif digunakan pada citra hasil pindaian dokumen yang diketik dengan fon yang sudah dikenal.
Ekstraksi fitur
Ekstraksi fitur memecah atau menguraikan glyph menjadi fitur seperti garis, loop tertutup, arah garis, dan perpotongan garis. Ekstraksi fitur kemudian menggunakan fitur-fitur ini untuk menemukan kecocokan terbaik atau kecocokan terdekat di antara berbagai glyph yang tersimpan.
Pascapemrosesan
Setelah analisis, sistem mengonversi data teks yang diekstraksi menjadi dokumen teks yang dapat dibaca mesin. Beberapa sistem OCR dapat membuat file PDF beranotasi yang menyertakan versi dokumen sebelum dan sesudah dipindai.
Apa saja tipe-tipe OCR?
Ilmuwan data mengklasifikasikan berbagai tipe teknologi OCR berdasarkan penggunaan dan aplikasinya. Berikut adalah beberapa contohnya:
Perangkat lunak pengenalan karakter optik sederhana
Mesin OCR sederhana bekerja dengan menyimpan banyak fon dan pola citra teks yang berbeda sebagai templat. Perangkat lunak OCR menggunakan algoritma pencocokan pola untuk membandingkan citra teks, karakter per karakter, dengan basis data internalnya. Jika sistem mencocokkan teks melalui kata per kata, ini disebut pengenalan kata optik. Solusi ini memiliki keterbatasan karena ada font dan gaya tulisan tangan yang hampir tak terbatas, dan setiap tipe tidak dapat ditangkap dan disimpan dalam basis data.
Perangkat lunak pengenalan karakter cerdas
Sistem OCR modern menggunakan teknologi pengenalan karakter cerdas (ICR) untuk membaca teks dengan cara yang sama seperti yang dilakukan manusia. Sistem OCR modern menggunakan metode lanjutan yang melatih mesin untuk berperilaku seperti manusia dengan menggunakan perangkat lunak machine learning. Sistem machine learning yang disebut jaringan neural menganalisis teks melalui banyak tingkatan, memproses citra berulang kali. Sistem ini mencari atribut citra yang berbeda, seperti kurva, garis, persimpangan, dan loop, serta menggabungkan hasil dari semua tingkat analisis yang berbeda ini untuk mendapatkan hasil akhir. Meskipun ICR biasanya memproses citra satu karakter pada satu waktu, prosesnya cepat, dan hasil diperoleh dalam hitungan detik.
Pengenalan kata cerdas
Sistem pengenalan kata cerdas bekerja dengan prinsip yang sama seperti ICR, tetapi memproses citra kata secara keseluruhan, alih-alih mempraproses citra menjadi karakter.
Pengenalan tanda optik
Pengenalan tanda optik mengidentifikasi logo, tanda air, dan simbol teks lainnya dalam dokumen.
Bagaimana cara AWS membantu Anda dengan OCR?
AWS menawarkan dua layanan yang dapat membantu Anda menerapkan OCR dalam bisnis:
Amazon Textract adalah layanan machine learning (ML) yang menggunakan OCR untuk mengekstraksi teks, tulisan tangan, dan data secara otomatis dari dokumen yang dipindai seperti PDF. Amazon Textract dapat membaca ribuan dokumen yang berbeda dalam berbagai tata letak dan format dengan kecepatan tinggi. Saat mengekstraksi informasi dari dokumen, Amazon Textract mengembalikan skor kepercayaan untuk semua yang diidentifikasi sehingga Anda dapat membuat keputusan yang tepat mengenai cara Anda dalam menggunakan hasilnya.
Amazon Rekognition dapat menganalisis jutaan gambar dan video dalam hitungan menit serta mendukung tugas tinjauan visual manusia dengan kecerdasan buatan. Anda dapat menggunakan API Amazon Rekognition untuk mengekstraksi teks dari gambar dan video. Anda dapat mengekstraksi teks miring dan terdistorsi dari gambar dan video rambu lalu lintas, postingan media sosial, dan kemasan produk.
Mulai OCR di AWS dengan membuat akun AWS sekarang juga.