OCR (Optik Karakter Tanıma) nedir?
OCR (Optik Karakter Tanıma) nedir?
Optik Karakter Tanıma (OCR), bir metin görüntüsünü makine tarafından okunabilen bir metin formatına dönüştüren süreçtir. Örneğin, bir formu veya makbuzu taratırsanız bilgisayarınız taranan içeriği görüntü dosyası olarak kaydeder. Görüntü dosyasındaki sözcükleri düzenlemek, aratmak veya saymak için bir metin düzenleyicisi kullanamazsınız. Bununla birlikte, OCR'yi kullanarak görüntüyü içeriği metin verisi olarak depolanan bir metin belgesine dönüştürebilirsiniz.
OCR neden önemlidir?
Çoğu işletmenin iş akışında bilgiler basılı medya olarak alınır. Kağıt formlar, faturalar, taranmış yasal belgeler ve basılı sözleşmeler iş süreçlerinin birer parçasıdır. Bu yüksek hacimli evrak işlerini depolamak ve yönetmek çok fazla zaman ve alan gerektirir. Kağıtsız belge yönetimi ideal yöntem olsa da belgeyi bir görüntü olarak taratmak da zorluklar doğurur. Bu süreç, manuel müdahale gerektirir, ayrıca zahmetli ve yavaş olabilir.
Dahası, bu belge içeriğini dijitalleştirme işlemi, içinde metin gizlenmiş görüntü dosyaları oluşturur. Görüntülerdeki metinler, metin belgeleriyle aynı şekilde kelime işleme yazılımları tarafından işlenemez. OCR teknolojisi, metin görüntülerini diğer işletme yazılımları tarafından analiz edilebilen metin verilerine dönüştürerek bu sorunu çözer. Ardından bu verileri kullanarak analizler yapabilir, operasyonları kolaylaştırabilir, süreçleri otomatik hâle getirebilir ve üretkenliği artırabilirsiniz.
OCR'nin faydaları nelerdir?
OCR teknolojisinin başlıca faydaları şunlardır:
Arama yapılabilir metin
İşletmeler, mevcut ve yeni belgelerini tamamen aratılabilen bir bilgi arşivine dönüştürebilir. Ayrıca, daha fazla bilgi işleme için veri analizi yazılımını kullanarak metin veritabanını otomatik olarak işleyebilir.
Operasyonel verimlilik
Belge ve dijital iş akışlarını işletmenize otomatik olarak entegre etmek için OCR yazılımını kullanarak verimliliği artırabilirsiniz. OCR yazılımının neler yapabileceğine ilişkin örneklerden bazılarını burada bulabilirsiniz:
- Elle doldurulmuş formları otomatik olarak doğrulamak, incelemek, düzenlemek ve analiz etmek için tarama. Bu, manuel belge işleme ve veri girişi için gereken zamandan tasarruf etmenizi sağlar.
- Bir kutudaki dosyaları manuel olarak gözden geçirmek zorunda kalmadan veritabanında bir terimi hızlıca aratarak gereken belgeleri bulma.
- Elle yazılmış notları düzenlenebilir metinlere ve belgelere dönüştürme.
Yapay zeka çözümleri
OCR genellikle işletmelerin uygulayabileceği diğer yapay zeka çözümlerinin bir parçasıdır. Örneğin, sürücüsüz arabalarda plakaları ve yol işaretlerini tarayıp okur, sosyal medya gönderilerindeki marka logolarını tespit eder ya da reklam görüntülerindeki ürün ambalajlarını tanır. Bu gibi yapay zekâ teknolojileri, işletmelerin masrafları azaltan ve müşteri deneyimini iyileştiren daha iyi pazarlama ve operasyon kararları almasına yardımcı olur.
OCR'nin tarihi ve gelişimi nedir?
OCR alanındaki ilk bilinen gelişmelerden biri, 1920'lerde Emanuel Goldberg'in karakterleri okuyup telgraf koduna dönüştürebilen makinesiydi. Bu, makine tabanlı okuma fikrinin temelini attı.
Erken benimseyenler
1950'lerde OCR ticari bir teknoloji olarak şekillenmeye başladı. RCA gibi şirketler, bankacılık ve posta uygulamaları için belirli yazı tiplerini okuyabilen sistemler geliştirdi. Bu sistemler, dar ama etkili kullanımlar olan çek işlemeyi ve posta sıralamayı otomatikleştirmek için kullanıldı.
1960'larda, OCR-A ve OCR-B yazı tipleri hem insanlar hem de makineler tarafından kolayca okunacak şekilde tasarlandı. Bu sistemin devreye girmesiyle OCR, finans ve kamu sektörlerinde daha tutarlı hale geldi.
Genişleme
Tarayıcıların ve yazılım algoritmalarının iyileştirilmesi, OCR'nin günlük iş kullanımında pratik hale gelmesine yardımcı oldu. İlk programlar basılı kağıt belgeleri tarayabilir ve bunları düzenlenebilir metne dönüştürebilirdi, ancak doğruluk sınırlıydı.
2000'li yıllarda sinir ağları ve erken makine öğrenimi teknolojisi, OCR'nin sabit yazı tiplerinin ve düzenlerin ötesine geçmesini sağladı. Modern sistemler artık el yazısı metinleri, düşük kaliteli taramaları ve karmaşık düzenleri çok daha yüksek doğrulukla yorumlayabilir.
Günümüzde
Günümüzde OCR, niş bir araçtan dijital dönüşümün temel teknolojisi haline gelmiştir. Mobil uygulamalardan kurumsal otomasyon platformlarına kadar her şeye entegre edilmiştir. Birden fazla dili destekler ve bağlamı algılayan bir şekilde gerçek zamanlı görüntü yakalamayı gerçekleştirir. Artık akıllı otomasyonun ayrılmaz bir parçasıdır.
Belge işlemede OCR'nin farklı kullanım örnekleri nelerdir?
OCR, kurumsal belge işleme iş akışlarının ayrılmaz bir parçasıdır. Aşağıdaki kullanım örneklerini göz önünde bulundurun.
Belge arşivlerinde akıllı arama
OCR teknolojisi, görüntü tabanlı ve PDF belgelerinden metinleri ayıklayarak aranabilir dijital arşivlerin oluşturulmasını sağlar. Metin tanındıktan sonra, dizine eklenebilir ve yapay zeka destekli arama sistemlerinde kullanılabilir. Kullanıcılar, ek belge sınıflandırması yapmadan büyük dosya hacimleri içinde ilgili dosyaları hızlı ve doğru bir şekilde arayabilirler. Örneğin, belirli bir müşteri adını aratmak, orijinal olarak kağıt olarak gönderilen tüm ödeme emirlerini, faturaları ve formları döndürür.
İşletmeler, mevcut ve yeni basılı belgelerini tamamen aranabilir bir bilgi arşivine dönüştürebilirler. Ayrıca, daha fazla bilgi işleme için veri analizi yazılımını kullanarak metin veritabanını otomatik olarak işleyebilir.
Doğal dil işleme
OCR, kelime, satır veya tablo hücresi düzeyinde metni tanır ve çıkarır, böylece belge sınıflandırma, özetleme, duygu analizi, konu modelleme, varlık tanıma ve daha fazlası gibi doğal dil işleme (NLP) görevleri için içeriğin nasıl hazırlanacağı üzerinde daha fazla kontrol sağlar. Örneğin, özetleme paragraflarda metin çıkarma gerektirirken, varlık tanıma JSON dosyası gibi anahtar-değer çiftlerinde metin çıkarmayı tercih edebilir.
Veri standardizasyonu
Belge iş akışları genellikle farklı biçimlerden ve endüstrilerden gelen yapılandırılmamış verileri içerir. OCR, finansal tablolar, klinik notlar ve teknik raporlar gibi çeşitli belge türlerinden hem metin hem de tablo çıkararak bu verileri normalleştirmeye yardımcı olur. Sistemler genelinde daha hızlı işleme ve daha tutarlı veri işleme elde edersiniz.
Form işlemeyi otomatikleştirme
OCR teknolojisi, form işlemeyi otomatikleştirmede önemli bir rol oynar. Çeşitli form türlerinden alanları tanımlayabilir ve yapılandırılmış bilgileri çıkarabilir, böylece işletmeler bu verileri manuel giriş yapmadan doğrudan veritabanlarına entegre edebilir.
Uygulama özelliği
OCR yetenekleri doğrudan iş uygulamalarına gömülebilir, böylece kullanıcılar gerçek zamanlı metin çıkarma işlemlerini kendileri gerçekleştirebilir. Bu, veriler kaynakta düzgün bir şekilde toplandığından analiz iş yükünü azaltır.
OCR farklı endüstrilerde nasıl kullanılır?
Çeşitli sektörlerde başlıca OCR kullanım örneklerini aşağıda bulabilirsiniz:
Bankacılık
Bankacılık sektörü; kredi belgeleri, mevduat çekleri ve diğer finansal işlemler için evrakları işlemek ve doğrulamak için OCR kullanır. Bu doğrulama, dolandırıcılık önleme sürecini iyileştirdi ve işlem güvenliğini artırdı. Örneğin, BlueVine, küçük ve orta ölçekli işletmeler için finans hizmeti sunan bir finansal teknoloji şirketidir. BlueVine, Amazon Textract adlı bulut tabanlı OCR hizmetini kullanarak, COVID-19 yardım paketi kapsamında ABD'deki küçük işletmelerin Paycheck Protection Program (PPP) kredilerine hızlı bir şekilde erişebilmeleri için bir ürün geliştirdi. Amazon Textract, günde on binlerce PPP formunu otomatik olarak işleyip analiz etti ve böylece, BlueVine binlerce işletmenin fon almasına yardımcı olarak bu süreçte 400.000'den fazla çalışanın işini kurtardı.
Sağlık Hizmetleri
Sağlık sektöründe tedavi, test, hastane kaydı ve sigorta ödemeleri dahil olmak üzere hasta kayıtlarını işlemek için OCR kullanılır. OCR, iş akışını kolaylaştırmaya ve kayıtları güncel tutarken hastanelerdeki manuel işleri azaltmaya yardımcı olur. Örneğin, nib Group, 1 milyondan fazla Avustralyalıya sağlık ve tıbbi sigorta hizmeti sağlıyor ve her gün binlerce tıbbi talep alıyor. Müşterileri, tıbbi faturalarının fotoğraflarını çekerek nib mobil uygulaması üzerinden gönderebiliyor. Amazon Textract, bu görüntüleri otomatik olarak işliyor ve böylece şirket, talepleri çok daha hızlı şekilde onaylayabiliyor.
Lojistik
Lojistik şirketleri; etiketleri, faturaları, makbuzları ve diğer belgeleri daha verimli şekilde takip etmek için OCR'den yararlanıyor. Örneğin, Foresight Group, SAP'de fatura işlemeyi otomatik hale getirmek için Amazon Textract'i kullanıyor. Foresight çalışanlarının, verileri birden fazla muhasebe sistemine girmesi gerektiğinden bu işletme belgelerinin manuel olarak girilmesi zaman alıyordu ve hataya açıktı. Foresight yazılımı, Amazon Textract sayesinde pek çok farklı düzendeki karakterleri daha doğru bir şekilde okuyabiliyor ve böylece iş verimliliğini artırıyor.
OCR nasıl çalışır?
OCR motoru veya OCR yazılımı aşağıdaki adımları kullanarak çalışır:
Görüntüyü alma
Bir tarayıcı, belgeleri okur ve ikili verilere dönüştürür. OCR yazılımı, taranan görüntüyü analiz ederek açık renkli alanları arka plan ve koyu renkli alanları metin olarak sınıflandırır.
Ön işleme
OCR yazılımı, ilk olarak görüntüyü temizler ve okumaya hazırlamak için hataları ayıklar. Temizleme tekniklerinden bazıları şunlardır:
- Taranan belgenin hizalama sorunlarını gidermek için tarama sırasında hafifçe eğriliği düzeltme veya eğme.
- Dijital görüntü lekelerini gidermek veya çıkarmak ya da metin görüntülerinin kenarlarını düzeltmek.
- Görüntüdeki kutuları ve çizgileri temizlemek.
- Çok dilli OCR teknolojisi için betik tanıma
Metin tanıma
OCR yazılımının metin tanıma için kullandığı iki ana OCR algoritması veya yazılım işlemi türü, desen eşleştirme ve özellik çıkarma olarak adlandırılır.
Düzen eşleme
Düzen eşleme, glif adı verilen bir karakter görüntüsünü yalıtarak ve benzer şekilde saklanan bir glifle karşılaştırarak çalışır. Desen tanıma, yalnızca depolanan glifin yazı tipi ve ölçeği giriş glifine benzer ise çalışır. Bu yöntem, bilinen bir yazı tipinde yazılmış belgelerin taranmış görüntülerinde iyi çalışır.
Özellik ayıklama
Özellik ayıklama, glifleri çizgiler, kapalı döngüler, çizgi yönü ve çizgi kesişimleri gibi özelliklere ayırır veya ayrıştırır. Ardından bu özellikleri kullanarak, saklanan glifler arasında en iyi eşleşmeyi ya da en yakın komşuyu bulur.
İşleme sonrası
Analizden sonra sistem, çıkarılan metin verilerini makine tarafından okunabilir metin belgelerine dönüştürür. Bazı OCR sistemleri, taranan belgenin hem önceki hem de sonraki versiyonlarını içeren açıklamalı PDF dosyaları oluşturabilir.
OCR türleri nelerdir?
Veri bilimciler, kullanım ve uygulamaya dayalı olarak OCR teknolojilerini farklı sınıflara ayırır. Aşağıda birkaç örnek bulabilirsiniz:
Basit optik karakter tanıma yazılımı
Basit bir OCR motoru, pek çok farklı yazı tipi ve metin görüntüsü düzenini şablon olarak saklama yoluyla çalışır. OCR yazılımı, metin görüntülerini dahili veritabanıyla karakter karakter karşılaştırmak için düzen eşleme algoritmalarından yararlanır. Sistem, metni kelimesi kelimesine eşleştirirse buna optik sözcük tanıma adı verilir. Neredeyse sınırsız yazı tipi ve el yazısı stili olduğundan ve her biri yakalanıp veritabanında saklanamayacağından bu çözümün sınırlamaları vardır.
Akıllı karakter tanıma yazılımı
Modern OCR sistemleri, metni insanlarla aynı şekilde okumak için akıllı karakter tanıma (ICR) teknolojisinden yararlanır. Makine öğrenimi yazılımını kullanarak makineleri insanlar gibi davranacak şekilde eğiten gelişmiş yöntemler kullanırlar. Sinir ağı adı verilen bir makine öğrenimi sistemi, metni pek çok düzeyde analiz ederek görüntüyü tekrar tekrar işler. Eğriler, çizgiler, kesişimler ve döngüler gibi farklı görüntü özniteliklerini arar ve nihai sonuca ulaşmak için tüm bu farklı analiz düzeylerinin sonuçlarını birleştirir. ICR genellikle görüntüleri tek seferde bir karakter olarak işlese de süreç hızlıdır ve saniyeler içinde sonuç alınır.
Akıllı sözcük tanıma
Akıllı kelime tanıma sistemleri, ICR ile aynı prensiplerle çalışır, ancak görüntüleri karakterlere önceden işleme tabi tutmak yerine, kelimelerin tamamını işler.
Optik işaret tanıma
Optik işaret tanıma, bir belgedeki logoları, filigranları ve diğer metin sembollerini tanımlar.
AWS, OCR konusunda nasıl yardımcı olabilir?
AWS, işletmenizde OCR'yi uygulamanıza yardımcı olabilecek iki hizmet sunar:
Amazon Textract, OCR teknolojisini kullanarak PDF gibi taranmış belgelerden metin, el yazısı ve verileri otomatik olarak ayıklayan bir makine öğrenimi (ML) hizmetidir. Birden fazla düzen ve formattaki binlerce farklı belgeyi yüksek hızda okuyabilir. Amazon Textract, belgelerdeki bilgileri ayıklarken sonuçları nasıl kullanmak istediğiniz konusunda bilinçli kararlar verebilmeniz için tanımladığı her şey için bir güven puanı sunar.
Amazon Rekognition, milyonlarca görüntü ve videoyu dakikalar içinde analiz edebilir ve yapay zeka ile insan görsel inceleme görevlerini destekleyebilir. Amazon Rekognition API'lerini kullanarak hem görüntü hem de videolardaki metinleri ayıklayabilirsiniz. Sokak tabelaları, sosyal medya gönderileri ve ürün ambalajlarının görüntülerinden ve videolarından çarpık ve bozuk metinleri ayıklayabilirsiniz.
Hemen bir AWS hesabı oluşturarak AWS'de OCR'yi kullanmaya başlayın.