OCR (Nhận dạng ký tự quang học) là gì?
OCR (Nhận dạng ký tự quang học) là gì?
Nhận dạng ký tự quang học (OCR) là quá trình chuyển đổi một hình ảnh văn bản thành định dạng văn bản mà máy có thể đọc được. Ví dụ: nếu bạn quét một biểu mẫu hoặc biên lai, máy tính của bạn sẽ lưu bản quét đó dưới dạng tệp hình ảnh. Bạn không thể sử dụng trình soạn thảo văn bản để chỉnh sửa, tìm kiếm hoặc đếm số từ trong tệp hình ảnh. Tuy nhiên, bạn có thể sử dụng OCR để chuyển đổi hình ảnh thành tài liệu văn bản, trong đó phần nội dung sẽ được lưu trữ dưới dạng dữ liệu văn bản.
Tại sao OCR lại quan trọng?
Hầu hết các luồng công việc kinh doanh sẽ bao gồm việc nhận thông tin từ các phương tiện truyền thông dạng bản in. Các biểu mẫu, hóa đơn dạng giấy, bản quét tài liệu pháp lý và bản in hợp đồng đều là một phần trong quy trình kinh doanh. Khối lượng giấy tờ lớn như vậy làm mất rất nhiều thời gian và không gian để lưu trữ và quản lý. Mặc dù quản lý tài liệu không cần giấy tờ là cách thức hiệu quả nhất, nhưng việc quét tài liệu thành hình ảnh sẽ tạo ra nhiều thách thức. Quá trình này đòi hỏi phải có thao tác can thiệp thủ công và cũng có thể khá buồn tẻ và lề mề.
Hơn nữa, việc số hóa nội dung tài liệu này sẽ tạo ra các tệp hình ảnh với văn bản ẩn bên trong chúng. Không thể xử lý văn bản trong hình ảnh bằng phần mềm xử lý văn bản theo cách giống như đối với tài liệu văn bản. Công nghệ OCR giải quyết vấn đề này bằng cách chuyển đổi hình ảnh văn bản thành dữ liệu văn bản mà phần mềm kinh doanh khác có thể phân tích. Sau đó, bạn có thể sử dụng dữ liệu để tiến hành phân tích, hợp lý hóa hoạt động, tự động hóa các quy trình và cải thiện năng suất.
OCR mang lại những lợi ích gì?
Sau đây là những lợi ích chính của công nghệ OCR:
Văn bản có thể tìm kiếm được
Các doanh nghiệp có thể chuyển đổi các tài liệu hiện có và tài liệu mới của họ thành một kho lưu trữ thông tin hoàn toàn có thể tìm kiếm được. Họ cũng có thể xử lý cơ sở dữ liệu văn bản tự động bằng cách sử dụng phần mềm phân tích dữ liệu để xử lý thông tin sâu hơn.
Hiệu quả hoạt động
Bạn có thể cải thiện hiệu quả bằng cách sử dụng phần mềm OCR để tự động tích hợp luồng công việc tài liệu và luồng công việc kỹ thuật số trong doanh nghiệp của bạn. Sau đây là một số ví dụ về những gì phần mềm OCR có thể thực hiện:
- Quét các biểu mẫu điền tay để xác minh, xem xét, chỉnh sửa và phân tích tự động. Điều này giúp tiết kiệm thời gian cần thiết cho việc xử lý tài liệu và nhập dữ liệu thủ công.
- Tìm các tài liệu cần thiết bằng cách nhanh chóng tìm kiếm một cụm từ trong cơ sở dữ liệu để bạn không phải tự mình lục tìm trong thùng hồ sơ.
- Chuyển đổi ghi chú viết tay thành văn bản và tài liệu có thể chỉnh sửa.
Giải pháp trí tuệ nhân tạo
OCR thường là một phần của các giải pháp trí tuệ nhân tạo khác mà các doanh nghiệp có thể triển khai. Ví dụ: OCR trang bị trên xe ô tô tự lái để quét đọc biển số và biển báo, phát hiện logo thương hiệu trong các bài đăng trên mạng xã hội hoặc xác định bao bì sản phẩm trong hình ảnh quảng cáo. Công nghệ trí tuệ nhân tạo như vậy giúp các doanh nghiệp đưa ra những quyết định về tiếp thị và hoạt động tốt hơn, giảm chi phí và cải thiện trải nghiệm của khách hàng.
Lịch sử và sự phát triển của OCR là gì?
Một trong những phát triển đầu tiên được biết đến trong OCR là máy của Emanuel Goldberg vào những năm 1920, có thể đọc các ký tự và chuyển đổi chúng thành mã điện báo. Điều này đặt nền tảng cho ý tưởng đọc dựa trên máy.
Áp dụng sớm
Vào những năm 1950, OCR bắt đầu hình thành như một công nghệ thương mại. Các công ty như RCA đã phát triển các hệ thống có thể đọc các phông chữ cụ thể cho các ứng dụng ngân hàng và bưu chính. Các hệ thống này được sử dụng để tự động hóa việc xử lý kiểm tra và sắp xếp thư — những cách sử dụng hẹp nhưng có tác động.
Trong những năm 1960, phông chữ OCR-A và OCR-B được thiết kế để có thể dễ dàng đọc bởi cả con người và máy móc. Sự ra đời của chúng cho phép OCR trở nên nhất quán hơn trong lĩnh vực tài chính và chính phủ.
Mở rộng
Những cải tiến trong máy quét và thuật toán phần mềm đã giúp OCR trở nên thiết thực cho việc sử dụng kinh doanh hàng ngày. Các chương trình ban đầu có thể quét các tài liệu giấy in và chuyển đổi chúng thành văn bản có thể chỉnh sửa, mặc dù độ chính xác bị hạn chế.
Vào những năm 2000, mạng nơ-ron và công nghệ máy học ban đầu đã cho phép OCR vượt ra ngoài phông chữ và bố cục cố định. Các hệ thống hiện đại giờ đây có thể giải thích văn bản viết tay, quét chất lượng kém và bố cục phức tạp với độ chính xác cao hơn nhiều.
Hiện tại
Ngày nay, OCR đã phát triển từ một công cụ thích hợp thành một công nghệ nền tảng trong chuyển đổi kỹ thuật số. Nó được nhúng trong mọi thứ từ ứng dụng di động đến nền tảng tự động hóa doanh nghiệp. Nó hỗ trợ nhiều ngôn ngữ và xử lý chụp ảnh theo thời gian thực theo cách nhận thức ngữ cảnh. Bây giờ nó là một phần không thể thiếu của tự động hóa thông minh.
Các trường hợp sử dụng OCR khác nhau trong xử lý tài liệu là gì?
OCR là một phần không thể thiếu trong quy trình xử lý tài liệu doanh nghiệp. Hãy xem xét các trường hợp sử dụng sau.
Tìm kiếm thông minh các kho lưu trữ tài liệu
Công nghệ OCR cho phép tạo các kho lưu trữ kỹ thuật số có thể tìm kiếm bằng cách trích xuất văn bản từ các tài liệu dựa trên hình ảnh và PDF. Khi văn bản được nhận dạng, nó có thể được lập chỉ mục và sử dụng trong các hệ thống tìm kiếm được hỗ trợ bởi AI. Người dùng có thể tìm kiếm các tệp có liên quan trên khối lượng tệp lớn một cách nhanh chóng và chính xác mà không cần phân loại tài liệu bổ sung. Ví dụ: tìm kiếm một tên khách hàng cụ thể sẽ trả lại tất cả các lệnh thanh toán, hóa đơn và biểu mẫu ban đầu được gửi dưới dạng giấy tờ.
Các doanh nghiệp có thể chuyển đổi các tài liệu đã in hiện có và tài liệu mới của họ thành một kho lưu trữ thông tin hoàn toàn có thể tìm kiếm được. Họ cũng có thể xử lý cơ sở dữ liệu văn bản tự động bằng cách sử dụng phần mềm phân tích dữ liệu để xử lý thông tin sâu hơn.
Kỹ thuật xử lý ngôn ngữ tự nhiên
OCR nhận dạng và trích xuất văn bản ở cấp độ từ, dòng hoặc ô bảng, cung cấp quyền kiểm soát tốt hơn đối với cách chuẩn bị nội dung cho các tác vụ xử lý ngôn ngữ tự nhiên (NLP) ở bước tiếp theo như phân loại tài liệu, tóm tắt, phân tích cảm xúc, mô hình hóa chủ đề, nhận dạng thực thể, v.v. Ví dụ: tóm tắt sẽ yêu cầu trích xuất văn bản trong các đoạn văn, nhưng nhận dạng thực thể có thể thích trích xuất văn bản trong các cặp khóa-giá trị, như tệp JSON.
Tiêu chuẩn hóa dữ liệu
Quy trình công việc tài liệu thường liên quan đến dữ liệu phi cấu trúc từ các định dạng và ngành khác nhau. OCR giúp bình thường hóa dữ liệu này bằng cách trích xuất cả văn bản và bảng từ các loại tài liệu khác nhau như báo cáo tài chính, ghi chú lâm sàng và báo cáo kỹ thuật. Bạn có được quá trình xử lý nhanh hơn và xử lý dữ liệu nhất quán hơn trên các hệ thống.
Tự động hóa xử lý biểu mẫu
Công nghệ OCR đóng một vai trò quan trọng trong việc tự động hóa xử lý biểu mẫu. Nó có thể xác định các trường và trích xuất thông tin có cấu trúc từ các loại biểu mẫu khác nhau, cho phép các doanh nghiệp tích hợp dữ liệu này trực tiếp vào cơ sở dữ liệu mà không cần nhập thủ công.
Tính năng ứng dụng
Khả năng OCR có thể được nhúng trực tiếp vào các ứng dụng kinh doanh để người dùng có thể tự thực hiện trích xuất văn bản theo thời gian thực. Điều này làm giảm khối lượng công việc phân tích vì dữ liệu được thu thập đúng cách tại nguồn.
OCR được sử dụng như thế nào trong các ngành khác nhau?
Sau đây là một số trường hợp sử dụng OCR phổ biến trong nhiều ngành khác nhau:
Ngân hàng
Ngành ngân hàng sử dụng OCR để xử lý và xác minh thủ tục giấy tờ cho các tài liệu cho vay, séc tiền gửi và các giao dịch tài chính khác. Việc xác minh này đã cải thiện khả năng ngăn chặn gian lận và tăng cường bảo mật cho giao dịch. Ví dụ: BlueVine là một công ty công nghệ tài chính cấp vốn cho các doanh nghiệp vừa và nhỏ. Công ty này đã sử dụng Amazon Textract, một dịch vụ OCR trên nền tảng đám mây, để phát triển một sản phẩm cho các doanh nghiệp nhỏ ở Mỹ nhanh chóng tiếp cận các khoản vay của Chương trình bảo vệ tiền lương (PPP) trong gói kích thích cứu trợ COVID-19. Amazon Textract đã tự động xử lý và phân tích hàng chục nghìn biểu mẫu PPP mỗi ngày để BlueVine có thể giúp hàng nghìn doanh nghiệp nhận được tiền, nhờ đó đã cứu được hơn 400.000 việc làm.
Chăm sóc sức khỏe
Ngành chăm sóc sức khỏe sử dụng OCR để xử lý hồ sơ bệnh nhân, bao gồm quá trình điều trị, xét nghiệm, hồ sơ bệnh viện và thanh toán bảo hiểm. OCR giúp hợp lý hóa luồng công việc và giảm bớt thao tác thủ công tại bệnh viện trong khi vẫn luôn cập nhật cho hồ sơ. Ví dụ: nib Group cung cấp bảo hiểm y tế và sức khỏe cho hơn 1 triệu người Úc và nhận được hàng nghìn yêu cầu thanh toán bảo hiểm y tế mỗi ngày. Khách hàng của công ty có thể chụp ảnh hóa đơn y tế của mình và gửi qua ứng dụng di động nib. Amazon Textract tự động xử lý những hình ảnh này để công ty có thể phê duyệt các yêu cầu thanh toán bảo hiểm nhanh hơn hẳn.
Kho vận
Các công ty kho vận sử dụng OCR để theo dõi nhãn gói hàng, hóa đơn, biên lai và các tài liệu khác hiệu quả hơn. Ví dụ: Foresight Group sử dụng Amazon Textract để tự động hóa quá trình xử lý hóa đơn trong SAP. Việc nhập thủ công các tài liệu kinh doanh này tốn nhiều thời gian và dễ xảy ra sai sót vì nhân viên của Foresight phải nhập dữ liệu trong nhiều hệ thống kế toán. Với Amazon Textract, phần mềm Foresight có thể đọc các ký tự chính xác hơn trên nhiều bố cục khác nhau, giúp tăng hiệu quả kinh doanh.
OCR hoạt động như thế nào?
Công cụ OCR hoặc phần mềm OCR hoạt động theo các bước sau:
Thu nhận hình ảnh
Một máy quét sẽ đọc tài liệu và chuyển đổi chúng thành dữ liệu nhị phân. Phần mềm OCR phân tích hình ảnh đã quét và phân loại vùng sáng làm nền và vùng tối làm văn bản.
Tiền xử lý
Trước tiên, phần mềm OCR sẽ làm sạch hình ảnh và loại bỏ các lỗi để chuẩn bị cho bước đọc. Sau đây là một số kỹ thuật làm sạch của phần mềm OCR:
- Chỉnh thẳng hoặc nghiêng nhẹ tài liệu đã quét để khắc phục lỗi về căn chỉnh trong quá trình quét.
- Khử nhiễu đốm hoặc loại bỏ mọi đốm ảnh kỹ thuật số hay làm mịn các viền của hình ảnh văn bản.
- Làm sạch đường viền khung và đường thẳng trong hình ảnh.
- Nhận dạng chữ viết cho công nghệ OCR đa ngôn ngữ
Nhận dạng văn bản
Hai loại thuật toán OCR hoặc quy trình phần mềm chính mà phần mềm OCR sử dụng để nhận dạng văn bản được gọi là so khớp mẫu và trích xuất đặc điểm.
So khớp mẫu
Cách thức hoạt động của so khớp mẫu là tách biệt một hình ảnh ký tự, được gọi là hình dạng chữ và so sánh với một hình dạng chữ tương tự được lưu trữ. Tính năng nhận dạng mẫu chỉ hoạt động hiệu quả khi hình dạng chữ được lưu trữ có phông chữ và tỷ lệ tương tự với hình dạng chữ đầu vào. Phương thức này hoạt động tốt đối với hình ảnh quét từ tài liệu được đánh máy bằng phông chữ đã biết.
Trích xuất đặc điểm
Trích xuất đặc điểm sẽ chia nhỏ hoặc phân tách hình dạng chữ thành các đặc điểm như nét thẳng, nét vòng khép kín, hướng nét và giao điểm nét. Sau đó, hệ thống sử dụng các đặc điểm này để tìm kết quả phù hợp nhất hoặc kết quả gần đúng nhất trong số các hình dạng chữ khác nhau được lưu trữ.
Hậu xử lý
Sau khi phân tích, hệ thống chuyển đổi dữ liệu văn bản được trích xuất thành các tài liệu văn bản có thể đọc được bằng máy. Một số hệ thống OCR có thể tạo các tệp PDF có chú thích bao gồm cả phiên bản trước và sau của tài liệu được quét.
OCR có những loại nào?
Các nhà khoa học dữ liệu phân loại những công nghệ OCR khác nhau dựa trên mục đích sử dụng và ứng dụng của chúng. Sau đây là một vài ví dụ:
Phần mềm nhận dạng ký tự quang học đơn giản
Một công cụ OCR đơn giản hoạt động bằng cách lưu trữ nhiều khuôn thức hình ảnh văn bản và phông chữ khác nhau dưới dạng mẫu. Phần mềm OCR sử dụng các thuật toán so khớp mẫu để so sánh các hình ảnh văn bản, theo từng ký tự một, với cơ sở dữ liệu nội bộ. Nếu hệ thống so khớp văn bản theo từng từ một thì sẽ được gọi là nhận dạng từ quang học. Giải pháp này có những hạn chế vì số lượng phông chữ và kiểu chữ viết tay là gần như vô hạn, cũng như không thể ghi lại hay lưu trữ tất cả kiểu loại trong cơ sở dữ liệu được.
Phần mềm nhận dạng ký tự thông minh
Các hệ thống OCR hiện đại sử dụng công nghệ nhận dạng ký tự thông minh (ICR) để đọc văn bản hệt như cách con người đọc. Những hệ thống này sử dụng các phương thức nâng cao để đào tạo máy hoạt động giống như con người bằng cách sử dụng phần mềm máy học. Một hệ thống máy học được gọi là mạng nơ-ron phân tích văn bản qua nhiều cấp độ, xử lý hình ảnh lặp đi lặp lại. Hệ thống sẽ tìm kiếm các thuộc tính hình ảnh khác nhau, chẳng hạn như nét cong, nét thẳng, nét giao nhau và nét vòng, đồng thời kết hợp kết quả của tất cả các cấp độ phân tích khác nhau này để cho ra kết quả cuối cùng. Mặc dù ICR thường xử lý hình ảnh theo từng ký tự một nhưng quá trình này vẫn diễn ra nhanh chóng, thu được kết quả chỉ trong vài giây.
Nhận dạng từ thông minh
Hệ thống nhận dạng từ thông minh hoạt động theo nguyên tắc giống như ICR, nhưng sẽ xử lý toàn bộ hình ảnh của từ thay vì tiền xử lý hình ảnh thành ký tự.
Nhận dạng ký hiệu quang học
Nhận dạng ký hiệu quang học xác định logo, hình mờ và các biểu tượng văn bản khác trong tài liệu.
AWS có thể trợ giúp như thế nào với OCR?
AWS cung cấp hai dịch vụ có thể giúp bạn triển khai OCR trong doanh nghiệp của mình:
Amazon Textract là một dịch vụ máy học (ML) sử dụng tính năng OCR để tự động trích xuất văn bản, chữ viết tay và dữ liệu từ các tài liệu được quét như PDF. Dịch vụ này có thể đọc hàng nghìn tài liệu khác nhau ở nhiều bố cục và định dạng với tốc độ cao. Khi trích xuất thông tin từ các tài liệu, Amazon Textract trả về điểm tin cậy cho mọi nội dung mà dịch vụ này xác định để bạn có thể đưa ra quyết định có căn cứ về việc bạn muốn sử dụng kết quả này như thế nào.
Amazon Rekognition có thể phân tích hàng triệu hình ảnh và video trong vài phút và nâng cao các tác vụ đánh giá trực quan bằng con người với trí tuệ nhân tạo. Bạn có thể sử dụng các API Amazon Rekognition để trích xuất văn bản từ cả hình ảnh và video. Bạn có thể trích xuất văn bản bị lệch và bị biến dạng từ hình ảnh và video về biển báo trên đường phố, các bài đăng trên mạng xã hội và bao bì sản phẩm.
Bắt đầu sử dụng OCR trên AWS bằng cách tạo tài khoản AWS ngay hôm nay.