OCR (光学文字認識) とは何ですか?
OCR (光学文字認識) とは何ですか?
光学文字認識 (OCR) は、テキストの画像を機械で読み取り可能なテキスト形式に変換するプロセスです。例えば、フォームや領収書をスキャンすると、コンピュータはスキャンを画像ファイルとして保存します。テキストエディタを使用して、画像ファイル内の単語を編集、検索、またはカウントすることはできません。ただし、OCR を使用して、画像をテキストドキュメントに変換し、その内容をテキストデータとして保存することができます。
OCR が重要な理由
ほとんどのビジネスワークフローは、印刷メディアから情報を受信することが関わります。紙のフォーム、請求書、スキャンされた法的文書、および印刷された契約書はすべてビジネスプロセスの一部です。これらの大量の事務処理は、保管と管理に多くの時間とスペースを要します。ペーパーレスのドキュメント管理がよいのでしょうが、ドキュメントをスキャンして画像にするのは困難です。このプロセスには手作業が必要であり、面倒で時間がかかる場合があります。
さらに、このドキュメントコンテンツをデジタル化すると、テキストが表に出ない画像ファイルが作成されます。画像内のテキストは、テキストドキュメントと同じようにワードプロセッシングソフトウェアで処理することはできません。OCR テクノロジーは、テキスト画像を他のビジネスソフトウェアで分析できるテキストデータに変換することで問題を解決します。その後、データを利用して、分析を実行し、運用を合理化し、プロセスを自動化し、生産性を向上させることができます。
OCR の利点にはどのようなものがありますか?
OCR テクノロジーの主な利点は次のとおりです:
検索可能なテキスト
企業は、既存および新規のドキュメントを完全に検索可能なナレッジアーカイブに変換できます。また、データ分析ソフトウェアを使用してテキストデータベースを自動的に処理し、知識処理をさらに行うこともできます。
運用効率
OCR ソフトウェアを使用して、ビジネス内でドキュメントワークフローとデジタルワークフローを自動的に統合することにより、効率を向上させることができます。OCR ソフトウェアでできることの例を次に示します。
- 手で記入したフォームをスキャンして、自動検証、レビュー、編集、分析を行います。これにより、手動のドキュメント処理とデータ入力に必要な時間を節約できます。
- ボックス内のファイルを手動でソートする必要がないように、データベースで用語をすばやく検索して、必要なドキュメントを見つけます。
- 手書きのメモを編集可能なテキストやドキュメントに変換します。
人工知能ソリューション
OCR は、多くの場合、企業が実装する可能性のある他の人工知能ソリューションの一部です。例えば、自動運転車のナンバープレートや道路標識をスキャンして読み取ったり、ソーシャルメディアの投稿でブランドのロゴを検出したり、広告画像で製品のパッケージを識別したりします。このような人工知能テクノロジーは、企業が経費を削減し、カスタマーエクスペリエンスを向上させる、より良いマーケティングと運用上の意思決定を行うのに役立ちます。
OCR の歴史と進化はどのようなものですか?
OCR における最初の開発の 1 つとして知られているものに、1920 年代に Emanuel Goldberg 氏が開発した機械があります。この機械は文字を読み取り、電信コードに変換できました。これが「機械による読み取り」という概念の基礎を築きました。
早期導入
1950 年代、OCR は商用テクノロジーとしての形を取りはじめました。RCA などの企業は、銀行や郵便のアプリケーションで特定のフォントを読み取ることができるシステムを開発しました。これらのシステムは、小切手処理や郵便物の仕分けを自動化するために使用されました。用途は限定的でしたが、大きな影響力がありました。
1960 年代には、OCR–A フォントと OCR–B フォントが、人間と機械の両方によって簡単に読み取れるように設計されました。これらのフォントの導入により、OCR は金融と政府機関全体でより一貫性のあるものとなりました。
展開
スキャナーとソフトウェアアルゴリズムの改良により、OCR は日常業務で実用的なものとなりました。初期のプログラムは、印刷された紙の文書をスキャンして編集可能なテキストに変換できましたが、精度には限界がありました。
2000 年代には、ニューラルネットワークと初期の機械学習テクノロジーにより、OCR は固定フォントやレイアウトの枠を超えて処理できるようになりました。現代のシステムでは、手書きのテキスト、低品質のスキャン、複雑なレイアウトを、はるかに高い精度で解釈できるようになりました。
現在
今日、OCR はニッチなツールから、デジタルトランスフォーメーションの基盤テクノロジーへと進化しました。モバイルアプリからエンタープライズオートメーションプラットフォームまで、あらゆるものに組み込まれています。複数の言語をサポートし、コンテキストを認識しながらリアルタイムの画像キャプチャを処理します。今や、インテリジェントオートメーションに不可欠な要素となっています。
ドキュメント処理における OCR のさまざまなユースケースにはどのようなものがありますか?
OCR は、企業のドキュメント処理ワークフローに不可欠な要素です。次のユースケースを検討してください。
ドキュメントアーカイブのインテリジェント検索
OCR テクノロジーは、画像ベースおよび PDF ドキュメントからテキストを抽出することで、検索可能なデジタルアーカイブの作成を可能にします。テキストが認識されると、インデックスが作成され、AI を活用した検索システムで使用できます。ユーザーは、追加のドキュメント分類を行うことなく、大量のファイルから関連するファイルを迅速かつ正確に検索できます。例えば、特定の顧客名を検索すると、元々は書類として提出されたすべての支払指示書、請求書、およびフォームが返されます。
企業は、既存および新規の印刷された文書を完全に検索可能なナレッジアーカイブに変換できます。また、データ分析ソフトウェアを使用してテキストデータベースを自動的に処理し、知識処理をさらに行うこともできます。
自然言語処理
OCR は、単語、行、または表のセルレベルでテキストを認識および抽出します。これにより、ドキュメント分類、要約、感情分析、トピックモデリング、エンティティ認識などの下流の自然言語処理 (NLP) タスクのためのコンテンツの準備方法をより細かく制御できます。例えば、要約には段落単位のテキスト抽出が必要ですが、エンティティ認識では JSON ファイルなどの key-value ペアでのテキスト抽出が適している場合があります。
データ標準化
ドキュメントワークフローでは、多くの場合、さまざまな形式や業界の非構造化データを取り扱います。OCR は、財務諸表、臨床記録、技術レポートなど、多様なドキュメントタイプからテキストと表の両方を抽出することで、このデータを正規化するのに役立ちます。これにより、システム間でより高速な処理と、より一貫性のあるデータ処理が可能になります。
フォーム処理の自動化
OCR テクノロジーは、フォーム処理の自動化において重要な役割を果たします。OCR は、さまざまな種類のフォームからフィールドを識別し、構造化された情報を抽出できるため、企業は手作業で入力することなく、このデータをデータベースに直接統合できます。
アプリケーション機能
OCR 機能をビジネスアプリケーションに直接組み込むことで、ユーザー自身でリアルタイムのテキスト抽出を実行できます。これにより、データがソースで適切に収集されるため、分析ワークロードが軽減されます。
OCR はさまざまな業界でどのように使用されていますか?
さまざまな業界における OCR の一般的なユースケースを次に示します:
銀行
銀行業界は、OCR を使用して、ローン文書、預金小切手、およびその他の金融取引の事務処理を処理および検証します。この検証により、不正防止が改善され、トランザクションのセキュリティが強化されました。例えば、BlueVine は、中小企業に資金を提供する金融テクノロジー企業です。同社はクラウドベースの OCR サービスである Amazon Textract を使用して、米国の中小企業向けの製品を開発しました。これにより、中小企業は新型コロナウイルス感染症 (COVID-19) の救済および景気刺激策の一環として提供された Paycheck Protection Program (PPP) ローンをすばやく利用できました。Amazon Textract は、1 日あたり数万の PPP フォームを自動的に処理および分析し、BlueVine が数千の企業が資金を調達するのを支援しました。これにより、その過程で 40 万超の雇用が失われないようにしました。
ヘルスケア
医療業界は、OCR を使用して、治療、検査、病院の記録、保険金の支払いなどの患者の記録を処理しています。OCR は、ワークフローを合理化し、記録を最新の状態に保ちながら病院での手作業を減らすのに役立ちます。例えば、nib Group は 100 万人を超えるオーストラリア人に健康保険と医療保険を提供し、1 日あたり数千件の医療保険金請求を受け取っています。その顧客は、医療請求書の写真を撮り、nib モバイルアプリケーションを介して提出できます。Amazon Textract はこれらの画像を自動的に処理するため、同社は請求をはるかに迅速に承認できます。
ロジスティクス
ロジスティクス企業は、OCR を使用して、パッケージラベル、請求書、領収書、およびその他のドキュメントをより効率的に追跡します。例えば、Foresight Group は Amazon Textract を使用して SAP での請求書処理を自動化します。Foresight の従業員は複数の会計システムにデータを入力する必要があったため、このようなビジネスドキュメントの手動入力は時間がかかり、エラーが発生しやすくなっていました。Amazon Textract を使用することで、Foresight のソフトウェアは、さまざまなレイアウトで文字をより正確に読み取ることができるため、ビジネスの効率が向上します。
OCR の仕組みはどのようなものですか?
OCR エンジンまたは OCR ソフトウェアは、次の手順で動作します:
画像取得
スキャナーがドキュメントを読み取り、バイナリデータに変換します。OCR ソフトウェアはスキャンされた画像を分析し、明るい領域を背景として分類し、暗い領域をテキストとして分類します。
前処理
OCR ソフトウェアは、最初に画像をクリーンアップし、エラーを削除して読み取りの準備をします。以下は、そのクリーニング技術の一部です。
- スキャン中の位置ずれを修正するため、スキャンしたドキュメントの傾きや歪みを補正します。
- デジタル画像の斑点を取り除くか削除するか、テキスト画像のエッジを滑らかにします。
- 画像内のボックスと線をクリーンアップします。
- 多言語 OCR テクノロジーのスクリプト認識
テキスト認識
OCR ソフトウェアがテキスト認識に使用する 2 つの主要なタイプの OCR アルゴリズムまたはソフトウェアプロセスは、パターンマッチングと特徴抽出と呼ばれます。
パターンマッチング
パターンマッチングは、グリフと呼ばれる文字画像を分離し、同様に保存されているグリフと比較することで機能します。パターン認識は、保存されたグリフのフォントとスケールが入力グリフと類似している場合にのみ機能します。この方法は、既知のフォントで入力されたドキュメントのスキャン画像でうまく機能します。
特徴抽出
特徴抽出は、グリフを線、閉ループ、線の方向、線の交点などの特徴に細分化または分解します。次に、これらの特徴を使用して、保存されているさまざまなグリフの中から最適なものまたは最も近いものを見つけます。
後処理
分析後、システムは抽出されたテキストデータを機械可読なテキストドキュメントに変換します。一部の OCR システムは、スキャンされたドキュメントの前バージョンと後バージョンの両方を含む注釈付き PDF ファイルを作成できます。
OCR のタイプにはどのようなものがありますか?
データサイエンティストは、使用法と用途に基づいてさまざまなタイプの OCR テクノロジーを分類します。以下にいくつかの例を示します。
単純な光学文字認識ソフトウェア
単純な OCR エンジンは、さまざまなフォントやテキスト画像のパターンをテンプレートとして保存することで機能します。OCR ソフトウェアは、パターンマッチングアルゴリズムを使用して、テキスト画像を文字ごとに内部データベースと比較します。システムがテキストを文字ごとに一致させる場合、それは光学文字認識と呼ばれます。このソリューションには限界があります。これは、フォントと手書きのスタイルが事実上無制限であり、すべてのタイプをキャプチャしてデータベースに保存できるわけではないためです。
インテリジェント文字認識ソフトウェア
最新の OCR システムは、インテリジェント文字認識 (ICR) テクノロジーを使用して、人間と同じようにテキストを読み取ります。同システムは、機械学習ソフトウェアを使用して、人間のように動作するように機械をトレーニングする高度な方法を用いています。ニューラルネットワークと呼ばれる機械学習システムは、テキストをさまざまなレベルで分析し、画像を繰り返し処理します。曲線、線、交点、ループなどのさまざまな画像属性を探し、これらすべてのさまざまなレベルの分析の結果を組み合わせて最終結果を取得します。ICR は通常、一度に 1 文字ずつ画像を処理しますが、処理は高速で、結果は数秒で取得できます。
インテリジェント単語認識
インテリジェント単語認識システムは ICR と同じ原理で動作しますが、画像を文字に前処理するのではなく、単語全体の画像を処理します。
光学マーク認識
光学マーク認識は、ドキュメント内のロゴ、透かし、およびその他のテキスト記号を識別します。
AWS は OCR についてどのようにサポートできますか?
AWS は、ビジネスに OCR を実装するのに役立つ 2 つのサービスを提供しています:
Amazon Textract は、OCR を使用して、PDF などのスキャンされたドキュメントからテキスト、手書き文字、およびデータを自動的に抽出する機械学習 (ML) サービスです。何千もの異なるドキュメントを複数のレイアウトとフォーマットで高速に読み取ることができます。Amazon Textract では、ドキュメントから情報を抽出する際、識別するすべての要素の信頼スコアが返されます。そのため、抽出結果をどのように使用するかについて十分な情報に基づく判断が下せます。
Amazon Rekognition は、何百万もの画像と動画を数分で分析して、AI を使用して人間の視覚的レビュータスクを補助します。Amazon Rekognition API を使用して、画像とビデオの両方からテキストを抽出できます。道路標識、ソーシャルメディア投稿、および製品パッケージの画像や動画から歪んだリ曲がったりしているテキストを抽出できます。
今すぐ AWS アカウントを作成 して、AWS で OCR を使用開始しましょう。