OCR (光学文字認識) とは
光学文字認識 (OCR) は、テキストの画像を機械で読み取り可能なテキスト形式に変換するプロセスです。例えば、フォームや領収書をスキャンすると、コンピュータはスキャンを画像ファイルとして保存します。テキストエディタを使用して、画像ファイル内の単語を編集、検索、またはカウントすることはできません。ただし、OCR を使用して、画像をテキストドキュメントに変換し、その内容をテキストデータとして保存することができます。
OCR が重要な理由
ほとんどのビジネスワークフローは、印刷メディアから情報を受信することが関わります。紙のフォーム、請求書、スキャンされた法的文書、および印刷された契約書はすべてビジネスプロセスの一部です。これらの大量の事務処理は、保管と管理に多くの時間とスペースを要します。ペーパーレスのドキュメント管理がよいのでしょうが、ドキュメントをスキャンして画像にするのは困難です。このプロセスには手作業が必要であり、面倒で時間がかかる場合があります。
さらに、このドキュメントコンテンツをデジタル化すると、テキストが表に出ない画像ファイルが作成されます。画像内のテキストは、テキストドキュメントと同じようにワードプロセッシングソフトウェアで処理することはできません。OCR テクノロジーは、テキスト画像を他のビジネスソフトウェアで分析できるテキストデータに変換することで問題を解決します。その後、データを利用して、分析を実行し、運用を合理化し、プロセスを自動化し、生産性を向上させることができます。
OCR の仕組み
OCR エンジンまたは OCR ソフトウェアは、次の手順で動作します。
画像取得
スキャナーがドキュメントを読み取り、バイナリデータに変換します。OCR ソフトウェアはスキャンされた画像を分析し、明るい領域を背景として分類し、暗い領域をテキストとして分類します。
前処理
OCR ソフトウェアは、最初に画像をクリーンアップし、エラーを削除して読み取りの準備をします。以下は、そのクリーニング技術の一部です。
- スキャン中の位置合わせの問題を修正するために、スキャンしたドキュメントの傾きや歪みを修正したり傾けたりします。
- デジタル画像の斑点を取り除くか削除するか、テキスト画像のエッジを滑らかにします。
- 画像内のボックスと線をクリーンアップします。
- 多言語 OCR テクノロジーのスクリプト認識
テキスト認識
OCR ソフトウェアがテキスト認識に使用する 2 つの主要なタイプの OCR アルゴリズムまたはソフトウェアプロセスは、パターンマッチングと特徴抽出と呼ばれます。
パターンマッチング
パターンマッチングは、グリフと呼ばれる文字画像を分離し、同様に保存されているグリフと比較することで機能します。パターン認識は、保存されているグリフのフォントと縮尺が入力グリフと類似している場合にのみ機能します。この方法は、既知のフォントで入力されたドキュメントのスキャン画像でうまく機能します。
特徴抽出
特徴抽出は、グリフを線、閉ループ、線の方向、線の交点などの特徴に細分化または分解します。次に、これらの特徴を使用して、保存されているさまざまなグリフの中から最適なものまたは最も近いものを見つけます。
後処理
分析後、システムは抽出されたテキストデータをコンピュータ化されたファイルに変換します。一部の OCR システムは、スキャンされたドキュメントの前バージョンと後バージョンの両方を含む注釈付き PDF ファイルを作成できます。
OCR のタイプ
データサイエンティストは、使用法と用途に基づいてさまざまなタイプの OCR テクノロジーを分類します。以下にいくつかの例を示します。
単純な光学文字認識ソフトウェア
単純な OCR エンジンは、さまざまなフォントやテキスト画像のパターンをテンプレートとして保存することで機能します。OCR ソフトウェアは、パターンマッチングアルゴリズムを使用して、テキスト画像を文字ごとに内部データベースと比較します。システムがテキストを文字ごとに一致させる場合、それは光学文字認識と呼ばれます。このソリューションには限界があります。これは、フォントと手書きのスタイルが事実上無制限であり、すべてのタイプをキャプチャしてデータベースに保存できるわけではないためです。
インテリジェント文字認識ソフトウェア
最新の OCR システムは、インテリジェント文字認識 (ICR) テクノロジーを使用して、人間と同じようにテキストを読み取ります。同システムは、機械学習ソフトウェアを使用して、人間のように動作するように機械をトレーニングする高度な方法を用いています。ニューラルネットワークと呼ばれる機械学習システムは、テキストをさまざまなレベルで分析し、画像を繰り返し処理します。曲線、線、交点、ループなどのさまざまな画像属性を探し、これらすべてのさまざまなレベルの分析の結果を組み合わせて最終結果を取得します。ICR は通常、一度に 1 文字ずつ画像を処理しますが、処理は高速で、結果は数秒で取得できます。
インテリジェント単語認識
インテリジェント単語認識システムは ICR と同じ原理で動作しますが、画像を文字に前処理するのではなく、単語全体の画像を処理します。
光学マーク認識
光学マーク認識は、ドキュメント内のロゴ、透かし、およびその他のテキスト記号を識別します。
OCR の利点
データサイエンティストは、使用法と用途に基づいてさまざまなタイプの OCR テクノロジーを分類します。以下にいくつかの例を示します。
単純な光学文字認識ソフトウェア
単純な OCR エンジンは、さまざまなフォントやテキスト画像のパターンをテンプレートとして保存することで機能します。OCR ソフトウェアは、パターンマッチングアルゴリズムを使用して、テキスト画像を文字ごとに内部データベースと比較します。システムがテキストを文字ごとに一致させる場合、それは光学文字認識と呼ばれます。このソリューションには限界があります。これは、フォントと手書きのスタイルが事実上無制限であり、すべてのタイプをキャプチャしてデータベースに保存できるわけではないためです。
インテリジェント文字認識ソフトウェア
最新の OCR システムは、インテリジェント文字認識 (ICR) テクノロジーを使用して、人間と同じようにテキストを読み取ります。同システムは、機械学習ソフトウェアを使用して、人間のように動作するように機械をトレーニングする高度な方法を用いています。ニューラルネットワークと呼ばれる機械学習システムは、テキストをさまざまなレベルで分析し、画像を繰り返し処理します。曲線、線、交点、ループなどのさまざまな画像属性を探し、これらすべてのさまざまなレベルの分析の結果を組み合わせて最終結果を取得します。ICR は通常、一度に 1 文字ずつ画像を処理しますが、処理は高速で、結果は数秒で取得できます。
インテリジェント単語認識
インテリジェント単語認識システムは ICR と同じ原理で動作しますが、画像を文字に前処理するのではなく、単語全体の画像を処理します。
光学マーク認識
光学マーク認識は、ドキュメント内のロゴ、透かし、およびその他のテキスト記号を識別します。
OCR の利点
OCR テクノロジーの主な利点は次のとおりです。
検索可能なテキスト
企業は、既存および新規のドキュメントを完全に検索可能なナレッジアーカイブに変換できます。また、データ分析ソフトウェアを使用してテキストデータベースを自動的に処理し、知識処理をさらに行うこともできます。
運用効率
OCR ソフトウェアを使用して、ビジネス内でドキュメントワークフローとデジタルワークフローを自動的に統合することにより、効率を向上させることができます。OCR ソフトウェアでできることの例を次に示します。
- 手で記入したフォームをスキャンして、自動検証、レビュー、編集、分析を行います。これにより、手動のドキュメント処理とデータ入力に必要な時間を節約できます。
- ボックス内のファイルを手動でソートする必要がないように、データベースで用語をすばやく検索して、必要なドキュメントを見つけます。
- 手書きのメモを編集可能なテキストやドキュメントに変換します。
人工知能ソリューション
OCR は、多くの場合、企業が実装する可能性のある他の人工知能ソリューションの一部です。例えば、自動運転車のナンバープレートや道路標識をスキャンして読み取ったり、ソーシャルメディアの投稿でブランドのロゴを検出したり、広告画像で製品のパッケージを識別したりします。このような人工知能テクノロジーは、企業が経費を削減し、カスタマーエクスペリエンスを向上させる、より良いマーケティングと運用上の意思決定を行うのに役立ちます。
OCR の用途
以下は、さまざまな業界における OCR の一般的なユースケースです。
銀行
銀行業界は、OCR を使用して、ローン文書、預金小切手、およびその他の金融取引の事務処理を処理および検証します。この検証により、不正防止が改善され、トランザクションのセキュリティが強化されました。例えば、BlueVine は、中小企業に資金を提供する金融テクノロジー企業です。同社はクラウドベースの OCR サービスである Amazon Textract を使用して、米国の中小企業向けの製品を開発しました。これにより、中小企業は新型コロナウイルス感染症 (COVID-19) の救済および景気刺激策の一環として提供された Paycheck Protection Program (PPP) ローンをすばやく利用できました。Amazon Textract は、1 日あたり数万の PPP フォームを自動的に処理および分析し、BlueVine が数千の企業が資金を調達するのを支援しました。これにより、その過程で 40 万人以上の雇用が失われないようにしました。
医療
医療業界は、OCR を使用して、治療、検査、病院の記録、保険金の支払いなどの患者の記録を処理しています。OCR は、ワークフローを合理化し、記録を最新の状態に保ちながら病院での手作業を減らすのに役立ちます。例えば、nib Group は 100 万人を超えるオーストラリア人に健康保険と医療保険を提供し、1 日あたり数千件の医療保険金請求を受け取っています。その顧客は、医療請求書の写真を撮り、nib モバイルアプリケーションを介して提出できます。Amazon Textract はこれらの画像を自動的に処理するため、同社は請求をはるかに迅速に承認できます。
ロジスティクス
ロジスティクス企業は、OCR を使用して、パッケージラベル、請求書、領収書、およびその他のドキュメントをより効率的に追跡します。例えば、Foresight Group は Amazon Textract を使用して SAP での請求書処理を自動化します。Foresight の従業員は複数の会計システムにデータを入力する必要があったため、このようなビジネスドキュメントの手動入力は時間がかかり、エラーが発生しやすくなっていました。Amazon Textract を使用することで、Foresight のソフトウェアは、さまざまなレイアウトで文字をより正確に読み取ることができるため、ビジネスの効率が向上します。
AWS が OCR で行えるサポート
AWS は、ビジネスに OCR を実装するのに役立つ 2 つのサービスを提供しています。
Amazon Textract は、OCR を使用して、PDF などのスキャンされたドキュメントからテキスト、手書き文字、およびデータを自動的に抽出する機械学習 (ML) サービスです。何千もの異なるドキュメントを複数のレイアウトとフォーマットで高速に読み取ることができます。Amazon Textract では、ドキュメントから情報を抽出する際、識別するすべての要素の信頼スコアが返されます。そのため、抽出結果をどのように使用するかについて十分な情報に基づく判断が下せます。
Amazon Rekognition は、何百万もの画像と動画を数分で分析して、AI を使用して人間の視覚的レビュータスクを強化します。Amazon Rekognition API を使用して、画像とビデオの両方からテキストを抽出できます。道路標識、ソーシャルメディア投稿、および製品パッケージの画像や動画から歪んだリ曲がったりしているテキストを抽出できます。
今すぐ AWS アカウントを作成 して、AWS で OCR を使用開始しましょう。