投稿日: Jan 26, 2022

Amazon Textract は、スキャンされたドキュメントからテキスト、手書きの文字、データを自動抽出する機械学習サービスです。単純な光学文字認識 (OCR) のレベルにとどまらず、フォームやテーブルのデータも識別、理解したうえで抽出することが可能です。

以前は、請求フォーム、請求書と領収書、契約書、身分証や申請書などのドキュメントからテキストとデータを抽出するために、Textract の同期 API (DetectDocumentTextAnalyzeDocumentAnalyzeExpense および AnalyzeID) を呼び出す前に、PDF ドキュメントを PNG 形式または JPEG 形式に変換する必要がありました。本日より、Amazon Textract はその前処理ステップを省き、同期オペレーションで単一ページの PDF ドキュメントをサポートしているため、お客様はドキュメントを PDF から PNG または JPEG に変換せずに、PDF ドキュメントからテキストとデータを抽出できるようになります。

さらに、Amazon Textract は、PDF ドキュメント内の JPEG 2000 エンコード画像の処理もサポートするようになりました。これで、PDF ドキュメント内の JPEG 2000 エンコード画像からテキストとデータを抽出できます。

使用開始するには、Amazon Textract コンソールにログインして、ぜひご自身の PDF ドキュメントでお試しください。Textract の機能の詳細については、Amazon Textract のウェブサイトデベロッパーガイド、またはリソースページにアクセスしてください。