投稿日: Mar 30, 2022

Amazon Textract は、ほぼすべてのドキュメントからテキストとデータを簡単に抽出できるようにする機械学習サービスです。お客様のフィードバックをもとに、基盤となる機械学習モデルを継続的に改善することで、さらに高い精度を実現します。本日、テーブルおよびチェックボックスの検出機能の品質がいくつかの点で強化されたことについてお知らせします。

最新のテーブルモデルでは、結合セルの検出と列ヘッダーの識別がサポートされています。具体的には、「Type」を「MERGED_CELL」に定義して AnalyzeDocument-Tables 機能で処理されたドキュメントの結合セルを検出できるようになりました。また、「EntityTypes」を「COLUMN_HEADER」識別子に定義して列ヘッダーで構成されたセルを識別できるようになりました。さらに、テーブル機能の品質強化についてもお知らせします。本日より、Textract は、テーブルの外側の境界、行と列の境界、およびテーブルのコンテンツをより正確に検出できるようになりました。これにより、融資、保険、金融サービス、法律、ヘルスケア、エネルギー、公共部門など、さまざまな種類のドキュメントに含まれるテーブルを抽出する際、少ない後処理で高い精度を期待できるようになりました。

最後に、フォームモデル内のチェックボックス検出機能を改善しました。今回の改善に伴い、Amazon Textract を活用して、フォームフィールド内のチェックボックスの手書きの「選択/未選択」情報をより正確に検出できるようになりました。

使用を開始するには、Amazon Textract コンソールにログオンしてください。最新のテーブルおよびチェックボックスの検出機能をぜひお試しください。Textract の機能の詳細については、Amazon Textract のウェブサイトデベロッパーガイド、またはリソースページにアクセスしてください。