投稿日: Sep 21, 2021
Amazon Comprehend は、デベロッパーが新しいモデルバージョンを作成し、特定のテストセットで継続的にテストし、新しいモデルを既存のエンドポイントに移行できるようにすることで、継続的なモデルの改善を可能にする Comprehend Custom 向けの一連の機能をリリースしました。AutoML を使用すると、カスタムエンティティ認識により、Amazon Comprehend をカスタマイズして、ドメインに固有のエンティティを識別できます。カスタム分類を使用すると、ビジネス固有のラベルを使用してカスタムテキスト分類モデルを簡単に構築できます。その後、カスタムモデルを使用して、リアルタイムモードとバッチ処理モードの両方でテキストドキュメントの推論を実行できます。カスタムモデルの作成は簡単です。機械学習の経験は必要ありません。これらの機能の詳細な説明を以下に記載しています。
改善されたモデル管理 - ほとんどの自然言語処理 (NLP) プロジェクトでは、新しいデータが収集されるとき、またはトレーニングデータセットと推論で処理されるドキュメントの間に偏差がある場合、モデルは時間の経過に合わせて継続的に再トレーニングされます。モデルのバージョニングとライブエンドポイントの更新により、新しいモデルバージョンを継続的に再トレーニングし、バージョン間で精度メトリクスを比較し、1 回クリックするだけで最高のパフォーマンスのモデルでライブエンドポイントを更新できます。
- モデルのバージョニングを使用すると、既存のモデルの新しいバージョンを再トレーニングできるため、精度の変更を繰り返し実行したり、追跡したりするのがより簡単になります。新しいバージョンはそれぞれ、一意のバージョン ID で識別できます。
- アクティブなエンドポイントの更新を使用すると、新しいモデルを使用してアクティブな同期エンドポイントを更新できます。これにより、ダウンタイムなしで新しいモデルバージョンを本稼働環境にデプロイできます。
モデルトレーニング/評価の改善されたコントロール - データの準備とモデルの評価は、多くの場合、NLP プロジェクトの中で最も面倒な部分です。モデルの評価とトラブルシューティングは、トレーニングとテストのデータの分割の明確な示唆なしでは、混乱を引き起こすことがよくあります。モデルトレーニング中に、個別のトレーニングデータセットとテストデータセットを提供できるようになりました。また、複数の段落にまたがる長いドキュメントの推論精度を向上させる新しいトレーニングモードの提供を開始しました。
- お客様が提供するテストデータセットを使用すると、モデルトレーニング中にオプションのテストデータセットを提供できます。これまでは、モデルを評価するために、テストセットに対して推論ジョブを手動で実行する必要がありました。追加のデータが収集され、新しいモデルバージョンがトレーニングされると、同じテストデータセットを使用してモデルのパフォーマンスを評価することで、モデルバージョン間で公正な比較を行うことができます。
- 新しいトレーニングモードは、複数の段落を含む長いドキュメント向けにエンティティ認識モデルの精度を向上させます。CSV アノテーションを使用したモデルトレーニング中に、長いドキュメント用に ONE_DOC_PER_FILE 入力形式を選択すると、モデルはより多くのコンテキスト埋め込みを学習できるようになり、モデルの精度が大幅に向上します。