Amazon Web Services ブログ

新規 — Amazon SageMaker Canvas のすぐに使用できるモデルとカスタムテキストおよび画像分類モデルのサポート

3月31日、AWS は Amazon SageMaker Canvas の新機能を発表しました。これにより、ビジネスアナリストは機械学習 (ML) を使用して何千ものドキュメント、画像、テキスト行から数分でインサイトを生成できます。本日より、すぐに使用できるモデルにアクセスして、これまでサポートされていた表形式データのカスタムモデルと一緒に、カスタムのテキストおよび画像分類モデルを作成できるようになりました。すべて機械学習の経験やコード行の記述は必要ありません。

さまざまな業界のビジネスアナリストは、AI/ML ソリューションを適用してさまざまなデータからインサイトを得て、ビジネス関係者からのアドホック分析要求に応えたいと考えています。アナリストは、ワークフローに AI/ML を適用することで、検査、分類、さらには生データ、画像、文書からのインサイトの抽出など、時間がかかり、エラーが発生しやすい手動のプロセスを自動化できます。ただし、ビジネス上の問題にAI/MLを適用するには技術的な専門知識が必要であり、カスタムモデルの構築には数週間から数か月かかることもあります。

2021 年に開始された Amazon SageMaker Canvas は、ビジネスアナリストがすぐに使えるさまざまなモデルを使用したり、カスタムモデルを作成して正確な ML 予測を独自に生成したりできる、視覚的なポイントアンドクリックサービスです。

すぐに使えるモデル
お客様は SageMaker Canvas を使用して、すぐに使えるモデルにアクセスして、何千ものドキュメント、画像、テキスト行から数分で情報を抽出して予測を生成できます。これらのすぐに使用できるモデルには、センチメント分析、言語検出、エンティティ抽出、個人情報検出、画像内のオブジェクトとテキストの検出、請求書と領収書の費用分析、ID ドキュメント分析、より一般的なドキュメントとフォームの分析が含まれます。

例えば、すぐに使えるセンチメント分析モデルを選択し、ソーシャルメディアやカスタマーサポートチケットから商品レビューをアップロードして、顧客が商品についてどう感じているかをすばやく把握できます。すぐに使える個人情報検出モデルを使用すると、E メール、サポートチケット、ドキュメントから個人を特定できる情報 (PII) を検出して編集できます。すぐに使える経費分析モデルを使用すると、スキャンした請求書や領収書からデータを簡単に検出して抽出し、そのデータに関するインサイトを得ることができます。

これらのすぐに使用できるモデルは、 Amazon RekognitionAmazon ComprehendAmazon Textract などの AWS AI サービスを利用しています。

すぐに使えるモデルをご用意

テキストと画像のカスタム分類モデル
ビジネス固有のユースケースに合わせてトレーニングされたカスタムモデルを必要とするお客様は、SageMaker Canvas を使用してテキストおよび画像の分類モデルを作成できます。

SageMaker Canvas を使用してカスタムテキスト分類モデルを作成し、必要に応じてデータを分類できます。例えば、カスタマーサポートを提供する会社でビジネスアナリストとして働いているとします。カスタマーサポートエージェントが顧客とやり取りするとき、チケットを作成し、「インシデント」、「サービスリクエスト」、「問題」 などのチケットタイプを記録する必要があります。多くの場合、このフィールドは忘れられてしまうため、レポートを作成しても、データの分析が難しくなります。SageMaker Canvasを使用すると、カスタムのテキスト分類モデルを作成し、既存のカスタマーサポートチケット情報とチケットタイプでトレーニングし、欠損データを含むレポートを処理するときに将来のチケットの種類を予測できます。

SageMaker Canvas を使用して、独自の画像データセットを使用してカスタム画像分類モデルを作成することもできます。例えば、スマートフォンを製造する会社でビジネスアナリストとして働いているとします。職務の一環として、品質評価とその傾向に関するレポートを作成し、ビジネス関係者からの質問に回答する必要があります。スマートフォンを組み立てるたびに、自動的に写真が撮られ、週末にはそれらの画像がすべて届きます。SageMaker Canvasでは、一般的な製造上の欠陥を特定するようにトレーニングされた新しいカスタム画像分類モデルを作成できるようになりました。そして、毎週、このモデルを使って画像を分析し、製造されるスマートフォンの品質を予測することができます。

SageMaker Canvas の動作
ご自分が e コマース企業のビジネスアナリストだと想像してみましょう。今シーズンのすべての新製品に対する顧客のセンチメントを把握することが任されました。利害関係者は、次の月にどの在庫を購入すべきかを決定するために、結果を品目カテゴリー別に集計したレポートを必要としています。例えば、新しい家具製品が好意的な評価を得ているかどうかを知りたがっています。新製品のレビューを含むスプレッドシートと、e コマースプラットフォーム上のすべての製品を分類した古いファイルが提供されました。ただし、このファイルにはまだ新製品が含まれていません。

この問題を解決するには、SageMaker Canvas を使用できます。まず、すぐに使えるセンチメント分析モデルを使用して、各レビューのセンチメントを把握し、ポジティブ、ネガティブ、またはニュートラルに分類する必要があります。次に、既存の製品に基づいて新製品のカテゴリーを予測するカスタムテキスト分類モデルを作成する必要があります。

すぐに使えるモデル – センチメント分析
各レビューのセンチメントをすばやく把握するには、商品レビューを一括更新して、すべてのセンチメント予測を含むファイルを生成します。

はじめに、Ready-to-use models (すぐに使えるモデル)ページでSentiment analysis (センチメント分析)を見つけ、Batch prediction (バッチ予測)Import new dataset (新しいデータセットのインポート)を選択します。

バッチデータセットですぐに使えるセンチメント分析の使用

新しいデータセットを作成するときは、ローカルマシンからデータセットをアップロードするか、 Amazon Simple Storage Service (Amazon S3) を使用できます。このデモでは、ファイルをローカルにアップロードします。この例で使用されているすべての商品レビューは、 Amazon カスタマーレビューデータセットにあります。

ファイルのアップロードとデータセットの作成が完了したら、予測を生成できます

データセットの選択と予測の生成

データセットのサイズにもよりますが、予測の生成には 1 分もかからず、結果を表示またはダウンロードできます。

予測を表示またはダウンロードする

この予測の結果は、.csv ファイルとしてダウンロードすることも、SageMaker Canvas インターフェイスから表示することもできます。各商品レビューのセンチメントを確認できます。

すぐに使えるモデルの結果をプレビューする

これで、タスクの最初の部分の準備が整いました。各レビューのセンチメントが記載された .csv ファイルができました。次のステップは、それらの製品をカテゴリーに分類することです。

カスタムテキスト分類モデル
新製品を製品タイトルに基づいてカテゴリーに分類するには、SageMaker Canvas で新しいテキスト分類モデルをトレーニングする必要があります。

SageMaker Canvas で、テキスト分析タイプの新しいモデルを作成します。

モデルを作成する際の最初のステップは、モデルのトレーニングに使用するデータセットを選択することです。このモデルには、新しいコレクションを除くすべての製品を含む昨シーズンのデータセットを使用してトレーニングします。

データセットのインポートが完了したら、予測するデータを含む列 (この場合は product_category 列) と、モデルが予測を行うための入力として使用される列 (product_title 列) を選択する必要があります。

設定が完了したら、モデルの構築を開始できます。構築には次の 2 つのモードがあります。

  • 15~30 分でモデルを返すクイックビルド
  • 標準ビルドの完了には 2~5 時間かかります。

構築モードの違いについて詳しくは、ドキュメントをご覧ください。このデモでは、データセットが 50,000 行未満なので、クイックビルドを選択します。

モデルの準備と構築

モデルを構築すると、モデルのパフォーマンスを分析できます。SageMaker Canvas は 80-20 アプローチを採用しています。データセットのデータの 80% でモデルをトレーニングし、データの 20% をモデルの検証に使用します。

モデルスコア

モデルの構築が完了すると、モデルスコアを確認できます。スコアリングセクションでは、各カテゴリーの予測がどれほど正確であったかを視覚的に把握できます。モデルのパフォーマンスを評価する方法の詳細については、ドキュメントをご覧ください

モデルの予測率が高いことを確認したら、予測の生成に進むことができます。このステップは、すぐに使えるセンチメント分析モデルに似ています。単一の製品または一連の製品について予測を行うことができます。バッチ予測では、データセットを選択し、モデルに予測を生成させる必要があります。この例では、すぐに使えるモデルで選択したものと同じデータセット、つまりレビューを含むデータセットを選択します。データセット内の製品数によっては、数分かかる場合があります。

予測が準備できたら、結果を .csv ファイルとしてダウンロードするか、各製品がどのように分類されたかを確認できます。予測結果では、モデル構築プロセス中に提供されたカテゴリーに基づいて、各製品に 1 つのカテゴリーのみが割り当てられます。

カテゴリーを予測

これで、分析を行い、顧客レビューに基づいて新しいコレクションの各製品カテゴリーのパフォーマンスを評価するために必要なリソースがすべて揃いました。SageMaker Canvasを使用すると、コードを 1 行も記述しなくても、すぐに使用できるモデルにアクセスしてカスタムのテキスト分類モデルを作成することができました。

今すぐご利用いただけます
SageMaker Canvas のすぐに使用できるモデルと、SageMaker Canvas のカスタムテキストおよび画像分類モデルのサポートは、 SageMaker Canvas が利用可能なすべての AWS リージョンで利用できます。新機能の詳細と価格設定については、 SageMaker Canvas の製品詳細ページをご覧ください。

— Marcia

原文はこちらです。