Amazon Bedrock Guardrails が画像サポートによるマルチモーダル毒性検出をサポートするようになりました (プレビュー)

12 月 4 日、Amazon Bedrock Guardrails の画像サポートによるマルチモーダル毒性検出のプレビューについて発表します。この新機能は、テキストに加えて望ましくない画像コンテンツを検出して除外するため、生成 AI アプリケーションにおけるユーザーエクスペリエンスの向上とモデル出力の管理に役立ちます。

Amazon Bedrock Guardrails では、望ましくないコンテンツをフィルタリングし、個人を特定できる情報 (PII) を編集し、コンテンツの安全性とプライバシーを強化することで、生成 AI アプリケーションの保護手段を実装できます。拒否されたトピック、コンテンツフィルター、ワードフィルター、PII 再編集、文脈的根拠チェック、および自動推論チェック（プレビュー）のポリシーを設定し、特定のユースケースと責任ある AI ポリシーに合わせてセーフガードを調整できます。

今回のリリースにより、Amazon Bedrock Guardrails の既存のコンテンツフィルターポリシーを使用して、憎悪、侮辱、性的、暴力などのカテゴリーにわたる有害な画像コンテンツを検出してブロックできるようになりました。アプリケーションのニーズに合わせて、しきい値を低いものから高いものまで設定できます。

この新しい画像サポートは、画像データをサポートする Amazon Bedrock のすべての基盤モデル (FM) と、お客様が用意したカスタムファインチューニングモデルすべてで機能します。テキストと画像のモダリティ全体で一貫した保護レイヤーが提供されるため、責任ある AI アプリケーションの構築が容易になります。

KONE の副社長で戦略的パートナーシップの責任者である Tero Hottinen は、次のユースケースを想定しています。

KONE は、継続的な評価の中で、生成 AI アプリケーションを保護するうえで Amazon Bedrock Guardrails が重要なコンポーネントである可能性を認識しています。特に、関連性やコンテキストに基づくグラウンディングチェック、マルチモーダル保護の観点からもそうです。同社は、製品設計図とマニュアルをアプリケーションに統合することを想定しています。マルチモーダルコンテンツのより正確な診断と分析を可能にする上で、Amazon Bedrock Guardrails が重要な役割を果たしています。

その仕組みは次のとおりです。

マルチモーダル毒性検出の実例
開始するには、AWS マネジメントコンソールでガードレールを作成し、テキストまたは画像データ、あるいはその両方にコンテンツフィルタを設定します。AWS SDK を使用してこの機能をアプリケーションに統合することもできます。

ガードレールの作成
コンソールで Amazon Bedrock に移動し、ガードレールを選択します。そこから、新しいガードレールを作成し、既存のコンテンツフィルターを使用して、テキストデータに加えて画像データを検出してブロックできます。[コンテンツフィルターの設定] の [憎悪]、[侮辱]、[性的]、[暴力] のカテゴリーは、テキストまたは画像コンテンツ、あるいはその両方に設定できます。不正行為とプロンプト攻撃のカテゴリーは、テキストコンテンツのみに設定できます。

使用するコンテンツフィルターを選択して設定したら、ガードレールを保存して、安全で責任ある生成 AI アプリケーションの構築に使用を開始できます。

コンソールで新しいガードレールをテストするには、ガードレールを選択して [テスト] を選択します。モデルを選択して呼び出してガードレールをテストする方法と、Amazon Bedrock Guardrails の独立した ApplyGuardail API を使用してモデルを呼び出さずにガードレールをテストする方法の 2 つがあります。

ApplyGuardrail API を使用すると、処理または結果をユーザーに提供する前に、アプリケーションフローの任意の時点でコンテンツを検証できます。また、この API を使用して、基盤となるインフラストラクチャに関係なく、任意のセルフマネージド（カスタム）またはサードパーティの FM の入力と出力を評価できます。たとえば、API を使用して Amazon SageMaker でホストされている Meta Llama 3.2 モデルや、ラップトップで実行されている Mistral NeMo モデルを評価できます。

モデルを選択して呼び出してガードレールをテスト
Anthropic’s Claude 3.5 Sonnet など、画像の入力または出力をサポートするモデルを選択してください。プロンプトフィルターと応答フィルターが画像コンテンツで有効になっていることを確認します。次に、プロンプトを表示し、画像ファイルをアップロードして、[実行] を選択します。

私の例では、Amazon Bedrock Guardrails が介入しました。詳細については、[トレースを表示] を選択してください。

ガードレールトレースは、インタラクション中に安全対策がどのように適用されたかを記録します。Amazon Bedrock Guardrails が介入したかどうか、および入力 (プロンプト) と出力 (モデル応答) の両方でどのような評価が行われたかがわかります。私の例では、コンテンツフィルターが画像内の侮辱を高い信頼度で検出したため、入力プロンプトをブロックしていました。

モデルを呼び出さずにガードレールをテスト
コンソールで、モデルを呼び出さずにガードレールをテストするには、[ガードレールの独立型 API を使用] を選択します。入力プロンプトを検証するか、モデルで生成された出力の例を検証するかを選択します。次に、前の手順を繰り返します。プロンプトフィルターと応答フィルターが画像コンテンツに対して有効になっていることを確認し、検証するコンテンツを指定して、[実行] を選択します。

デモ用に同じ画像と入力プロンプトを再利用したところ、Amazon Bedrock Guardrails が再び介入してくれました。詳細を確認するには、もう一度 [トレースを表示] を選択してください。

プレビューに参加しましょう
画像サポート付きのマルチモーダル毒性検出は、本日、米国東部 (バージニア北部、オハイオ)、米国西部 (オレゴン)、アジア太平洋 (ムンバイ、ソウル、シンガポール、東京)、ヨーロッパ (フランクフルト、アイルランド、ロンドン)、および AWS GovCloud (米国西部) の AWS リージョンで Amazon Bedrock Guardrails のプレビュー版をご利用いただけます。詳細については、Amazon Bedrock Guardrails をご覧ください。

Amazon Bedrock コンソールでマルチモーダル毒性検出コンテンツフィルターを今すぐ試して、ご意見をお聞かせください。フィードバックは、AWS re:Post for Amazon Bedrock にご送信いただくか、または通常の AWS サポートの担当者を通じてお寄せください。

– Antje

原文はこちらです。

Amazon Web Services ブログ

Amazon Bedrock Guardrails が画像サポートによるマルチモーダル毒性検出をサポートするようになりました (プレビュー)

お役立ちリンク

フォローお願いいたします