Amazon Bedrock のガードレール

アプリケーション要件と責任ある AI ポリシーに合わせてカスタマイズされた保護手段を実装する

Amazon Bedrock 向けガードレールで責任ある AI アプリケーションを構築する

生成 AI アプリケーション内に責任ある AI ポリシーを実装するために、基盤モデル (FM) を使用してカスタムメイドのガードレールを作成および適用する方法のデモをご覧ください。

すべてのアプリケーションで一貫したレベルの AI 安全性を実現

Guardrails for Amazon Bedrockは、ユースケース固有のポリシーに基づいてユーザー入力とFM応答を評価し、基盤となるFMに関係なく、追加の保護手段を提供します。ガードレールは、微調整されたモデルを含む、Amazon Bedrock 上のすべての大規模言語モデル (LLM) に適用できます。お客様は、それぞれ異なるコントロールの組み合わせで設定された複数のガードレールを作成し、これらのガードレールをさまざまなアプリケーションやユースケースで使用できます。 

UI のスクリーンショット

生成 AI アプリケーション内の望ましくないトピックをブロックする

組織は、適切で安全なユーザーエクスペリエンスを実現するために、生成型AIアプリケーション内のインタラクションを管理する必要性を認識しています。さらに、自社のビジネスに関連するトピックに集中し、会社のポリシーに沿うように、インタラクションをさらにカスタマイズしたいと考えています。Guardrails for Amazon Bedrockでは、自然言語による短い説明を使うだけで、アプリケーションのコンテキスト内で避けるべきトピックのセットを定義できます。ガードレールは、制限されたトピックに該当するユーザー入力とFM応答を検出してブロックします。たとえば、バンキングアシスタントは、投資アドバイスに関連するトピックを避けるように設計できます。

アマゾン岩盤コンテンツフィルター用ガードレール

責任ある AI ポリシーに基づいて有害なコンテンツをフィルタリングします

Amazon Bedrock のガードレールは、憎しみ、侮辱、性的、暴力、不正行為 (犯罪行為を含む)、およびプロンプト攻撃 (プロンプトインジェクションやジェイルブレイク) にわたる有害なコンテンツをフィルタリングするための、設定可能なしきい値を備えたコンテンツフィルターを提供します。ほとんどのFMには、有害な応答の発生を防ぐための保護機能がすでに組み込まれています。これらの保護機能に加えて、Guardrailsではさまざまなカテゴリにしきい値を設定して、有害なインタラクションを除外できます。フィルターの強度を高めると、フィルタリングの厳格性が高まります。ガードレールは、ユーザークエリとFMレスポンスの両方を自動的に評価して、制限されたカテゴリに分類されるコンテンツを検出して防止します。たとえば、電子商取引サイトでは、ヘイトスピーチや侮辱などの不適切な言葉を使わないようにオンラインアシスタントを設計できます。

アマゾン岩盤用ガードレール拒否トピック

プライバシーを保護するために機密情報 (PII) をマスキング

Amazon Bedrock のガードレールを使用すると、ユーザー入力や FM の応答に含まれる個人を特定できる情報 (PII) などの機密コンテンツを検出できます。事前定義された PII のリストから選択することも、正規表現 (regex) を使用してカスタムの機密情報の種類を定義することもできます。ユースケースに基づいて、選択的に機密情報を含む入力を拒否したり、FM の応答でマスキングしたりできます。たとえば、コールセンターで顧客とエージェントの会話記録から要約を生成しながら、ユーザーの個人情報を編集できます。

仮名化とGDPRアイコン