Amazon Web Services ブログ

新しい安全フィルターとプライバシーコントロールを備えた Amazon Bedrock のガードレールが利用可能になりました

4月23日、re: Invent 2023でプレビュー版として初めてリリースされた Amazon Bedrock 向けガードレールの一般提供について発表できることを嬉しく思います。Amazon Bedrock のガードレールを使用すると、お客様のユースケースと責任ある AI ポリシーに合わせてカスタマイズされた保護手段を生成 AI アプリケーションに実装できます。さまざまなユースケースに合わせた複数のガードレールを作成し、それらを複数の基盤モデル(FM)に適用することで、エンドユーザーエクスペリエンスを向上させ、生成 AI アプリケーション全体で安全制御を標準化できます。Amazon Bedrock のガードレールは、微調整されたモデルも含め、Amazon Bedrock のすべての大規模言語モデル(LLM)で使用できます。

Bedrock のガードレールは、FM のネイティブ機能に加えて業界をリードする安全保護機能を備えているため、現在 Amazon Bedrock の一部の基盤モデルでネイティブに提供されている保護よりも、85%も多くの有害コンテンツをブロックできます。Amazon Bedrock のガードレールは、お客様が生成 AI アプリケーションの安全性とプライバシー保護を単一のソリューションで構築およびカスタマイズできるようにする、トップクラウドプロバイダーが提供する唯一の責任ある AI 機能であり、Amazon Bedrock のすべての大規模言語モデル(LLM)だけでなく、微調整されたモデルでも機能します。

Aha!は、100万人以上の人々が製品戦略を実現できるよう支援しているソフトウェア会社です。「私たちの顧客は、目標の設定、顧客からのフィードバックの収集、視覚的なロードマップの作成において、毎日私たちを頼りにしています」とAha! の共同設立者兼最高技術責任者であるクリス・ウォーターズ博士は語った。「だからこそ、私たちは生成 AI 機能の多くに Amazon Bedrock を使用しています。Amazon Bedrock は責任ある AI 機能を提供しています。これにより、データ保護とプライバシーポリシーを通じて情報を完全に管理し、Bedrock のガードレールを通じて有害なコンテンツをブロックすることができます。プロダクトマネージャーが顧客から提出されたフィードバックを分析することで、インサイトを発見できるようにするために開発されました。ほんの始まりに過ぎない。今後も高度な AWS テクノロジーを基盤として、あらゆる製品開発チームが自信を持って次に構築すべきものを優先順位付けできるよう支援していきます。」

プレビュー投稿でAntje はガードレールを使用してしきい値を設定して有害なカテゴリからコンテンツをフィルタリングする方法と、アプリケーションのコンテキストで避ける必要のある一連のトピックを定義する方法を示しました。コンテンツフィルター機能には、犯罪行為を検出するための不正行為とプロンプトインジェクションや脱獄の試みを検出するためのプロンプトアタックという2つの安全カテゴリが追加されました。また、個人を特定できる情報(PII)を検出して編集する機密情報フィルターや、冒涜的な言葉やカスタムワード(有害な言葉、競合他社の名前、製品など)を含む入力をブロックするワードフィルターなど、重要な新機能も追加しました。

Amazon Bedrock のガードレールは、アプリケーションとモデルの中間に位置します。ガードレールは、アプリケーションからモデルに入力されるもの、モデルからアプリケーションに送られるものをすべて自動的に評価して、制限されたカテゴリに分類されるコンテンツを検出して防止します。

プレビューリリースのブログの手順を復習して、拒否トピックとコンテンツフィルターの設定方法を学ぶことができます。新機能の仕組みをお見せしましょう。

新機能
Amazon Bedrock 用のガードレールを使い始めるには、Amazon Bedrock 用の AWS マネジメントコンソールにアクセスします。そこでガードレールを作成して新しい機能を設定できます。Amazon Bedrock コンソールのナビゲーションペインで [ガードレール] を選択し、次に [ガードレールの作成] を選択します。

ガードレールの名前と説明を入力します[次へ] を選択して [機密情報フィルターの追加] ステップに進みます。

機密情報フィルターを使用して、ユーザー入力と FM 出力の機密情報や個人情報を検出します。ユースケースに基づいて、入力でブロックするエンティティ(たとえば、ユーザー固有の情報を必要としない FAQ ベースのチャットボット)または出力で編集するエンティティ(たとえば、チャット記録に基づく会話の要約)を選択できます。機密情報フィルタは、事前定義された PII タイプのセットをサポートします。また、自分のユースケースやニーズに合わせてカスタム正規表現ベースのエンティティを定義することもできます。

リストから 2 つの PII タイプ (名前、電子メール) を追加し、名前として予約 ID を使用し、正規表現パターンとして [0-9A-fA-F]\ {8\} を使用する正規表現パターンを追加します。

次へ」を選択し、ガードレールが「ブロックされたメッセージを定義」ステップで入力またはモデル応答をブロックした場合に表示されるカスタムメッセージを入力します。最後のステップで設定を確認し、[ガードレールの作成] を選択します。

ガードレールの概要ページに移動しテストセクションを使用して Anthropic Claude Instant 1.2モデルを選択します。次のコールセンターの記録を [プロンプト] フィールドに入力し、[実行] を選択します。

以下のコールセンターの記録を要約してください。名前、メールアドレス、予約 ID を一番上に記入してください。
エージェント:ABC 社へようこそ。今日は何かお手伝いしましょうか?
お客様:ホテルの予約をキャンセルしたいです。
エージェント:もちろん、キャンセルをお手伝いします。予約番号を教えてもらえますか?
お客様:はい、私の予約番号は550e8408です。
エージェント: ありがとうございます。確認のため名前とメールアドレスを教えていただけますか?
お客様:私の名前はジェーンドゥで、メールは jane.doe@gmail.com です
エージェント:確認していただきありがとうございます。さっそく予約をキャンセルします。

ガードレールアクションは、ガードレールが作動したインスタンスが3つあることを示しています。View traceを使って詳細を確認しています。ガードレールが名前、電子メール、予約 ID を検出し、最終応答でそれらをマスクしていることに気付きました

ワードフィルターを使用して、冒涜的な言葉やカスタムな言葉(競合他社の名前や攻撃的な言葉など)を含む入力をブロックしています。「不適切な表現をフィルターする」ボックスにチェックを入れます。冒涜的な言葉のリストは、冒涜のグローバルな定義に基づいています。さらに、ガードレールでブロックするフレーズは最大 10,000 個 (1 フレーズあたり最大 3 語) まで指定できます。入力またはモデルの応答にこれらの単語またはフレーズが含まれていると、ブロックされたメッセージが表示されます。

次に、[ワードフィルター] で [カスタム単語とフレーズ] を選択し、[編集] を選択します。「単語やフレーズを手動で追加 を使用してカスタム単語 CompetitorY を追加していますフレーズのリストをアップロードする必要がある場合は、「ローカルファイルからアップロード 」または「S3 オブジェクトからアップロード」を使用することもできます。ガードレールのページに戻るには、[保存して終了] を選択します。

架空の会社とその競合企業に関する情報を含むプロンプトを入力し、「CompetitorY が提供する追加機能にはどのようなものがありますか?」という質問を追加します。。[実行] を選択します。

View traceを使って詳細を確認しています。設定したポリシーに従ってガードレールが介入したことに気付きました。

今すぐご利用いただけます
Amazon Bedrock のガードレールが米国東部(バージニア北部)および米国西部(オレゴン)リージョンで利用できるようになりました。

料金の情報は、Amazon Bedrock の料金ページをご覧ください。

この機能を使い始めるには、 Amazon Bedrock のガードレールのウェブページをご覧ください

詳細な技術コンテンツや、ビルダーコミュニティがソリューションで Amazon Bedrock をどのように使用しているかについては、community.aws ウェブサイトをご覧ください。

— Esra

原文はこちらです。