Amazon Web Services ブログ

20 Minutes 社がAmazon Bedrock で生成 AI を活用してジャーナリストを支援し購読者を惹きつけている方法

本記事は 2024 年 5 月 21 日に公開された “How 20 Minutes empowers journalists and boosts audience engagement with generative AI on Amazon Bedrock” を翻訳したものです。

この投稿は 20 Minutes の Aurélien Capdecomme と Bertrand d’Aure との共著です。

月間 1900 万人の読者を持つ 20 Minutes は、フランスの主要メディアです。このメディアは主に若く活発な都市部の読者を対象に有用で関連性が高く、アクセスしやすい情報を提供しています。毎月約 830 万人の 25 歳から 49 歳までの人々が情報を得るために 20 Minutes を選んでいます。 2002 年に設立された 20 Minutes はニュースを、印刷物、ウェブ、モバイルプラットフォームを通じて、毎月フランス国民の 3 分の 1 以上 (39%) に届けています。

20 Minutes の技術チームとして、私たちは組織のウェブおよびモバイル製品の開発と運用、そして革新的な技術イニシアチブの推進に責任を負っています。数年にわたり機械学習と人工知能 (AI) を積極的に活用し、デジタル出版のワークフローを改善し、読者に関連性がありパーソナライズされた体験を提供してきました。生成 AI の到来、特に大規模言語モデル (LLM) の登場により、私たちは現在 AI バイデザインの戦略を採用し、新しい技術製品を開発するたびに AI の適用を評価しています。

私たちの主要な目標の 1 つは、ジャーナリストに最高級のデジタル出版体験を提供することです。私たちのニュースルームのジャーナリストは、内製でカスタムしたデジタル編集体験である Storm を使ってニュース記事に取り組んでいます。 Storm はサーバーレスコンテンツ管理システム (CMS) である Nova のフロントエンドとして機能しています。これらのアプリケーションは、私たちの生成 AI の取り組みの中心となっています。

2023 年、私たちは生成 AI が肯定的な影響を及ぼす可能性のあるいくつかの課題を特定しました。これには記者向けの新しいツール、視聴者の関与を高める方法、そして広告主が私たちのコンテンツのブランドセーフティを自信を持って評価できるようにする新しい方法が含まれます。これらのユースケースを実装するために、私たちは Amazon Bedrock を利用しています。

Amazon Bedrock は、 AI21 Labs 、 Anthropic 、 Cohere 、 Meta 、 Stability AI 、 Amazon Web Services(AWS) などの有力な AI 企業から、単一の API を通じて高性能な基盤モデル (FM) を選択できるだけでなく、セキュリティ、プライバシー、責任ある AI を備えた生成 AI アプリケーションを構築するために必要な幅広い機能を提供するフルマネージドサービスです。

このブログ記事では、生成 AI を使ってデジタルパブリッシングの課題に取り組んでいるさまざまなユースケースについて概説しています。私たちは実装の技術的側面に踏み込み、基盤モデルプロバイダーとして Amazon Bedrock を選択した理由を説明します。

課題と使用事例の特定

昨今のペースの早いニュース環境では、デジタル出版社にとって課題と機会の両方が存在します。 20 Minutes では、技術チームの主要な目標の 1 つは、ジャーナリストのための新しいツールを開発することです。これらのツールは反復作業を自動化し、報道の質を向上させ、より広範な読者層に到達できるようにします。この目標に基づき私たちは生成 AI が肯定的な影響を与えることができる 3 つの課題とそれに対応するユースケースを特定しました。

最初のユースケースは、デジタル出版プロセスの一環としてジャーナリストが行う反復的な手作業を自動化して最小限に抑えることです。ニュース記事の作成の中核は、調査、執筆、編集作業に関わります。しかし記事が完成した後、記事の要約、カテゴリ、タグ、関連記事などのサポート情報とメタデータを定義する必要があります。

これらのタスクは面倒に感じられるかもしれませんが、検索エンジン最適化 (SEO) にとって重要であり記事の読者層の拡大にもつながります。これらの反復作業の一部を自動化できれば、ニュース編集室での時間を主要な記者業務に集中させつつ、コンテンツの読者層を拡大できる可能性があります。

2 つ目の使用例は、 20 Minutes でニュース通信社の記事をどのように再発行しているかです。ほとんどのニュース機関と同様に、 20 Minutes はフランス通信社 (AFP) などのニュース通信社に加入し、国内外のニュースを配信するフィードを購読しています。 20 Minutes のジャーナリストは読者層に関連する記事を選び、編集方針とわれわれの読者が慣れ親しんだ独自のトーンに合わせて書き直し、編集、拡張します。これらの記事を書き直すことは、検索エンジンが重複したコンテンツを低く評価するため、 SEO にも必要不可欠です。この作業にはパターンがあるため、再発行プロセスを簡素化し、その時間を短縮するために AI ベースのツールを構築することにしました。

私たちが特定した 3 つ目の最終的な使用例は、公開したコンテンツのブランドセーフティについての透明性を高めることです。デジタル出版社である 20 Minutes は、潜在的な広告主に対してブランドセーフな環境を提供することを約束しています。コンテンツは広告やマネタイズに適しているかどうかに基づいて、ブランドセーフである、またはブランドセーフではないと分類されます。広告主やブランドによって、適切と見なされるコンテンツの種類が異なります。例えば一部の広告主は、軍事紛争などの取り扱いが難しい話題に関するニュースコンテンツの横に自社のブランドが表示されるのを望まない可能性があり、薬物やアルコールに関するコンテンツの横には表示されたくないと考える広告主もいるかもしれません。

Interactive Advertising Bureau (IAB)Global Alliance for Responsible Media (GARM) などの組織は、コンテンツのブランドセーフティを分類するための包括的なガイドラインフレームワークを策定しています。これらのガイドラインに基づき、 IAB などのデータプロバイダーは、 20minutes.fr などのウェブサイトを定期的にクロールしブランドセーフティスコアを算出することでデジタル出版社のブランドセーフティを自動評価しています。

しかしながらこのブランドセーフティースコアはサイト全体のものであり、個々のニュース記事については細かく分けられていません。大規模言語モデル (LLM) の推論能力を考慮し、業界標準のガイドラインに基づいた記事ごとの自動ブランドセーフティー評価を開発することにしました。これにより広告主に対して 20 分のコンテンツのブランド安全性をリアルタイムで細かく提供できるようになります。

私たちの技術ソリューション

20 Minutes では 2017 年から AWS を使用しており、可能な限りサーバーレスサービスの上にシステムを構築することを目指しています。

デジタルパブリッシングフロントエンドアプリケーションの Storm は、ReactMaterial Design を使って構築されたシングルページアプリケーションで、 Amazon Simple Storage Service (Amazon S3)Amazon CloudFront を使ってデプロイされています。当社の CMS バックエンド Nova は、Amazon API Gateway と複数の AWS Lambda 関数を使って実装されています。Amazon DynamoDB は 20 Minutes の記事の主要なデータベースとして機能しています。新しい記事や既存の記事の変更は DynamoDB Streams によってキャプチャされ、 AWS Step Functions の処理ロジックを呼び出し、 Amazon OpenSearch に基づく検索サービスに送られます。

私たちは、 AWS PrivateLink を使用して Amazon Bedrock を統合しています。これにより、パブリックインターネットを経由することなく、 Amazon Virtual Private Cloud (VPC) と Amazon Bedrock の間にプライベート接続を作成できます。

20 Minutes architecture diagram

Storm で記事を作業する際、ジャーナリストは Amazon Bedrock を使って実装されたいくつかの AI ツールにアクセスできます。 Storm はタイトル、リード文、本文、画像、ソーシャルメディアの引用などのさまざまなコンテンツブロックを組み合わせて完全な記事を作成できるブロックベースのエディターです。 Amazon Bedrock を使えば、ジャーナリストは記事の要約提案ブロックを生成し、それを直接記事に配置することができます。記事全文をコンテキストとした単一のプロンプトを使って要約を生成しています。

Storm CMS はジャーナリストに記事のメタデータの提案も行います。これには適切なカテゴリ、タグ、さらにはテキスト内リンクの推奨が含まれます。他の 20Minutes コンテンツへの参照リンクは、検索エンジンが関連する内部および外部リンクを多く含むコンテンツをより高くランク付けするため、ユーザーエンゲージメントを高めるのに重要です。

これを実装するため、 Amazon Comprehend と Amazon Bedrock を組み合わせて記事のテキストから最も関連性の高い用語を抽出し、OpenSearchの内部の分類データベースに対して検索を行っています。その結果に基づいて、 Storm は他の記事やトピックにリンクすべき用語のいくつかを提案し、ユーザーはそれらを受け入れるか拒否することができます。

20 Minutes summary generation feature

ニュース速報は AFP などのパートナーから受信次第、 Storm で利用可能になります。ジャーナリストはこれらの速報を閲覧し 20minutes.fr で再掲載するものを選択できます。すべての速報は掲載前にジャーナリストによって手作業で加工されます。加工のために、ジャーナリストはまず Amazon Bedrock の LLM を使って記事の書き直しを行います。この際、低い temperature のsingle-shot プロンプトを使用し、 LLM に記事の解釈を変更せず、文字数と構造をできるだけ維持するよう指示します。書き直された記事は他の記事と同様に Storm でジャーナリストが手作業で編集します。

新しいブランドセーフティー機能を実装するため、 20minutes.fr に掲載される新しい記事すべてを処理しています。現在、記事のテキストと IAB のブランドセーフティーガイドラインの両方をコンテキストに含む single-shot プロンプトを使用し、 LLM から感情評価を得ています。その後レスポンスを解析し、感情を保存し、各記事に対して広告サーバーがアクセスできるようにパブリックに公開しています。

教訓と展望

20 Minutes で生成 AI のユースケースに取り組み始めたとき、機能を繰り返し改良し、本番環境に導入できるスピードの速さに驚きました。 Amazon Bedrock の統合された API のおかげで、モデルを簡単に切り替えて実験し、各ユースケースに最適なモデルを見つけることができます。

上記のユースケースでは、全体的な高品質、特にフランス語のプロンプトを認識し、フランス語の完了を生成する能力が優れているため、 Amazon Bedrock 上の Anthropic の Claude を主要な大規模言語モデルとして使用しています。20 Minutes のコンテンツはほぼ完全にフランス語なので、この多言語対応能力は私たちにとって非常に重要です。適切なプロンプトエンジニアリングが成功の鍵であり、完了品質を最大化するために Anthropic のプロンプトエンジニアリングリソースを熱心に活用しています。

ファインチューニング検索拡張生成 (RAG) などのアプローチに頼らなくても、ジャーナリストに本当に価値を提供するユースケースを実装できます。当社のニュース編集室のジャーナリストから収集したデータに基づくと、当社の AI ツールは 1 記事あたり平均 8 分の時間を節約できます。毎日約 160 本のコンテンツを発行していることから、これはすでに大きな時間の節約となり、ジャーナリストはニュースを読者に報じることに集中できるようになります。

このようなユースケースの成功は、技術的な取り組みだけでなく、製品、エンジニアリング、ニュース編集室、マーケティング、法務チームとの緊密な協力にも依存しています。これらの役割から代表者が集まり、 AI 委員会を構成しています。この委員会は、20 Minutes における AI の透明性と責任ある利用を確保するための明確な方針とフレームワークを確立しています。例えば、AI の利用はすべてこの委員会で検討・承認される必要があり、AI で生成されたコンテンツはすべて人間による検証を経てから公開されます。

私たちは、デジタルパブリッシングに関しては生成 AI がまだ初期段階にあると考えていますが、今年はプラットフォームにさらに革新的なユースケースをもたらすことを期待しています。現在、 Amazon Bedrock でファインチューニングされた LLM を展開し、当社の出版物のトーンと声を正確に合わせ、ブランドの安全性分析機能を更に改善する作業を行っています。また、Bedrock モデルを利用して既存の画像ライブラリにタグ付けを行い、記事の画像に関する自動提案を行う予定です。

なぜ Amazon Bedrock か?

複数の生成 AI モデルプロバイダを評価し、上記のユースケースを実装した経験に基づいて、 Amazon Bedrock を当社のすべての基盤モデルニーズの主要プロバイダとして選定しました。この決定に影響を与えた主な理由は次のとおりです:

  1. モデルの選択: 生成 AI の市場は急速に進化しており、AWS のアプローチは複数の主要モデルプロバイダーと協力することで、単一の API を通じて大規模で成長し続ける基盤モデルにアクセスできることを保証しています。
  2. 推論パフォーマンス : Amazon Bedrock は低レイテンシーかつ高スループットの推論を実現します。オンデマンドとプロビジョニングされたスループットにより、サービスはすべてのキャパシティのニーズを確実に満たすことができます。
  3. プライベートモデルアクセス : AWS PrivateLink を使用して、Amazon Bedrock エンドポイントへのプライベート接続を確立し、パブリックインターネットを経由せずに推論のためのデータを送信することで、完全にデータを制御できます。
  4. AWS サービスとの統合: Amazon Bedrock は AWS Identity and Access Management (IAM)AWS Software Development Kit (AWS SDK) などの AWS サービスと緊密に統合されています。その結果、新しいツールや規約に適応することなく、既存のアーキテクチャに Bedrock を迅速に統合することができました。

まとめと今後の展望

このブログ記事では、 20 Minutes が Amazon Bedrock 上の生成 AI を活用して、ニュース編集室の記者をサポートし、より広範な読者層に到達し広告主にブランドの安全性を透明化する方法を説明しました。これらのユースケースでは、生成 AI を活用して記者に今日からより多くの価値を提供し、将来の有望な新しい AI ユースケースの基盤を築いています。

Amazon Bedrock の詳細を知るには、ドキュメント、ブログ記事、その他の顧客の成功事例などの Amazon Bedrock リソースを参照してください。

翻訳はソリューションアーキテクトの紙谷が担当しました。原文はこちらです。


著者について

Aurélien CapdecommeAurélien Capdecomme は 20 Minutes の最高技術責任者であり、 IT 開発およびインフラストラクチャチームを率いています。効率的で最適化されたアーキテクチャの構築に 20 年以上の経験を持ち、サーバーレス戦略、スケーラブルなアプリケーション、 AI イニシアチブに強い焦点を当てています。彼は 20 Minutes でイノベーションとデジタル変革戦略を実施し、デジタルサービスのクラウドへの完全移行を監督しました。

Bertrand d'AureBertrand d’Aure は 20 Minutes のソフトウェア開発者です。技術者として訓練を受けた彼は、 20 Minutes のアプリケーションのバックエンドを設計・実装しており、特に記者がストーリーを作成するためのソフトウェアに重点を置いています。その他にも彼は執筆プロセスを簡素化するために、ソフトウェアに生成 AI の機能を追加する役割を担っています。

Dr. Pascal VogelDr. Pascal Vogel は Amazon Web Services のソリューション アーキテクトです。彼は EMEA 地域の企業顧客と協力し、サーバーレスと生成 AI に焦点を当てたクラウドネイティブソリューションを構築しています。クラウド愛好家の Pascal は、新しいテクノロジーを学び、クラウドの旅路で変革を遂げたいと考える同じ志を持つ顧客と交流することを愛しています。