概要

課題・ソリューション・導入効果
ビジネスの課題
ユーザーの声を活かした“ワンランク上の執筆体験”の提供
朝日新聞社のメディア研究開発センターは、新聞社ならではの膨大なテキストや画像、音声などを活用しながら先端メディア技術の研究・開発に取り組んでいます。同センターは AI を活用したプロダクトの開発の一環として、記者の業務効率化を目的に 2021 年 1 月、文字起こしサービス『YOLO』を社内リリースしました。
「取材音源の文字起こし作業は、1 時間の音声ファイルで数時間かかることもあります。文字起こしを効率化すれば、記者が記事の構成や表現などに多くの時間が割けるようになります」と語るのは、同センターの R&D エンジニアの嘉田紗世氏です。
その後も、句読点自動付与機能、相づち・言いよどみ自動検出機能、複数の話し手を区別して記録する話者分離機能などを追加し、2023 年 3 月には報道データに特化した独自の音声認識モデルをリリース。同センター 上級研究員の田森秀明氏は「音声認識モデルを自社プロダクトとして開発/提供することで、セキュリティやガバナンスの担保に加え、記者が個々に保有してきた膨大なデータを集約し、その一部を学習データに利用できるようになりました」と語ります。
システム基盤には、同社標準のクラウドとして各部門で利用している AWS を採用しました。当初採用したアーキテクチャを AWS のソリューションアーキテクトと相談して見直し、AWS Step Functions と AWS Lambda などのサーバーレスで構成した音声認識パイプラインを構築。1 時間の音声ファイルをわずか 5 分で処理する高速化を実現しました。多くのユーザーが書き起こし作業を活用し、残業がひと月で 20 時間減ったという反響もあったといいます。
その後、メディア研究開発センターでは書き起こしに加え、作成後の情報整理や記事執筆までを支援するコンテンツ制作支援サービス『ALOFA』の開発に着手しました。
「YOLO の UI/UX を全面的に見直し、ユーザーのニーズを取り込みながらサービスを進化させたいと考えました。生成 AI を活用した記事の要約機能やチャプター機能などを追加して“ワンランク上の執筆体験”の提供を目指しました」(嘉田氏)
ソリューション
複数の最新モデルが気軽に試せる Amazon Bedrock を採用
ALOFA の開発は 2023 年夏ごろから本格的に始まり、2024 年 9 月に全社リリース。システムは、音声認識パイプラインを除いてフロントエンド/バックエンドともにゼロから設計し、サーバーレス/マネージドサービスを中心に構成しました。新たに追加した要約機能とチャプター生成機能は、Amazon Bedrock によって実現しています。
「Amazon Bedrock の採用理由は、システム全体のアーキテクチャが AWS で構成されているため、呼び出しが簡単だったことです。また、複数の最新モデルを気軽に試せて切り替えが容易なこと、セキュアに利用可能で、データが AI の学習に利用されないことも重要です。運用面では Amazon CloudWatch のコンソール上でトークンの利用数や呼び出し回数などが確認できる利便性の高さを評価しました」(嘉田氏)
Amazon Bedrock による要約機能とチャプター生成機能の開発は約 1 週間で終了。開発時は、評価用のデータを収集して検証し、精度を確認したうえで AWS 上にデプロイしています。基盤モデルは、複数の中から精度、トークン数、コストのバランスを評価して決定し、プロンプトエンジニアリングによって精度の向上を図りました。
「従来は大量の学習データを用意して AI のモデルを構築し、長期間かけて学習させるところ、Amazon Bedrock によってその工程が丸ごと不要になりました。モデルを自社で作成した場合に複雑になるデプロイの作業も、Amazon Bedrock なら API で呼び出すだけで、短期間に開発できました」(嘉田氏)
並列処理の中で Amazon Bedrock を呼び出すユースケースでは、急速にリクエストが増加する場合があります。そこで対策として、複数の AWS リージョンが利用できる Amazon Bedrock のクロスリージョン推論を利用し、可用性を確保しながらパフォーマンスの向上を図っています。
ALOFA 全体の構築から Amazon Bedrock による機能開発まですべて内製で行う中、AWS のサポートが役立ったと嘉田氏は語ります。
「ALOFA のシステム構築時には、データベースの構成検討から設計レビューまで支援を受けました。Amazon Bedrock の機能に関する相談や最新情報の提供など、必要に応じてミーティングやワークショップを開いていただき、スムーズに進めることができました」
導入効果
長時間の取材データも効率よく整理可能に
社内リリースから約半年を経て、ALOFA は約 1,500 人の社員に利用されています。ユーザーの約 60% は記者ですが、その他の社員も会議の議事録作成などに活用しています。最大 10 時間の音声/映像データが入力可能になり、長時間の記者会見などにも対応可能です。UI/UX の改善と、要約やチャプター生成によって音声データの内容や区切りが把握できるようになったことが好評を博しています。
「記者からは、長時間にわたる記者会見でも要約を見ることで内容の把握ができて助かる、後から取材の内容を思い出すのに役立つ、といった声がありました。記事の執筆時にも、要約を見て内容漏れを確認できるといった感想も届いています」(嘉田氏)
メディア研究開発センターでは ALOFA 開発を通じて、従来の研究者主体のプロダクトアウト開発から、ユーザー視点を重視した開発にシフトできたと実感しています。プロダクト目線では見えてこなかった機能を強化することで、サービスとしての価値を高められました。
「R&D 部隊も、最終的にはプロダクトとして利益を生むことが求められます。今回、研究開発の根幹となる生成 AI の技術を習得しながら、ユーザーの価値を高めるサービスを構築できました。メディア研究開発センターでは以前から、AWS 上に構築した AI による校正支援サービスを法人・個人向けのサービスとして提供しています。ALOFA も今後は各部門と連携しながら法人・個人向けの SaaS として外販する準備を進めています」(田森氏)
ALOFA については今後もリアルタイム文字起こしの機能強化、Amazon Bedrock による検索拡張生成(RAG)の構築を検討中です。田森氏はさらに、AI を活用したプロダクトの研究・開発についての構想を語ります。
「メディア企業として有する音声、写真、動画データなどのさまざまな資産に対して、AI をどのように活用していくかがこれからのテーマです。当社は標準プラットフォームとして AWS を採用していますので、AWS の AI サービスもさまざまなプロダクトで試してみたいと思います」

ユーザー視点を重視した要約機能やチャプター生成機能の開発により、研究開発の根幹となる生成 AI の技術を習得しながら、ユーザーの価値を高めるサービスを構築できました
田森 秀明 氏
株式会社朝日新聞社 メディア事業本部 メディア研究開発センター 上級研究員 博士(情報科学)株式会社朝日新聞社
取組みの成果
5 分 - 1 時間の音声ファイルの文字起こし時間
最大 10 時間 - 入力可能な音声/映像データ
文字起こしの作業負荷軽減
取材内容の的確な把握と振り返り
ユーザー視点を意識した研究・開発体制への移行
本事例のご担当者
田森 秀明 氏

嘉田 紗世 氏
