概要

課題・ソリューション・導入効果
ビジネスの課題
レビュー承認における規約違反の効率的な検出と自動化
アニメや映画などの動画配信をはじめ、オンラインゲーム、電子書籍、通販、オンライン英会話など 60 以上のサービスを展開する合同会社 DMM.com。現在、動画配信や電子書籍を中心に、日々 1,000 件以上のユーザーレビューが投稿されています。そのうちの 1 割以上は規約違反の内容が含まれており、コンテンツモデレーション(投稿監視)が不可欠となっています。従来はすべて人力でチェックしていましたが、さまざまな課題がありました。1 つめはコンテンツモデレーター(以下、モデレーター)の精神的な負担が大きいことです。投稿されたレビューは複数の熟練担当者が月に約 200 時間の工数をかけてチェックしており、精神的な負担ばかりでなく作業コストもかかります。2 つめは売上げに直結する業務ではないために、作業の重要性が社内で認識されにくい点です。3 つめは文脈や感情を含む複雑な判断が必要であることから、機械化が困難なことでした。
「過去にキーワードマッチングや従来型の AI で効率化を試みたこともありましたが、言語解析能力に課題があり、効果的に活用することができませんでした。投稿件数は増加傾向にあり、人力に頼ったコンテンツモデレーションは限界がきます。そこで、生成 AI を活用して負荷の軽減を図ることにしました」と語るのは、プラットフォーム開発本部 第 1 開発部 ユーザーレビューグループ プロダクトオーナーの室木正論氏です。
ソリューション
マネージドサービスと AI の精度を評価し Amazon Bedrock を採用
複数の生成 AI サービスを評価した同社は、Amazon Bedrock を活用した「レビュー承認システム」の開発を決断しました。その理由は、既存のユーザーレビューシステムが AWS 上に構築済みだったことです。プラットフォーム開発本部 第 1 開発部 ユーザーレビューグループの松井高宏氏は次のように語ります。
「同一のクラウドサービスで運用が完結するのが一番のメリットです。Amazon Bedrock 自体がマネージドサービスであるため運用負荷がかからず、ユーザーレビューシステムとのデータ連携においても優位性があります。その他、コストの最適化、セキュリティ強化、開発言語の柔軟性の観点でも統一するメリットがありました。生成 AI の導入・運用において経験を積み重ねている段階の私たちとしては、問題点の迅速な解決が最も重要であることから、AWS の充実したサポート体制も評価しました」
Amazon Bedrock の採用に当たっては他社の生成 AI サービスも含めて精度評価を実施。サンプルデータ 50 件に対する判定精度で、Amazon Bedrock の Claude 3 Haiku が最も高かったことが決め手となりました。
「チューニングなしの状態で 70~80 % の精度が出たことから、最低限でも承認作業者の支援に活用できるという判断のもと、これをベースに精度向上を図ることにしました」(室木氏)レビュー承認システムの開発プロジェクトでは、判定ルールを決めるサービス担当者と、承認作業を担当するモデレーターに対してヒアリングを実施。それぞれのステークホルダーが積極的に関与できる体制を構築しました。現在もステークホルダーとの週 1 回の定例ミーティングで、人が評価した結果と AI が判定した結果の違いを分析しながら、より精度が高い判定ができるようにブラッシュアップを続けています。
「プロジェクトのポイントは、スモールスタートにより短サイクルで開発を重ね、ゴールを再設定しながら進んだことです。結果として私たちの中で気持ちの余裕が生まれ、試行錯誤を重ねることができました」(室木氏)
レビュー承認システムのアーキテクチャは、Amazon API Gateway を介して既存システムから呼び出す設計としています。
Amazon Elastic Kubernetes Service(Amazon EKS)上ではレビューの関連サービスが稼働しています。ユーザーがレビューを投稿すると、Amazon EKS 上のサービスがレビュー承認システムの API にレビュー情報を送信し、Amazon Step Functions によるワークフローを実行する流れです。具体的には、Amazon Simple Storage Service(Amazon S3)から複数のプロンプトを取得し、AWS Lambda と Amazon Bedrock により承認判断を実行します。
判定結果は Amazon Aurora に保存し、モデレーターが判定結果を確認できる状態になります。レビュー投稿から判定までの時間は 30~60 秒程度です。開発途中に Claude 3 Haiku から Claude3.5 Sonnetに切り替え、精度向上とコスト最適化を図りました。
開発時の工夫は、段階的プロセスで信頼性の向上を図り、誤判定リスクを低減していることです。判定プロセスを複数に分割し、各フェーズで簡易な診断を実施しています。1 段階目は、ルールベースで明確な違反を検出。2 段階目はコンテンツベースのアプローチで、最初に簡易チェック(スクリーニング)で問題があるレビューを洗い出し、次の精密分析ステップで 10 種類以上のカテゴリー(誹謗中傷、不適切表現等)ごとに詳しく分析し、最終審査のステップでは前段階までの判定理由をもとに再判定して最終判断を行います。
「コンテンツベースのアプローチでは、スクリーニング判定で少ないトークン数で NG の可能性をすべて抽出したうえで、詳細分析を実施しています。これにより、判定精度の向上とコスト効率を同時に実現しています」(松井氏)
導入効果
モデレーターは AI の判断を検証して最終決定を下す役割に変化
現在、AI が判定した結果は、NG(ルール違反)が出た場合の理由とあわせて管理画面に表示し、モデレーターの業務を支援しています。その結果、これまであやふやだった基準が明確化されました。モデレーターに実施したアンケートでも「これまで見落とされていたレビューが確認できるようになった」「AI の視点による判断により、新たな観点からレビューを評価できるようになった」といった声が届いています。
Claude3.5 Sonnet の性能と、段階的判定プロセスなどにより、AI の判定精度(正解率ベース)は 2024 年 10 月現在で 98% 以上を実現しました。
「Amazon Bedrock により効率的かつ信頼性の高いレビュー管理が実現し、モデレーターの心理的な負担を解消できました。1 日当たり約 30 ドルで 98% 以上の判定精度が得られている点においてもコストメリットを実感しています」(松井氏)
今後については、規約違反のレビュー判定だけに留まらず、ネタバレ投稿の判定やサービス担当者への連絡などの機能を追加しながら業務のさらなる効率化を進めていく予定です。
近い将来に向けて、コンテンツモデレーションの完全自動化を検討中で、2025 年中には基盤を整備して本格的展開を開始する計画です。
「まずはスモールスタートで完全自動化の実績を作り、横展開していきます。自動化に向けて、監視環境の整備や開発チームのスキルの標準化も必要です。AWS には引き続きのサポートを期待しています」(室木氏)

AI の判定精度(正解率ベース)98% 以上を達成できたことで、人によるレビュー工数が大幅に削減でき、コスト軽減につながりました
松井 高宏 氏
合同会社 DMM.com プラットフォーム開発本部 第 1 開発部ユーザーレビューグループ チームリーダー(BE)兼 テックリードアーキテクチャ

合同会社 DMM.com
取組みの成果
- 98% 以上 - AI による判定精度(正解率ベース)
- 1,000 件以上 - 1 日あたりのレビュー投稿数
- コンテンツモデレーターの精神的負担の軽減
- 高度な判断を要する業務へのシフト
本事例のご担当者
室木 正論 氏

松井 高宏 氏
