Amazon Web Services ブログ

レアジョブテクノロジーズ様の AWS 生成 AI 事例: Amazon Bedrock を使用して英会話レッスンレポートがより充実

※ 本ブログは、株式会社レアジョブテクノロジーズとAmazon Web Service Japan が共同で執筆いたしました。
ここ数年は生成 AI を活用したサービスや機能が EdTech 業界で多く登場しています。オンライン英会話をはじめとした様々な EdTech プロダクトを提供しているレアジョブグループにおいて、プロダクトの企画・開発を担当している株式会社レアジョブテクノロジーズでも例外ではなく、ベータ版としての機能提供や社内での生成 AI 活用を実施しています。

レアジョブグループが提供しているオンライン英会話サービス「レアジョブ英会話」では PC やスマホで様々な講師と英会話レッスンを受けることができます。会話レッスンは毎日 2 万件ほど実施されており、従来は人間の英会話講師が自身でメモを取り受講者に対して自身でフィードバックを作成していたため、講師側の負担になることが多くまた時間が取れない場合などに十分なフィードバックを作れない課題がありました。

この課題を解決するためにフィードバックの一部を生成 AI によって置き換えができないか試しています。(記事の執筆段階時点では、一部のお客様のみに展開中です)。

この記事ではプロダクトの中でどの機能を生成 AI に任せることがユーザー体験やコストの観点から適しているのか、要件と照らし合わせて Amazon Bedrock をなぜ選択したのかを解説しながら Amazon Bedrock が活用されている「AIレッスンレポートβ」を紹介します。

AIレッスンレポートβ 機能の紹介

レアジョブで提供している「レアジョブ英会話」では PC やスマホで様々な講師と英会話レッスンを受けることができます。その中で試験提供している機能の一つが「AIレッスンレポートβ」です。従来は人間の英会話講師が自身でメモを取り受講者に対して自身でフィードバックを作成しており、講師側の負担になることが多くまた時間が取れない場合などに十分なフィードバックを作れない課題がありました。

この課題を解決するためにフィードバックの一部を生成 AI によって置き換えできないか試しています。(記事の執筆段階時点では、一部のお客様のみに展開中)。

これまでのレッスンレポートは上図左のように講師が自身で作成したメモをもとに一から作成していました。人間がレッスンと並行してレポートを作成する以上はレポートでの指摘は 1~3 件程度が限界でした。一方で AI レッスンレポートでは録音された音声から発話速度や発話単語数などの各種スコアを自動で算出し、文字起こしされたレッスン内容に対して平均 10 件ほどの指摘が可能になりました(AI による添削は指摘の数に上限がありませんがユーザー体験を考えて指摘の数を設定しています)。また講師のレポート作成作業を減らして、より講師のスキルや経験が活きるレッスンに集中できるようになりました。

開発における注意や工夫

起案・要件定義 => 設計・開発 => 評価のように開発プロセスが進むことが多く、一般のプロダクト開発とあまり変わりませんが、生成 AI であるが故の各ステップでの注意や工夫がありました。

起案・要件定義においては、そもそも生成 AI を使うのか、使うとしてどの生成 AI のサービス、あるいは、どのモデルを活用すべきなのかを本格的に作り込む前に検討をしていました。これによって原価としてのシステムコストの試算も大きく変わってくるので、事業・機能として実現可能かを検討しました。生成 AI は精度やコストを無視すれば多様なタスクを実行することができます。顧客からの問い合わせの文章を読み取って返答文を生成したり、テキストや画像コンテンツを一から自動で生成したり、文章やスライドの内容を要約したりと、生成 AI が実行できるタスクは多種多様です。実際にそれは実現できるのですが、多くの生成 AI 系のサービスは入出力されるデータ量(トークン)の量に応じてコストがかかってきます。機械的に処理できる内容であれば生成 AI を使わずとも古典的な手法を使ってより低価格でタスクを実行できます。また生成 AI が 100% 正しい答えを返すとは限りません。

要件定義で生成 AI を使うかどうかを考えるには生成 AI の出力クオリティも気になるところです。レアジョブでは aws-samples/bedrock-claude-chat を社内イントラ内で構築し社員で触れる状態を作りました。このサンプルは生成系 AI を提供するAmazon Bedrockの基盤モデルの一つである、Anthropic 社の大規模言語モデル( LLM) Claude を利用したチャットボットのサンプルです。チャットボットの画面を簡単に展開することができるので最速で価値を体験できる手段の一つだと思います。プロダクトはエンジニアだけが作るものではないので事業開発のメンバーがより手軽に試せる場を作ることが重要でした。

設計・開発においては上述の通り、生成 AI に何をやらせるかを議論し、それ以外の部分の実装や構築方法、アーキテクチャを関係者で議論をして決めました。例えばレアジョブ AI レッスンレポートでは関係者の議論の結果、発話文の文章校正や校正理由文の作成など、ユースケースにおける本当に生成 AI が実施すべきことに集中させることが重要だと考えて、いくつかの処理は生成 AI を使わずに実現しています。「話したユニークな単語数」なども出力していますが、こういった処理は生成 AI にまかせるのではなく別で実装しています。またNGワードの検知やそれが発生した時の対応なども生成 AI は使っていません。

評価においては、レアジョブテクノロジーズの本ケースではすでに人が実施しているケースの AI への置き換えなので実際の人が作成しているフィードバックを整理し、生成 AI に同様の質問をして遜色ないレベルでの返答ができるかの検証を実施しました。過去に講師が作成したレポートから一部をサンプリングし、生成 AI が生成したレポートと比較して問題がないこと、一部のケースでは人間の講師以上の指摘がなされていることを確認しました

Amazon Bedrock の採択理由

レアジョブ AI レッスンレポートを実現するには、2 つの課題を解決する必要がありました。「多くのトークンを処理でき、高精度に結果を出力できる」「セキュリティ・ガバナンスレベルを下げずに自社顧客に提供できる」です。
前者においては扱われるテキスト量が多く(1 回の処理あたり、2 万から4 万 token を見込んでいた)、また生成結果が間違えて誤った校正をしてしまうリスクも避けるため、多くのトークンを扱える、高性能なモデルが必要でした。Claude は日本語に対応しており、言語・推論・分析・コーディングなどを含む幅広いタスクで優れた性能を発揮する LLM です。Amazon Bedrock ならこの Claude を使うことができます。

後者においてはレアジョブ英会話はすでに多くの顧客がおり、個人だけでなく法人のお客様にも多く利用いただいております。また企業としても情報セキュリティ管理システム ISMS の取得やセキュリティ・個人情報の取り扱いには明確なガイドラインがあり、生成 AI のサービスの導入には細心の注意が必要でした。これに対して Amazon Bedrock によりフルマネージドな 生成AI サービスを AWS で完結して提供でき、この課題を解決できました。Amazon Bedrockのよくある質問 で、入力・出力はAmazon Titanやサードパーティのモデルのトレーニングに利用しないことが明記されています。

利用者からのフィードバック

記事公開時点ではまだβ版ですが AI レッスンレポートを利用したユーザーからは好意的な声が多く寄せられています。以下は寄せられたユーザーからの反応のほんの一部です。「AI はより端的にシンプルにフィードバックをくれるので、講師と AI 双方のフィードバックによるインプットを活用する意義を感じられ、それにより表現の幅が広げられると感じた」「発話スコアはモチベーションが上がりそう」「AI がフィードバックの手数を増やしてくれることで、より適切な表現が文字で明確になり、それを発話し直すことで表現の幅や正確性が増していくと感じました」

まとめ

Amazon Bedrock による英会話レッスンのレポート作成が英会話講師の負担軽減とユーザーの満足度向上につながることを確認できました。AI によるフィードバックの指摘の多さを評価するユーザーの声はまさに AI レッスンレポートを開発した狙いそのものでした。レジョブテクノロジーズは今後、パフォーマンス改善などを行いながらより多くのユーザーに AI レッスンレポートを活用してもらおうと考えています。