AWS Startup ブログ

IQよりEQを重視したLLM。応答速度・コスト・運用効率すべてを高水準に保つSpiralAIの知見

近年、生成 AI を活用したプロダクトが急速に普及しています。この技術の進化は、企業が従来のビジネスモデルを刷新し、新しい価値を創出するための原動力となっており、多くの企業がその可能性に着目して試行錯誤を続けています。

そんな潮流のなか、生成 AI を用いて「人間らしさ」を追求する企業が Spiral.AI株式会社です。人間の個性やその人らしい考え方・主義・主張、癖などが再現された AI を作成しており、2024 年 8 月には、身近な友達のように恋愛相談をし続けられるAIオリジナルキャラクター「ククリさま」をリリースしました。

今回は同社の開発ノウハウや AWS の活用方法について、アマゾン ウェブ サービス ジャパン合同会社(以下、AWS ジャパン)スタートアップ事業本部 アカウントマネージャーの堀田 知也とシニア スタートアップ ML ソリューションアーキテクトの針原 佳貴、AWS Annapurna Labs シニアソリューションアーキテクトの常世 大史がインタビューを実施。SpiralAI 代表取締役の佐々木 雄一 氏と過去に AWS re:Invent での登壇経験もあるエンジニアの安立 健人 氏にお話を伺いました。

IQではなくEQを重視したプロダクト

堀田:貴社の事業内容についてお話しください。

SpiralAI 代表取締役 佐々木 雄一 氏

佐々木:SpiralAI は 2023 年 3 月に創業したスタートアップ企業で、大規模言語モデル(以下、LLM)を活用したビジネスを展開しています。弊社は「IQ より EQ」という標語を掲げ、人間に寄り添うような LLM の使い方を模索しています。AI と音声・テキストでの対話を楽しめるプロダクト、たとえば「Naomi.AI」や「AI 野々村真」、そして今回詳しく紹介する「ククリさま」などを提供しています。

「ククリさま」は 2024 年 8 月にローンチした、身近な友達のように恋愛相談をし続けられる AI オリジナルキャラクターです。他の企業が提供している対話 AI サービスの多くは、何かの質問をしても機械的・事務的な回答しか返ってきません。ですが、「ククリさま」は「楽しく会話をすること」を重視して開発されたプロダクトであり、まるで人間と雑談をするような体験ができます。また、自分のことを「ワシ」、相手のことを「うぬ」と呼ぶなど、個性的な口調のキャラクターであることも「ククリさま」の大きな特徴です。

「ククリさま」の特徴的な日本語表現を実現するためにオープンソースの日本語 LLM を活用しており、かつ円滑な会話を実現するためにパフォーマンス最適化の工夫も施しました。

自然な対話を実現するにはレスポンス速度が重要

堀田:具体的には、「ククリさま」の技術面でどのような工夫をされていますか。

安立:まずはレスポンス速度の向上についてお話しさせてください。多くの対話 AI では、人間が話をした後に AI がその内容を解析して応答するため、返事をするのに数秒くらいのタイムラグが発生します。しかし、この待ち時間があると会話が楽しめなくなってしまうため、「ククリさま」では「待ち時間が発生せず、本当に人と話している感覚になれるような応答の速さ」を追求しました。

「ククリさま」の処理には大きく分けると、「人間が話した言葉を書き起こす処理」「LLM で文章を生成する処理」「生成された文章を合成音声で読み上げる処理」があり、それぞれで技術的なこだわりがあります。

SpiralAI エンジニア 安立 健人 氏

「人間が話した言葉を書き起こす処理」については、人間の発話がすべて終わってから内容を解析しても遅いので、リアルタイムで音声データをストリーミング処理しています。「LLMで文章を生成する処理」では、ベースのモデルにサイバーエージェント社が開発した CALM2 を採用しています。このモデルはトークナイザーが日本語の取り扱いに特化しており、他のモデルと比較して、より少ないトークン数で文章を処理でき、処理効率が良くなります。

また、より柔軟性の高い日本語をより少ないトークン数で表現するために、私たちは自社の事前学習済みモデルの開発を進めているところです。ゆくゆくは「ククリさま」の裏側で使用するモデルのベースを、CALM2 から自社開発のモデルに置き換えていく構想があります。

常世:モデルの性能を良くしようとすると、一般的にはモデルのパラメータサイズを大きくすることになります。しかし、「ククリさま」では 70 Billion (B) ではなく 7B のモデルを使っているそうですが、その意図についてもお聞かせいただけますか。

安立:おっしゃる通りで、過去には 70B のモデルを使った検証も実際に行いました。ですが、推論に時間がかかったり、高スペックなインスタンスが複数台必要になったりという課題を解消できませんでした。

私たちが追求したいのは「IQ よりも EQ」なので、高度な回答を返すよりも楽しい会話をスピーディーにできることを重視しています。そのため、より高速にレスポンスを返すことができ、かつコストも抑えられるほうが良いだろうと判断し、パラメータサイズの小さいモデルを使用しています。

AWS ジャパン スタートアップ事業本部 シニア スタートアップ ML ソリューションアーキテクト 針原 佳貴

「適材適所」のインスタンス活用

針原:「人間が話した言葉を書き起こす処理」「LLMで文章を生成する処理」「生成された文章を合成音声で読み上げる処理」それぞれを、どのようなインスタンスで動かしていますか。

安立:書き起こしについては、NVIDIA A10G Tensor Core GPU ベースである Amazon EC2 G5 インスタンスを用いています。書き起こし処理の速度はユーザー体験に直結するため、高性能な GPU を搭載しておりパフォーマンスに優れたこのインスタンスが適していました。

文章生成処理については、AWSによって設計された第 2 世代の AWS Inferentia チップである AWS Inferentia2 を搭載した Amazon EC2 Inf2 インスタンスを使用しています。このインスタンスは生成 AI モデル向けに、推論コストを抑えつつ高いパフォーマンスを実現してくれます。音声合成の部分は、コストを下げつつ高速に応答することを目指して、コストパフォーマンスに優れた Amazon EC2 G5g インスタンスを活用しています。

常世:Amazon EC2 G5g インスタンスは、 NVIDIA T4G Tensor Core GPU と AWSによって設計されたAWS Graviton2 プロセッサを搭載したコスト効率の良いインスタンスです。GravitonプロセッサはArm ベースであるため、この環境上でうまく動作しない AI・機械学習系のライブラリ・フレームワークもあったのではないかと思いますが、いかがでしょうか。

安立:その通りで、そのままではうまく動かないライブラリ・フレームワークもあったため、自分たちで Arm 版の AMI 作成も行うことで、この課題を解決しました。もともと、検証段階では NVIDIA T4 GPU を搭載した Amazon EC2 G4 インスタンスを使えば私たちの求める性能が出ることはわかっていたのですが、このインスタンスを使うとコストが割高になってしまいます。

そこで、技術的難易度は高くなりますが、私たちの技術力であれば Arm ベース CPU 固有の問題もクリアできると思ったため、Amazon EC2 G5g インスタンスを使用することでコスト削減を実現しました。

AWS Annapurna Labs シニアソリューションアーキテクト 常世 大史

運用や費用も考えた技術選定を

常世:「特定インスタンス上で動かす」というテーマに関連すると、SpiralAI 社では AWS Neuron を使われていることも特徴です。これは AWS Trainium と AWS Inferentia アクセラレーター上の機械学習を最適化する SDK であり、うまく活用することで開発効率向上や性能向上、コスト削減などにつながりますが、使いこなすために学習も必要になります。この SDK についてはどのようにお考えですか。

安立:私たちが大切にしているポリシーとして「サービスを世の中に届けてユーザーの方々に使っていただくこと」があります。インフラにかかる費用をなるべく抑えて安価にサービスを提供しなければ、その目的を実現することは難しいです。

だからこそ、なるべくコスト効率に優れたインスタンスを使うことは必須でしたし、AWS Neuron SDK を使わない選択肢は考えませんでした。また、私は Amazon EC2 Inf1 の世代からインスタンスを利用しており、AWS Neuron コンパイラやランタイムの挙動なども深く理解していましたので、特段不安はありませんでした。

針原:後々の運用やかかるコストまで考えたうえで方針を選ぶのが重要だということですよね。それに、AWS Neuron SDK がサポートしているモデルというのは「AWS が重要度の高いモデルだと認識しており、グローバルスタンダード」とも言えると思うので、そのメインストリームに乗ることは賢い選択だと思います。

安立:それから、インフラコストだけではなく運用コストを下げるために、AWS Deep Learning Containers を導入しています。私たちはスタートアップであり運用に時間を割けるエンジニアもそれほど多いわけではないので、最新バージョンの深層学習フレームワークでプリインストール・テストされた Docker イメージをそのまま使えるのは運用がかなり楽になっていますね。

AIを社会実装し、より多くの方々に活用していただく

AWS ジャパン スタートアップ事業本部 アカウントマネージャー 堀田 知也(写真右

堀田:今後の事業や技術などの構想をお聞かせください。

佐々木:今回、「ククリさま」をローンチしたわけですが、これと同様に AI によるキャラクター作成を積極的に行いたいと考えています。自社での企画を行うことに加えて、他社さまでそういったニーズをお持ちの企業があればぜひお声がけいただきたいです。

安立:EQ に特化した LLM を実現するため、モデルをさらに改善していきたいと考えています。そのためにいろいろな試みを行っており、今回も応答速度の話などをしましたが、まだまだ改善すべき点もあります。たとえば、複数の人が同時に話したときに内容をうまく識別できないとか、あえて婉曲的な表現を用いるような「空気を読む」回答ができないなどの課題があります。それらを実現していきたいですし、私たちの取り組みに興味のある方々にはぜひ仲間に加わっていただきたいです。