AWS Startup ブログ

LLM 社会実装を進める ELYZA 社: AWS Inferentia2 × Speculative Decoding の組み合わせは世界初、約 2 倍の推論速度を実現

「未踏の領域で、あたりまえを創る」という理念のもと、自然言語処理技術の研究開発を行い、企業の大規模言語モデル(以下、LLM)活用の支援や独自 LLM 開発の支援、AI SaaS の開発・提供をしている株式会社ELYZA。同社は単なる技術的な研究のみならず、その技術を「社会実装すること」と徹底的に向き合い、実用化を推進する企業です。

ELYZA 社は 700 億パラメータの日本語 LLM 最新モデル(※)「ELYZA-japanese-Llama-2-70b」を開発し、グローバルモデルに匹敵する性能を達成しました。また、本モデルを含む ELYZA 社の日本語大規模言語モデル群を「ELYZA LLM for JP」シリーズとして提供開始します。それに伴い、チャット形式のデモサイトを公開しました。

ELYZA LLM for JP|デモ版( https://elyza.ai/lp/elyza-llm-for-jp

※取材を実施した 2024 年 5 月時点の最新モデルです。ELYZA 社は 2024 年 6 月には、Llama 3 をベースにした「Llama-3-ELYZA-JP-70B」を公開し、「GPT-4-0613」や「Claude 3 Sonnet」等を超える性能を達成しています。ともない、ELYZA LLM for JP のデモもモデルを刷新しています。

このデモサイトの開発・運用は、アマゾン ウェブ サービス ジャパン合同会社(以下、AWS)のアカウントチームが支援を行っています。今回はこの事例に携わった AWS スタートアップ事業本部 スタートアップアカウントマネージャーの井上 遼とシニア スタートアップ ML ソリューションアーキテクトの針原 佳貴が、ELYZA 社 取締役 CTO の垣内 弘太 氏と ML エンジニアの堀江 伸太朗 氏にお話を伺いました。

研究開発にとどまらず、社会実装を行う

井上:まずは ELYZA 社の事業概要についてご説明いただけますか。

垣内:ELYZA は LLM・生成AI にフォーカスして、その研究開発および社会実装に取り組んでいる会社です。LLM への投資は 2018 年の創業から続けており、2020 年には日本語特化の大規模言語 AI「ELYZA Brain」をリリース。その後は文章要約 AI「ELYZA DIGEST」や AI ライティングツール「ELYZA Pencil」などを出してきました。

2023 年には Llama 2 をベースとしたモデルを公開しています。そして、今回リリースした 700 億パラメータの最新モデル「ELYZA-japanese-Llama-2-70b」では、グローバルモデルに匹敵する性能を実現しました。私たちが重視しているのは、研究開発にとどまらずこれらの技術の社会実装を行うことです。これまでのプロジェクトでも、LLMを活用したアプリケーションを顧客に導入し、企業の業務を数十%効率化するような事例を多く産み出しています。

ELYZA 社 取締役 CTO 垣内 弘太 氏

井上:700 億パラメータの最新モデルを開発し、デモサイトとして公開した経緯について教えてください。

垣内:私たちは常に LLM の精度を改善し続けており、基本的にモデルはパラメータが多くなるほど精度が良くなります。そのため 700 億パラメータのモデルを開発したのですが、これほどパラメータの多いモデルですと相当にスペックの高いマシンでなければ推論時に動かなくなります。「多くの人たちに自社の技術を使ってもらうこと」を私たちは重視しているため、誰でも「ELYZA-japanese-Llama-2-70b」を使えるようにデモサービスを作ったという経緯があります。

井上:昨年の秋くらいの段階で「700 億パラメータのモデルを作って、デモサービスを公開したい」と話されていましたよね。開発スケジュールがタイトで、用意しなければならないマシンリソースも膨大でした。そこで、このプロジェクトを成功させられるように、AWS のアカウントチームとして手厚い体制でご支援させていただきました。

スペックが高く調達が容易な AWS Inferentia2 搭載インスタンス

針原:デモサービスのインフラ環境として、AWS Inferentia2 アクセラレーターを搭載した Amazon EC2 Inf2 インスタンスを使用されていますよね。

堀江:先ほど述べたように、700 億パラメータのモデルを動かせる環境というのは限られています。基本的には、複数のノードを使うか、強力な GPU を積んだマシンを使うかのどちらかしかありません。しかし、GPU の需要は世界的に高まっているので、十分な台数を確保できない懸念がありました。デモサービスに大量のアクセスが来る可能性もありますから、スケールアウトできるようにマシンの調達が容易である必要があります。

ELYZA 社 ML エンジニア 堀江 伸太朗 氏

AWS Inferentia2 は、高いスループットと低いレイテンシーを実現していますし、このアクセラレーターを搭載したインスタンスはキャパシティの観点で簡単に調達できます。比較的安価なコストで、かつ大量にサーバーを準備できるというのは、デモサービスを構築するうえで重要な要素でした。

針原:ELYZA 社の開発するモデルのベースとなっている Llama 2 は、AWS Inferentia2 搭載のインスタンスで動くと発表されているのですが「すべての機能が期待通り動くのか」「コストパフォーマンスは本当に良好なのか」などは、技術検証をしてみなければわからない状況でした。

その課題に対して「ELYZA 社と AWS のアカウントチームとで、力を合わせて検証作業を進めていきましょう」と合意できたのは、大きな決断だったと思います。私たちとしても重要なプロジェクトでしたので、アカウントチームのメンバーに加えて AWS Inferentia2 の開発に携わっているスペシャリストたちも巻き込みながら、進行しました。

AWS シニア スタートアップ ML ソリューションアーキテクト 針原 佳貴

堀江:AWS Inferentia2 は登場して間もないアクセラレーターなので、世の中にあまり資料や先行事例がありません。可能な限りドキュメントを調べつつ研究開発を進めましたが、それでも不明点や意図せぬ挙動などがたくさんありました。

そんなときに、私たちが「こういう環境でこの機能が動かなかったのですが」とラフな質問を AWS の方々に投げかけると「こちらの環境ではこうするとうまくいきました」と、参考にできるような設定やソースコードまで提示してもらえたのが印象的でした。手厚く伴走してくれたので、本当にありがたかったと思っています。

AWS のサポートがデモサービス実現の助けに

井上:私たちのサポートで、他に印象に残っているものはありますか。

AWS スタートアップ事業本部 スタートアップアカウントマネージャー 井上 遼

堀江:たとえば Speculative Decoding の件ですかね。

針原:ありましたね。読者の方々に向けて補足をすると、LLM の領域では Speculative Decoding と呼ばれる手法があります。これを用いると推論の処理を高速化できるのですが、GPU ではこの手法を使えるものの、AWS Inferentia2 で動作するかどうかはわからないという状態でした。

これについて検証したいという話を ELYZA 社から受けて、AWS 社内で確認したところ、「まだ一般公開されていないが、実は機能が実装されている」とわかったのです。AWS Inferentia2 アクセラレーター上で Speculative Decoding を動かすというのは、ELYZA 社が世界で初めての事例になりました。

世界初になったのは、タイミングが良かったのもありますが、やはり御社の技術力が高かったからというのは間違いないです。他社の事例がないなかで、実装を進めてくださいましたから。

堀江:問い合わせをした後に「実はこういう方法で実現できますよ」とサンプルのソースコードを提供してもらったことで、それを参考に実装することができました。elyza/ELYZA-tasks-100 を用いて推論速度の検証をしたところ、平均して、元の推論速度の 2 倍程度まで高速化できました。

この他にも、GPU 上での推論と AWS Inferentia2 上での推論とで出力が大きく異なっており、そのままではリリースできないというかなりクリティカルな事象が発生していたのですが、コンパイラのオプションを調整するといった方法で、解決する手段を一緒に探ってもらえました。

針原:これは AWS Inferentia2 を設計・開発している Annapurna Labs という部隊に所属する常世 大史というソリューションアーキテクトがトラブルシューティングした事例です。

AWS Annapurna Labs ソリューションアーキテクト 常世 大史 (手に持っているのは AWS Inferentia2 のカード)

堀江:この事例では「AWS Inferentia2 でうまくいかない場合のために、GPU を使う選択肢も持っておきましょう」と言ってもらえたのが印象的でした。もし「AWS サービスを使うこと」だけを重視しているならば、GPU を使うという提案は出てこないはずですから。

針原:「技術的に可能かどうかと、ビジネスが成立するかどうかを、常にお客さまの視点で考える」というのが私たち AWS のスタンスです。この事例において、重視すべきは「デモサービスを適切なパフォーマンスやコストで世の中にリリースすること」でした。だからこそ、AWS Inferentia2 にこだわるのではなく、他の選択肢も常に持つよう心がけました。

インタビューでは、SageMaker JumpStart に ELYZA 社のモデルが掲載されていることについても述べられました。「より多くの人々の目に触れることで、社会実装が進んでほしい」と垣内 氏は語ります。

井上:最後に、AWS のサービスやアカウントチームへのご要望はありますか。

垣内:私たちは 700 億パラメータのモデルを作り、デモサービスもリリースしましたから、これからは「いかにしてより多くの方々に使ってもらうか」が重要なフェーズです。LLM を開発する世界各国の企業が「性能を高く、コストは低く、使い勝手は良く」というチャレンジをしており、私たちもそれらの会社と競争していく必要があります。これからも一緒に、そのチャレンジに並走してサポートしてもらえると、とてもありがたいです。