AWS Inferentia | Amazon Web Services ブログ

AWS Trainium、AWS Inferentia が AWS 上の Llama 3.1 モデルに高性能と低コストを提供

本日、AWS Trainium と AWS Inferentia による Llama 3.1 モデルのファインチューニングと推論のサポートを発表できることを嬉しく思います。Llama 3.1 ファミリーは、8B（80億）、70B（700億）、405B（4,050億）サイズの事前学習およびインストラクションチューニング済みの多言語大規模言語モデル（LLM）のコレクションです。
以前の投稿では、Amazon SageMaker JumpStart で AWS Trainium と Inferentia ベースのインスタンスに Llama 3 モデルをデプロイする方法について解説しました。今回の投稿では、AWS AI チップ上でそのコストパフォーマンスの利点と共に Llama 3.1 ファミリーのモデルのファインチューニング及びデプロイを実現する方法について概説します。

Amazon SageMaker JumpStart で ELYZA の日本語 LLM をワンクリックデプロイ

生成 AI アプリケーションの構築には、適切な日本語大規模言語モデル (LLM) の選定と活用が不可欠です。A […]

AWS Trainium を活用した日本語大規模言語モデルの分散学習と AWS Inferentia2 上での推論環境構築

生成 AI の進化を支える大規模言語モデルの開発及び運用に掛かるコスト、計算機リソースの確保は多くの企業が抱える大きな課題です。AWS では機械学習 (ML) アクセラレーターチップ AWS Trainium、AWS Inferentia2 を自社開発し、これらの課題解決に取り組んでいます。（Anthropic では AWS Trainium、Inferentia の活用を表明しています）
本ブログでは、前半で、AWS Trainium 搭載 Amazon EC2 Trn1 インスタンスを活用した日本語大規模言語モデルの開発事例、大規模分散学習の課題及び実現方法について解説します。
ブログ後半では、公開された日本語大規模モデルを Inferentia2 搭載 Amazon EC2 Inf2 インスタンス上で推論実行する方法について、手順を追って解説します。

Amazon EC2 Inf1、Inf2 インスタンスにおける FastAPI と PyTorch モデルの AWS Inferentia 利用時の最適化

深層学習モデルを大規模にデプロイする際には、パフォーマンスとコストのメリットを最大化するために、基盤となるハー […]

generated image of french bulldog, generated with 2.516 seconds on Inferentia 2

AWS Inferentia2 で Stable Diffusion のパフォーマンスを最大化し、推論コストを削減する

基盤モデルは急速に進歩しています。その中でも、Stable Diffusion モデルはテキストの入力から高品 […]

Amazon SageMaker 上で AWS Inferentia2 と AWS Trainium を使って、低コストで高性能な生成系 AI 推論を実現

2023年5月4日、Amazon SageMaker が AWS Inferentia2 (ml.inf2) と AWS Trainium (ml.trn1) ベースの SageMaker インスタンスをサポートして、リアルタイムおよび非同期推論のための生成系 AI モデルをホストすることを発表しました。この記事では、大規模モデル推論 (LMI) コンテナを活用して、SageMaker を使用して AWS Inferentia2 に大規模な言語モデルをデプロイするプロセスを示します。

AWS Week in Review: 生成系 AI と Amazon EC2、Trn1n、Inf2、CodeWhisperer 向けの新サービスが現在一般公開中 – 2023 年 4 月 17 日

このブログ記事のタイトルは、ほぼ「AWS AI/ML Week in Review」と言えるかもしれません。 […]

大規模モデル推論コンテナを使って AWS Inferentia2 に大規模言語モデルをデプロイ

本稿では、AWS Inferentia2 上で大規模言語モデルをデプロイする方法を解説します。ここでは、AWS Neuron ソフトウェア開発キット (SDK) を使って Inferentia デバイスにアクセスし、その高いパフォーマンスの恩恵を受けます。そして、モデルサービングのソリューションとして、Deep Java Library (DJLServing) を搭載した大規模モデル推論コンテナを使用します。Amazon Elastic Compute Cloud (Amazon EC2) の inf2.48xlarge インスタンスに OPT-13B モデルをデプロイし、これら3つのレイヤーがどのように連携しているかをデモンストレーションします。

低コストで高性能な生成系 AI 推論用の Amazon EC2 Inf2 インスタンスが一般公開されました

深層学習 (DL) のイノベーション、特に大規模言語モデル (LLM) の急速な成長は、業界を席巻しました。D […]

ByteDance が AWS Inferentia の利用により、推論におけるレイテンシの削減とスループットの向上とともに、最大で60%のコスト削減を実現

この記事は、 “ByteDance saves up to 60% on inference co […]

Category: AWS Inferentia