Amazon Web Services ブログ
Tag: AWS Inferentia
AWS Trainium、AWS Inferentia が AWS 上の Llama 3.1 モデルに高性能と低コストを提供
本日、AWS Trainium と AWS Inferentia による Llama 3.1 モデルのファインチューニングと推論のサポートを発表できることを嬉しく思います。Llama 3.1 ファミリーは、8B(80億)、70B(700億)、405B(4,050億)サイズの事前学習およびインストラクションチューニング済みの多言語大規模言語モデル(LLM)のコレクションです。
以前の投稿では、Amazon SageMaker JumpStart で AWS Trainium と Inferentia ベースのインスタンスに Llama 3 モデルをデプロイする方法について解説しました。今回の投稿では、AWS AI チップ上で そのコストパフォーマンスの利点と共に Llama 3.1 ファミリーのモデルのファインチューニング及びデプロイを実現する方法について概説します。
AWS Trainium を活用した日本語大規模言語モデルの分散学習と AWS Inferentia2 上での推論環境構築
生成 AI の進化を支える大規模言語モデルの開発及び運用に掛かるコスト、計算機リソースの確保は多くの企業が抱える大きな課題です。AWS では機械学習 (ML) アクセラレーターチップ AWS Trainium、AWS Inferentia2 を自社開発し、これらの課題解決に取り組んでいます。(Anthropic では AWS Trainium、Inferentia の活用を表明しています)
本ブログでは、前半で、AWS Trainium 搭載 Amazon EC2 Trn1 インスタンスを活用した日本語大規模言語モデルの開発事例、大規模分散学習の課題及び実現方法について解説します。
ブログ後半では、公開された日本語大規模モデルを Inferentia2 搭載 Amazon EC2 Inf2 インスタンス上で推論実行する方法について、手順を追って解説します。
AWS Inferentia と AWS Trainium を用いた、AWS SageMaker JumpStart によるコスト最適化された Llama 2 モデルのファインチューニングとデプロイ
この記事は、Fine-tune and deploy Llama 2 models cost-effectiv […]
Amazon EC2 Inf1、Inf2 インスタンスにおける FastAPI と PyTorch モデルの AWS Inferentia 利用時の最適化
深層学習モデルを大規模にデプロイする際には、パフォーマンスとコストのメリットを最大化するために、基盤となるハー […]
ByteDance が AWS Inferentia の利用により、推論におけるレイテンシの削減とスループットの向上とともに、最大で60%のコスト削減を実現
この記事は、 “ByteDance saves up to 60% on inference co […]
Exafunction で AWS Inferentia による機械学習推論のベストプライス・パフォーマンスを実現
この記事は、 Exafunction supports AWS Inferentia to unlock be […]
独自設計チップ AWS Trainium 搭載 Amazon EC2 Trn1 インスタンスで ML トレーニングを高速実行(実践編)
こんにちは!アマゾン ウェブ サービス ジャパン合同会社 アンナプルナラボの常世です。 2022 年 10 月 […]
【開催報告】「AWS 秋の Amazon EC2 Deep Dive 祭り 2022」セミナー
ソリューションアーキテクトの渡辺です。2022年10月13日に「AWS 秋の Amazon EC2 Deep […]
独自設計チップ AWS Trainium 搭載 Amazon EC2 Trn1 インスタンスで ML トレーニングを高速実行(基礎編)
こんにちは!アマゾン ウェブ サービス ジャパン合同会社 アンナプルナラボの常世です。 アンナプルナラボって何 […]
AWS CDK で作る AWS Inferentia と Amazon ECS を利用した推論環境(Part 2)
目次 事前準備 AWS Inferentia の制約を考慮した スケールする Amazon ECS を設計する […]