AWS Inferentia | Amazon Web Services ブログ

【開催報告】Neuron Community – Vol.2

2025年7月15日に開催された「Neuron Community – Vol.2」の様子をレポートします。このイベントは、「Neuron Community」の協力のもと開催しました。Neuron Community は、ユーザー間で AWS Trainium / AWS Inferentia エコシステムに関する情報や知見の共有を促進するための場として発足したものです。今回は、AWS Trainium / AWS Inferentia を実際に利用した経験を共有していただき、さらに Amazon EC2 Inf2 インスタンス上で推論サーバーを立ち上げるハンズオンを実施しました。

Amazon の生成 AI 搭載ショッピングアシスタント Rufus を、80,000 以上の AWS AI チップを活用して Prime Day 向けにスケーリング

Amazon Rufus は、生成AIを活用したショッピングアシスタントです。Amazon の商品情報やウェブ上の様々な情報を活用して回答を作成し、お客様のよりスマートなお買い物をサポートします。
この記事では、Rufus が Neuron SDK や Inferentia2、Trainium チップ、そして AWS の各種サービスを活用して、数十億のパラメータを持つ LLM を安定的にデプロイし、運用する方法をご紹介します。

【開催報告】Neuron Community – Day One

2025年4月9日に開催された「Neuron Community – Day One」の様子をレポートします。このイベントは、2025年3月に立ち上げられた「Neuron Community」の協力のもと開催しました。Neuron Community は、ユーザー間で AWS Trainium / Inferentia エコシステムに関する情報や知見の共有を促進するための場として発足したものです。本イベントは、記念すべき第1回目ということで、Day Oneと名付けられています。

【動画公開＆開催報告】クラウド・生成 AI で実現するサステナビリティ

はじめにみなさん、こんにちは。2024 年 9 月 12 日に「クラウド・生成 AI で実現するサステナビリ […]

流通・小売・消費財企業のイノベーションを生成 AI で促進する

生成 AI が流通・小売・消費財業界にもたらす年間付加価値は 4,000 〜 6,600 億 USD と試算さ […]

AWS Trainium、AWS Inferentia が AWS 上の Llama 3.1 モデルに高性能と低コストを提供

本日、AWS Trainium と AWS Inferentia による Llama 3.1 モデルのファインチューニングと推論のサポートを発表できることを嬉しく思います。Llama 3.1 ファミリーは、8B（80億）、70B（700億）、405B（4,050億）サイズの事前学習およびインストラクションチューニング済みの多言語大規模言語モデル（LLM）のコレクションです。
以前の投稿では、Amazon SageMaker JumpStart で AWS Trainium と Inferentia ベースのインスタンスに Llama 3 モデルをデプロイする方法について解説しました。今回の投稿では、AWS AI チップ上でそのコストパフォーマンスの利点と共に Llama 3.1 ファミリーのモデルのファインチューニング及びデプロイを実現する方法について概説します。

Amazon SageMaker JumpStart で ELYZA の日本語 LLM をワンクリックデプロイ

生成 AI アプリケーションの構築には、適切な日本語大規模言語モデル (LLM) の選定と活用が不可欠です。A […]

AWS Trainium を活用した日本語大規模言語モデルの分散学習と AWS Inferentia2 上での推論環境構築

生成 AI の進化を支える大規模言語モデルの開発及び運用に掛かるコスト、計算機リソースの確保は多くの企業が抱える大きな課題です。AWS では機械学習 (ML) アクセラレーターチップ AWS Trainium、AWS Inferentia2 を自社開発し、これらの課題解決に取り組んでいます。（Anthropic では AWS Trainium、Inferentia の活用を表明しています）
本ブログでは、前半で、AWS Trainium 搭載 Amazon EC2 Trn1 インスタンスを活用した日本語大規模言語モデルの開発事例、大規模分散学習の課題及び実現方法について解説します。
ブログ後半では、公開された日本語大規模モデルを Inferentia2 搭載 Amazon EC2 Inf2 インスタンス上で推論実行する方法について、手順を追って解説します。

Amazon EC2 Inf1、Inf2 インスタンスにおける FastAPI と PyTorch モデルの AWS Inferentia 利用時の最適化

深層学習モデルを大規模にデプロイする際には、パフォーマンスとコストのメリットを最大化するために、基盤となるハー […]

generated image of french bulldog, generated with 2.516 seconds on Inferentia 2

AWS Inferentia2 で Stable Diffusion のパフォーマンスを最大化し、推論コストを削減する

基盤モデルは急速に進歩しています。その中でも、Stable Diffusion モデルはテキストの入力から高品 […]

Amazon Web Services ブログ

Category: AWS Inferentia