Amazon Web Services ブログ
Category: AWS Inferentia
Amazon EC2 Inf1、Inf2 インスタンスにおける FastAPI と PyTorch モデルの AWS Inferentia 利用時の最適化
深層学習モデルを大規模にデプロイする際には、パフォーマンスとコストのメリットを最大化するために、基盤となるハー […]
AWS Inferentia2 で Stable Diffusion のパフォーマンスを最大化し、推論コストを削減する
基盤モデルは急速に進歩しています。その中でも、Stable Diffusion モデルはテキストの入力から高品 […]
Amazon SageMaker 上で AWS Inferentia2 と AWS Trainium を使って、低コストで高性能な生成系 AI 推論を実現
2023年5月4日、Amazon SageMaker が AWS Inferentia2 (ml.inf2) と AWS Trainium (ml.trn1) ベースの SageMaker インスタンスをサポートして、リアルタイムおよび非同期推論のための生成系 AI モデルをホストすることを発表しました。この記事では、大規模モデル推論 (LMI) コンテナを活用して、SageMaker を使用して AWS Inferentia2 に大規模な言語モデルをデプロイするプロセスを示します。
AWS Week in Review: 生成系 AI と Amazon EC2、Trn1n、Inf2、CodeWhisperer 向けの新サービスが現在一般公開中 – 2023 年 4 月 17 日
このブログ記事のタイトルは、ほぼ「AWS AI/ML Week in Review」と言えるかもしれません。 […]
大規模モデル推論コンテナを使って AWS Inferentia2 に大規模言語モデルをデプロイ
本稿では、AWS Inferentia2 上で大規模言語モデルをデプロイする方法を解説します。ここでは、AWS Neuron ソフトウェア開発キット (SDK) を使って Inferentia デバイスにアクセスし、その高いパフォーマンスの恩恵を受けます。そして、モデルサービングのソリューションとして、Deep Java Library (DJLServing) を搭載した大規模モデル推論コンテナを使用します。Amazon Elastic Compute Cloud (Amazon EC2) の inf2.48xlarge インスタンスに OPT-13B モデルをデプロイし、これら3つのレイヤーがどのように連携しているかをデモンストレーションします。
低コストで高性能な生成系 AI 推論用の Amazon EC2 Inf2 インスタンスが一般公開されました
深層学習 (DL) のイノベーション、特に大規模言語モデル (LLM) の急速な成長は、業界を席巻しました。D […]
ByteDance が AWS Inferentia の利用により、推論におけるレイテンシの削減とスループットの向上とともに、最大で60%のコスト削減を実現
この記事は、 “ByteDance saves up to 60% on inference co […]
Amazon Search がAWS Inferentiaで検索システムのコストを85%削減
この記事は How Amazon Search reduced ML inference costs by 8 […]
独自設計チップ AWS Trainium 搭載 Amazon EC2 Trn1 インスタンスで ML トレーニングを高速実行(実践編)
こんにちは!アマゾン ウェブ サービス ジャパン合同会社 アンナプルナラボの常世です。 2022 年 10 月 […]
【開催報告】「AWS 秋の Amazon EC2 Deep Dive 祭り 2022」セミナー
ソリューションアーキテクトの渡辺です。2022年10月13日に「AWS 秋の Amazon EC2 Deep […]