Amazon Web Services ブログ

大規模モデル推論コンテナを使って AWS Inferentia2 に大規模言語モデルをデプロイ

本稿では、AWS Inferentia2 上で大規模言語モデルをデプロイする方法を解説します。ここでは、AWS Neuron ソフトウェア開発キット (SDK) を使って Inferentia デバイスにアクセスし、その高いパフォーマンスの恩恵を受けます。そして、モデルサービングのソリューションとして、Deep Java Library (DJLServing) を搭載した大規模モデル推論コンテナを使用します。Amazon Elastic Compute Cloud (Amazon EC2) の inf2.48xlarge インスタンスに OPT-13B モデルをデプロイし、これら3つのレイヤーがどのように連携しているかをデモンストレーションします。

Weekly aws Japan edition

週刊AWS – 2023/4/10週

週刊AWS 2023/4/10週号: Amazon Bedrockの限定プレビュー開始、Amazon EC2 Inf2/Trn1nインスタンスの一般利用開始、Amazon CodeWispererの一般利用開始と個人開発者への無料化、などなどを取り上げています

Amazon S3 File Gateway による大規模データ移行とコスト削減

データをクラウドに移行するには、さまざまなタイプのデータ移行経験や、ソースデータ構造やメタデータを保持する仕組みが必要です。お客様はオンプレミスのファイルデータを従来のファイルサーバーに格納する際、データライフサイクル管理等の理由でデータ作成時のタイムスタンプを併せて保持することが多くあります。一方でお客様は、データ構造やメタデータを保持しハイブリッドクラウド構成をサポートするような、クラウドへの移行方法を悩まれているのではないでしょうか。その結果として、お客様はコストやパフォーマンス、スケールなど、クラウドストレージのメリットを最大限享受できなくなります。