投稿日: Nov 12, 2021
本日、Amazon SageMaker の NVIDIA Triton™ Inference Server を発表します。NVIDIA Triton をモデルサーバーとして選択したお客様は、SageMaker にコンテナを持ち込み、大規模にデプロイすることができます。
NVIDIA Triton は、PyTorch、TensorFlow、XGBoost、ONNX など、複数の機械学習フレームワークでトレーニングした機械学習モデルを実行するオープンソースのモデルサーバーです。Triton は拡張可能なサーバーであり、デベロッパーは特定のフォーマットでリクエストを受信するフロントエンドや、追加のモデル実行ランタイムを処理できる新しいバックエンドを追加することができます。AWS は NVIDIA と密接に連携して、SageMaker のホストコンテナと互換性のある新しい Triton フロントエンドと、SageMaker Neo のコンパイルモデルと互換性のある新しいバックエンドを追加しました。その結果、お客様は Triton を使ったモデルを含むカスタムコンテナを簡単に構築して、SageMaker に持ち込むことができます。SageMaker インターフェイスは、リクエストを処理し、使用量の増加に応じてコンテナを自動的にスケールすることで、Triton on AWS でモデルデプロイを容易に行うことができます。