学ぶ
スタートアップが AWS Inferentia を使用して AI/ML のコストを削減し、イノベーションを起こす方法

スタートアップが AWS Inferentia を使用して AI/ML のコストを削減し、イノベーションを起こす方法

このコンテンツはいかがでしたか?

機械学習 (ML) のスタートアップであれば、ML モデルのトレーニングとアプリケーションへの導入 (「ML 製品化」) に伴う課題をご存知でしょう。スタートアップは、競争力があり持続可能なスタートアップを構築しながら、高いアプリケーションパフォーマンスの実現、快適なユーザーエクスペリエンスの構築、コストの効率的な管理を同時に行っているため、ML の製品化は困難と言えます。

ML ワークロードのインフラを選択する際、スタートアップはトレーニングと推論にどのようにアプローチするのが最適かを検討する必要があります。トレーニングとは、既存のデータから学習することによってモデルを構築し、特定のタスクのために調整するプロセスです。推論とは、新しい入力データに基づいて予測を行うためにそのモデルを使用するプロセスです。過去 5 年間、AWS では ML ワークロードのパフォーマンスと計算コストの限界を押し上げるために、独自の専用アクセラレーターへの投資を行ってきました。AWS Trainium と AWS Inferentia アクセラレータを使用すると、クラウドでのモデルのトレーニングと推論の実行にかかるコストを最小限に抑えることができます。

AWS Inferentia ベースの Amazon EC2 Inf1 インスタンスは、以下のような ML 推論アプリケーションを実行したいスタートアップに最適です。

検索
レコメンデーションエンジン
コンピュータビジョン
音声認識
自然言語処理 (NLP)
パーソナライゼーション
不正検出

生成 AI モデル (大規模言語モデルや拡散モデル) などのより複雑なモデルをトレーニングしてデプロイする場合、スタートアップでは、新しい AWS Trainium ベースの Amazon EC2 Trn1 インスタンスと AWS Inferentia2 ベースの Amazon EC2 Inf2 インスタンスをお勧めします。

この投稿では、2 つのスタートアップ、Actuate と Finch Computing でのユースケースと、両社が Inferentia を搭載した Inf1 インスタンスを利用して成功した事例をご紹介します。

Actuate | リアルタイム AI ビデオ分析による脅威検知 | 推論コストを 91% 削減

ユースケース: Actuate では、さまざまなカメラをリアルタイムの脅威検知用スマートカメラに変換し、銃や侵入者、群衆、徘徊などを瞬時に正確に検知する SaaS (Software-as-a-Service) プラットフォームを提供しています。Actuate のソフトウェアプラットフォームは、既存のビデオカメラシステムに統合し、高度なセキュリティシステムを構築します。Actuate の人工知能 (AI) 脅威検出ソフトウェアを使用すると、ユーザーは数秒以内にリアルタイムのアラートを受け取り、敷地内の安全を確保するために迅速に行動することができます。

機会: 高い検出精度を確保するにはアクチュエータが必要です。そのため、より多くのデータを使用してモデルを絶えず再トレーニングする必要があり、デベロッパーの貴重な時間を浪費していました。さらに、迅速な応答時間が必要だったため、大規模化すると莫大なコストがかかる GPU ベースのインフラストラクチャに依存していました。リソースが限られているスタートアップにとって、推論コストとデベロッパーの作業時間を最小化することは、Actuate がより良い機能を構築し、エンドユーザーにより多くの価値を提供するためにリソースを使用するのにひと役買うことにつながります。

ソリューションとインパクト: まず、Actuate では Amazon SageMaker を実装してモデルのトレーニングとデプロイを行いました。これにより、ラベル付けされたデータからデプロイされたモデルまでのデプロイ時間が 4 週間から 4 分へと短縮されました。次のフェーズでは、製品スイート全体の ML モデルを GPU ベースのインスタンスから AWS Inferentia ベースの Inf1 インスタンスに移行しました。この移行では、アプリケーションコードを書き直す必要がなく、数行のコード変更だけで済むため、デベロッパーの関与は最小限で済みました。Actuate では、AWS Inferentia を使用することで、追加設定なしで最大 70% のコスト削減を実現しました。さらに最適化を進めることで、推論コストを 91% 削減しました。これにより、リソースを使ってユーザーエクスペリエンスの向上と基礎的な AI 研究に集中できるようになりました。

リソース: Actuate のユースケースの詳細については、reInvent でのプレゼンテーションをご覧ください。Inf1 インスタンスでコンピュータビジョンモデルを使い始めるには、Neuron ドキュメントページにアクセスして、GitHub にある Yolov5 モデル用のノートブックをご覧ください。

Finch Computing | 情報資産に関する NLP によるリアルタイムインサイト | 推論コストを 80% 節約

ユースケース: Finch - 「Find (見つける)」と「Search (検索)」を組み合わせた造語 - Computing では、メディア企業やデータアグリゲーター、米国の諜報機関や政府機関、金融サービス企業にサービスを提供しています。Finch の製品は自然言語処理 (NLP) アルゴリズムを使用して、さまざまな情報資産にわたる膨大な量のテキストデータに対する実用的なインサイトを提供しています。その一例がセンチメントアサインメントで、あるコンテンツをポジティブ、ネガティブ、ニュートラルと識別し、そのセンチメントのレベルとタイプを示す数値スコアを返します。

機会: 製品にオランダ語のサポートを追加した後、Finch Computing では、フランス語、ドイツ語、スペイン語、そしてその他の言語をサポートするようにさらに拡張したいと考えていました。これにより、既存のクライアントがこれらの言語でコンテンツを提供できるようになるだけでなく、ヨーロッパ全域で新規ユーザーを引き付けることができるようになります。Finch Computing では独自の深層学習翻訳モデルを GPU 上に構築して導入していましたが、他の言語をサポートするには非常にコストがかかりました。そこで同社では新しい言語モデルを迅速かつコスト効率よく構築して実行できる代替ソリューションを探していました。

ソリューションと影響: Finch Computing では、わずか数か月で、コンピューティング負荷の高い変換モデルを GPU ベースのインスタンスから AWS Inferentia が機能する Amazon EC2 Inf1 インスタンスに移行しました。Inf1 インスタンスは GPU と同じスループットを実現しましたが、Finch のコストを 80% 以上節約できました。Finch Computing では、さらに 3 つの言語をサポートし、新規ユーザーを獲得しました。現在、すべての翻訳モデルが Inf1 で実行されており、テキストの要約や見出しの生成といった新しい生成 AI のユースケース向けに Inf2 インスタンスを検討する予定です。

リソース: Finch Computing のユースケースの詳細については、このケーススタディをご覧ください。翻訳モデルを使い始めるには、Neuron ドキュメントページにアクセスして、GitHub にある MarianMT モデル用のノートブックをご覧ください。

コスト効率とパフォーマンスの高い ML 推論を可能にする AWS Inferentia

このブログでは、高スループットと低レイテンシーを実現しながら、コスト効率の高い方法で ML モデルを AWS Inferentia の本番環境にデプロイした 2 つのスタートアップについて取り上げました。

Inf1 インスタンスを使い始める準備はできていますか? AWS Neuron SDK では、PyTorch や TensorFlow のような一般的な ML フレームワークとネイティブに統合できます。方法について詳しくは、Neuron ドキュメントページを参照し、GitHub にあるサンプルモデルリポジトリをご覧ください。

多くの AIML スタートアップが AWS でどのように構築およびスケーリングしているかをご覧ください🚀

Shruti Koparkar

Shruti Koparkar は AWS の Senior Product Marketing Manager です。お客様が自社の機械学習のニーズに合わせて Amazon EC2 アクセラレーテッドコンピューティングインフラストラクチャを探索、評価、導入するのをサポートしています。

このコンテンツはいかがでしたか?