Amazon Web Services ブログ

Amazon SageMaker で機械学習の総所有コストを削減し、生産性を向上



機械学習 (ML) モデルの構築、トレーニング、デプロイには多くの選択肢があります。さまざまなクラウドソリューションの財務上の考慮事項を比較検討するには、詳細な分析が必要です。ML ワークフローの各ステップのインフラストラクチャ、運用、およびセキュリティコスト、およびデータサイエンスチームの規模と専門知識を考慮する必要があります。

総所有コスト (TCO) は、多くの場合、ML コストを推定および比較するために使用する財務指標です。この投稿では、ML モデルを構築、トレーニング、デプロイするためのフルマネージド型のサービスである Amazon SageMaker の TCO 分析をご紹介します。調査結果は、3 年間の TCO が、セルフマネージドの Amazon EC2 や AWS マネージドの Amazon EKS などの他のクラウドベースの ML オプションと比較して 54% 低いことを示しています。分析では、5 人のデータサイエンティストの小規模なチームから 250 人のデータサイエンティストの非常に大規模なチームまでをその対象とし、Amazon SageMaker があらゆる規模のチームで優れた TCO を提供することがわかりました。

分析結果

次のテーブルに結果をまとめます。詳細な TCO 分析については、「Amazon SageMakerの総所有コスト」を参照してください。

まとめ

Amazon SageMaker の 3 年間の TCO コストの削減

EC2 との比較

EKS との比較

小規模のシナリオ 5 人のデータサイエンティスト

-90%

-90%

中規模のシナリオ 15 人のデータサイエンティスト

-87%

-85%

大規模のシナリオ 50 人のデータサイエンティスト

-79%

-65%

非常に大規模のシナリオ 250 人のデータサイエンティスト

-77%

-54%

通常、Amazon SageMaker の TCO は EC2 または EKS オプションと比較して最初の年に低くなります。これは、Amazon SageMaker ですぐに使用できるセキュリティとコンプライアンスの構築により多くの費用をかける必要があるためです。Amazon SageMaker のインフラストラクチャの使用を自動的に最適化し、セキュリティとコンプライアンス機能の維持を必要としないため、Amazon SageMaker の TCO は、時間が経過しても大幅に低い状態を保ちます。

TCO 分析では、ML ワークフローの各ステップおよび企業規模 (小規模、中規模、大規模、非常に大規模) のインフラストラクチャ (計算、ストレージ、およびネットワーク)、運用、ならびにセキュリティコストを評価しました。 ML モデルの構築中には、データの調査と前処理、および ML フレームワークとアルゴリズムの実験にコストがかかります。トレーニング中には、トレーニングツールとプロセス、および ML モデルハイパーパラメータの調整にコストがかかります。最後に、ML モデルのデプロイ中には、モデルが見えないデータを推測するためにコストが発生します。ワークフローの各ステップで、分析はエンジニアの雇用コストを考慮します。また、ML ワークフローの 3 つのフェーズすべてにまたがるセキュリティコストも評価します。セキュリティには、ML ワークロードの保護、規制基準への準拠の達成、およびセキュリティとコンプライアンスの継続的な維持のためのコストが含まれます。

ML コストは、選択するモデルのタイプによって異なる場合があります。この TCO 分析は、特定の ML フレームワーク、アルゴリズム、またはモデルに基づくものではありません。代わりに、多くの AWS のお客様の本番環境で見られる ML モデルとディープラーニングモデルの両方の一般的な組み合わせを採用しています。

Amazon SageMaker が強力な TCO を提供できる理由の 1 つとして、フルマネージド型サービスであることが挙げられます。ML をサポートするためのインフラストラクチャまたはツールを構築、管理、または維持する必要はありません。また、Amazon SageMaker は、優れたパフォーマンスと高可用性を実現するために複数のアベイラビリティーゾーン全体に分散する Auto Scaling クラスターでモデルを実行します。使用量に基づいてストレージとネットワークの料金を支払うため、コストが抑制されます。さらに、Amazon SageMaker には ML ワークロードのセキュリティとコンプライアンスが組み込まれているため、追加のセキュリティに投資する必要はありません。

EC2 でセルフマネージドの ML を使用すると、インスタンスの障害からの復旧、パッチ適用、Auto Scaling、必要なセキュリティとコンプライアンスの構築と維持など、EC2 インスタンスのプロビジョニングと管理を行う必要があります。事前に構築された ML フレームワークおよびライブラリで AWS Deep Learning AMI を使用できますが、高いスループットを得るためにデータアクセスを最適化する必要があります。また、スケールの設定を最適化し、分散トレーニングを有効にする必要があります。さらに、ML ワークロードに必要なセキュリティおよびコンプライアンス機能を構築および維持する必要があります。

AWS で管理された Kubernetes を使用すると、EKS などのサービスを使用して、EC2 でコンテナ化されたワークロードを簡単にデプロイ、管理、およびスケーリングできます。ただし、独自のクラスターを管理し、ワークロードのメモリ、コンピューティング、およびネットワーク要件に基づいてパフォーマンスと使用量を調整する追加のコストオーバーヘッドを負担する必要があります。さらに、ML ワークロードに適切なレベルのセキュリティ、コンプライアンス、および可用性を構築する必要があります。

TCO の削減に加えて、Amazon SageMaker の生産性機能を使用すると、ML のアイデアをより迅速に生産に投入し、データサイエンティストの生産性を最大 10 倍向上させることができます。
生産性向上の最も重要なソースの 1 つは、Amazon SageMaker Studio からのものです。
SageMaker Studio は、すべての ML 開発ステップを実行できる単一かつウェブベースのビジュアルインターフェイスを提供します。
SageMaker Studio を使用すると、モデルの構築、トレーニング、デプロイに必要な各ステップへの完全なアクセス、制御、可視性が得られます。
データの迅速なアップロード、新しいノートブックの作成、モデルのトレーニングと調整、実験を調整するためのステップの行き来、結果の比較、モデルの本番環境へのデプロイをすべて 1 か所で行えるため、生産性が大幅に向上します。
統合された SageMaker Studio ビジュアルインターフェイス内で、ノートブック、実験管理、自動モデル作成、デバッグとプロファイリング、モデルドリフト検出など、すべての ML 開発行為を実行できます。

お客様の声

以下では、Amazon SageMaker で生産性を向上させたお客様の声をご紹介します。

Coinbase は、Amazon SageMaker の ML モデルを使用して、不正防止、身元確認、大規模なコンプライアンスを支援します。
Amazon SageMaker を使用することにより、Coinbase は、モデルのトレーニング時間を 20 時間から 10 分に短縮しました。
Intuit は、1 年分の銀行取引を引き出して、顧客の控除可能な事業費用を見つけることができる ML モデルを開発しました。
Amazon SageMaker を使用することにより、Intuit は、ML のデプロイにかかる時間が 6 か月から 1 週間になり、90% の短縮となりました。
Amazon SageMaker を使用して、NuData Security は、匿名化されたユーザーデータを分析し、不正なトランザクションが発生する前に異常なアクティビティを検出することにより、クレジットカードの不正を防ぎます。Amazon SageMaker を使用することにより、NuData は、ML 開発時間を 60% 短縮し、ML アーキテクチャを 95% 簡素化し、大規模な銀行と協力して、銀行の消費者のフリクションの許容範囲内で不正試行トラフィックのほぼ 100% を受動的にブロックしました。
Amazon SageMaker を使用して、Voodoo は、プレーヤーに表示する広告をリアルタイムで決定し、1 日あたり 3,000 万人を超えるユーザーが 1 億回以上エンドポイントを呼び出すことができます。これは 1 日あたり 10 億件近くの予測を表します。AWS の機械学習により、Voodoo は、小規模なチームのサポートを受けて、1 週間もかからずに正確なモデルを本番環境に投入し、さらにチームとビジネスの成長に合わせて継続的に構築しました。
Amazon SageMaker で TensorFlow を使用して、Siemens Financial Services は、重要な情報を抽出する NLP モデルを開発し、投資デューデリジェンスを加速して、デリジェンスに関する文書をまとめる時間を 12 時間から 30 秒に短縮しました。

Celgene は、毒性予測に Amazon SageMaker で Apache MXNet を使用して、患者を危険にさらすことなく、潜在的な薬物の生物学的影響を仮想的に分析します。以前はトレーニングに 2 か月かかっていたモデルが、4 時間でトレーニングできるようになりました。

 

ADP は、Amazon SageMaker などの AWS ML を使用して、従業員のパターンを迅速に特定し、従業員の離職や報酬の増加の影響などの発生前にその結果をすばやく予測します。ADP は、ML モデルをデプロイする時間を 2 週間からたった 1 日に短縮しました。

まとめ

Amazon SageMaker は、モデルを大規模に構築、トレーニング、調整、およびデプロイすることができるフルマネージド型の ML サービスです。Amazon SageMaker の 3 年間の総所有コストは、他のクラウドオプションと比較して 54% を超えて低いものとなっており、開発者の生産性は最大 10 倍になります。

詳細な TCO 分析については、「Amazon SageMakerの総所有コスト」を参照してください。

Amazon SageMaker のメリットを直接体験できます!
Amazon SageMaker コンソールにログインして開始します。


著者について

Kimberly Madia は、AWS Machine Learning のプリンシパルプロダクトマーケティングマネージャです。彼女の目標は、Amazon SageMaker を使用してお客様が機械学習モデルを簡単に構築、トレーニング、デプロイできるようにすることです。仕事以外の楽しみとして、Kimberly は料理、読書、そしてサンフランシスコのベイトレイルを走るのが好きです。