Amazon SageMaker HyperPod のお客様
あらゆる規模のトップの AI スタートアップや組織が、SageMaker HyperPod で規模応じて基盤モデルのトレーニングとデプロイをに行っています
-
Hugging Face
Hugging Face は SageMaker HyperPod を使って StarCoder、IDEFICS、Zephyr のような重要な新しいオープンファンデーションモデルを作成してきました。これらのモデルは何百万回もダウンロードされています。SageMaker HyperPod の専用設計の耐障害性とパフォーマンス機能により、当社のオープンサイエンスチームは、インフラストラクチャの管理ではなく、基盤モデルの構築方法に関する重要な改善点の革新と公開に集中できるようになりました。特に、SageMaker HyperPod が ML ハードウェアの障害を検出し、進行中のモデルトレーニングを中断することなく、障害のあるハードウェアをすばやく交換できる点が気に入りました。私たちのチームは迅速にイノベーションを起こす必要があるため、この自動ジョブ回復機能により、基盤モデルのトレーニングプロセスの中断を最小限に抑え、わずか 1 年で数百時間のトレーニング時間を節約できました。
Hugging Face、製品責任者、Jeff Boudier 氏 -
Perplexity AI
高性能の大規模言語モデルを構築するために、生産性を高め、コストを削減するための適切な ML インフラストラクチャを探していました。いくつかの実験を成功させた後、Amazon SageMaker HyperPod を使用するために他のクラウドプロバイダーから AWS に切り替えました。私たちは過去 4 か月間、HyperPod を使用して LLM の構築と微調整を行ってきました。これにより、引用形式で提供される参考文献とともに質問に回答する Perplexity の会話型回答エンジンが強化されます。SageMaker HyperPod はクラスターの状態を自動的に監視し、GPU 障害を修正するため、開発者は基盤となるインフラストラクチャの管理と最適化に時間を費やすことなく、モデル構築に集中できます。SageMaker HyperPod の組み込みデータおよびモデル並列ライブラリは、GPU でのトレーニング時間を最適化し、トレーニングスループットを倍増させるのに役立ちました。その結果、今では、トレーニングを 2 倍の速さで実行できています。つまり、イテレーション期間が短縮されるため、顧客向けの新しい生成 AI 体験をより迅速に開発できるのです。
Perplexity AI、共同創設者兼 CEO、Aravind Srinivas 氏 -
Articul8 AI
Amazon SageMaker HyperPod タスクガバナンスは、さまざまなチームとプロジェクトで GPU の使用率を最大化するのに役立ちます。急成長中の生成 AI スタートアップである Articul8 AI は、アクセラレーテッドコンピューティングリソースを可能な限り効率的に割り当てるために、コンピューティング環境を常に最適化しています。SageMaker HyperPod のタスクの優先順位付けとリソース割り当ての自動化により、GPU の使用率が劇的に高まり、アイドル時間が短縮され、トレーニングやファインチューニングから推論に至るまでのタスクを最適化することでモデル開発プロセスが加速しました。リソースを優先度の高いタスクに自動的にシフトする機能により、チームの生産性が高まり、これまでにない速さで新しい生成 AI イノベーションを市場に投入できるようになりました。
Amazon SageMaker HyperPod は、ダウンタイムを最小限に抑えながら、計算リソースをより効率的に管理および運用するのに大いに役立っています。当社は Slurm ベースの HyperPod サービスのアーリーアダプターであり、その使いやすさと回復力の恩恵を享受した結果、生産性が最大 35% 向上し、生成 AI の運用を急速にスケールアップできました。Kubernetes を利用する企業として、SageMaker HyperPod の Amazon EKS サポートの開始を心より歓迎します。これは当社にとって画期的な出来事です。なぜなら、同サービスは当社の既存のトレーニングパイプラインとシームレスに統合し、大規模な Kubernetes クラスターの管理と運用をさらに容易にしてくれるからです。さらに、この機能を当社の生成 AI プラットフォームにパッケージ化および製品化できるようになったため、エンドカスタマーも恩恵を享受できます。これにより、お客様は、より合理化された態様で独自のトレーニングとファインチューニングのワークロードを実行できます。
Articul8 AI、創業者兼 CEO、Arun Subramaniyan 氏 -
Thomson Reuters
世界的な AI およびコンテンツドリブンテクノロジー企業である Thomson Reuters は、ワークロードの優先順位付けに関する重要な課題に対処するために、Amazon SageMaker HyperPod タスクガバナンス機能をテストしてきました。タスクガバナンスにより、推論リクエストなどの顧客のワークロードを自社独自の進行中のモデル開発プロジェクトと並行して管理できるようになり、社内の研究を中断することなく緊急の顧客リクエストを優先できるようになり、リソースの利用率と顧客満足度が高まりました。Thomson Reuters Labs の Distinguished Engineer である John Duprey 氏は、「Amazon SageMaker HyperPod を使用して大規模言語モデルトレーニング要件を満たすことができました。SageMaker HyperPod での Amazon EKS の使用により、キャパシティをスケールアップし、トレーニングジョブを簡単に実行できたため、法的文書の要約や分類などの分野で LLM の利点を活かすことが可能になりました」と話しました。
Thomson Reuters は 30 年以上にわたり AI 開発の最前線に立ってきました。私たちは、お客様が信頼できる情報にアクセスしやすく、より迅速に結果を出せるように、有意義なソリューションを提供することに全力を注いでいます。生成系 AI のイノベーションを加速させるために、LLM プロバイダーとの提携に加えて、独自のコンテンツと人間の専門知識を活用して、カスタムモデルのトレーニングをより効率的に行うことも検討しています。SageMaker HyperPod の分散型トレーニングライブラリは、大規模モデルトレーニングのパフォーマンスを向上させるのに役立ちます。また、その耐障害性機能により、インフラストラクチャの監視と管理にかかる時間を節約できます。基盤モデルを SageMaker HyperPod でトレーニングすることで、市場投入までの時間が短縮され、顧客に質の高いソリューションを迅速に提供できるようになります。
Thomson Reuters Labs、Head of AI and Labs、Joel Hron 氏、および Thomson Reuters Labs、Distinguished Engineer、John Duprey 氏 -
Stability AI
オープンソースの生成 AI の大手企業として、私たちの目標はモダン AI のアクセシビリティを最大限高めることです。私たちは数百億のパラメータを持つ基礎モデルを構築しており、そのためには最適なトレーニングパフォーマンスをスケーリングできるインフラストラクチャが必要です。SageMaker HyperPod のマネージドインフラストラクチャと最適化ライブラリにより、トレーニング時間とコストを 50% 以上削減できます。これにより、モデルトレーニングの回復力とパフォーマンスが向上し、最先端のモデルをより迅速に構築できるようになります。
Stability AI、創立者兼 CEO、Emad Mostaque 氏 -
Recursal AI
プロセス全体が合理化されました。SageMaker HyperPod を利用すると、ハードウェア障害が発生した場合に、最後に保存されたチェックポイントからトレーニングジョブを特定して自動的に回復する、クラスターの回復力機能を活用できます。当社は Kubernetes を共通のスレッドとして使用して、アプリケーション、推論、トレーニングなど、非常に多様なワークロードを実行しています。当社にとって、SageMaker HyperPod での Amazon EKS はよく機能しています。そのプロセスは、ノードがクラスターに追加されるというシンプルなものです。
Recursal、インフラストラクチャ/データ責任者、Nathan Wilce 氏 -
Hippocratic AI
Hippocratic AI は、医療向けに安全性を重視した初の大規模言語モデル (LLM) を開発する AI 企業です。主要な LLM とスーパーバイザーモデルをトレーニングするために、Hippocratic AI は強力なコンピューティングリソースを必要としていましたが、これは需要が高く、入手するのが困難でした。Amazon SageMaker HyperPod の柔軟なトレーニングプランにより、Amazon Elastic Compute Cloud (Amazon EC2) P5 インスタンスへのアクセスが容易になりました。また、Hippocratic AI は、Grafana などの AWS サービスも活用して、重要な GPU 使用率メトリクスを追跡しています。Hippocratic AI は Amazon EC2 P5 インスタンスを使用することで、モデルトレーニングの速度を 4 倍にしたほか、何百ものユースケースに対応するためにソリューションをスケールしました。これは、必要なコンピューティングリソースを確保し、モデルを迅速にトレーニングするのに役立ちました。
-
NinjaTech
無限の生産性を実現するためのオールインワンの SuperAgent を提供する生成 AI 企業である NinjaTech AI は、Amazon SageMaker HyperPod の柔軟なトレーニングプランを使用して、Llama 3.1 405B モデルを含むさまざまな内部モデルのファインチューニングを加速し、モデルのトレーニングコストを削減して、プロセスを自動化しました。同社は、SuperAgent テクノロジーを強化するさまざまな AI エージェントへのアクセスを希望するユーザーにシームレスなエクスペリエンスを提供することを目指しています。これを実現するには、ユーザーの意図を自動的に予測し、どの AI エージェントが適しているかを判断できるモデルが必要でした。このメカニズムでは、顧客からのフィードバックと新機能を反復的に取り入れてモデルを頻繁に更新する必要があり、LoRA のファインチューニングの各ラウンドで 1,000 万~1 億トークンが必要でした。スタートアップにとって、高性能コンピューティングリソースの取得と運用は、アクセラレーテッドコンピューティングに加えて、高速ネットワークと高速ストレージを必要とするマルチノードクラスターでは特に、非常に高額なコストと帯域幅の問題により困難です。さらに、トレーニングプロセスには時間がかかり、モデルのダウンロード、分散トレーニング、チェックポイント、モニタリング、自動是正、マージ、量子化などのステップが含まれます。HyperPod の柔軟なトレーニングプランは、トレーニング実行前に信頼性が高く手頃な料金のコンピューティングを会社に提供しました。これにより、効率的なモデルトレーニングを実現しながら、特定のコンピューティングとタイムラインの要件を満たすことができました。
-
OpenBabylon
過小評価されている言語の大規模言語モデルをカスタマイズする AI 企業である OpenBabylon のデベロッパーとデータサイエンティストは、数か月間にわたって SageMaker HyperPod の柔軟なトレーニングプランを使用して、GPU リソースへのアクセスを効率化し、大規模な実験を実行しています。マルチノード SageMaker HyperPod の分散トレーニング機能を使用して、100 件の大規模なモデルトレーニング実験を実施し、英語からウクライナ語への翻訳で最先端の結果を得ることができました。この画期的な進歩はスケジュールどおりに、かつ、コスト効率よく達成され、SageMaker HyperPod が複雑なプロジェクトを、スケジュールどおりに、かつ、予算内で成功裏に実現できることを実証しました。
-
Salesforce
Salesforce の研究者は、インフラストラクチャについて心配したり、新しいモデルごとにトレーニングスタックを最適化するのに何週間も費やしたりすることなく、基盤モデルのトレーニングとファインチューニングをすぐに開始する方法を求めていました。Amazon SageMaker HyperPod レシピを使用すると、Salesforce の研究者は FM をカスタマイズする際に迅速なプロトタイピングを実施できます。現在、Salesforce の AI 研究チームは、さまざまな事前トレーニングおよびファインチューニングのレシピを使用して数分で開始し、高性能で最先端のモデルを運用できます。
Amazon SageMaker HyperPod パートナー
深い技術的知識と実績のある顧客成功経験を持つ AWS パートナーを活用して、イノベーションを推進し、より大きなビジネス価値を引き出しましょう
-
Accenture
私たちは、Amazon SageMaker HyperPod のタスクガバナンスのローンチパートナーとして AWS との提携を拡大しています。AWS とのコラボレーションにより、生成 AI アプリケーションのコストを削減しながら、お客様を最新の技術的ブレークスルーへと導くことができます。SageMaker HyperPod の一元化されたガバナンス機能と、生成 AI プロジェクトにおける当社の経験を組み合わせることで、企業が生成 AI の価値をより早く実感し、カスタマーエクスペリエンスを向上させ、投資収益率を高めるのを支援できます。
Accenture、Global Lead for AWS Business Group & Senior Managing Director、Jennifer Jackson 氏 -
Slalom
Amazon SageMaker HyperPod タスクガバナンスのローンチパートナーとして AWS と協力できることを嬉しく思います。AWS と連携することで、お客様が最新の技術進歩を迅速に採用し、生成 AI アプリケーションのコストを削減できるよう支援できるようになりました。SageMaker HyperPod の一元化されたガバナンス機能と、Slalom の豊富な AI とクラウドの経験を組み合わせることで、投資収益率を高めるとともに、優れたカスタマーエクスペリエンスをもたらすることができます。
Slalom、Managing Director of Amazon Center of Excellence (CoE)、Jeff Kempiners -
Rackspace Technology
SageMaker HyperPod タスクガバナンスのローンチパートナーとして AWS と協力できることを嬉しく思います。私たちは力を合わせることで、最新の技術の進歩に歩調を合わせながら、お客様が生成 AI アプリケーションのコストを削減できるよう支援できます。SageMaker HyperPod の一元化されたガバナンス機能と、Rackspace の深い AI とクラウドの専門知識を組み合わせることで、カスタマーエクスペリエンスを変革し、同時に投資収益率を向上させることができます。
Rackspace Technology、President, AI, Technology and Sustainability、Srini Koushik 氏