Pelanggan Amazon SageMaker HyperPod

Perusahaan rintisan dan organisasi AI teratas dari semua ukuran sedang melatih dan melakukan deployment model fondasi dalam skala besar di SageMaker HyperPod

  • Hugging Face

    Hugging Face telah menggunakan SageMaker HyperPod untuk membuat model fondasi terbuka baru yang penting, seperti StarCoder, IDEFICS, dan Zephyr yang telah diunduh jutaan kali. Kemampuan ketahanan dan performa SageMaker HyperPod yang dibangun khusus untuk tujuan tertentu telah memungkinkan tim sains terbuka kami untuk fokus berinovasi dan menerbitkan peningkatan penting pada cara-cara pembuatan model fondasi, alih-alih mengelola infrastruktur. Kami paling terkesan dengan cara SageMaker HyperPod mampu mendeteksi kegagalan perangkat keras ML dan dengan cepat mengganti perangkat keras yang rusak tersebut tanpa mengganggu pelatihan model yang sedang berlangsung. Karena tim kami perlu berinovasi dengan cepat, fitur pemulihan tugas otomatis ini membantu kami meminimalkan gangguan selama proses pelatihan model fondasi sehingga membantu menghemat ratusan jam waktu pelatihan hanya dalam setahun.

    Jeff Boudier, head of Product di Hugging Face
  • Perplexity AI

    Kami mencari infrastruktur ML yang tepat untuk meningkatkan produktivitas dan mengurangi biaya guna membangun model bahasa besar dengan performa tinggi. Setelah menjalankan beberapa eksperimen yang berhasil, kami beralih ke AWS dari penyedia cloud lain untuk menggunakan Amazon SageMaker HyperPod. Kami telah menggunakan HyperPod selama empat bulan terakhir untuk membangun dan menyempurnakan LLM guna menenagai mesin jawaban percakapan Perplexity yang memberikan jawaban pertanyaan beserta referensi yang diberikan dalam bentuk kutipan. Karena SageMaker HyperPod memantau kondisi klaster dan memperbaiki kegagalan GPU secara otomatis, developer kami dapat fokus pada pembuatan model, alih-alih menghabiskan waktu untuk mengelola serta mengoptimalkan infrastruktur yang mendasarinya. Data bawaan SageMaker HyperPod dan pustaka paralel model membantu kami mengoptimalkan waktu pelatihan pada GPU serta menggandakan throughput pelatihan. Hasilnya, eksperimen pelatihan kami kini dapat berjalan dua kali lebih cepat, yang berarti developer dapat melakukan iterasi lebih cepat sehingga pengembangan pengalaman AI generatif baru untuk pelanggan kami juga makin cepat.

    Aravind Srinivas, co-founder dan CEO di Perplexity AI
  • Articul8 AI

    Baca studi kasus

    Tata kelola tugas Amazon SageMaker HyperPod membantu memaksimalkan pemanfaatan GPU di berbagai tim dan proyek. Sebagai perusahaan rintisan GenAI yang berkembang pesat, Articul8 AI terus mengoptimalkan lingkungan komputasi mereka untuk mengalokasikan sumber daya komputasi yang dipercepat seefisien mungkin. Dengan prioritas tugas otomatis dan alokasi sumber daya di SageMaker HyperPod, mereka telah melihat peningkatan dramatis dalam pemanfaatan GPU, sehingga mengurangi waktu diam dan mempercepat proses pengembangan model mereka dengan mengoptimalkan tugas, mulai dari pelatihan dan penyempurnaan hingga inferensi. Kemampuan untuk secara otomatis mengalihkan sumber daya ke tugas prioritas tinggi telah meningkatkan produktivitas tim mereka, sehingga mereka dapat membawa inovasi GenAI baru ke pasar dengan lebih cepat dari sebelumnya.

    Amazon SageMaker HyperPod sangat membantu kami dalam mengelola dan mengoperasikan sumber daya komputasi kami secara lebih efisien dengan waktu henti minimum. Kami merupakan pengguna awal layanan HyperPod berbasis Slurm dan telah merasakan manfaat dari kemudahan penggunaan serta fitur ketahanannya, yang menghasilkan peningkatan produktivitas hingga 35% dan menaikkan skala operasi GenAI kami dengan pesat. Sebagai perusahaan yang menggunakan Kubernetes, kami sangat antusias menyambut peluncuran dukungan Amazon EKS untuk SageMaker HyperPod. Ini adalah terobosan bagi kami karena terintegrasi dengan lancar ke dalam jalur pelatihan kami yang sudah ada, dan memudahkan kami dalam mengelola serta mengoperasikan klaster Kubernetes berskala besar. Selain itu, alat ini juga membantu pelanggan akhir kami karena kami kini mampu mengemas dan memproduksi kemampuan ini ke dalam platform GenAI kami sehingga memungkinkan pelanggan menjalankan pelatihan mereka sendiri dan menyempurnakan beban kerja dengan cara yang lebih efisien.

    Arun Subramaniyan, Founder and CEO Articul8 AI
  • Thomson Reuters

    Baca blog

    Thomson Reuters, perusahaan teknologi berbasis AI dan konten global, telah menguji kemampuan tata kelola tugas di Amazon SageMaker HyperPod untuk mengatasi tantangan utama seputar prioritas beban kerja. Dengan tata kelola tugas, sekarang mereka dapat mengelola beban kerja pelanggan seperti permintaan inferensi di samping proyek pengembangan modelnya sendiri yang sedang berlangsung, dengan memastikan untuk memprioritaskan permintaan pelanggan yang mendesak tanpa mengganggu penelitian internal, sehingga pemanfaatan sumber daya dan kepuasan pelanggan menjadi lebih baik. “Kami dapat memenuhi kebutuhan pelatihan model bahasa besar kami menggunakan Amazon SageMaker HyperPod,” kata John Duprey, Distinguished Engineer, Thomson Reuters Labs. “Dengan menggunakan Amazon EKS di SageMaker HyperPod, kami dapat menaikkan skala dan dengan mudah menjalankan tugas pelatihan, yang memungkinkan kami memanfaatkan manfaat LLM dalam bidang-bidang, seperti klasifikasi dan ringkasan hukum.”

    Thomson Reuters telah berada di garis depan pengembangan AI selama lebih dari 30 tahun, dan kami berkomitmen untuk memberikan solusi yang bermanfaat untuk membantu pelanggan kami memberikan hasil yang lebih cepat, dengan akses yang lebih baik ke informasi tepercaya. Untuk mempercepat inovasi kami dalam AI generatif, selain berpartner dengan penyedia LLM, kami juga menjelajahi model khusus pelatihan secara lebih efisien dengan konten unik dan eksklusif serta keahlian manusia kami. Pustaka pelatihan terdistribusi SageMaker HyperPod membantu kami meningkatkan performa pelatihan model skala besar. Selain itu, fitur ketahanannya menghemat waktu saat kami memantau dan mengelola infrastruktur. Melatih model fondasi kami di SageMaker HyperPod akan meningkatkan kecepatan kami ke pasar dan membantu memberikan solusi yang berkualitas bagi pelanggan dengan cepat.

    Joel Hron, Head of AI and Labs, Thomson Reuters dan John Duprey, Distinguished Engineer, Thomson Reuters Labs
  • Stability AI

    Sebagai perusahaan AI generatif sumber terbuka yang terkemuka, tujuan kami adalah memaksimalkan aksesibilitas AI modern. Kami sedang membangun model fondasi dengan puluhan miliar parameter, yang membutuhkan infrastruktur yang dapat menskalakan performa pelatihan yang dioptimalkan. Dengan infrastruktur terkelola dan pustaka optimisasi SageMaker HyperPod, kami dapat mengurangi waktu dan biaya pelatihan hingga lebih dari 50%. Hal ini membuat pelatihan model kami lebih tangguh dan beperforma untuk membangun model canggih dengan lebih cepat.

    Emad Mostaque, Founder dan CEO, Stability AI
  • Recursal AI

    Seluruh prosesnya menjadi lebih efisien. Dengan menggunakan SageMaker HyperPod, kami dapat memanfaatkan fitur ketahanan klaster yang mengidentifikasi dan secara otomatis memulihkan tugas pelatihan dari titik pemeriksaan terakhir yang disimpan jika terjadi kegagalan perangkat keras. Kami menjalankan beban kerja yang sangat beragam - dari aplikasi, inferensi, dan pelatihan - dengan Kubernetes sebagai benang merahnya. Bagi kami, Amazon EKS dengan SageMaker HyperPod berfungsi dengan baik: simpul tersebut tinggal dimasukkan ke dalam klaster kami.

    Nathan Wilce, Infrastructure/data lead, Recursal
  • Hippocratic AI

    Hippocratic AI, sebuah perusahaan AI yang mengembangkan Model Bahasa Besar (LLM) pertama yang berfokus pada keselamatan untuk layanan kesehatan. Untuk melatih LLM utama dan model pengawas, Hippocratic AI membutuhkan sumber daya komputasi yang kuat, yang sangat diminati dan sulit diperoleh. Paket pelatihan fleksibel Amazon SageMaker HyperPod memudahkan mereka untuk mendapatkan akses ke Instans P5 Amazon Elastic Compute Cloud (Amazon EC2). Hippocratic AI juga memanfaatkan layanan AWS seperti Grafana untuk melacak metrik pemanfaatan GPU yang penting. Dengan menggunakan Instans P5 Amazon EC2, Hippocratic AI telah meningkatkan kecepatan pelatihan model hingga empat kali lipat dan menskalakan solusinya untuk mengakomodasi ratusan kasus penggunaan. Hippocratic AI membantu mereka untuk mengamankan sumber daya komputasi yang diperlukan dan melatih model dengan cepat.

  • NinjaTech

     

    NinjaTech AI, perusahaan AI generatif yang menyediakan SuperAgent lengkap untuk produktivitas tak terbatas, menggunakan rencana pelatihan Amazon SageMaker HyperPod yang fleksibel untuk mempercepat penyempurnaan berbagai model internal termasuk model Llama 3.1 405B guna mengurangi biaya pelatihan model, dan mengotomatisasi proses. Perusahaan bertujuan untuk memberikan pengalaman yang mulus kepada penggunanya yang menginginkan akses ke berbagai agen AI yang mendukung Teknologi SuperAgent mereka. Untuk mencapai tujuan ini, mereka membutuhkan model yang dapat secara otomatis memprediksi niat pengguna dan menentukan agen AI mana yang cocok untuk tujuan tersebut. Mekanisme ini mengharuskan pembaruan yang sering pada model dengan memasukkan umpan balik pelanggan dan fitur baru secara berulang, yang melibatkan token 10m-100m di setiap putaran penyempurnaan LoRa. Sebagai perusahaan rintisan, memperoleh dan mengoperasikan sumber daya komputasi performa tinggi merupakan tantangan karena masalah biaya dan bandwidth yang mahal, khususnya dalam klaster multisimpul yang melibatkan jaringan cepat serta penyimpanan cepat selain komputasi yang dipercepat. Selain itu, proses pelatihan memakan waktu, melibatkan langkah-langkah seperti pengunduhan model, pelatihan terdistribusi, titik pemeriksaan, pemantauan, perbaikan otomatis, penggabungan, dan kuantisasi. Paket pelatihan fleksibel HyperPod memberikan komputasi yang andal dan terjangkau kepada perusahaan sebelum pelatihan berjalan, dengan menyesuaikan dengan persyaratan komputasi dan jadwal spesifik mereka, sekaligus memastikan pelatihan model yang efisien.

  • OpenBabylon

    Developer dan ilmuwan data di OpenBabylon, sebuah perusahaan AI yang menyesuaikan model bahasa besar untuk bahasa yang kurang terwakili, telah menggunakan rencana pelatihan SageMaker HyperPod yang fleksibel selama beberapa bulan untuk menyederhanakan akses mereka ke sumber daya GPU guna menjalankan eksperimen skala besar. Dengan menggunakan kemampuan pelatihan terdistribusi SageMaker HyperPod multisimpul, mereka melakukan 100 eksperimen pelatihan model skala besar, sehingga mencapai hasil terbaik dalam terjemahan bahasa Inggris ke bahasa Ukraina. Terobosan ini dicapai tepat waktu dan hemat biaya, yang menunjukkan kemampuan SageMaker HyperPod sehingga berhasil menyampaikan proyek yang kompleks tepat waktu dan sesuai anggaran.

  • Salesforce

    Para peneliti di Salesforce mencari cara untuk agar dapat cepat memulai pelatihan dan penyempurnaan model dasar, tanpa harus mengkhawatirkan infrastruktur, atau menghabiskan waktu berminggu-minggu dalam mengoptimalkan tumpukan pelatihan mereka untuk setiap model baru. Dengan resep Amazon SageMaker HyperPod, peneliti di Salesforce dapat membuat prototipe cepat saat menyesuaikan FM. Sekarang, tim Riset AI Salesforce dapat memulai dalam hitungan menit dengan berbagai resep pra-pelatihan dan penyempurnaan, serta dapat mengoperasionalkan model mutakhir dengan performa tinggi.

Partner Amazon SageMaker HyperPod

 

Dorong inovasi dan capai nilai bisnis yang lebih besar dengan partner AWS yang memiliki pengetahuan teknis mendalam serta kesuksesan pelanggan yang telah terbukti

  • Accenture

    Kami memperluas kemitraan dengan AWS sebagai partner peluncuran tata kelola tugas Amazon SageMaker HyperPod. Kolaborasi dengan AWS akan memungkinkan kami untuk memandu pelanggan menuju terobosan teknologi terbaru sekaligus membantu mengurangi biaya aplikasi AI generatif. Dengan menyatukan kemampuan tata kelola terpusat di SageMaker HyperPod, dan pengalaman kami dalam proyek AI generatif, kami dapat membantu perusahaan menyadari nilai AI generatif dengan lebih cepat, yang dapat meningkatkan pengalaman pelanggan dan meningkatkan laba atas investasi.

    Jennifer Jackson, Global Lead for Accenture AWS Business Group & Senior Managing Director
  • Slalom

    Kami sangat senang dapat berkolaborasi dengan AWS sebagai partner peluncuran tata kelola tugas Amazon SageMaker HyperPod. Bersama AWS, kami sekarang dapat membantu pelanggan dengan cepat mengadopsi kemajuan teknologi terbaru dan mengurangi biaya aplikasi AI generatif mereka. Dengan menyatukan kemampuan tata kelola terpusat di SageMaker HyperPod dan dengan pengalaman AI dan cloud Slalom yang luas, kami dapat memberikan pengalaman pelanggan yang luar biasa bersama dengan peningkatan laba atas investasi.

    Jeff Kempiners, Managing Director di Slalom’s Amazon Center of Excellence (CoE)
  • Rackspace Technology

    Kami sangat senang dapat berkolaborasi dengan AWS sebagai partner peluncuran tata kelola tugas SageMaker HyperPod. Bersama-sama, kami dapat membantu pelanggan kami mengurangi biaya aplikasi AI generatif, sekaligus mengikuti kemajuan teknologi terbaru. Dengan menggabungkan kemampuan tata kelola terpusat SageMaker HyperPod dengan keahlian AI dan cloud Rackspace yang mendalam, kami dapat mengubah pengalaman pelanggan dan meningkatkan laba atas investasi mereka secara bersamaan.

    Srini Koushik, President, AI, Technology and Sustainability di Rackspace Technology