ลูกค้าของ Amazon SageMaker HyperPod
สตาร์ทอัพด้าน AI ชั้นนำและองค์กรทุกขนาดกำลังฝึกและปรับใช้โมเดลพื้นฐานในวงกว้างบน SageMaker HyperPod
-
Hugging Face
Hugging Face ใช้ SageMaker HyperPod เพื่อสร้างโมเดลพื้นฐานแบบเปิดที่สำคัญ เช่น StarCoder, IDEFICS และ Zephyr ซึ่งมีการดาวน์โหลดหลายล้านครั้ง ความยืดหยุ่นและความสามารถด้านประสิทธิภาพที่สร้างขึ้นตามวัตถุประสงค์ของ SageMaker HyperPod ช่วยให้ทีมวิทยาศาสตร์แบบเปิดของเรามุ่งเน้นไปที่การสร้างสรรค์นวัตกรรมและเผยแพร่การปรับปรุงที่สำคัญสำหรับวิธีสร้างโมเดลพื้นฐาน แทนที่จะจัดการโครงสร้างพื้นฐาน เราชอบวิธีที่ SageMaker HyperPod สามารถตรวจจับความล้มเหลวของฮาร์ดแวร์ ML และเปลี่ยนฮาร์ดแวร์ที่ผิดพลาดได้อย่างรวดเร็วโดยไม่รบกวนการฝึกโมเดลที่กำลังดำเนินอยู่ เนื่องจากทีมของเราต้องสร้างสรรค์สิ่งใหม่อย่างรวดเร็ว ฟีเจอร์การกู้คืนงานแบบอัตโนมัตินี้จึงช่วยให้เราลดการหยุดชะงักในระหว่างกระบวนการฝึกโมเดลพื้นฐาน ซึ่งช่วยให้เราประหยัดเวลาการฝึกได้หลายร้อยชั่วโมงในเวลาเพียงหนึ่งปี
Jeff Boudier หัวหน้าฝ่ายผลิตภัณฑ์ของ Hugging Face -
Perplexity AI
เรากำลังมองหาโครงสร้างพื้นฐาน ML ที่เหมาะสมเพื่อเพิ่มผลผลิตและลดต้นทุนเพื่อสร้างโมเดลภาษาขนาดใหญ่ที่มีประสิทธิภาพสูง หลังจากทำการทดลองที่ประสบความสำเร็จไม่กี่ครั้ง เราก็ได้เปลี่ยนจากผู้ให้บริการระบบคลาวด์รายอื่นมาใช้ AWS เพื่อใช้ Amazon SageMaker HyperPod เราใช้ HyperPod ในช่วงสี่เดือนที่ผ่านมาเพื่อสร้างและปรับแต่ง LLM เพื่อขับเคลื่อนกลไกการตอบการสนทนา Perplexity ที่ตอบคำถามพร้อมกับข้อมูลอ้างอิงที่ให้ไว้ในรูปแบบของการอ้างอิง เนื่องจาก SageMaker HyperPod จะตรวจสอบความสมบูรณ์ของคลัสเตอร์โดยอัตโนมัติและแก้ไขความล้มเหลวของ GPU นักพัฒนาของเราจึงสามารถมุ่งเน้นไปที่การสร้างโมเดล แทนที่จะใช้เวลาในการจัดการและเพิ่มประสิทธิภาพโครงสร้างพื้นฐานที่จำเป็น ข้อมูลที่มีในตัวของ SageMaker HyperPod และไลบรารีโมเดลแบบขนานช่วยให้เราเพิ่มประสิทธิภาพเวลาการฝึกบน GPU และเพิ่มอัตราการโอนถ่ายข้อมูลการฝึกได้เป็นสองเท่า ผลก็คือ การทดลองฝึกของเราสามารถทำงานได้เร็วขึ้นสองเท่า ซึ่งหมายความว่านักพัฒนาของเราสามารถทำซ้ำได้รวดเร็วยิ่งขึ้น โดยเร่งการพัฒนาประสบการณ์ AI ช่วยสร้างใหม่สำหรับลูกค้าของเรา
Aravind Srinivas ผู้ร่วมก่อตั้งและประธานคณะผู้บริหารของ Perplexity AI -
Articul8 AI
การกำกับดูแลงาน Amazon SageMaker HyperPod ช่วยเพิ่มประสิทธิภาพการใช้ GPU สูงสุดในทีมและโครงการต่าง ๆ เนื่องจากเป็นบริษัทสตาร์ทอัพ GenAI ที่เติบโตอย่างรวดเร็ว Articul8 AI จึงปรับปรุงสภาพแวดล้อมการประมวลผลอย่างต่อเนื่องเพื่อจัดสรรทรัพยากรการประมวลผลที่เร่งความเร็วได้อย่างมีประสิทธิภาพที่สุด ด้วยการกำหนดลำดับความสำคัญของงานและการจัดสรรทรัพยากรอัตโนมัติใน SageMaker HyperPod พวกเขาได้เห็นการปรับปรุงอย่างมากในการใช้งาน GPU ส่งผลให้ลดเวลาที่ไม่ได้ใช้และเร่งกระบวนการพัฒนาโมเดลโดยเพิ่มประสิทธิภาพงานต่าง ๆ ตั้งแต่การฝึกและปรับแต่งไปจนถึงการอนุมาน ความสามารถในการย้ายทรัพยากรไปยังงานที่มีความสำคัญสูงโดยอัตโนมัติช่วยเพิ่มผลงานของทีมงาน ทำให้พวกเขาสามารถนำนวัตกรรม GenAI ใหม่ ๆ สู่ตลาดได้เร็วกว่าที่เคย
Amazon SageMaker HyperPod ช่วยเราอย่างมากในการจัดการและดำเนินการทรัพยากรการคำนวณของเราอย่างมีประสิทธิภาพมากขึ้นโดยมีเวลาหยุดทำงานน้อยที่สุด เราเป็นผู้เริ่มใช้บริการ HyperPod ที่ใช้ Slurm ในช่วงแรก และได้รับประโยชน์จากฟีเจอร์ที่ใช้งานง่ายและมีความยืดหยุ่น ซึ่งส่งผลให้มีการปรับปรุงประสิทธิภาพการทำงานสูงสุดถึง 35% และขยายขนาดการดำเนินงาน GenAI ของเราได้อย่างรวดเร็ว ในฐานะบริษัท Kubernetes ตอนนี้เรารู้สึกตื่นเต้นที่จะได้พบกับการเปิดตัวการรองรับ Amazon EKS สำหรับ SageMaker HyperPod นี่คือสิ่งที่ช่วยพลิกสถานการณ์สำหรับเรา เพราะมันผสานรวมกับไปป์ไลน์การฝึกที่มีอยู่ของเราได้อย่างราบรื่น และช่วยให้เราจัดการและดำเนินการคลัสเตอร์ Kubernetes ขนาดใหญ่ของเราได้ง่ายขึ้น นอกจากนี้ ยังช่วยลูกค้าปลายทางของเราด้วย เนื่องจากขณะนี้เราสามารถบรรจุและเพิ่มความสามารถนี้ลงในแพลตฟอร์ม GenAI ของเราได้ ทำให้ลูกค้าของเราสามารถดำเนินการฝึกของตนเองและปรับแต่งเวิร์กโหลดในลักษณะที่มีความคล่องตัวมากขึ้น
Arun Subramaniyan ผู้ก่อตั้งและประธานคณะผู้บริหารของ Articul8 AI -
Thomson Reuters
Thomson Reuters บริษัทด้านเทคโนโลยีที่ขับเคลื่อนด้วย AI และเนื้อหาในระดับโลกกำลังทดสอบความสามารถในการควบคุมงานใน Amazon SageMaker HyperPod เพื่อแก้ไขความท้าทายสำคัญเกี่ยวกับการกำหนดลำดับความสำคัญของเวิร์กโหลด ด้วยการกำกับดูแลงาน ตอนนี้พวกเขาสามารถจัดการเวิร์กโหลดของลูกค้า เช่น คำขออนุมาน ควบคู่ไปกับโครงการพัฒนาโมเดลของตนเองที่กำลังดำเนินการอยู่ ช่วยให้มั่นใจได้ว่าคำขอเร่งด่วนของลูกค้าจะมีความสำคัญสูงสุดโดยไม่รบกวนการวิจัยภายใน ส่งผลให้ใช้ทรัพยากรได้ดีขึ้นและลูกค้ามีความพึงพอใจมากขึ้น “เราสามารถตอบสนองข้อกำหนดการฝึกโมเดลภาษาขนาดใหญ่โดยใช้ Amazon SageMaker HyperPod” John Duprey วิศวกรดีเด่นของ Thomson Reuters Labs กล่าว “การใช้ Amazon EKS บน SageMaker HyperPod ช่วยให้เราสามารถขยายขนาดความจุและรันงานการฝึกได้อย่างง่ายดาย ซึ่งช่วยให้เราสามารถปลดล็อกประโยชน์ของ LLM ในด้านต่าง ๆ เช่น การสรุปทางกฎหมายและการจำแนกประเภท”
Thomson Reuters อยู่ในแนวหน้าด้านการพัฒนา AI มานานกว่า 30 ปี และเรามุ่งมั่นที่จะมอบโซลูชันที่มีความหมายซึ่งช่วยให้ลูกค้าของเราส่งมอบผลลัพธ์ได้เร็วขึ้น พร้อมเข้าถึงข้อมูลที่เชื่อถือได้ได้ดีขึ้น เพื่อเร่งสร้างนวัตกรรมของเราใน AI ช่วยสร้างนอกเหนือจากการเป็นพันธมิตรกับผู้ให้บริการ LLM แล้ว เรายังสำรวจการฝึกโมเดลที่กำหนดเองได้อย่างมีประสิทธิภาพมากขึ้นด้วยเนื้อหาที่เป็นเอกลักษณ์และเป็นกรรมสิทธิ์ของเรารวมถึงความเชี่ยวชาญของมนุษย์ ไลบรารีการฝึกแบบกระจายของ SageMaker HyperPod ช่วยให้เราสามารถปรับปรุงประสิทธิภาพการฝึกโมเดลขนาดใหญ่ และฟีเจอร์ความยืดหยุ่นช่วยประหยัดเวลาในขณะที่เราตรวจสอบและจัดการโครงสร้างพื้นฐาน การฝึกโมเดลพื้นฐานของเราบน SageMaker HyperPod จะช่วยเพิ่มความเร็วในการออกสู่ตลาด และช่วยให้เรามอบโซลูชันที่มีคุณภาพแก่ลูกค้าของเราได้อย่างทันท่วงที
Joel Hron หัวหน้าฝ่าย AI และห้องปฏิบัติการ Thomson Reuters และ John Duprey วิศวกรดีเด่นของ Thomson Reuters Labs -
Stability AI
ในฐานะบริษัท AI ช่วยสร้างแบบโอเพนซอร์สชั้นนำ เป้าหมายของเราคือการเพิ่มการเข้าถึง AI ที่ทันสมัยให้สูงสุด เรากำลังสร้างโมเดลพื้นฐานที่มีพารามิเตอร์นับหมื่นล้านรายการ ซึ่งต้องการโครงสร้างพื้นฐานที่สามารถปรับขนาดประสิทธิภาพการฝึกให้เหมาะสมได้ ด้วยโครงสร้างพื้นฐานที่ได้รับการจัดการและไลบรารีการเพิ่มประสิทธิภาพของ SageMaker HyperPod เราสามารถลดเวลาและต้นทุนการฝึกได้มากกว่า 50% ทำให้การฝึกโมเดลของเรามีความยืดหยุ่นและมีประสิทธิภาพมากขึ้นเพื่อสร้างโมเดลที่ล้ำสมัยได้เร็วขึ้น
Emad Mostaque ผู้ก่อตั้งและประธานคณะผู้บริหารของ Stability AI -
Recursal AI
กระบวนการทั้งหมดได้รับการปรับปรุงให้มีประสิทธิภาพมากขึ้น การใช้ SageMaker HyperPod ช่วยให้เราสามารถใช้ประโยชน์จากฟีเจอร์ความยืดหยุ่นของคลัสเตอร์ที่ระบุและกู้คืนงานการฝึกโดยอัตโนมัติจากจุดตรวจสอบที่บันทึกไว้ล่าสุดในกรณีที่ฮาร์ดแวร์ขัดข้อง เราใช้งานเวิร์กโหลดที่หลากหลายมาก ตั้งแต่แอปพลิเคชัน การอนุมาน และการฝึก โดยมี Kubernetes เป็นเธรดทั่วไป สำหรับเรา Amazon EKS ที่มี SageMaker HyperPod ใช้งานได้ดี โดยโหนดจะมาในคลัสเตอร์ของเราเอง
Nathan Wilce หัวหน้าฝ่ายโครงสร้างพื้นฐาน/ข้อมูล Recursal -
Hippocratic AI
Hippocratic AI บริษัท AI ที่พัฒนาโมเดลภาษาขนาดใหญ่ (LLM) ที่เน้นความปลอดภัยครั้งแรกสำหรับการดูแลสุขภาพ เพื่อฝึก LLM หลักและโมเดลผู้ดูแล Hippocratic AI จำเป็นต้องมีทรัพยากรการประมวลผลที่มีประสิทธิภาพ ซึ่งมีความต้องการสูงและหายาก แผนการฝึกแบบยืดหยุ่นของ Amazon SageMaker HyperPod ทำให้พวกเขาสามารถเข้าถึงอินสแตนซ์ Amazon Elastic Compute Cloud (Amazon EC2) P5 ได้ง่ายขึ้น HippocraticAI ยังใช้ประโยชน์จากบริการ AWS เช่น Grafana เพื่อติดตามตัววัดการใช้งาน GPU ที่สำคัญ ด้วยการใช้อินสแตนซ์ Amazon EC2 P5, Hippocratic AI สามารถเพิ่มความเร็วในการฝึกโมเดลได้ 4 เท่าและปรับขนาดโซลูชันเพื่อรองรับกรณีการใช้งานหลายร้อยกรณี มันช่วยให้พวกเขารักษาทรัพยากรการประมวลผลที่จำเป็นและฝึกโมเดลได้อย่างรวดเร็ว
-
NinjaTech
NinjaTech AI ซึ่งเป็นบริษัทด้าน AI ช่วยสร้างที่มอบ SuperAgent แบบครบวงจรเพื่อประสิทธิภาพการผลิตที่ไม่จำกัด ได้ใช้แผนการฝึกแบบยืดหยุ่นของ Amazon SageMaker HyperPod เพื่อเร่งการปรับแต่งโมเดลภายในต่าง ๆ รวมถึงโมเดล Llama 3.1 405B เพื่อลดต้นทุนการฝึกโมเดล และทำให้กระบวนการเป็นอัตโนมัติ บริษัทมีเป้าหมายที่จะมอบประสบการณ์ที่ราบรื่นให้กับผู้ใช้ที่ต้องการเข้าถึงเอเจนต์ AI ต่าง ๆ ที่ขับเคลื่อนเทคโนโลยี SuperAgent ของตน เพื่อให้บรรลุเป้าหมายนี้ พวกเขาต้องมีโมเดลที่สามารถคาดการณ์ความตั้งใจของผู้ใช้ได้โดยอัตโนมัติ และกำหนดได้ว่าเอเจนต์ AI ตัวใดจะเหมาะสมกับโมเดลดังกล่าว กลไกนี้จำเป็นต้องมีการอัปเดตโมเดลบ่อยครั้งโดยรวบรวมคำติชมจากลูกค้าและฟีเจอร์ใหม่ ๆ อย่างต่อเนื่อง โดยมีโทเค็นจำนวน 10 ถึง 100 ล้านโทเค็นในการปรับแต่ง LoRA แต่ละรอบ ในฐานะบริษัทสตาร์ทอัพ การจัดหาและการดำเนินการทรัพยากรการประมวลผลประสิทธิภาพสูงถือเป็นความท้าทายเนื่องจากต้นทุนที่สูงและปัญหาแบนด์วิดท์ โดยเฉพาะอย่างยิ่งในคลัสเตอร์หลายโหนดที่เกี่ยวข้องกับเครือข่ายความเร็วสูงและการจัดเก็บข้อมูลความเร็วสูง นอกเหนือจากการประมวลผลที่เร่งความเร็ว นอกจากนี้ กระบวนการฝึกยังใช้เวลานาน ซึ่งเกี่ยวข้องกับขั้นตอนต่างๆ เช่น การดาวน์โหลดโมเดล การฝึกแบบกระจาย จุดตรวจสอบ การติดตามตรวจสอบ การแก้ไขอัตโนมัติ การผสาน และการหาปริมาณ แผนการฝึกอบรมที่ยืดหยุ่นของ HyperPod มอบการประมวลผลที่เชื่อถือได้และราคาไม่แพงให้กับบริษัทก่อนการดำเนินการฝึก ตรงตามความต้องการการประมวลผลและระยะเวลาเฉพาะของบริษัท ขณะเดียวกันก็รับประกันการฝึกโมเดลที่มีประสิทธิภาพ
-
OpenBabylon
นักพัฒนาและนักวิทยาศาสตร์ข้อมูลของ OpenBabylon ซึ่งเป็นบริษัท AI ที่ปรับแต่งโมเดลภาษาขนาดใหญ่สำหรับภาษาที่ไม่ได้รับการนำเสนอเพียงพอ ได้ใช้แผนการฝึกอบรมที่ยืดหยุ่นของ SageMaker HyperPod มาเป็นเวลาหลายเดือนเพื่อปรับปรุงการเข้าถึงทรัพยากร GPU เพื่อดำเนินการทดลองในระดับขนาดใหญ่ พวกเขาได้ทำการทดลองการฝึกโมเดลขนาดใหญ่ 100 ครั้งโดยใช้ความสามารถในการฝึกแบบกระจายของ SageMaker HyperPod แบบหลายโหนด และได้ผลลัพธ์ที่ล้ำสมัยในการแปลภาษาอังกฤษเป็นภาษายูเครน ความก้าวหน้าครั้งสำคัญนี้เกิดขึ้นได้ทันเวลาและคุ้มต้นทุน แสดงให้เห็นถึงความสามารถของ SageMaker HyperPod ในการส่งมอบโครงการที่ซับซ้อนได้สำเร็จตรงเวลาและตรงตามงบประมาณ
-
Salesforce
นักวิจัยที่ Salesforce กำลังมองหาวิธีในการเริ่มต้นการฝึกโมเดลพื้นฐานและปรับแต่งอย่างรวดเร็วโดยไม่ต้องกังวลเกี่ยวกับโครงสร้างพื้นฐานหรือใช้เวลาหลายสัปดาห์เพื่อเพิ่มประสิทธิภาพชุดฝึกสำหรับโมเดลใหม่แต่ละโมเดล ด้วยสูตร Amazon SageMaker HyperPod นักวิจัยที่ Salesforce สามารถสร้างต้นแบบอย่างรวดเร็วเมื่อปรับแต่ง FM ได้ ขณะนี้ ทีมวิจัย AI ของ Salesforce สามารถเริ่มต้นการทำงานได้ภายในไม่กี่นาทีด้วยสูตรการฝึกเบื้องต้นและการปรับแต่งที่หลากหลาย และสามารถใช้งานโมเดลแนวหน้าได้อย่างมีประสิทธิภาพสูง
พาร์ทเนอร์ของ Amazon SageMaker HyperPod
ขับเคลื่อนนวัตกรรมและปลดล็อกมูลค่าทางธุรกิจที่มากขึ้นไปกับพาร์ทเนอร์ AWS ที่มีความรู้เชิงเทคนิคอย่างลึกซึ้งและได้รับการพิสูจน์แล้วว่าช่วยให้ลูกค้าประสบความสำเร็จได้จริง
-
Accenture
เรากำลังขยายความร่วมมือกับ AWS ในฐานะพาร์ทเนอร์ด้านการเปิดตัวสำหรับการกำกับดูแลงานของ Amazon SageMaker HyperPod ความร่วมมือของเรากับ AWS จะช่วยให้เราสามารถแนะนำลูกค้าสู่ความก้าวหน้าทางเทคโนโลยีใหม่ล่าสุดในขณะเดียวกันก็ช่วยลดต้นทุนแอปพลิเคชัน AI ช่วยสร้างได้ เมื่อรวมความสามารถในการกำกับดูแลแบบรวมศูนย์ใน SageMaker HyperPod เข้ากับประสบการณ์ของเราในโปรเจกต์ AI ช่วยสร้าง เราจึงสามารถช่วยให้บริษัทต่าง ๆ ตระหนักถึงคุณค่าของ AI ช่วยสร้างได้เร็วขึ้น ซึ่งช่วยปรับปรุงประสบการณ์ของลูกค้าและเพิ่มผลตอบแทนจากการลงทุน
Jennifer Jackson ผู้นำระดับโลกของ Accenture AWS Business Group และกรรมการผู้จัดการอาวุโส -
Slalom
เราตื่นเต้นที่ได้ร่วมมือกับ AWS ในฐานะพาร์ทเนอร์ด้านการเปิดตัวสำหรับการกำกับดูแลงานของ Amazon SageMaker HyperPod ตอนนี้เราสามารถช่วยให้ลูกค้าของเราใช้ความก้าวหน้าทางเทคโนโลยีล่าสุดได้อย่างรวดเร็วและลดค่าใช้จ่ายในการใช้งาน AI ช่วยสร้างเมื่อร่วมมือกับ AWS เมื่อนำความสามารถในการกำกับดูแลแบบรวมศูนย์รวมเข้าด้วยกันใน SageMaker HyperPod ด้วยประสบการณ์ AI และระบบคลาวด์ที่กว้างขวางของ Slalom เราจึงสามารถมอบประสบการณ์ที่ยอดเยี่ยมให้กับลูกค้าพร้อมกับเพิ่มผลตอบแทนจากการลงทุน
Jeff Kempiners กรรมการผู้จัดการศูนย์พัฒนาความเป็นเลิศ (CoE) สำหรับ Amazon ของ Slalom -
Rackspace Technology
เราตื่นเต้นที่ได้ร่วมมือกับ AWS ในฐานะพาร์ทเนอร์ด้านการเปิดตัวสำหรับการกำกับดูแลงานของ SageMaker HyperPod เราสามารถช่วยลูกค้าของเราลดต้นทุนของแอปพลิเคชัน AI ช่วยสร้างร่วมกันได้ ขณะเดียวกันก็ติดตามความก้าวหน้าทางเทคโนโลยีล่าสุดได้ เมื่อผสมผสานความสามารถในการกำกับดูแลแบบรวมศูนย์ของ SageMaker HyperPod เข้ากับความเชี่ยวชาญด้าน AI และระบบคลาวด์ที่ลึกซึ้งของ Rackspace เราจึงสามารถเปลี่ยนแปลงประสบการณ์ของลูกค้าและปรับปรุงผลตอบแทนจากการลงทุนได้พร้อมกัน
Srini Koushik ประธานฝ่าย AI, เทคโนโลยี และความยั่งยืนของ Rackspace Technology