การฝึกโมเดลของ SageMaker คืออะไร
Amazon SageMaker Model Training ช่วยลดเวลาและค่าใช้จ่ายในการฝึกอบรมและปรับแต่งโมเดลแมชชีนเลิร์นนิง (ML) ในทุกระดับโดยไม่จำเป็นต้องจัดการโครงสร้างพื้นฐาน คุณสามารถใช้ประโยชน์จากโครงสร้างพื้นฐานการประมวลผล ML ที่มีประสิทธิภาพสูงสุดที่มีอยู่ในปัจจุบันได้ และ Amazon SageMaker AI สามารถปรับขนาดโครงสร้างพื้นฐานขึ้นหรือลงได้โดยอัตโนมัติ จาก GPU หนึ่งตัวไปจนถึงหลายพันตัว เพื่อฝึกฝนโมเดลดีปเลิร์นนิงได้เร็วขึ้น SageMaker AI จะช่วยให้คุณเลือกและปรับแต่งชุดข้อมูลได้แบบเรียลไทม์ ไลบรารีการฝึกฝนแบบกระจายของ SageMaker สามารถแยกโมเดลขนาดใหญ่และชุดข้อมูลการฝึกทั่วทั้งอินสแตนซ์ AWS GPU ได้โดยอัตโนมัติ หรือคุณสามารถใช้ไลบรารีของบริษัทอื่น เช่น DeepSpeed, Horovod หรือ Megatron ฝึกฝนโมเดลพื้นฐาน (FM) เป็นเวลาหลายสัปดาห์และหลายเดือนโดยไม่มีการหยุดชะงักโดยการตรวจสอบและซ่อมแซมคลัสเตอร์การฝึกฝนแบบอัตโนมัติ
ประโยชน์ของการฝึกฝนที่ประหยัดค่าใช้จ่าย
ฝึกฝนโมเดลในทุกระดับ
งานฝึกที่มีการจัดการอย่างเต็มรูปแบบ
งานฝึกของ SageMaker มอบประสบการณ์ผู้ใช้ที่มีการจัดการอย่างเต็มรูปแบบสำหรับการฝึก FM แบบกระจายขนาดใหญ่ โดยขจัดภาระหนักที่ซ้ำซ้อนกันในการจัดการโครงสร้างพื้นฐาน งานฝึกของ SageMaker จะสร้างคลัสเตอร์การฝึกแบบกระจายที่มีความยืดหยุ่นโดยอัตโนมัติ ตรวจสอบโครงสร้างพื้นฐาน และกู้คืนอัตโนมัติจากข้อผิดพลาดเพื่อให้แน่ใจว่าประสบการณ์การฝึกนั้นจะเป็นไปอย่างราบรื่น เมื่อการฝึกเสร็จสิ้น SageMaker จะนำคลัสเตอร์ดังกล่าวออก และคุณจะถูกเรียกเก็บเงินสำหรับเวลาฝึกสุทธิ นอกจากนี้ ด้วยงานฝึกของ SageMaker คุณจะมีความยืดหยุ่นในการเลือกประเภทอินสแตนซ์ที่เหมาะสมเพื่อให้เหมาะกับเวิร์กโหลดแต่ละรายการมากที่สุด (เช่น ฝึกโมเดลภาษาขนาดใหญ่ (LLM) ล่วงหน้าบนคลัสเตอร์ P5 หรือปรับแต่ง LLM แบบโอเพนซอร์สบนอินสแตนซ์ p4d) เพื่อปรับงบประมาณการฝึกของคุณให้เหมาะสมต่อไป นอกจากนี้ งานฝึกของ SagerMaker ยังมอบประสบการณ์ผู้ใช้ที่เป็นไปในทิศทางเดียวกันภายในทีม ML ที่มีระดับความเชี่ยวชาญทางเทคนิคและประเภทเวิร์กโหลดที่แตกต่างกัน
SageMaker HyperPod
Amazon SageMaker HyperPod เป็นโครงสร้างพื้นฐานที่สร้างขึ้นตามวัตถุประสงค์เพื่อจัดการคลัสเตอร์การประมวลผลเพื่อปรับขนาดการพัฒนาโมเดลพื้นฐาน (FM) ได้อย่างมีประสิทธิภาพ ช่วยให้สามารถใช้เทคนิคการฝึกโมเดลขั้นสูง การควบคุมโครงสร้างพื้นฐาน การเพิ่มประสิทธิภาพการทำงาน และข้อมูลการสังเกตโมเดลที่ได้รับการปรับปรุง SageMaker HyperPod ได้รับการกำหนดค่าล่วงหน้าด้วยไลบรารีการฝึกแบบกระจายของ SageMaker ซึ่งช่วยให้คุณสามารถแบ่งโมเดลและชุดข้อมูลการฝึกทั่วทั้งอินสแตนซ์คลัสเตอร์ AWS โดยอัตโนมัติ เพื่อช่วยให้สามารถใช้โครงสร้างพื้นฐานการประมวลผลและเครือข่ายของคลัสเตอร์ได้อย่างมีประสิทธิภาพ ช่วยให้สภาพแวดล้อมมีความยืดหยุ่นมากขึ้นโดยการตรวจจับ วินิจฉัย และกู้คืนจากข้อผิดพลาดของฮาร์ดแวร์โดยอัตโนมัติ ช่วยให้คุณสามารถฝึก FM อย่างต่อเนื่องเป็นเวลาหลายเดือนโดยไม่หยุดชะงัก ซึ่งจะลดเวลาฝึกได้ถึง 40%
การฝึกฝนแบบกระจายประสิทธิภาพสูง
SageMaker AI ทำให้การฝึกแบบกระจายรวดเร็วยิ่งขึ้นด้วยการแบ่งโมเดลและชุดข้อมูลการฝึกของคุณระหว่างตัวเร่งความเร็ว AWS โดยอัตโนมัติ ช่วยให้คุณเพิ่มประสิทธิภาพงานฝึกของคุณสำหรับโครงสร้างพื้นฐานเครือข่าย AWS และโทโพโลยีคลัสเตอร์ นอกจากนี้ยังช่วยปรับปรุงจุดตรวจสอบโมเดลผ่านสูตรด้วยการเพิ่มประสิทธิภาพความถี่ในการบันทึกจุดตรวจสอบ เพื่อให้มั่นใจได้ว่ามีค่าใช้จ่ายคงที่น้อยที่สุดระหว่างการฝึก ด้วยสูตรดังกล่าว นักวิทยาศาสตร์ข้อมูลและนักพัฒนาที่มีทักษะทุกระดับจะได้รับประโยชน์จากประสิทธิภาพที่ล้ำสมัย พร้อมทั้งเริ่มฝึกอบรมและปรับแต่งโมเดล AI ช่วยสร้างที่พร้อมใช้งานสาธารณะได้อย่างรวดเร็ว รวมถึง Llama 3.1 405B, Mixtral 8x22B และ Mistral 7B สูตรเหล่านี้ประกอบด้วยสแต็กการฝึกอบรมที่ได้รับการทดสอบโดย AWS แล้ว ซึ่งช่วยลดเวลาอันยาวนานหลายสัปดาห์ในการทดสอบการกำหนดค่าโมเดลต่าง ๆ คุณสามารถสลับไปมาระหว่างอินสแตนซ์ที่ใช้ GPU กับอินสแตนซ์ที่ใช้ AWS Trainium ได้ด้วยการเปลี่ยนสูตรเพียงบรรทัดเดียว และเปิดใช้การตรวจสอบจุดตรวจสอบโมเดลอัตโนมัติเพื่อความยืดหยุ่นในการฝึกที่ดีขึ้น นอกจากนี้ ให้เรียกใช้เวิร์กโหลดในการผลิตด้วยฟีเจอร์การฝึก SageMaker ที่คุณเลือก
เครื่องมือในตัวเพื่อความแม่นยำสูงสุดและค่าใช้จ่ายต่ำสุด
การปรับแต่งโมเดลอัตโนมัติ
SageMaker AI สามารถปรับแต่งโมเดลของคุณได้โดยอัตโนมัติโดยจะปรับชุดพารามิเตอร์อัลกอริทึมนับพันรายการเพื่อให้ได้การคาดการณ์ที่แม่นยำที่สุด ซึ่งวิธีนี้จะช่วยประหยัดเวลาลงได้หลายสัปดาห์ วิธีนี้ช่วยให้คุณสามารถค้นหาเวอร์ชันที่ดีที่สุดของโมเดลโดยการเรียกใช้งานการฝึกฝนจำนวนมากบนชุดข้อมูลของคุณได้

การฝึกฝน Managed Spot
SageMaker AI ช่วยลดต้นทุนการฝึกฝนได้ถึง 90 เปอร์เซ็นต์โดยการเรียกใช้งานการฝึกฝนโดยอัตโนมัติเมื่อมีความสามารถในการประมวลผล นอกจากนี้ งานฝึกฝนเหล่านี้ยังมีความยืดหยุ่นต่อการหยุดชะงักที่เกิดจากการเปลี่ยนแปลงขีดความสามารถอีกด้วย
การแก้จุดบกพร่อง
Amazon SageMaker Debugger จะบันทึกตัววัดและโปรไฟล์งานการฝึกแบบเรียลไทม์ ดังนั้นคุณจึงสามารถแก้ไขปัญหาด้านประสิทธิภาพได้อย่างรวดเร็วก่อนที่จะปรับใช้โมเดลกับการใช้งานจริง นอกจากนี้ คุณยังสามารถเชื่อมต่อจากระยะไกลกับสภาพแวดล้อมการฝึกโมเดลใน SageMaker เพื่อแก้จุดบกพร่องด้วยการเข้าถึงคอนเทนเนอร์การฝึกอบรมพื้นฐานได้ด้วย

Profiler

เครื่องมือในตัวสำหรับการโต้ตอบและการตรวจสอบ
Amazon SageMaker กับ MLflow
ใช้ประโยชน์จาก MLflow ร่วมกับการฝึกอบรม SageMaker เพื่อจัดเก็บพารามิเตอร์อินพุต การกำหนดค่า และผลลัพธ์ ช่วยให้คุณสามารถระบุโมเดลที่มีประสิทธิภาพที่ดีที่สุดสำหรับกรณีการใช้งานของคุณได้อย่างรวดเร็ว UI ของ MLflow ช่วยให้คุณสามารถวิเคราะห์ความพยายามในการฝึกโมเดลและลงทะเบียนโมเดลตัวเลือกสำหรับการผลิตได้อย่างง่ายดายด้วยขั้นตอนสั้นๆ เพียงขั้นตอนเดียว

Amazon SageMaker กับ TensorBoard
Amazon SageMaker พร้อม TensorBoard ช่วยให้คุณสามารถประหยัดเวลาในการพัฒนาโดยการแสดงภาพสถาปัตยกรรมโมเดลเพื่อระบุและแก้ไขปัญหาการบรรจบกัน เช่น การสูญเสียการตรวจสอบที่ไม่มาบรรจบกันหรือการไล่ระดับที่หายไป

การฝึกที่ยืดหยุ่นและรวดเร็วขึ้น
การปรับแต่งแบบเต็มรูปแบบ
SageMaker AI มาพร้อมกับไลบรารีและเครื่องมือในตัวเพื่อทำให้การฝึกโมเดลง่ายและรวดเร็วยิ่งขึ้น SageMaker AI ทำงานร่วมกับโมเดล ML โอเพนซอร์สยอดนิยม เช่น GPT, BERT และ DALL·E; กรอบงาน ML เช่น PyTorch และ TensorFlow และ Transformer เช่น Hugging Face เมื่อใช้ SageMaker AI คุณจะสามารถใช้ไลบรารีและเครื่องมือโอเพนซอร์สยอดนิยมต่าง ๆ เช่น DeepSpeed, Megatron, Horovod, Ray Tune และ TensorBoard ได้ตามความต้องการของคุณ

การแปลงโค้ดในเครื่อง
Amazon SageMaker Python SDK ช่วยให้คุณสามารถเรียกใช้โค้ด ML ที่สร้างในสภาพแวดล้อมการพัฒนาแบบผสานรวม (IDE) ที่คุณต้องการและโน้ตบุ๊กในเครื่อง พร้อมทั้งการพึ่งพารันไทม์ที่เกี่ยวข้องเป็นงานการฝึกโมเดล ML ขนาดใหญ่โดยมีการเปลี่ยนแปลงโค้ดเพียงเล็กน้อย คุณเพียงแค่ต้องเพิ่มบรรทัดโค้ด (ตัวตกแต่ง Python) ให้กับโค้ด ML ในเครื่องของคุณ SageMaker Python SDK นำโค้ดไปพร้อมกับชุดข้อมูลและการตั้งค่าสภาพแวดล้อมพื้นที่ทำงาน และรันเป็นงานการฝึกของ SageMaker
เวิร์กโฟลว์การฝึก ML อัตโนมัติ
เวิร์กโฟลว์การฝึกอัตโนมัติโดยใช้ Amazon SageMaker Pipelines ช่วยให้คุณสร้างกระบวนการที่ทำซ้ำได้เพื่อประสานขั้นตอนการพัฒนาโมเดลสำหรับการทดลองที่รวดเร็วและการฝึกโมเดลใหม่ คุณสามารถเรียกใช้ขั้นตอนต่าง ๆ โดยอัตโนมัติตามช่วงเวลาที่สม่ำเสมอหรือเมื่อมีการเริ่มต้นเหตุการณ์บางอย่าง หรือคุณสามารถรันด้วยตนเองได้ตามต้องการ
แผนการฝึกที่ยืดหยุ่น
เพื่อให้ตรงตามกำหนดเวลาและงบประมาณการฝึกของคุณ SageMaker AI จะช่วยให้คุณสร้างแผนการฝึกที่คุ้มต้นทุนมากที่สุดซึ่งใช้ทรัพยากรการประมวลผลจากบล็อกความสามารถในการประมวลผลหลายบล็อก เมื่อคุณอนุมัติแผนการฝึก SageMaker AI จะจัดเตรียมโครงสร้างพื้นฐานโดยอัตโนมัติและรันงานการฝึกบนทรัพยากรการประมวลผลเหล่านี้โดยไม่ต้องมีการแทรกแซงด้วยตนเอง ช่วยประหยัดเวลาหลายสัปดาห์ในการจัดการกระบวนการฝึกเพื่อปรับงานให้สอดคล้องกับความพร้อมใช้งานในการประมวลผล
ทรัพยากร
มีอะไรใหม่
Total results: 5
- วันที่ (จากใหม่สุดไปเก่าสุด)
-
2023/12/20
-
2023/11/29
-
2022/07/15
-
2022/07/08
-
2022/06/10