การอนุมานของ Amazon SageMaker

ปรับใช้และจัดการโมเดลแมชชีนเลิร์นนิง (ML) เพื่อการอนุมานได้อย่างง่ายดาย

การอนุมานของ Amazon SageMaker คืออะไร

Amazon SageMaker AI ช่วยให้ปรับใช้โมเดล ML รวมถึงโมเดลพื้นฐาน (FM) ได้ง่ายขึ้น เพื่อส่งคำขอการอนุมานด้วยอัตราส่วนราคาต่อประสิทธิภาพที่คุ้มค่าที่สุดสำหรับทุกกรณีการใช้งาน ตั้งแต่เวลาแฝงต่ำและอัตราการโอนถ่ายข้อมูลสูงไปจนถึงการอนุมานในระยะยาว คุณสามารถใช้ SageMaker AI สำหรับความต้องการการอนุมานทั้งหมดของคุณได้ SageMaker AI คือบริการที่มีการจัดการเต็มรูปแบบและผสานรวมกับเครื่องมือ MLOps ดังนั้นคุณจึงปรับขนาดการนำโมเดลไปใช้จริง ลดต้นทุนการอนุมาน จัดการโมเดลได้อย่างมีประสิทธิภาพมากขึ้นในสภาพแวดล้อมการใช้งานจริง และลดภาระในการดำเนินงานลง

ประโยชน์ของการอนุมานของ SageMaker

ตัวเลือกการอนุมานที่หลากหลาย

การอนุมานแบบเรียลไทม์

การคาดการณ์เวลาแฝงต่ำเชิงโต้ตอบแบบเรียลไทม์สำหรับกรณีการใช้งานที่มีรูปแบบปริมาณการใช้งานคงที่ คุณสามารถปรับใช้โมเดลของคุณไปยังตำแหน่งข้อมูลที่ได้รับการจัดการอย่างเต็มรูปแบบและรองรับการปรับขนาดอัตโนมัติ

การอนุมานแบบไร้เซิร์ฟเวอร์

เวลาแฝงต่ำและอัตราการโอนถ่ายข้อมูลสูงสำหรับกรณีการใช้งานที่มีรูปแบบการรับส่งข้อมูลไม่ต่อเนื่อง จุดตำแหน่งข้อมูลแบบไม่ต้องใช้เซิร์ฟเวอร์จะเริ่มต้นทรัพยากรการคำนวณโดยอัตโนมัติและปรับขนาดเข้าและออกโดยขึ้นอยู่กับปริมาณการรับส่งข้อมูล ซึ่งช่วยให้ไม่จำเป็นต้องเลือกประเภทอินสแตนซ์หรือจัดการนโยบายการปรับขนาด

การอนุมานแบบอะซิงโครนัส

เวลาแฝงต่ำสำหรับกรณีการใช้งานที่มีเพย์โหลดขนาดใหญ่ (สูงสุด 1 GB) หรือเวลาการประมวลผลที่ยาวนาน (สูงสุด 1 ชั่วโมง) และข้อกำหนดด้านเวลาแฝงแบบแทบจะเรียลไทม์ การอนุมานแบบอะซิงโครนัสช่วยประหยัดค่าใช้จ่ายโดยการปรับขนาดจำนวนอินสแตนซ์เป็นศูนย์โดยอัตโนมัติเมื่อไม่มีคำขอในการประมวลผล

Batch Transform

การอนุมานแบบออฟไลน์สำหรับชุดข้อมูลสำหรับกรณีการใช้งานที่มีชุดข้อมูลขนาดใหญ่ เมื่อใช้ Batch Transform คุณจึงสามารถประมวลผลชุดข้อมูลล่วงหน้าเพื่อลบสัญญาณรบกวนหรือความเอนเอียง รวมถึงเชื่อมโยงบันทึกอินพุตกับการอนุมานเพื่อช่วยในการตีความผลลัพธ์

ตัวเลือกการอนุมานที่ปรับขนาดได้และคุ้มค่า

ตำแหน่งข้อมูลแบบโมเดลเดียว

โมเดลหนึ่งตัวบนคอนเทนเนอร์ที่โฮสต์บน Dedicated Instance หรือแบบไม่ต้องใช้เซิร์ฟเวอร์เพื่อเวลาแฝงที่ต่ำและอัตราการโอนถ่ายข้อมูลสูง

เรียนรู้เพิ่มเติม

ตำแหน่งข้อมูลแบบโมเดลเดียว

หลากหลายโมเดลบนตำแหน่งข้อมูลเดียว

โฮสต์หลายโมเดลไปยังอินสแตนซ์เดียวกันเพื่อใช้ตัวเร่งที่เป็นเบื้องหลังได้ดียิ่งขึ้น ลดต้นทุนการนำไปใช้จริงลงได้สูงสุด 50% คุณสามารถควบคุมนโยบายการปรับขนาดสำหรับ FM แต่ละรายการแยกกันได้ ซึ่งทำให้สามารถปรับเข้ากับรูปแบบการใช้งานแบบจำลองได้ง่ายขึ้น ในขณะที่เพิ่มประสิทธิภาพต้นทุนโครงสร้างพื้นฐาน

เรียนรู้เพิ่มเติม

ตำแหน่งข้อมูลหลายโมเดล

ไปป์ไลน์การอนุมานแบบอนุกรม

คอนเทนเนอร์หลายตัวที่แชร์ Dedicated Instance และดำเนินการตามลำดับ คุณสามารถใช้ไปป์ไลน์การอนุมานเพื่อรวมงานด้านวิทยาศาสตร์ข้อมูลก่อนการประมวลผล การคาดคะเน และหลังการประมวลผลได้

เรียนรู้เพิ่มเติม

ไปป์ไลน์การอนุมานแบบอนุกรม

รองรับเฟรมเวิร์กแมชชีนเลิร์นนิงและเซิร์ฟเวอร์โมเดลส่วนใหญ่

การอนุมานของ Amazon SageMaker รองรับอัลกอริทึมในตัวและ Docker Image ที่สร้างไว้ล่วงหน้าสำหรับเฟรมเวิร์กแมชชีนเลิร์นนิงที่พบมากที่สุดเช่น TensorFlow, PyTorch, ONNX และ XGBoost หากไม่มี Docker Image ที่สร้างไว้ล่วงหน้าตามความต้องการของคุณ คุณสามารถสร้างคอนเทนเนอร์ของคุณเองเพื่อใช้กับตำแหน่งข้อมูลหลายโมเดลที่รองรับ CPU ได้ การอนุมานของ SageMaker รองรับเซิร์ฟเวอร์โมเดลยอดนิยม เช่น TensorFlow Serving, TorchServe, NVIDIA Triton, เซิร์ฟเวอร์หลายโมเดลของ AWS

Amazon SageMaker AI นำเสนอคอนเทนเนอร์ดีปเลิร์นนิงพิเศษ (DLC), ไลบรารี และเครื่องมือสำหรับการขนานแบบโมเดลและการอนุมานโมเดลขนาดใหญ่ (LMI) เพื่อช่วยคุณปรับปรุงประสิทธิภาพของโมเดลพื้นฐาน ด้วยตัวเลือกเหล่านี้ คุณจึงสามารถปรับใช้โมเดลรวมถึงโมเดลพื้นฐาน (FM) ได้อย่างรวดเร็วในเกือบทุกกรณีใช้งาน


เรียนรู้เพิ่มเติม
 

TensorFlow
PyTorch
mxnet
โลโก้ Huggine Face
TensorFlow

ได้ประสิทธิภาพการอนุมานสูงด้วยต้นทุนต่ำ

ได้ประสิทธิภาพการอนุมานสูงด้วยต้นทุนต่ำ

ชุดเครื่องมือเพิ่มประสิทธิภาพการอนุมานใหม่ของ Amazon SageMaker AI ให้อัตราการโอนถ่ายข้อมูลที่สูงขึ้นถึงประมาณ 2 เท่า พร้อมกับลดต้นทุนได้ถึงประมาณ 50% สำหรับโมเดล AI ช่วยสร้าง เช่น Llama 3, Mistral และ Mixtral ตัวอย่างเช่น ด้วยรุ่น Llama 3-70B คุณสามารถบรรลุได้ถึงประมาณ 2400 โทเคน/วินาทีในอินสแตนซ์ ml.p5.48xlarge v/s ประมาณ 1200 โทเคน/วินาทีก่อนหน้านี้โดยไม่ต้องเพิ่มประสิทธิภาพใด ๆ คุณสามารถเลือกเทคนิคการเพิ่มประสิทธิภาพแบบจำลอง เช่น การถอดรหัสเก็งกำไร การหาปริมาณและการรวบรวม หรือรวมเทคนิคหลายอย่าง นำไปใช้กับโมเดลของคุณ เรียกใช้เกณฑ์มาตรฐานเพื่อประเมินผลกระทบของเทคนิคที่มีต่อคุณภาพผลลัพธ์และประสิทธิภาพการอนุมานและปรับใช้โมเดลด้วยการคลิกเพียงไม่กี่ครั้ง

ภาพที่แสดงเมตริกการประเมินในมุมมองเดียว

ปรับใช้โมเดลบนโครงสร้างพื้นฐานที่มีประสิทธิภาพสูงที่สุดหรือใช้งานแบบไม่ต้องใช้เซิร์ฟเวอร์

Amazon SageMaker AI นำเสนอประเภทอินสแตนซ์มากกว่า 70 ประเภทพร้อมระดับการประมวลผลและหน่วยความจำที่แตกต่างกัน รวมถึงอินสแตนซ์ Amazon EC2 Inf1 ที่ใช้ AWS Inferentia, ชิปการอนุมาน ML ประสิทธิภาพสูงที่ออกแบบและสร้างโดย AWS และอินสแตนซ์ GPU เช่น Amazon EC2 G4dn หรือเลือกการอนุมานแบบไม่ต้องใช้เซิร์ฟเวอร์ของ Amazon SageMaker เพื่อปรับขนาดเป็นหลายพันโมเดลต่อหนึ่งตำแหน่งข้อมูล อัตราการโอนถ่ายข้อมูลหลายล้านรายการต่อวินาที (TPS) และเวลาแฝงของโอเวอร์เฮดที่ต่ำกว่า 10 มิลลิวินาทีได้อย่างง่ายดาย

รูปภาพที่แสดงถึงคุณสมบัติของชิปการอนุมาน ML

ดำเนินการทดสอบข้อบกพร่องเพื่อตรวจสอบประสิทธิภาพของโมเดล ML

Amazon SageMaker AI ช่วยให้คุณสามารถประเมินโมเดลใหม่โดยดำเนินการทดสอบข้อบกพร่องกับโมเดลที่ SageMaker ใช้อยู่ในปัจจุบัน โดยใช้คำขอการอนุมานแบบสด การทดสอบข้อบกพร่องสามารถช่วยให้คุณตรวจจับข้อผิดพลาดในการกำหนดค่าที่อาจเกิดขึ้นและปัญหาด้านประสิทธิภาพก่อนที่จะส่งผลกระทบต่อผู้ใช้ได้ เมื่อใช้ SageMaker AI คุณจะไม่ต้องเสียเวลาหลายสัปดาห์เพื่อสร้างโครงสร้างพื้นฐานการทดสอบข้อบกพร่องของคุณเอง เพียงเลือกโมเดลการผลิตที่คุณต้องการทดสอบ จากนั้น SageMaker AI จะนำโมเดลใหม่ไปใช้ในโหมดการทดสอบข้อบกพร่องโดยอัตโนมัติ และจะกำหนดเส้นทางสำเนาของคำขออนุมานที่ได้รับจากโมเดลการผลิตไปยังโมเดลใหม่แบบเรียลไทม์

ภาพแสดงกระบวนการทดสอบข้อบกพร่อง

การปรับขนาดอัตโนมัติเพื่อความยืดหยุ่น

คุณสามารถใช้นโยบายการปรับขนาดเพื่อปรับขนาดทรัพยากรการประมวลผลพื้นฐานโดยอัตโนมัติเพื่อรองรับความผันผวนในคำขอการอนุมาน คุณสามารถควบคุมนโยบายการปรับขนาดสำหรับ ML แต่ละโมเดลแบบแยกกันเพื่อจัดการกับการเปลี่ยนแปลงในการใช้งานโมเดลได้อย่างง่ายดาย และสามารถปรับต้นทุนโครงสร้างพื้นฐานให้เหมาะสมในขณะเดียวกันได้

รูปภาพแสดงกลุ่มการปรับขนาดอัตโนมัติ

การปรับปรุงเวลาในการตอบสนองและการกำหนดเส้นทางอัจฉริยะ

คุณสามารถลดความล่าช้าในการอนุมานสำหรับโมเดล ML โดยกำหนดเส้นทางคำขออนุมานใหม่ไปยังอินสแตนซ์ที่มีให้ได้อย่างชาญฉลาดแทนคำขอกำหนดเส้นทางแบบสุ่มไปยังอินสแตนซ์ที่ยุ่งกับการให้บริการคำขออนุมานแล้ว ช่วยให้คุณบรรลุความล่าช้าในการอนุมานที่ต่ำกว่า 20% โดยเฉลี่ย

ลดภาระการดำเนินงานและเร่งระยะเวลาการสร้างคุณค่าให้เร็วขึ้น

การโฮสต์และการจัดการโมเดลที่มีการจัดการเต็มรูปแบบ

เนื่องจากเป็นบริการที่มีการจัดการแบบเต็มรูปแบบ Amazon SageMaker AI จะดูแลการตั้งค่าและการจัดการอินสแตนซ์ ความเข้ากันได้ของเวอร์ชันซอฟต์แวร์ และการแพตช์เวอร์ชัน นอกจากนี้ยังมีตัววัดและบันทึกในตัวสำหรับตำแหน่งข้อมูลที่คุณสามารถใช้เพื่อติดตามและรับการแจ้งเตือน

รูปภาพที่แสดงขั้นตอนการจัดการโมเดล

การผสานรวมที่มาในตัวกับคุณสมบัติ MLOps

ฟีเจอร์การนำโมเดล Amazon SageMaker AI ไปใช้จริงได้รับการผสานรวมกับความสามารถ MLOps เข้ากับระบบ รวมถึง SageMaker Pipelines (เวิร์กโฟลว์ระบบอัตโนมัติและการควบคุมระบบ), SageMaker Projects (CI/CD สำหรับ ML), ที่เก็บฟีเจอร์ของ SageMaker (การจัดการฟีเจอร์), SageMaker Model Registry (แค็ตตาล็อกโมเดลและอาร์ทิแฟกต์เพื่อติดตามเส้นทางและสนับสนุนเวิร์กโฟลว์การอนุมัติอัตโนมัติ), SageMaker Clarify (การตรวจจับอคติ) และ SageMaker Model Monitor (การตรวจจับการคลาดเคลื่อนของโมเดลและแนวคิด) ด้วยเหตุนี้ ไม่ว่าคุณจะปรับใช้เพียงโมเดลเดียว หรือหลายหมื่นโมเดล SageMaker AI ก็จะช่วยลดภาระค่าใช้จ่ายในการดำเนินการเพื่อนำไปใช้จริง ปรับขนาด และจัดการโมเดล ML ในขณะเดียวกันก็ช่วยให้นำโมเดลเหล่านั้นไปใช้จริงได้เร็วขึ้น

รูปภาพแสดงแผนผังลำดับงานของโมเดลการฝึก

แหล่งข้อมูลสำหรับการอนุมานของ SageMaker