อินสแตนซ์ Amazon EC2 Inf1
ธุรกิจต่างๆ จากกลุ่มอุตสาหกรรมที่หลากหลายกำลังมองหาการเปลี่ยนแปลงที่ขับเคลื่อนด้วย AI ในการผลักดันนวัตกรรมทางธุรกิจ ปรับปรุงประสบการณ์ของลูกค้า และการปรับปรุงกระบวนการ โมเดลแมชชีนเลิร์นนิ่งที่ขับเคลื่อนแอปพลิเคชัน AI กลายเป็นความซับซ้อนที่มากขึ้นซึ่งส่งผลให้มีต้นทุนด้านโครงสร้างพื้นฐานการประมวลผลพื้นฐานที่เพิ่มขึ้น การใช้จ่ายเกี่ยวกับโครงสร้างพื้นฐานมากถึง 90% สำหรับการพัฒนาและเรียกใช้แอปพลิเคชัน ML มักเกี่ยวข้องกับการอนุมาน ลูกค้ากำลังมองหาโซลูชันโครงสร้างพื้นฐานที่คุ้มค่าใช้จ่ายสำหรับการติดตั้งใช้งานแอปพลิเคชัน ML ในการผลิต
อินสแตนซ์ Amazon EC2 Inf1 มอบการอนุมานของ ML ที่มีประสิทธิภาพสูงและค่าใช้จ่ายต่ำ ซึ่งมอบปริมาณการประมวลผลเพิ่มขึ้นถึง 2.3 เท่าและมีค่าใช้จ่ายน้อยลงถึง 70% ต่อการอนุมานเมื่อเทียบกับ Amazon EC2 Instance บน GPU รุ่นปัจจุบัน Inf1 instances ได้รับการออกแบบใหม่ทั้งหมดเพื่อสนับสนุนแอปพลิเคชันการอนุมานของแมชชีนเลิร์นนิ่ง ซึ่งจะมีชิป AWS Inferentia มากถึง 16 ตัว ซึ่งเป็นชิปการอนุมานของแมชชีนเลิร์นนิ่งประสิทธิภาพสูงที่ออกแบบและสร้างโดย AWS นอกจากนี้ อินสแตนซ์ Inf1 ยังมาพร้อมกับโปรเซสเซอร์ Intel® Xeon® แบบปรับขนาดได้ เจนเนอเรชั่น 2 และระบบเครือข่ายสูงสุด 100 Gbps สำหรับการอนุมานที่มีปริมาณการประมวลผลสูง
ลูกค้าสามารถใช้อินสแตนซ์ Inf1 เพื่อเรียกใช้แอปพลิเคชันการอนุมานของแมชชีนเลิร์นนิงขนาดใหญ่ เช่น การค้นหา กลไกการให้คำแนะนำ คอมพิวเตอร์วิทัศน์ การจดจำคำพูด การประมวลผลภาษาธรรมชาติ การปรับให้เข้ากับบุคคล และการตรวจจับการฉ้อโกงได้
นักพัฒนาสามารถติดตั้งใช้งานโมเดลแมชชีนเลิร์นนิงกับอินสแตนซ์ Inf1 โดยใช้ AWS Neuron SDK ซึ่งผสานรวมเฟรมเวิร์กแมชชีนเลิร์นนิงยอดนิยมไว้ด้วยกัน เช่น TensorFlow, PyTorch และ MXNet นักพัฒนาสามารถใช้เวิร์กโฟลว์ ML และย้ายข้อมูลแอปพลิเคชันต่อไปอย่างมีประสิทธิภาพไปยัง Inf1 instance ได้โดยมีการเปลี่ยนแปลงโค้ดเพียงเล็กน้อยและไม่เป็นการผูกมัดกับโซลูชันเฉพาะของผู้ให้บริการ
เริ่มต้นใช้งาน Inf1 instance ได้ง่ายๆ โดยใช้ Amazon SageMaker ซึ่งเป็น AWS Deep Learning AMI ที่มีการกำหนดค่ามาล่วงหน้ากับ Neuron SDK หรือการใช้ Amazon ECS หรือ Amazon EKS สำหรับแอปพลิเคชัน ML ที่ใส่ในคอนเทนเนอร์
ประโยชน์
ค่าใช้จ่ายต่อการอนุมานน้อยลงถึง 70%
เมื่อใช้ Inf1 นักพัฒนาสามารถลดค่าติดตั้งใช้งานแมชชีนเลิร์นนิงในการผลิตอย่างเห็นได้ชัด การผสานกันของค่าอินสแตนซ์ที่ต่ำและปริมาณการประมวลผลที่สูงของอินสแตนซ์ Inf1 ทำให้ต้นทุนต่อการอนุมานน้อยลงถึง 70% เมื่อเทียบกับ EC2 Instance บน GPU รุ่นปัจจุบัน
ความง่ายต่อการใช้งานและความสามารถในการเคลื่อนย้ายโค้ด
Neuron SDK ถูกผสานการทำงานร่วมกับเฟรมเวิร์กแมชชีนเลิร์นนิ่ง เช่น TensorFlow, PyTorch และ MXNet นักพัฒนาสามารถใช้เวิร์กโฟลว์ ML และย้ายข้อมูลแอปพลิเคชันต่อไปอย่างมีประสิทธิภาพไปยัง Inf1 instance ได้โดยมีการเปลี่ยนแปลงโค้ดเพียงเล็กน้อย ซึ่งให้อิสระในการใช้เฟรมเวิร์กแมชชีนเลิร์นนิ่งตามความต้องการ แพลตฟอร์มการประมวลผลที่ตรงตามข้อกำหนดที่สุด และใช้ประโยชน์จากเทคโนโลยีล่าสุดโดยไม่จำเป็นต้องผูกมัดกับโซลูชันเฉพาะของผู้ให้บริการ
ปริมาณการประมวลผลสูงกว่าถึง 2.3 เท่า
Inf1 instance ให้ปริมาณการประมวลผลสูงกว่าถึง 2.3 เท่าเมื่อเทียบกับ Amazon EC2 instance ที่ขับเคลื่อนด้วย GPU รุ่นปัจจุบันที่สามารถเทียบกันได้ ชิป AWS Inferentia ที่ขับเคลื่อน Inf1 instance ได้รับการปรับให้มีประสิทธิภาพเพื่อประสิทธิภาพการอนุมานสำหรับชุดข้อมูลแบบกลุ่มขนาดเล็ก ช่วยให้แอปพลิเคชันแบบเรียลไทม์เพิ่มการปริมาณการประมวลผลได้สูงสุดและเป็นไปตามความต้องการดั้งเดิม
เวลาแฝงที่ต่ำอย่างมาก
ชิป AWS Inferentia ได้รับการติดตั้งหน่วยความจำบนชิปขนาดใหญ่ซึ่งช่วยให้แคชโมเดลแมชชีนเลิร์นนิ่งได้โดยตรงบนตัวชิปเอง คุณสามารถติดตั้งใช้งานโมเดลของคุณได้โดยใช้ความสามารถต่างๆ เช่น NeuronCore Pipeline ซึ่งลดความต้องการในการเข้าถึงทรัพยากรหน่วยความจำภายนอก เมื่อใช้ Inf1 instance คุณสามารถติดตั้งใช้งานแอปพลิเคชันการอนุมานแบบเรียลไทม์ได้ในเวลาแฝงที่ไกล้เคียงกับเรียลไทม์โดยไม่มีผลกระทบต่อแบนด์วิดท์
การสนับสนุนโมเดลแมชชีนเลิร์นนิ่งและข้อมูลประเภทต่างๆ ที่หลากหลาย
Inf1 instance สนับสนุนสถาปัตยกรรมโมเดลแมชชีนเลิร์นนิ่งที่ใช้บ่อยได้หลายตัว เช่น SSD, VGG และ ResNext สำหรับการจดจำ/จัดหมวดหมู่ภาพ เช่นเดียวกับ Transformer และ BERT สำหรับการประมวลผลภาษาธรรมชาติ นอกจากนี้ ยังสนับสนุนคลังข้อมูลโมเดล HuggingFace ใน Neuron เพื่อให้ความสามารถในการคอมไพล์และเรียกใช้การอนุมานโดยใช้โมเดลที่มีการฝึกฝนไว้ล่วงหน้ากับลูกค้า หรือการปรับแต่งเป็นพิเศษอย่างง่ายดายโดยการเปลี่ยนแปลงโค้ดเพียงบรรทัดเดียว ข้อมูลหลายประเภทรวมถึง BF16 และ FP16 ด้วยความแม่นยำแบบผสมผสานยังสนับสนุนโมเดลและความต้องการด้านประสิทธิภาพหลากหลายรูปแบบอีกด้วย
คุณสมบัติ
ให้บริการโดย AWS Inferentia
AWS Inferentia คือชิปแมชชีนเลิร์นนิงที่ออกแบบและสร้างตามจุดประสงค์โดย AWS เพื่อส่งมอบประสิทธิภาพสูงที่มีค่าใช้จ่ายต่ำ ชิป AWS Inferentia แต่ละตัวประกอบไปด้วย NeuronCore รุ่นที่ 1 สี่ตัวและให้ประสิทธิภาพการทำงาน 128 tera ต่อวินาที (TOPS) และรองรับชนิดข้อมูล FP16 BF16 และ INT8 ชิป AWS Inferentia ยังประกอบด้วยหน่วยความจำบนชิปขนาดใหญ่ซึ่งสามารถใช้เพื่อแคชโมเดลที่มีขนาดใหญ่ได้ ซึ่งเป็นประโยชน์อย่างยิ่งโดยเฉพาะสำหรับโมเดลที่ต้องใช้การเข้าถึงหน่วยความจำบ่อยครั้ง
ติดตั้งใช้งานด้วยเฟรมเวิร์ก ML ยอดนิยมโดยใช้ AWS Neuron
ชุดเครื่องมือพัฒนาซอฟต์แวร์ (SDK) ของ AWS Neuron ประกอบด้วยเครื่องมือคอมไพเลอร์ รันไทม์ไดรเวอร์ และการทำโปรไฟล์ โดยจะทำให้เกิดการติดตั้งใช้งานโมเดลโครงข่ายประสาทที่มีความซับซ้อน ซึ่งสร้างและฝึกอบรมในเฟรมเวิร์กยอดนิยม เช่น TensorFlow, PyTorch และ MXNet สามารถดำเนินการได้โดยใช้ Inf1 instance เมื่อใช้ NeuronCore Pipeline ของ Neuron คุณสามารถแบ่งโมเดลขนาดใหญ่เพื่อดำเนินการในชิป Inferentia หลายตัวโดยใช้การเชื่อมต่อระหว่างชิปไปยังชิปอีกตัวที่มีความเร็วสูง เพื่อส่งมอบปริมาณการประมวลผลการอนุมานในระดับสูงและค่าใช้จ่ายในการอนุมานที่ต่ำลง
เครือข่ายและพื้นที่จัดเก็บประสิทธิภาพสูง
Inf1 instance ให้อัตราการส่งข้อมูลเครือข่ายสูงสุด 100 Gbps สำหรับแอปพลิเคชันซึ่งต้องเข้าถึงเครือข่ายความเร็วสูง เทคโนโลยี Elastic Network Adapter (ENA) และ NVM Express (NVMe) รุ่นใหม่ให้ Inf1 instance ที่มีปริมาณการประมวลผลสูง อินเทอร์เฟซแบบมีเวลาแฝงต่ำสำหรับระบบเครือข่าย และ Amazon Elastic Block Store (Amazon EBS)
สร้างบน AWS Nitro System
AWS Nitro System คือการรวบรวมบล็อกส่วนประกอบที่ครบถ้วนที่จะถ่ายข้อมูลฟังก์ชันการจำลองเสมือนแบบดั้งเดิมหลายฟังก์ชันไปยังฮาร์ดแวร์และซอฟต์แวร์เฉพาะ เพื่อมอบประสิทธิภาพสูง ความพร้อมใช้งานสูง และการรักษาความปลอดภัยระดับสูง ในขณะที่ลดค่าใช้จ่ายในการจำลองเสมือน
วิธีการทำงาน

คำนิยมจากลูกค้า

Airbnb ที่ตั้งอยู่ในซานฟรานซิสโกซึ่งก่อตั้งขึ้นในปี 2008 เป็นตลาดชุมชนที่มีเจ้าของที่พักมากกว่า 4 ล้านคน ซึ่งได้ต้อนรับแขกผู้มาเยือนแล้วมากกว่า 900 ล้านคนในเกือบทุกประเทศทั่วโลก
“แพลตฟอร์มการสนับสนุนชุมชนของ Airbnb มอบประสบการณ์การบริการที่ชาญฉลาด ปรับขนาดได้ และยอดเยี่ยมให้แก่ชุมชนของเราซึ่งมีแขกและเจ้าของที่พักหลายล้านคนทั่วโลก เรามองหาวิธีปรับปรุงประสิทธิภาพของโมเดลการประมวลผลภาษาธรรมชาติที่แอปพลิเคชัน Chatbot สนับสนุนของเราใช้งานอยู่อย่างต่อเนื่อง ด้วยอินสแตนซ์ Amazon EC2 Inf1 ที่ให้บริการโดย AWS Inferentia เราพบว่ามีปริมาณการประมวลผลเพิ่มขึ้น 2 เท่าทันทีที่ใช้งานเมื่อเทียบกับอินสแตนซ์ที่ใช้ GPU สำหรับโมเดล BERT ที่ใช้ PyTorch ของเรา เราตั้งตารอที่จะใช้ประโยชน์จากอินสแตนซ์ Inf1 สำหรับโมเดลและกรณีการใช้งานอื่นๆ ในอนาคต”
Bo Zeng ผู้จัดการฝ่ายวิศวกรรมของ AirBnB

“เราใช้งานแมชชีนเลิร์นนิ่ง (ML) ในหลายๆ ส่วนของ Snapchat และการสำรวจนวัตกรรมใหม่ๆ ในด้านนี้ถือเป็นสิ่งสำคัญอันดับแรก เมื่อได้ทราบข่าวเกี่ยวกับ Inferentia เราจึงเริ่มร่วมงานกับ AWS เพื่อใช้อินสแตนซ์ Inf1/Inferentia ในการช่วยติดตั้งใช้งาน ML รวมถึงในด้านประสิทธิภาพและต้นทุน เราเริ่มต้นจากรูปแบบการแนะนำและคาดหวังว่าจะได้ใช้รูปแบบอื่นเพิ่มเติมกับอินสแตนซ์ Inf1 ในอนาคต”
Nima Khajehnouri รองประธานฝ่ายวิศวกรรมของ Snap Inc.

“แพลตฟอร์มการจัดการประสบการณ์ของลูกค้าแบบครบวงจร (Unified-CXM) ที่ขับเคลื่อนด้วย AI ของ Sprinklr ช่วยให้บริษัทต่างๆ สามารถรวบรวมและแปลความคิดเห็นของลูกค้าแบบเรียลไทม์ในช่องทางต่างๆ ให้เป็นข้อมูลเชิงลึกที่นำไปปฏิบัติได้ ส่งผลให้เกิดการแก้ไขปัญหาเชิงรุก การพัฒนาผลิตภัณฑ์ที่เพิ่มขึ้น การตลาดผ่านเนื้อหาที่ดีขึ้น การบริการลูกค้าที่ดีขึ้น และอื่นๆ อีกมากมาย เมื่อใช้ Amazon EC2 Inf1 เราสามารถเพิ่มประสิทธิภาพโมเดลการประมวลผลภาษาธรรมชาติ (NLP) รูปแบบหนึ่งของเราได้เป็นอย่างมาก รวมถึงเพิ่มประสิทธิภาพของโมเดลคอมพิวเตอร์วิทัศน์รูปแบบหนึ่งของเราได้อีกด้วย เราหวังว่าจะใช้ Amazon EC2 Inf1 ต่อไปเพื่อให้บริการแก่ลูกค้าทั่วโลกของเราได้ดียิ่งขึ้น"
Vasant Srinivasan รองประธานอาวุโสฝ่ายวิศวกรรมผลิตภัณฑ์ของ Sprinklr

“Finch for Text ซึ่งเป็นผลิตภัณฑ์การประมวลผลภาษาธรรมชาติ (NLP) อันล้ำสมัยของเรา ช่วยให้ผู้ใช้สามารถแยก ขจัดความคลุมเครือ และทำให้เอนทิตีประเภทต่างๆ สมบูรณ์ยิ่งขึ้นในข้อความจำนวนมากได้ Finch for Text ต้องใช้ทรัพยากรการประมวลผลจำนวนมากเพื่อให้ลูกค้าของเราได้รับฟีดข้อมูลทั่วโลกที่สมบูรณ์ยิ่งขึ้นโดยมีเวลาแฝงที่ต่ำ ขณะนี้เราเลือกใช้อินสแตนซ์ Inf1 ของ AWS ในโมเดล PyTorch NLP, การแปล และการขจัดความคลุมเครือของเอนทิตี เราสามารถลดต้นทุนในการอนุมานได้มากกว่า 80% (มากกว่า GPU) โดยมีการเพิ่มประสิทธิภาพขั้นต่ำ ในขณะที่ยังคงความเร็วและประสิทธิภาพในการอนุมานของเราไว้ได้ การปรับปรุงนี้ช่วยให้ลูกค้าของเราสามารถปรับปรุงข้อความในภาษาฝรั่งเศส สเปน เยอรมัน และดัตช์ได้แบบเรียลไทม์บนฟีดข้อมูลการสตรีมและในระดับโลก ซึ่งถือเป็นสิ่งที่สำคัญสำหรับบริการทางการเงิน ผู้รวบรวมข้อมูล และลูกค้าภาครัฐของเรา”
Scott Lightner ประธานเจ้าหน้าที่ฝ่ายเทคโนโลยีของ Finch Computing

“Autodesk กำลังพัฒนาเทคโนโลยีการรู้คิดของผู้ช่วยเสมือนของเราที่ขับเคลื่อนโดย AI ที่มีชื่อว่า Autodesk Virtual Agent (AVA) โดยใช้ Inferentia ซึ่ง AVA ตอบคำถามลูกค้ากว่า 100,000 ข้อต่อเดือนด้วยการใช้ความเข้าใจภาษาธรรมชาติ (NLU) และเทคนิคดีปเลิร์นนิ่งในการหาบริบท เจตนา และความหมายเบื้องหลังการสอบถาม จากการเริ่มนำร่องกับ Inferentia เราสามารถรับปริมาณการประมวลผลได้สูงกว่า G4dn ถึง 4.9 เท่าสำหรับโมเดล NLU ของเรา และคาดหวังว่าจะเรียกใช้ปริมาณงานได้มากขึ้นในอินสแตนซ์ Inf1 ที่ใช้ Inferentia”
Binghui Ouyang นักวิทยาศาสตร์ข้อมูลอาวุโสของ Autodesk
บริการของ Amazon ที่ใช้อินสแตนซ์ Amazon EC2 Inf1

Amazon Advertising ช่วยให้ธุรกิจทุกขนาดเชื่อมต่อกับลูกค้าในทุกขั้นตอนของเส้นทางการช็อปปิ้ง โฆษณาหลายล้านรายการ รวมถึงข้อความและรูปภาพ ได้รับการดูแล จัดประเภท และให้บริการเพื่อประสบการณ์ที่ดีที่สุดของลูกค้าในทุกๆ วัน
“สำหรับการประมวลผลโฆษณาแบบข้อความ เราติดตั้งใช้โมเดล BERT ที่ใช้ PyTorch ทั่วโลกบนอินสแตนซ์ Inf1 ที่ใช้ AWS Inferentia การเปลี่ยนไปใช้ Inferentia จาก GPU ช่วยให้เราลดต้นทุนลงได้ถึง 69% แต่ยังมีประสิทธิภาพเท่าเดิม การคอมไพล์และการทดสอบโมเดลของเราสำหรับ AWS Inferentia ใช้เวลาไม่เกิน 3 สัปดาห์ การใช้ Amazon SageMaker เพื่อติดตั้งใช้โมเดลของเรากับอินสแตนซ์ Inf1 ช่วยรับรองได้ว่าการติดตั้งใช้จริงของเราจะปรับขนาดได้และจัดการได้ง่าย เมื่อวิเคราะห์โมเดลที่คอมไพล์แล้ว ประสิทธิภาพของ AWS Inferentia นั้นน่าประทับใจมาก จนต้องรันการวัดประสิทธิภาพใหม่เพื่อให้แน่ใจว่าถูกต้อง! ในอนาคต เราวางแผนที่จะย้ายโมเดลการประมวลผลโฆษณาแบบรูปภาพไปยัง Inferentia เราได้ลองเปรียบเทียบดูแล้วพบว่ามีเวลาแฝงต่ำกว่า 30% และประหยัดค่าใช้จ่ายลง 71% เมื่อเทียบกับอินสแตนซ์ที่ใช้ GPU ที่เปรียบเทียบได้สำหรับรุ่นเหล่านี้”
Yashal Kanungo นักวิทยาศาสตร์ประยุกต์ของ Amazon Advertising

"ระบบอัจฉริยะที่ใช้ AI และ ML ของ Amazon Alexa ซึ่งให้บริการโดย Amazon Web Services พร้อมให้บริการบนอุปกรณ์มากกว่า 100 ล้านเครื่องแล้วในวันนี้ และคำสัญญาของเราที่มีต่อลูกค้าคือการทำให้ Alexa ฉลาดยิ่งขึ้น สนทนาได้ดียิ่งขึ้น พร้อมตอบคำถามมากขึ้น และมีชีวิตชีวายิ่งกว่าเดิม การทำให้คำสัญญานั้นเป็นจริงได้ต้องมีการปรับปรุงอย่างต่อเนื่องเกี่ยวกับระยะเวลาการตอบสนองและค่าใช้จ่ายในด้านโครงสร้างพื้นฐานแมชชีนเลิร์นนิ่ง ซึ่งเป็นเหตุผลที่เราตื่นเต้นที่จะใช้ Amazon EC2 Inf1 เพื่อลดเวลาแฝงในการอนุมานและค่าใช้จ่ายต่อการอนุมานในการแปลงข้อความเป็นคำพูดของ Alexa Amazon EC2 Inf1 ช่วยให้เราสามารถให้การบริการที่ดียิ่งขึ้นกับลูกค้าหลายสิบล้านรายที่ใช้งาน Alexa ในแต่ละเดือน"
Tom Taylor รองประธานอาวุโสของ Amazon Alexa
“เราสร้างสรรค์นวัตกรรมอย่างต่อเนื่องเพื่อปรับปรุงประสบการณ์ของลูกค้าให้ดียิ่งขึ้น และเพื่อลดต้นทุนด้านโครงสร้างพื้นฐานของเรา การย้ายปริมาณงานการตอบคำถามบนเว็บ (WBQA) ของเราจากอินสแตนซ์ P3 ที่ใช้ GPU ไปยังอินสแตนซ์ Inf1 ที่ใช้ AWS Inferentia ไม่เพียงช่วยให้เราลดต้นทุนการอนุมานได้ถึง 60% แต่ยังปรับปรุงเวลาแฝงจากต้นทางถึงปลายทางได้มากกว่า 40% ซึ่งช่วยให้ลูกค้าได้รับประสบการณ์ถามตอบกับ Alexa ที่ดีขึ้น การใช้ Amazon SageMaker สำหรับโมเดลที่ใช้ Tensorflow ทำให้กระบวนการสลับไปใช้อินสแตนซ์ Inf1 กลายเป็นเรื่องไม่ซับซ้อนและจัดการได้ง่าย ตอนนี้เราใช้อินสแตนซ์ Inf1 โดยรวมเพื่อเรียกใช้เวิร์กโหลด WBQA เหล่านี้ และปรับประสิทธิภาพให้เหมาะสมสำหรับ AWS Inferentia เพื่อลดต้นทุนและเวลาแฝงเพิ่มเติม”
Eric Lind วิศวกรพัฒนาซอฟต์แวร์ของ Alexa AI

“Amazon Prime Video ใช้โมเดล ML ของคอมพิวเตอร์วิชันเพื่อวิเคราะห์คุณภาพวิดีโอของการถ่ายทอดสดเพื่อให้มั่นใจได้ถึงประสบการณ์การรับชมที่ดีที่สุดสำหรับสมาชิก Prime Video เรานำโมเดล ML การจำแนกประเภทอิมเมจของเราไปใช้จริงบนอินสแตนซ์ Inf1 ของ EC2 และสังเกตเห็นการปรับปรุงประสิทธิภาพที่เพิ่มขึ้นถึง 4 เท่าและการประหยัดค่าใช้จ่ายได้สูงสุดถึง 40% ขณะนี้เราต้องการใช้ประโยชน์จากการประหยัดต้นทุนเหล่านี้เพื่อสร้างสรรค์สิ่งใหม่ๆ และสร้างโมเดลขั้นสูงซึ่งสามารถตรวจจับข้อบกพร่องที่ซับซ้อนมากขึ้นได้ เช่น ช่องว่างการซิงโครไนซ์ระหว่างไฟล์เสียงและวิดีโอเพื่อให้สมาชิก Prime Video ได้รับประสบการณ์การรับชมที่ดียิ่งขึ้น”

“Amazon Rekognition เป็นแอปพลิเคชันวิเคราะห์รูปภาพและวิดีโอที่ใช้งานง่ายซึ่งช่วยให้ลูกค้าระบุวัตถุ ผู้คน ข้อความ และกิจกรรมได้ โดย Amazon Rekognition ต้องใช้โครงสร้างพื้นฐานดีปเลิร์นนิ่งประสิทธิภาพสูงที่สามารถวิเคราะห์รูปภาพและวิดีโอได้หลายพันล้านรายการสำหรับลูกค้าของเรา ด้วยอินสแตนซ์ Inf1 ของ AWS Inferentia ทำให้การเรียกใช้รูปแบบ Rekognition เช่น การแยกวัตถุ มีเวลาแฝงต่ำลง 8 เท่า และปริมาณการประมวลผล 2 เท่า เมื่อเทียบกับการเรียกใช้รูปแบบเหล่านี้ใน GPU จากผลลัพธ์นี้ ทำให้เราย้าย Rekognition ไปยัง Inf1 เพื่อช่วยให้ลูกค้าของเราได้รับผลลัพธ์ที่แม่นยำและรวดเร็วยิ่งขึ้น”
ราคา
* ราคาที่แสดงคือราคาสำหรับรีเจี้ยน AWS ของสหรัฐอเมริกาฝั่งตะวันออก (เวอร์จิเนียตอนเหนือ) ราคาสำหรับอินสแตนซ์แบบเหมาจ่ายเป็นระยะเวลา 1 ปีและ 3 ปีนั้นมีไว้สำหรับตัวเลือกการชำระเงิน "ค่าบริการล่วงหน้าบางส่วน" หรือ "ไม่มีค่าบริการล่วงหน้า" สำหรับอินสแตนซ์ที่ไม่มีตัวเลือกค่าบริการล่วงหน้าบางส่วน
Amazon EC2 Inf1 instance พร้อมให้บริการในรีเจี้ยน AWS สหรัฐอเมริกาฝั่งตะวันออก (เวอร์จิเนียเหนือ) และสหรัฐอเมริกาฝั่งตะวันตก (ออริกอน) ในรูปแบบของอินสแตนซ์ตามความต้องการ อินสแตนซ์แบบเหมาจ่าย หรืออินสแตนซ์สปอต
เริ่มต้นใช้งาน
การใช้ Amazon SageMaker
Amazon SageMaker ทำให้ง่ายต่อการคอมไพล์และการติดตั้งใช้จริงโมเดลแมชชีนเลิร์นนิ่งที่ผ่านการฝึกอบรมมาแล้วในระหว่างการผลิตบน Amazon Inf1 instance ดังนั้นคุณจึงสามารถเริ่มสร้างการคาดการณ์สำหรับข้อมูลแบบเรียลไทม์ด้วยเวลาแฝงที่ต่ำได้ทันที AWS Neuron ซึ่งเป็นคอมไพเลอร์สำหรับ AWS Inferentia ถูกผสานการทำงานเข้ากับ Amazon SageMaker Neo เพื่อช่วยให้คุณคอมไพล์โมเดลแมชชีนเลิร์นนิ่งที่ได้รับการฝึกอบรมมาให้ทำงานอย่างเหมาะสมบน Inf1 instance ด้วย Amazon SageMaker คุณสามารถใช้งานโมเดลบนคลัสเตอร์ auto-scaling ของ Inf1 instance ที่ครอบคลุมหลาย Availability Zone ได้ง่าย เพื่อมอบทั้งประสิทธิภาพการทำงานและการอนุมานแบบเรียลไทม์ที่มีความพร้อมใช้งานสูง เรียนรู้วิธีการปรับใช้ Inf1 โดยใช้ Amazon SageMaker ด้วยตัวอย่างบน Github
การใช้ AWS Deep Learning AMI
AWS Deep Learning AMI (DLAMI) มอบโครงสร้างพื้นฐานและเครื่องมือต่างๆ ให้แก่ผู้ปฏิบัติงานและนักวิจัยด้านแมชชีนเลิร์นนิ่ง เพื่อเร่งให้เกิดดีปเลิร์นนิ่งในระบบคลาวด์ทุกขนาด AWS Neuron SDK มาพร้อมกับ AWS Deep Learning AMI ที่ติดตั้งไว้ล่วงหน้าเพื่อคอมไพล์และใช้งานโมเดลแมชชีนเลิร์นนิ่งอย่างมีประสิทธิภาพบน Inf1 instance หากต้องการความช่วยเหลือในการเริ่มต้นใช้งานกระบวนการ ให้ไปที่คู่มือการเลือก AMI และทรัพยากรดีปเลิร์นนิ่งอื่นๆ ดูคู่มือการเริ่มต้นใช้งาน AWS DLAMI เพื่อเรียนรู้วิธีใช้งาน DLAMI ด้วย Neuron
การใช้ Deep Learning Containers
นักพัฒนาสามารถติดตั้งใช้จริง Inf1 instance ได้แล้วใน Amazon Elastic Kubernetes Service (EKS) ซึ่งเป็นบริการ Kubernetes ที่มีการจัดการอย่างเต็มรูปแบบ รวมถึง Amazon Elastic Container Service (ECS) ซึ่งเป็นบริการประสานรวมคอนเทนเนอร์ที่มีการจัดการอย่างเต็มรูปแบบจาก Amazon เรียนรู้เพิ่มเติมเกี่ยวกับการเริ่มต้นใช้งานด้วย Inf1 บน Amazon EKS หรือด้วย Amazon ECS รายละเอียดเพิ่มเติมเกี่ยวกับการใช้งานคอนเทนเนอร์บน Inf1 instance มีอยู่ในหน้าบทแนะนำสอนการใช้งานเครื่องมือคอนเทนเนอร์ Neuron Neuron ยังพร้อมให้ติดตั้งล่วงหน้าใน AWS DL Containers อีกด้วย
บล็อกและบทความ
AWS Inferentia ช่วย Amazon Search ลดค่าใช้จ่าย ML inference ได้ถึง 85% อย่างไร
โดย Joao Moura, Jason Carlson, Jaspreet Singh, Shaohui Xi, Shruti Koparkar, Haowei Sun, Weiqi Zhang, และ Zhuoqi Zhangs, 9/22/2022
โครงสร้างพื้นฐานแมชชีนเลิร์นนิงประสิทธิภาพสูงในราคาประหยัดช่วยเร่งสร้างนวัตกรรมในระบบคลาวด์ได้
โดย MIT Technology Review Insights, 01/11/2021
โดย Davide Galliteli และ Hasan Poonawala, 19/10/2021
แมชชีนเลิร์นนิงในระบบคลาวด์ช่วยให้ธุรกิจสร้างสรรค์นวัตกรรมได้
โดย MIT Technology Review Insights, 15/10/2021
โดย Alex Iankoulski, Joshua Correa, Mahadevan Balasubramaniam และ Sundar Ranganatha, 30/09/2021
โดย Fabio Nonato de Paula และ Mahadevan Balasubramaniam, 05/04/2021
โดย Binghui Ouyang, 07/04/2021
ตอนนี้งานส่วนใหญ่ใน Alexa ทำงานได้เร็วขึ้นและคุ้มค่ามากขึ้นบนอินสแตนซ์ Amazon EC2 Inf1
โดย Sébastien Stormacq, 11/12/2020
Amazon ECS รองรับ EC2 Inf1 instance แล้วในขณะนี้
โดย Julien Simon 14/08/2020
โดย Fabio Nonato De Paula และ Haichen Li 22/07/2020
Amazon EKS สนับสนุน EC2 Inf1 instance แล้วในขณะนี้
โดย Julien Simon 15/06/2020