Amazon EC2 Inf1 Instances

การอนุมานของแมชชีนเลิร์นนิ่งประสิทธิภาพสูงที่มีค่าใช้จ่ายต่ำที่สุดในระบบคลาวด์

ธุรกิจต่างๆ จากกลุ่มอุตสาหกรรมที่หลากหลายกำลังมองหาการเปลี่ยนแปลงที่ขับเคลื่อนด้วย AI ในการผลักดันนวัตกรรมทางธุรกิจ ปรับปรุงประสบการณ์ของลูกค้า และการปรับปรุงกระบวนการ โมเดลแมชชีนเลิร์นนิ่งที่ขับเคลื่อนแอปพลิเคชัน AI กลายเป็นความซับซ้อนที่มากขึ้นซึ่งส่งผลให้มีต้นทุนด้านโครงสร้างพื้นฐานการประมวลผลพื้นฐานที่เพิ่มขึ้น การใช้จ่ายเกี่ยวกับโครงสร้างพื้นฐานมากถึง 90% สำหรับการพัฒนาและเรียกใช้แอปพลิเคชัน ML มักเกี่ยวข้องกับการอนุมาน ลูกค้ากำลังมองหาโซลูชันโครงสร้างพื้นฐานที่คุ้มค่าใช้จ่ายสำหรับการติดตั้งใช้งานแอปพลิเคชัน ML ในการผลิต

Amazon EC2 Inf1 Instance มอบการอนุมานของ ML ประสิทธิภาพสูงที่มีค่าใช้จ่ายต่ำที่สุดในระบบคลาวด์ ซึ่งให้ปริมาณการประมวลผลสูงกว่า 2.3 เท่าและมีค่าใช้จ่ายต่ำกว่าถึง 70% ต่อการอนุมานเมื่อเทียบกับ Amazon EC2 instance ที่ขับเคลื่อนด้วย GPU รุ่นปัจจุบันที่เทียบกันได้ Inf1 instances ได้รับการออกแบบใหม่ทั้งหมดเพื่อสนับสนุนแอปพลิเคชันการอนุมานของแมชชีนเลิร์นนิ่ง ซึ่งจะมีชิป AWS Inferentia มากถึง 16 ตัว ซึ่งเป็นชิปการอนุมานของแมชชีนเลิร์นนิ่งประสิทธิภาพสูงที่ออกแบบและสร้างโดย AWS นอกจากนี้ Inf1 instance ยังมาพร้อมกับตัวประมวลผล Intel® Xeon® Scalable รุ่นที่ 2 และระบบเครือข่ายถึง 100 Gbps เพื่อให้การอนุมานที่มีปริมาณการประมวลผลสูง

ลูกค้าสามารถใช้ Inf1 instance เพื่อเรียกใช้แอปพลิเคชันการอนุมานของแมชชีนเลิร์นนิ่งขนาดใหญ่ เช่น การค้นหา กลไกการให้คำแนะนำ คอมพิวเตอร์วิทัศน์ การจดจำคำพูด การประมวลผลภาษาธรรมชาติ การปรับให้เข้ากับบุคคล และการตรวจจับการฉ้อโกงได้ด้วยค่าใช้จ่ายที่ต่ำที่สุดในระบบคลาวด์

นักพัฒนาสามารถติดตั้งใช้จริงโมเดลแมชชีนเลิร์นนิ่งกับ Inf1 instance โดยใช้ AWS Neuron SDK ซึ่งผสานรวมเฟรมเวิร์กแมชชีนเลิร์นนิ่งยอดนิยมไว้ด้วยกัน เช่น TensorFlow, PyTorch และ MXNet นักพัฒนาสามารถใช้เวิร์กโฟลว์ ML และย้ายข้อมูลแอปพลิเคชันต่อไปอย่างมีประสิทธิภาพไปยัง Inf1 instance ได้โดยมีการเปลี่ยนแปลงโค้ดเพียงเล็กน้อยและไม่เป็นการผูกมัดกับโซลูชันเฉพาะของผู้ให้บริการ

เริ่มต้นใช้งานได้อย่างง่ายดายด้วย Inf1 instance โดยใช้ Amazon SageMaker ซึ่งเป็น AWS Deep Learning AMI ที่มีการกำหนดค่ามาล่วงหน้ากับ Neuron SDK หรือการใช้ Amazon ECS หรือ Amazon EKS สำหรับแอปพลิเคชัน ML ที่ใส่ในคอนเทนเนอร์

Amazon EC2 Inf1 instance ที่มีพื้นฐานจาก AWS Inferentia (2:51)

ประโยชน์

ค่าใช้จ่ายต่อการอนุมานน้อยลงถึง 70%

เมื่อใช้ Inf1 นักพัฒนาจะสามารถลดค่าติดตั้งใช้งานแมชชีนเลิร์นนิ่งในการผลิตลงได้อย่างชัดเจนโดยมีต้นทุนต่อการอนุมานต่ำที่สุดในระบบคลาวด์ การผสานกันของค่าอินสแตนซ์ที่ต่ำและปริมาณการประมวลผลที่สูงของ Inf1 instance ให้ต้นทุนต่อการอนุมานต่ำที่สุดถึง 70% เมื่อเทียบกับ EC2 instance ที่ขับเคลื่อนด้วย GPU รุ่นปัจจุบันที่เทียบกันได้

ความง่ายต่อการใช้งานและความสามารถในการเคลื่อนย้ายโค้ด

Neuron SDK ถูกผสานการทำงานร่วมกับเฟรมเวิร์กแมชชีนเลิร์นนิ่ง เช่น TensorFlow, PyTorch และ MXNet นักพัฒนาสามารถใช้เวิร์กโฟลว์ ML และย้ายข้อมูลแอปพลิเคชันต่อไปอย่างมีประสิทธิภาพไปยัง Inf1 instance ได้โดยมีการเปลี่ยนแปลงโค้ดเพียงเล็กน้อย ซึ่งให้อิสระในการใช้เฟรมเวิร์กแมชชีนเลิร์นนิ่งตามความต้องการ แพลตฟอร์มการประมวลผลที่ตรงตามข้อกำหนดที่สุด และใช้ประโยชน์จากเทคโนโลยีล่าสุดโดยไม่จำเป็นต้องผูกมัดกับโซลูชันเฉพาะของผู้ให้บริการ

ปริมาณการประมวลผลสูงกว่าถึง 2.3 เท่า

Inf1 instance ให้ปริมาณการประมวลผลสูงกว่าถึง 2.3 เท่าเมื่อเทียบกับ Amazon EC2 instance ที่ขับเคลื่อนด้วย GPU รุ่นปัจจุบันที่สามารถเทียบกันได้ ชิป AWS Inferentia ที่ขับเคลื่อน Inf1 instance ได้รับการปรับให้มีประสิทธิภาพเพื่อประสิทธิภาพการอนุมานสำหรับชุดข้อมูลแบบกลุ่มขนาดเล็ก ช่วยให้แอปพลิเคชันแบบเรียลไทม์เพิ่มการปริมาณการประมวลผลได้สูงสุดและเป็นไปตามความต้องการดั้งเดิม

เวลาแฝงที่ต่ำอย่างมาก

ชิป AWS Inferentia ได้รับการติดตั้งหน่วยความจำบนชิปขนาดใหญ่ซึ่งช่วยให้แคชโมเดลแมชชีนเลิร์นนิ่งได้โดยตรงบนตัวชิปเอง คุณสามารถติดตั้งใช้งานโมเดลของคุณได้โดยใช้ความสามารถต่างๆ เช่น NeuronCore Pipeline ซึ่งลดความต้องการในการเข้าถึงทรัพยากรหน่วยความจำภายนอก เมื่อใช้ Inf1 instance คุณสามารถติดตั้งใช้งานแอปพลิเคชันการอนุมานแบบเรียลไทม์ได้ในเวลาแฝงที่ไกล้เคียงกับเรียลไทม์โดยไม่มีผลกระทบต่อแบนด์วิดท์

การสนับสนุนโมเดลแมชชีนเลิร์นนิ่งและข้อมูลประเภทต่างๆ ที่หลากหลาย

Inf1 instance สนับสนุนสถาปัตยกรรมโมเดลแมชชีนเลิร์นนิ่งที่ใช้บ่อยได้หลายตัว เช่น SSD, VGG และ ResNext สำหรับการจดจำ/จัดหมวดหมู่ภาพ เช่นเดียวกับ Transformer และ BERT สำหรับการประมวลผลภาษาธรรมชาติ นอกจากนี้ ยังสนับสนุนคลังข้อมูลโมเดล HuggingFace ใน Neuron เพื่อให้ความสามารถในการคอมไพล์และเรียกใช้การอนุมานโดยใช้โมเดลที่มีการฝึกฝนไว้ล่วงหน้ากับลูกค้า หรือการปรับแต่งเป็นพิเศษอย่างง่ายดายโดยการเปลี่ยนแปลงโค้ดเพียงบรรทัดเดียว ข้อมูลหลายประเภทรวมถึง BF16 และ FP16 ด้วยความแม่นยำแบบผสมผสานยังสนับสนุนโมเดลและความต้องการด้านประสิทธิภาพหลากหลายรูปแบบอีกด้วย

คุณสมบัติ

ให้บริการโดย AWS Inferentia

AWS Inferentia คือชิพแมชชีนเลิร์นนิ่งที่ออกแบบและสร้างโดย AWS เพื่อส่งมอบการอนุมานประสิทธิภาพสูงที่มีค่าใช้จ่ายต่ำ ชิพ AWS Inferentia แต่ละตัวให้ประสิทธิภาพสูงสุดถึง 128 TOPS (ล้านล้านการปฏิบัติการต่อวินาที) และสนับสนุนข้อมูลประเภท FP16, BF16 และ INT8 ชิพ AWS Inferentia ยังประกอบด้วยหน่วยความจำบนชิพขนาดใหญ่ซึ่งสามารถใช้เพื่อแคชโมเดลที่มีขนาดใหญ่ได้ ซึ่งเป็นประโยชน์อย่างยิ่งโดยเฉพาะสำหรับโมเดลที่ต้องใช้การเข้าถึงหน่วยความจำบ่อยครั้ง

ชุดเครื่องมือพัฒนาซอฟต์แวร์ (SDK) ของ AWS Neuron ประกอบด้วยเครื่องมือคอมไพเลอร์ รันไทม์ไดรเวอร์ และการทำโปรไฟล์ โดยจะทำให้เกิดการติดตั้งใช้งานโมเดลโครงข่ายประสาทที่มีความซับซ้อน ซึ่งสร้างและฝึกอบรมในเฟรมเวิร์กยอดนิยม เช่น TensorFlow, PyTorch และ MXNet สามารถดำเนินการได้โดยใช้ Inf1 instance เมื่อใช้ NeuronCore Pipeline ของ Neuron คุณสามารถแบ่งโมเดลขนาดใหญ่เพื่อดำเนินการในชิป Inferentia หลายตัวโดยใช้การเชื่อมต่อระหว่างชิปไปยังชิปอีกตัวที่มีความเร็วสูง เพื่อส่งมอบปริมาณการประมวลผลการอนุมานในระดับสูงและค่าใช้จ่ายในการอนุมานที่ต่ำลง

เครือข่ายและพื้นที่จัดเก็บประสิทธิภาพสูง

Inf1 instance ให้อัตราการส่งข้อมูลเครือข่ายสูงสุด 100 Gbps สำหรับแอปพลิเคชันซึ่งต้องเข้าถึงเครือข่ายความเร็วสูง เทคโนโลยี Elastic Network Adapter (ENA) และ NVM Express (NVMe) รุ่นใหม่ให้ Inf1 instance ที่มีปริมาณการประมวลผลสูง อินเทอร์เฟซแบบมีเวลาแฝงต่ำสำหรับระบบเครือข่าย และ Amazon Elastic Block Store (Amazon EBS)

สร้างบน AWS Nitro System

AWS Nitro System คือการรวบรวมบล็อกส่วนประกอบที่ครบถ้วนที่จะถ่ายข้อมูลฟังก์ชันการจำลองเสมือนแบบดั้งเดิมหลายฟังก์ชันไปยังฮาร์ดแวร์และซอฟต์แวร์เฉพาะ เพื่อมอบประสิทธิภาพสูง ความพร้อมใช้งานสูง และการรักษาความปลอดภัยระดับสูง ในขณะที่ลดค่าใช้จ่ายในการจำลองเสมือน

วิธีทำงาน

วิธีใช้ Inf1 และ AWS Inferentia

คำนิยมจากลูกค้า

SkyWatch
"เรารวมแมชชีนเลิร์นนิ่ง (ML) เข้ากับหลายส่วนของ Snapchat และการสำรวจนวัตกรรมใหม่ๆ ในด้านนี้เป็นลำดับความสำคัญหลัก เมื่อได้ทราบข่าวเกี่ยวกับ Inferentia เราจึงเริ่มร่วมงานกับ AWS เพื่อใช้อินสแตนซ์ Inf1/Inferentia ในการช่วยติดตั้งใช้งาน ML รวมถึงในด้านประสิทธิภาพและต้นทุน เราเริ่มต้นจากรูปแบบการแนะนำและคาดหวังว่าจะได้ใช้รูปแบบอื่นเพิ่มเติมกับอินสแตนซ์ Inf1 ในอนาคต”

Nima Khajehnouri, รองประธานฝ่ายวิศวกรรม, Snap Inc.

Anthem
"Autodesk กำลังพัฒนาเทคโนโลยีการรู้คิดของผู้ช่วยเสมือนของเราที่ขับเคลื่อนโดย AI ที่มีชื่อว่า Autodesk Virtual Agent (AVA) โดยใช้ Inferentia ซึ่ง AVA ตอบคำถามลูกค้ากว่า 100,000 ข้อต่อเดือนด้วยการใช้ความเข้าใจภาษาธรรมชาติ (NLU) และเทคนิคดีปเลิร์นนิ่งในการหาบริบท เจตนา และความหมายเบื้องหลังการสอบถาม จากการเริ่มนำร่องกับ Inferentia เราสามารถรับปริมาณการประมวลผลได้สูงกว่า G4dn 4.9 เท่าสำหรับรูปแบบ NLU ของเรา และคาดหวังว่าจะเรียกใช้ปริมาณงานได้มากขึ้นตามอินสแตนซ์ Inf1 ของ Inferentia”

Binghui Ouyang, นักวิทยาศาสตร์ข้อมูลอาวุโส, Autodesk

Anthem
Anthem เป็นหนึ่งในบริษัทที่ให้บริการด้านสุขภาพชั้นนำของประเทศ ซึ่งให้บริการสุขภาพแก่สมาชิกกว่า 40 ล้านคนทั่วสหรัฐอเมริกา "ตลาดของแพลตฟอร์มดิจิทัลด้านสุขภาพกำลังเติบโตขึ้นอย่างเห็นได้ชัด การรวบรวมข้อมูลในตลาดนี้ถือเป็นเรื่องที่ท้าทาย เนื่องจากปริมาณข้อมูลความคิดเห็นของลูกค้าที่มีมากมายและลักษณะที่ไม่เป็นระบบของข้อมูล แอปพลิเคชันของเราทำให้การสร้างข้อมูลเชิงลึกที่นำมาปฏิบัติได้จากความคิดเห็นของลูกค้าเป็นแบบอัตโนมัติผ่านโมเดลภาษาธรรมชาติของดีปเลิร์นนิ่ง (Transformers) แอปพลิเคชันของเรามีการประมวลผลหนักและจำเป็นต้องมีการติดตั้งใช้จริงด้วยวิธีการที่มีประสิทธิภาพสูง เราได้ติดตั้งดีปเลิร์นนิ่งเพื่อใช้จริงด้วยการอนุมานปริมาณงานไปยัง Amazon EC2 Inf1 instances ที่ทำงานด้วยตัวประมวลผล AWS Inferentia อย่างราบรื่น Inf1 instances ตัวใหม่เพิ่มปริมาณการประมวลผลที่เร็วขึ้น 2 เท่าไปยังอินสแตนซ์ที่ทำงานโดย GPU และช่วยให้เราปรับปรุงปริมาณงานในการอนุมาน”

Numan Laanait, PhD หัวหน้านักวิทยาศาสตร์ด้านข้อมูล/AI และ Miro Mihaylov, PhD หัวหน้านักวิทยาศาสตร์ด้านข้อมูล/AI

Condé Nast
“พอร์ตโฟลิโอระดับโลกของ Condé Nast ประกอบด้วยสื่อชั้นนำกว่า 20 แบรนด์ รวมถึง Wired, Vogue และ Vanity Fair ภายในไม่กี่สัปดาห์ ทีมของเราก็สามารถรวมกลไกการแนะนำเข้ากับชิพ AWS Inferentia ได้ การรวมกันในครั้งนี้ช่วยให้สามารถปรับรันไทม์จำนวนมากสำหรับรูปแบบภาษาธรรมชาติที่ล้ำสมัยบนอินสแตนซ์ Inf1 ของ SageMaker ให้เหมาะสมได้ ด้วยเหตุนี้ เราจึงสังเกตเห็นต้นทุนที่ลดลง 72% จากอินสแตนซ์ GPU ที่นำมาติดตั้งใช้จริงก่อนหน้านี้”

Paul Fryzel, หัวหน้าวิศวกร, โครงสร้างพื้นฐาน AI

Asahi Shimbun
“Ciao กำลังพัฒนากล้องวงจรปิดแบบเก่าให้เป็นกล้องวิเคราะห์ประสิทธิภาพสูงเทียบเท่ากับความสามารถของดวงตามนุษย์ แอปพลิเคชันของเราสร้างความก้าวหน้าให้กับการป้องกันภัยพิบัติ การติดตามสภาพแวดล้อมโดยใช้โซลูชันกล้องที่ใช้ AI เพื่อแจ้งเตือนก่อนเกิดภัยพิบัติ การแจ้งเตือนดังกล่าวช่วยให้ตอบสนองต่อสถานการณ์ได้ก่อนเกิดขึ้น เรายังสามารถมอบข้อมูลเชิงลึกด้วยการประมาณจำนวนของผู้มาเยือนได้จากการตรวจจับวัตถุโดยไม่ต้องอาศัยเจ้าหน้าที่จากวิดีโอในร้านค้าทั่วไป Ciao Camera ใช้อินสแตนซ์ Inf1 ที่มีพื้นฐานใน AWS Inferentia แบบเชิงพาณิชย์โดยมีประสิทธิภาพด้านราคาดีขึ้น 40% เมื่อเทียบกับ G4dn ที่ใช้ YOLOv4 เรากำลังตั้งตารอชมบริการอื่นๆ ที่ใช้ Inf1 ในการทำประโยชน์ด้านความประหยัด”

Shinji Matsumoto, วิศวกรซอฟต์แวร์, Ciao Inc.

Asahi Shimbun
“Asahi Shimbun เป็นหนึ่งในหนังสือพิมพ์ยอดนิยมสูงสุดของประเทศญี่ปุ่น Media Lab ที่ก่อตั้งขึ้นเป็นส่วนหนึ่งของแผนกในบริษัทมีภารกิจในการค้นคว้าเทคโนโลยีล่าสุดโดยเฉพาะ AI และนำเทคโนโลยีที่ทันสมัยมาใช้กับธุรกิจใหม่ๆ จากการเปิดตัวอินสแตนซ์ Amazon EC2 Inf1 ที่ใช้ AWS Inferentia ในโตเกียว เราได้ทดสอบแอปพลิเคชัน AI การสรุปเนื้อหาข้อความที่ใช้ PyTorch บนอินสแตนซ์เหล่านี้ แอปพลิเคชันนี้จะประมวลผลข้อความจำนวนมหาศาลและสร้างพาดหัวและประโยคสรุปตามที่ได้ฝึกฝนมาจากบทความในช่วง 30 ปีที่ผ่านมา การใช้ Inferentia ช่วยลดต้นทุนให้แก่เราด้วยลำดับของขนาดบนอินสแตนซ์ที่ใช้ CPU การลดต้นทุนได้อย่างน่าทึ่งนี้จะช่วยให้เราสามารถปรับใช้โมเดลที่ซับซ้อนที่สุดของเรา ซึ่งก่อนหน้านี้ เราคิดว่าไม่คุ้มค่ากับการลงทุน

Hideaki Tamori, PhD, ผู้ดูแลระบบอาวุโส, Media Lab, The Asahi Shimbun Company

CS Disco
“CS Disco กำลังคิดค้นเทคโนโลยีทางกฎหมายขึ้นใหม่ในฐานะผู้ให้บริการโซลูชัน AI ชั้นนำสำหรับ eDiscovery (การค้นหาข้อมูลอิเล็กทรอนิกส์) ที่พัฒนาโดยนักกฎหมายสำหรับนักกฎหมาย Disco AI เร่งรวบรวมข้อมูลหลายเทราไบต์ซึ่งเป็นงานที่น่าเบื่อหน่าย เร่งเวลาในการตรวจสอบให้เร็วขึ้น และปรับปรุงความถูกต้องในการตรวจสอบโดยใช้ประโยชน์จากโมเดลการประมวลผลภาษาธรรมชาติที่ซับซ้อนซึ่งมีต้นทุนในการประมวลผลที่สูงลิบลิ่ว Disco พบว่า อินสแตนซ์ Inf1 ที่ขับเคลื่อนโดย AWS Inferentia ช่วยลดต้นทุนการอนุมานใน Disco AI ได้อย่างน้อย 35% เมื่อเปรียบเทียบกับอินสแตนส์ GPU ในปัจจุบัน จากประสบการณ์กับอินสแตนซ์ Inf1 ในเชิงบวก CS Disco จึงจะสำรวจโอกาสในการย้ายข้อมูลไปยัง Inferentia”

Alan Lockett, Sr. ผู้อำนวยการฝ่ายวิจัยที่ CS Disco

Talroo
“ที่ Talroo เรามอบแพลตฟอร์มที่ขับเคลื่อนด้วยข้อมูลให้กับลูกค้า ซึ่งช่วยให้ลูกค้าดึงดูดผู้สมัครงานที่มีคุณสมบัติพิเศษแตกต่างจากคนอื่นๆ เพื่อที่จะได้จ้างคนเหล่านั้น เรามองหาเทคโนโลยีใหม่ๆ อย่างต่อเนื่องเพื่อให้สามารถนำเสนอผลิตภัณฑ์และบริการที่ดีที่สุดให้กับลูกค้า การใช้ Inferentia ช่วยให้เราดึงข้อมูลเชิงลึกจากคลังข้อมูลข้อความเพื่อเสริมประสิทธิภาพให้กับเทคโนโลยีการค้นหาและจับคู่ที่ขับเคลื่อนโดย AI Talroo ใช้ประโยชน์จากอินสแตนซ์ Amazon EC2 Inf1 ในการสร้างโมเดลการทำความเข้าใจภาษาธรรมชาติที่มีปริมาณการประมวลผลสูงด้วย SageMaker การทดสอบขั้นต้นของ Talroo แสดงให้เห็นว่าอินสแตนซ์ Amazon EC2 Inf1 ช่วยลดเวลาแฝงในการอนุมานให้ต่ำลง 40% และปริมาณการประมวลผลสูงขึ้น 2 เท่าเมื่อเทียบกับอินสแตนซ์ที่ใช้ G4dn GPU จากผลลัพธ์ที่ได้เหล่านี้ ทำให้ Talroo ตั้งตารอที่จะใช้อินสแตนซ์ Amazon EC2 Inf1 เป็นส่วนหนึ่งในโครงสร้างพื้นฐาน AWS ของตน”

Janet Hu, วิศวกรซอฟต์แวร์, Talroo

ผู้เชี่ยวชาญด้านสื่อดิจิทัล (DMP)
"ผู้เชี่ยวชาญด้านสื่อดิจิทัล (DMP) แสดงภาพอนาคตด้วยแพลตฟอร์ม ZIA™ โดยอิงตาม AI (ปัญญาประดิษฐ์) เทคโนโลยีการแยกประเภทคอมพิวเตอร์วิทัศน์ที่มีประสิทธิภาพของ DMP มีการนำมาใช้สร้างข้อมูลรูปภาพตามเวลาจริงจำนวนมาก เช่น การสังเกตสภาพแวดล้อม การป้องกันอาชญากรรม และการป้องกันอุบัติเหตุ เราทราบดีว่าโมเดลการแบ่งส่วนภาพของเราทำงานได้เร็วขึ้นสี่เท่าบนอินสแตนซ์ Inf1 ที่ใช้ AWS Inferentia เมื่อเทียบกับอินสแตนซ์ G4 ที่ใช้ GPU เนื่องจากปริมาณงานที่สูงขึ้นและต้นทุนที่ต่ำลง Inferentia จึงช่วยให้เราสามารถปรับใช้ปริมาณงาน AI ของเรา เช่น แอปพลิเคชันสำหรับกล้องติดรถยนต์ได้ทุกขนาด"

Hiroyuki Umeda - ผู้อำนวยการและผู้จัดการทั่วไป กลุ่มการตลาดและงานขาย ผู้เชี่ยวชาญด้านสื่อดิจิทัล

Hotpot.ai
Hotpot.ai ส่งเสริมให้ผู้ที่ไม่ใช่นักออกแบบสร้างกราฟิกที่น่าสนใจ และช่วยนักออกแบบมืออาชีพให้แปลงงานประจำที่ทำซ้ำๆ เป็นระบบอัตโนมัติ "เนื่องจากแมชชีนเลิร์นนิ่งเป็นสิ่งสำคัญสำหรับกลยุทธ์ของเรา เราจึงตื่นเต้นที่จะลองใช้ Inf1 instances ที่อิงตาม AWS Inferentia เราพบว่าการผสาน Inf1 instances เข้ากับงานวิจัยและไปป์ไลน์การพัฒนาของเราเป็นเรื่องที่ง่าย ที่สำคัญ เราสังเกตเห็นประสิทธิภาพที่เพิ่มขึ้นอย่างน่าประทับใจเมื่อเทียบกับ instances G4dn ที่อิงตาม GPU ด้วยโมเดลแรกของเรา Inf1 instances มีปริมาณการประมวลผลที่สูงขึ้น 45% และลดต้นทุนต่อการอนุมานลงเกือบ 50% เรามุ่งมั่นที่จะทำงานร่วมกับทีม AWS อย่างใกล้ชิดเพื่อย้ายโมเดลอื่นๆ และเปลี่ยนโครงสร้างพื้นฐานการอนุมาน ML ส่วนใหญ่ของเราไปเป็น AWS Inferentia"

Clarence Hu, ผู้ก่อตั้ง Hotpot.ai

SkyWatch
"SkyWatch ประมวลผลข้อมูลทรัพยากรโลกนับล้านล้านพิกเซลที่จับภาพจากอวกาศทุกวัน การหันมาใช้ Inf1 instance ที่อิงตาม AWS Inferentia แบบใหม่ที่ใช้ Amazon SageMaker สำหรับการตรวจจับเมฆแบบเรียลไทม์และการให้คะแนนคุณภาพของรูปภาพนั้นทำได้ง่ายและรวดเร็ว เพียงแค่สับเปลี่ยนประเภทอินสแตนซ์ในการกำหนดค่าการติดตั้งใช้งานของเราเท่านั้นก็เรียบร้อย ด้วยการเปลี่ยนประเภทอินสแตนซ์เป็น Inf1 ที่อิงตาม Inferentia เราได้ปรับปรุงประสิทธิภาพการทำงานเพิ่มขึ้นถึง 40% และลดค่าใช้จ่ายโดยรวมลงได้ถึง 23% ถือเป็นชัยชนะที่ยิ่งใหญ่ โดยช่วยให้เราลดค่าใช้จ่ายในการดำเนินการโดยรวมได้พร้อมกับการส่งมอบภาพถ่ายดาวเทียมคุณภาพสูงได้อย่างต่อเนื่องให้กับลูกค้าของเราด้วยค่าใช้จ่ายทางวิศวกรรมเพียงเล็กน้อย เราเตรียมที่จะเปลี่ยนผ่านจากตำแหน่งข้อมูลการอนุมานและการประมวลผล ML แบบกลุ่มทั้งหมดของเรา แล้วหันมาใช้ Inf1 instance เพื่อปรับปรุงความน่าเชื่อถือของข้อมูลของเราและประสบการณ์ของลูกค้าเพิ่มเติม"

Adler Santos ผู้จัดการฝ่ายวิศวกรรมของ SkyWatch

บริการของ Amazon ที่ใช้ Amazon EC2 Inf1 instance

Amazon Alexa

มีการจำหน่ายอุปกรณ์ Alexa มากกว่า 100 ล้านเครื่องทั่วโลก และลูกค้าได้ให้การรีวิวระดับ 5 ดาวมากกว่า 400,000 ครั้งสำหรับอุปกรณ์ Echo บน Amazon "ระบบอัจฉริยะ AI และ ML ของ Amazon Alexa ซึ่งให้บริการโดย Amazon Web Services พร้อมให้บริการบนอุปกรณ์มากกว่า 100 ล้านเครื่องแล้วในวันนี้ และคำสัญญาของเราที่มีต่อลูกค้าคือการทำให้ Alexa ฉลาดยิ่งขึ้น สนทนาได้ดียิ่งขึ้น กระตือรือร้นมากขึ้น และกระทั่งน่าคบยิ่งกว่าเดิม" Tom Taylor รองประธานอาวุโสของ Amazon Alexa กล่าว "การทำให้คำสัญญานั้นเป็นจริงได้ต้องมีการปรับปรุงอย่างต่อเนื่องเกี่ยวกับระยะเวลาการตอบสนองและค่าใช้จ่ายในด้านโครงสร้างพื้นฐานแมชชีนเลิร์นนิ่ง ซึ่งเป็นเหตุผลที่เราตื่นเต้นที่จะใช้ Amazon EC2 Inf1 เพื่อลดเวลาแฝงในการอนุมานและค่าใช้จ่ายต่อการอนุมานบนการแปลงข้อความเป็นตัวอักษรของ Alexa ด้วย Amazon EC2 Inf1 เราสามารถให้การบริการที่ดียิ่งขึ้นกับลูกค้านับสิบล้านรายที่ใช้งาน Alexa ในแต่ละเดือน"

Amazon Alexa
“Amazon Rekognition เป็นแอปพลิเคชันวิเคราะห์รูปภาพและวิดีโอที่ใช้งานง่ายที่ช่วยให้ลูกค้าระบุวัตถุ ผู้คน ข้อความ และกิจกรรม โดย Amazon Rekognition ต้องใช้โครงสร้างพื้นฐานดีปเลิร์นนิ่งประสิทธิภาพสูงที่สามารถวิเคราะห์รูปภาพและวิดีโอได้หลายพันล้านรายการสำหรับลูกค้าของเรา ด้วยอินสแตนซ์ Inf1 ของ AWS Inferentia ทำให้การเรียกใช้รูปแบบ Rekognition เช่น การแยกวัตถุ มีเวลาแฝงต่ำลง 8 เท่า และปริมาณการประมวลผล 2 เท่า เมื่อเทียบกับการเรียกใช้รูปแบบเหล่านี้ใน GPU จากผลลัพธ์นี้ ทำให้เราย้าย Rekognition ไปยัง Inf1 ช่วยให้ลูกค้าของเราได้ผลลัพธ์ที่ถูกต้องรวดเร็วยิ่งขึ้น”
 
Rajneesh Singh, ผู้อำนวยการวิศวกรรม SW, Rekognition and Video

ราคา

* ราคาที่แสดงคือราคาสำหรับรีเจี้ยน AWS ของสหรัฐอเมริกาฝั่งตะวันออก (เวอร์จิเนียตอนเหนือ) ราคาสำหรับอินสแตนซ์แบบเหมาจ่ายเป็นระยะเวลา 1 ปีและ 3 ปีนั้นมีไว้สำหรับตัวเลือกการชำระเงิน "ค่าบริการล่วงหน้าบางส่วน" หรือ "ไม่มีค่าบริการล่วงหน้า" สำหรับอินสแตนซ์ที่ไม่มีตัวเลือกค่าบริการล่วงหน้าบางส่วน

Amazon EC2 Inf1 instance พร้อมให้บริการในรีเจี้ยน AWS สหรัฐอเมริกาฝั่งตะวันออก (เวอร์จิเนียเหนือ) และสหรัฐอเมริกาฝั่งตะวันตก (ออริกอน) ในรูปแบบของอินสแตนซ์ตามความต้องการ อินสแตนซ์แบบเหมาจ่าย หรืออินสแตนซ์สปอต

เริ่มต้นใช้งาน

การใช้ Amazon SageMaker

Amazon SageMaker ทำให้ง่ายต่อการคอมไพล์และการติดตั้งใช้จริงโมเดลแมชชีนเลิร์นนิ่งที่ผ่านการฝึกอบรมมาแล้วในระหว่างการผลิตบน Amazon Inf1 instance ดังนั้นคุณจึงสามารถเริ่มสร้างการคาดการณ์สำหรับข้อมูลแบบเรียลไทม์ด้วยเวลาแฝงที่ต่ำได้ทันที AWS Neuron ซึ่งเป็นคอมไพเลอร์สำหรับ AWS Inferentia ถูกผสานการทำงานเข้ากับ Amazon SageMaker Neo เพื่อช่วยให้คุณคอมไพล์โมเดลแมชชีนเลิร์นนิ่งที่ได้รับการฝึกอบรมมาให้ทำงานอย่างเหมาะสมบน Inf1 instance ด้วย Amazon SageMaker คุณสามารถใช้งานโมเดลบนคลัสเตอร์ auto-scaling ของ Inf1 instance ที่ครอบคลุมหลาย Availability Zone ได้ง่าย เพื่อมอบทั้งประสิทธิภาพการทำงานและการอนุมานแบบเรียลไทม์ที่มีความพร้อมใช้งานสูง เรียนรู้วิธีการปรับใช้ Inf1 โดยใช้ Amazon SageMaker ด้วยตัวอย่างบน Github

การใช้ AWS Deep Learning AMI

AWS Deep Learning AMI (DLAMI) มอบโครงสร้างพื้นฐานและเครื่องมือต่างๆ ให้แก่ผู้ปฏิบัติงานและนักวิจัยด้านแมชชีนเลิร์นนิ่ง เพื่อเร่งให้เกิดดีปเลิร์นนิ่งในระบบคลาวด์ทุกขนาด AWS Neuron SDK มาพร้อมกับ AWS Deep Learning AMI ที่ติดตั้งไว้ล่วงหน้าเพื่อคอมไพล์และใช้งานโมเดลแมชชีนเลิร์นนิ่งอย่างมีประสิทธิภาพบน Inf1 instance หากต้องการความช่วยเหลือในการเริ่มต้นใช้งานกระบวนการ ให้ไปที่คู่มือการเลือก AMI และทรัพยากรดีปเลิร์นนิ่งอื่นๆ ดูคู่มือการเริ่มต้นใช้งาน AWS DLAMI เพื่อเรียนรู้วิธีใช้งาน DLAMI ด้วย Neuron

การใช้ Deep Learning Containers

นักพัฒนาสามารถติดตั้งใช้จริง Inf1 instance ได้แล้วใน Amazon Elastic Kubernetes Service (EKS) ซึ่งเป็นบริการ Kubernetes ที่มีการจัดการอย่างเต็มรูปแบบ รวมถึง Amazon Elastic Container Service (ECS) ซึ่งเป็นบริการประสานรวมคอนเทนเนอร์ที่มีการจัดการอย่างเต็มรูปแบบจาก Amazon เรียนรู้เพิ่มเติมเกี่ยวกับการเริ่มต้นใช้งานด้วย Inf1 บน Amazon EKS หรือด้วย Amazon ECS รายละเอียดเพิ่มเติมเกี่ยวกับการใช้งานคอนเทนเนอร์บน Inf1 instance มีอยู่ในหน้าบทแนะนำสอนการใช้งานเครื่องมือคอนเทนเนอร์ Neuron Neuron ยังพร้อมให้ติดตั้งล่วงหน้าใน AWS DL Containers อีกด้วย

บล็อกและบทความ