Amazon EC2 Inf1 Instances

การอนุมานของแมชชีนเลิร์นนิ่งประสิทธิภาพสูงที่มีค่าใช้จ่ายต่ำที่สุดในระบบคลาวด์

ธุรกิจจากหลากหลายอุตสาหกรรมกำลังหันไปพึ่งพาแมชชีนเลิร์นนิ่งให้จัดการกรณีการใช้งาน เช่น คำแนะนำในการช้อปปิ้งที่ปรับให้เข้ากับบุคคล การปรับปรุงการดูแลเนื้อหาออนไลน์ และการเพิ่มประสิทธิภาพการมีส่วนร่วมของลูกค้าด้วย Chatbot ที่รับรู้ถึงบริบทการสนทนา อย่างไรก็ตาม ในขณะที่โมเดลแมชชีนเลิร์นนิ่งมีความสามารถที่มากยิ่งขึ้น ก็ยิ่งมีความซับซ้อนมากขึ้นด้วยเช่นกัน จึงจำเป็นต้องมีการประมวลผล ซึ่งก่อให้เกิดค่าใช้จ่ายที่เพิ่มขึ้น ในหลายกรณี ค่าใช้จ่ายถึง 90% ของโครงสร้างพื้นฐานสำหรับการพัฒนาและเรียกใช้งานแอปพลิเคชัน ML เป็นการอนุมาน ทำให้โครงสร้างพื้นฐาน ML การอนุมานที่มีประสิทธิภาพสูงและคุ้มค่าใช้จ่ายเป็นที่ต้องการอย่างมาก

Amazon EC2 Inf1 instance สามารถมอบปริมาณการประมวลผลได้มากขึ้นถึง 30% และมีค่าใช้จ่ายต่อการอนุมานน้อยลงถึง 45% เมื่อเทียบกับ Amazon EC2 G4 instance ซึ่งเคยเป็นอินสแตนซ์ที่มีค่าใช้จ่ายต่ำที่สุดสำหรับการอนุมานของแมชชีนเลิร์นนิ่งในระบบคลาวด์ Inf1 instances ได้รับการออกแบบใหม่ทั้งหมดเพื่อสนับสนุนแอปพลิเคชันการอนุมานของแมชชีนเลิร์นนิ่ง โดยอินสแตนซ์เหล่านี้จะมีชิพ AWS Inferentia มากถึง 16 ตัว ซึ่งเป็นชิพการอนุมานของแมชชีนเลิร์นนิ่งประสิทธิภาพสูงที่ออกแบบและสร้างโดย AWS นอกจากนี้ Inf1 instance ยังมาพร้อมกับตัวประมวลผล Intel® Xeon® Scalable รุ่นที่ 2 ล่าสุดและระบบเครือข่ายถึง 100 Gbps เพื่อทำให้การอนุมานที่มีปริมาณการประมวลผลสูงสามารถเกิดขึ้นได้ เมื่อใช้ Inf1 instance ลูกค้าจะสามารถเรียกใช้แอปพลิเคชันการอนุมานของแมชชีนเลิร์นนิ่งขนาดใหญ่ เช่น คำแนะนำการค้นหา คอมพิวเตอร์วิทัศน์ การจดจำคำพูด การประมวลผลภาษาธรรมชาติ การปรับให้เข้ากับบุคคล และการตรวจจับการฉ้อโกงได้ด้วยค่าใช้จ่ายที่ต่ำที่สุดในระบบคลาวด์

นักพัฒนาสามารถติดตั้งใช้จริงโมเดลแมชชีนเลิร์นนิ่งกับ Inf1 instance โดยใช้ AWS Neuron SDK ซึ่งผสานรวมเฟรมเวิร์กแมชชีนเลิร์นนิ่งยอดนิยมไว้ด้วยกัน เช่น TensorFlow, PyTorch และ MXNet ซึ่งประกอบด้วยเครื่องมือคอมไพเลอร์ รันไทม์ และการทำโปรไฟล์ เพื่อปรับประสิทธิภาพการอนุมานให้ดียิ่งขึ้นบน AWS Inferentia วิธีที่ง่ายและรวดเร็วที่สุดในการเริ่มต้นใช้งาน Inf1 instance คือการใช้งานผ่าน Amazon SageMaker ซึ่งเป็นบริการที่มีการจัดการอย่างเต็มรูปแบบซึ่งทำให้นักพัฒนาสามารถสร้าง ฝึกอบรม และติดตั้งใช้จริงโมเดลแมชชีนเลิร์นนิ่งได้อย่างรวดเร็ว นักพัฒนาที่ต้องการจัดการแพลตฟอร์มการพัฒนาแอปพลิเคชันแมชชีนเลิร์นนิ่งของตนสามารถเริ่มต้นด้วยการเปิดใช้ Inf1 instance ด้วย AWS Deep Learning AMI ซึ่งมี Neuron SDK หรือใช้ Inf1 instance ผ่าน Amazon Elastic Kubernetes Service (EKS) หรือ Amazon Elastic Container Service (ECS) สำหรับแอปพลิเคชัน ML ที่อยู่ในคอนเทนเนอร์

SiteMerch-EC2-Instances_accelerated-trial_2up

ทดลองใช้ฟรี: สูงถึง 10,000 USD ในเครดิต AWS สำหรับ EC2 Hardware Accelerated Instances เหมาะสำหรับแอปพลิเคชัน ML, HPC และ Graphics

คลิกที่นี่เพื่อสมัคร 
Amazon EC2 Inf1 instance ที่มีพื้นฐานจาก AWS Inferentia (2:51)

ประโยชน์

ค่าใช้จ่ายต่อการอนุมานน้อยลงถึง 45%

ปริมาณการประมวลผลที่สูงของ Inf1 instance ทำให้มีค่าใช้จ่ายต่อการอนุมานในระบบคลาวด์ที่ต่ำที่สุด โดยลดค่าใช้จ่ายต่อการอนุมานลงถึง 45% เมื่อเทียบกับ Amazon EC2 G4 instance ซึ่งเคยเป็นอินสแตนซ์ที่มีค่าใช้จ่ายต่ำที่สุดสำหรับการอนุมานของแมชชีนเลิร์นนิ่งในระบบคลาวด์ เมื่อค่าใช้จ่ายของการอนุมานของแมชชีนเลิร์นนิ่งถือเป็น 90% ของค่าใช้จ่ายในการปฏิบัติการทั้งหมดของการดำเนินการปริมาณงานแมชชีนเลิร์นนิ่ง นี่จึงเป็นการประหยัดค่าใช้จ่ายอย่างมาก

ปริมาณการประมวลผลสูงกว่าถึง 30%

Inf1 instance มอบปริมาณการประมวลผลที่สูงให้กับแอปพลิเคชันการอนุมานแบบกลุ่ม ซึ่งสูงกว่า Amazon EC2 G4 Instance ถึง 30% แอปพลิเคชันการอนุมานแบบกลุ่ม เช่น การแท็กภาพถ่าย นั้นอ่อนไหวต่อปริมาณการประมวลผลการอนุมานหรือจำนวนการอนุมานที่สามารถประมวลผลได้ต่อวินาที Inf1 instance ได้รับการปรับให้มีประสิทธิภาพสูงสำหรับกลุ่มเล็ก ซึ่งสำคัญต่อแอปพลิเคชันที่มีข้อกำหนดด้านเวลาตอบสนองที่เข้มงวด ด้วย 1 ถึง 16 ชิพ AWS Inferentia ต่ออินสแตนซ์ Inf1 instance จึงสามารถปรับขนาดประสิทธิภาพได้มากถึง 2,000 ล้านล้านการปฏิบัติการต่อวินาที (TOPS)

เวลาแฝงที่ต่ำอย่างมาก

Inf1 instance มีเวลาแฝงที่ต่ำสำหรับการใช้งานแบบเรียลไทม์ แอปพลิเคชันการอนุมานแบบเรียลไทม์ เช่น การสร้างคำพูดและการค้นหา จำเป็นต้องอนุมานเพื่อตอบสนองต่ออินพุตของผู้ใช้อย่างรวดเร็ว จึงมีความอ่อนไหวต่อเวลาแฝงของการอนุมาน หน่วยความจำขนาดใหญ่บนชิพ AWS Inferentia ที่ใช้ใน Inf1 instance ทำให้สามารถแคชโมเดลของแมชชีนเลิร์นนิ่งได้โดยตรงบนชิพ ซึ่งจะเป็นการกำจัดความจำเป็นในการเข้าถึงทรัพยากรหน่วยความจำภายนอกในระหว่างการอนุมาน ทำให้มีเวลาแฝงที่ต่ำโดยไม่มีผลกระทบต่อแบนด์วิดท์

การอนุมานแมชชีนเลิร์นนิ่งสำหรับกรณีใช้งานในรูปแบบที่หลากหลาย

นักพัฒนาสามารถใช้การอนุมานที่มีประสิทธิภาพสูง เวลาแฝงต่ำ และมีค่าใช้จ่ายที่ต่ำด้วย Inf1 instance สำหรับการใช้งานแอปพลิเคชันแมชชีนเลิร์นนิ่งในธุรกิจหลากหลายรูปแบบ ได้แก่ การวิเคราะห์รูปภาพและวิดีโอ เอเจนต์การสนทนา การตรวจจับการฉ้อโกง การคาดการณ์ทางการเงิน การใช้ระบบอัตโนมัติในการดูแลสุขภาพ กลไกข้อเสนอแนะ การวิเคราะห์ข้อความ และการถอดความ

ความง่ายต่อการใช้งานและความสามารถในการเคลื่อนย้ายโค้ด

เนื่องจากมีการผสานรวม Neuron SDK เข้ากับเฟรมเวิร์กแมชชีนเลิร์นนิ่งทั่วไป เช่น TensorFlow และ PyTorch นักพัฒนาสามารถติดตั้งใช้จริงโมเดลที่มีอยู่กับ EC2 Inf1 instance ได้โดยที่มีการเปลี่ยนแปลงโค้ดน้อยที่สุด ซึ่งให้อิสระในการใช้เฟรมเวิร์ก ML ที่เลือกได้ต่อไป เพื่อเลือกแพลตฟอร์มการประมวลผลที่เหมาะสมกับข้อกำหนดด้านประสิทธิภาพราคา และใช้ประโยชน์จากเทคโนโลยีล่าสุดโดยไม่มีข้อผูกมัดกับไลบรารีซอฟต์แวร์เฉพาะของผู้จำหน่าย

สนับสนุนโมเดลแมชชีนเลิร์นนิ่งและข้อมูลประเภทต่างๆ

การใช้ AWS Neuron ทำให้ Inf1 instance สนับสนุนโมเดลของแมชชีนเลิร์นนิ่งที่ใช้บ่อยได้หลายตัว เช่น Single Shot Detector (SSD) และ ResNet สำหรับการจดจำ/จัดหมวดหมู่ภาพ เช่นเดียวกับ Transformer และ BERT สำหรับการประมวลผลภาษาธรรมชาติและการแปล ข้อมูลหลายประเภทรวมถึง INT8, BF16 และ FP16 ด้วยความแม่นยำแบบผสมผสานยังสนับสนุนโมเดลและความต้องการด้านประสิทธิภาพหลากหลายรูปแบบอีกด้วย

คุณสมบัติ

ให้บริการโดย AWS Inferentia

AWS Inferentia คือชิพแมชชีนเลิร์นนิ่งที่ออกแบบและสร้างโดย AWS เพื่อส่งมอบการอนุมานประสิทธิภาพสูงที่มีค่าใช้จ่ายต่ำ ชิพ AWS Inferentia แต่ละตัวให้ประสิทธิภาพสูงสุดถึง 128 TOPS (ล้านล้านการปฏิบัติการต่อวินาที) และสนับสนุนข้อมูลประเภท FP16, BF16 และ INT8 ชิพ AWS Inferentia ยังประกอบด้วยหน่วยความจำบนชิพขนาดใหญ่ซึ่งสามารถใช้เพื่อแคชโมเดลที่มีขนาดใหญ่ได้ ซึ่งเป็นประโยชน์อย่างยิ่งโดยเฉพาะสำหรับโมเดลที่ต้องใช้การเข้าถึงหน่วยความจำบ่อยครั้ง

ชุดเครื่องมือพัฒนาซอฟต์แวร์ (SDK) ของ AWS Neuron ประกอบด้วยเครื่องมือคอมไพเลอร์ รันไทม์ และการทำโปรไฟล์ โดยจะทำให้โมเดลโครงข่ายประสาทที่มีความซับซ้อน ซึ่งสร้างและฝึกอบรมในเฟรมเวิร์กยอดนิยม เช่น TensorFlow, PyTorch และ MXNet สามารถดำเนินการได้โดยใช้ Inf1 instance AWS Neuron ยังสนับสนุนความสามารถในการแบ่งโมเดลขนาดใหญ่เพื่อดำเนินการในชิพ Inferentia หลายตัวโดยใช้การเชื่อมต่อระหว่างชิพไปยังชิพอีกตัวที่มีความเร็วสูง เพื่อส่งมอบปริมาณการประมวลผลการอนุมานในระดับสูงและค่าใช้จ่ายในการอนุมานที่ต่ำลง

เครือข่ายและพื้นที่จัดเก็บประสิทธิภาพสูง

Inf1 instance ให้อัตราการส่งข้อมูลเครือข่ายสูงสุด 100 Gbps สำหรับแอปพลิเคชันซึ่งต้องเข้าถึงเครือข่ายความเร็วสูง เทคโนโลยี Elastic Network Adapter (ENA) และ NVM Express (NVMe) รุ่นใหม่ให้ Inf1 instance ที่มีปริมาณการประมวลผลสูง อินเทอร์เฟซแบบมีเวลาแฝงต่ำสำหรับระบบเครือข่าย และ Amazon Elastic Block Store (Amazon EBS)

สร้างบน AWS Nitro System

AWS Nitro System คือการรวบรวมบล็อกส่วนประกอบที่ครบถ้วนที่จะถ่ายข้อมูลฟังก์ชันการจำลองเสมือนแบบดั้งเดิมหลายฟังก์ชันไปยังฮาร์ดแวร์และซอฟต์แวร์เฉพาะ เพื่อมอบประสิทธิภาพสูง ความพร้อมใช้งานสูง และการรักษาความปลอดภัยระดับสูง ในขณะที่ลดค่าใช้จ่ายในการจำลองเสมือน

วิธีทำงาน

วิธีใช้ Inf1 และ AWS Inferentia

คำนิยมจากลูกค้า

Anthem
Anthem เป็นหนึ่งในบริษัทที่ให้บริการด้านสุขภาพชั้นนำของประเทศ ซึ่งให้บริการสุขภาพแก่สมาชิกกว่า 40 ล้านคนทั่วสหรัฐอเมริกา "ตลาดของแพลตฟอร์มดิจิทัลด้านสุขภาพกำลังเติบโตขึ้นอย่างเห็นได้ชัด การรวบรวมข้อมูลในตลาดนี้ถือเป็นเรื่องที่ท้าทาย เนื่องจากปริมาณข้อมูลความคิดเห็นของลูกค้าที่มีมากมายและลักษณะที่ไม่เป็นระบบของข้อมูล แอปพลิเคชันของเราทำให้การสร้างข้อมูลเชิงลึกที่นำมาปฏิบัติได้จากความคิดเห็นของลูกค้าเป็นแบบอัตโนมัติผ่านโมเดลภาษาธรรมชาติของดีปเลิร์นนิ่ง (Transformers) แอปพลิเคชันของเรามีการประมวลผลหนักและจำเป็นต้องมีการติดตั้งใช้จริงด้วยวิธีการที่มีประสิทธิภาพสูง เราได้ติดตั้งดีปเลิร์นนิ่งเพื่อใช้จริงด้วยการอนุมานปริมาณงานไปยัง Amazon EC2 Inf1 instances ที่ทำงานด้วยตัวประมวลผล AWS Inferentia อย่างราบรื่น Inf1 instances ตัวใหม่เพิ่มปริมาณการประมวลผลที่เร็วขึ้น 2 เท่าไปยังอินสแตนซ์ที่ทำงานโดย GPU และช่วยให้เราปรับปรุงปริมาณงานในการอนุมาน”

Numan Laanait, PhD หัวหน้านักวิทยาศาสตร์ด้านข้อมูล/AI และ Miro Mihaylov, PhD หัวหน้านักวิทยาศาสตร์ด้านข้อมูล/AI

Condé Nast
“พอร์ตโฟลิโอระดับโลกของ Condé Nast ประกอบด้วยสื่อชั้นนำกว่า 20 แบรนด์ รวมถึง Wired, Vogue และ Vanity Fair ภายในไม่กี่สัปดาห์ ทีมของเราก็สามารถรวมกลไกการแนะนำเข้ากับชิพ AWS Inferentia ได้ การรวมกันในครั้งนี้ช่วยให้สามารถปรับรันไทม์จำนวนมากสำหรับโมเดลภาษาธรรมชาติที่ล้ำสมัยบนอินสแตนซ์ Inf1 ของ SageMaker ให้เหมาะสมได้ ด้วยเหตุนี้ เราจึงสังเกตเห็นการปรับปรุงประสิทธิภาพในส่วนของต้นทุนที่ลดลง 72% จากอินสแตนซ์ GPU ที่นำมาใช้ก่อนหน้านี้”

Paul Fryzel, หัวหน้าวิศวกร, โครงสร้างพื้นฐาน AI

CS Disco
“CS Disco กำลังคิดค้นเทคโนโลยีทางกฎหมายขึ้นใหม่ในฐานะผู้ให้บริการโซลูชัน AI ชั้นนำสำหรับ eDiscovery (การค้นหาข้อมูลอิเล็กทรอนิกส์) ที่พัฒนาโดยนักกฎหมายสำหรับนักกฎหมาย Disco AI เร่งรวบรวมข้อมูลหลายเทราไบต์ซึ่งเป็นงานที่น่าเบื่อหน่าย เร่งเวลาในการตรวจสอบให้เร็วขึ้น และปรับปรุงความถูกต้องในการตรวจสอบโดยใช้ประโยชน์จากโมเดลการประมวลผลภาษาธรรมชาติที่ซับซ้อนซึ่งมีต้นทุนในการประมวลผลที่สูงลิบลิ่ว Disco พบว่า อินสแตนซ์ Inf1 ที่ขับเคลื่อนโดย AWS Inferentia ช่วยลดต้นทุนการอนุมานใน Disco AI ได้อย่างน้อย 35% เมื่อเปรียบเทียบกับอินสแตนส์ GPU ในปัจจุบัน จากประสบการณ์กับอินสแตนซ์ Inf1 ในเชิงบวก CS Disco จึงจะสำรวจโอกาสในการย้ายข้อมูลไปยัง Inferentia”

Alan Lockett, Sr. ผู้อำนวยการฝ่ายวิจัยที่ CS Disco

ผู้เชี่ยวชาญด้านสื่อดิจิทัล (DMP)
ผู้เชี่ยวชาญด้านสื่อดิจิทัล (DMP) แสดงภาพอนาคตด้วยแพลตฟอร์ม ZIA ตามเวลาจริงโดยอิงตาม AI (ปัญญาประดิษฐ์) เทคโนโลยีการแยกประเภทคอมพิวเตอร์วิทัศน์ที่มีประสิทธิภาพของ DMP มีการนำมาใช้สร้างข้อมูลรูปภาพตามเวลาจริงจำนวนมาก เช่น การสังเกตสภาพแวดล้อม การป้องกันอาชญากรรม และการป้องกันอุบัติเหตุ เรากำลังดำเนินการประเมิน Inf1 instances ผ่านตัวเลือกต่างๆ เนื่องจากเราเชื่อว่า Inferentia จะมอบโครงสร้างค่าใช้จ่ายและประสิทธิภาพที่เราต้องการนำมาติดตั้งแอปพลิเคชัน AI ตามขนาดที่ต้องการเพื่อใช้จริง” 

Hiroyuki Umeda - ผู้อำนวยการและผู้จัดการทั่วไป กลุ่มการตลาดและงานขาย ผู้เชี่ยวชาญด้านสื่อดิจิทัล

Hotpot.ai
Hotpot.ai ส่งเสริมให้ผู้ที่ไม่ใช่นักออกแบบสร้างกราฟิกที่น่าสนใจ และช่วยนักออกแบบมืออาชีพให้แปลงงานประจำที่ทำซ้ำๆ เป็นระบบอัตโนมัติ "เนื่องจากแมชชีนเลิร์นนิ่งเป็นสิ่งสำคัญสำหรับกลยุทธ์ของเรา เราจึงตื่นเต้นที่จะลองใช้ Inf1 instances ที่อิงตาม AWS Inferentia เราพบว่าการผสาน Inf1 instances เข้ากับงานวิจัยและไปป์ไลน์การพัฒนาของเราเป็นเรื่องที่ง่าย ที่สำคัญ เราสังเกตเห็นประสิทธิภาพที่เพิ่มขึ้นอย่างน่าประทับใจเมื่อเทียบกับ instances G4dn ที่อิงตาม GPU ด้วยโมเดลแรกของเรา Inf1 instances มีปริมาณการประมวลผลที่สูงขึ้น 45% และลดต้นทุนต่อการอนุมานลงเกือบ 50% เรามุ่งมั่นที่จะทำงานร่วมกับทีม AWS อย่างใกล้ชิดเพื่อย้ายโมเดลอื่นๆ และเปลี่ยนโครงสร้างพื้นฐานการอนุมาน ML ส่วนใหญ่ของเราไปเป็น AWS Inferentia"

Clarence Hu, ผู้ก่อตั้ง Hotpot.ai

INGA
“ภารกิจของ INGA คือการสร้างโซลูชันสรุปข้อความขั้นสูงที่อิงตามเทคโนโลยีปัญญาประดิษฐ์และดีปเลิร์นนิ่งซึ่งสามารถผสานการทำงานร่วมกับไปป์ไลน์ธุรกิจในปัจจุบันได้อย่างง่ายดาย เราเชื่อว่าการสรุปข้อความจะมีความสำคัญต่อการช่วยให้ธุรกิจรับข้อมูลเชิงลึกที่มีประโยชน์จากตัวข้อมูลได้ เราได้เริ่มใช้ Amazon EC2 Inf1 instance ที่อิงตาม AWS Inferentia โดยเร็วและผสานการทำงานเข้ากับไปป์ไลน์การพัฒนาของเรา ซึ่งให้ผลที่รวดเร็วและชัดเจนอย่างมาก Inf1 instance ให้ประสิทธิภาพที่สูง ซึ่งช่วยให้เราสามารถปรับปรุงประสิทธิภาพและประสิทธิผลของไปป์ไลน์โมเดลการอนุมานของเรา เราได้สัมผัสกับปริมาณการประมวลผลสูงขึ้น 4 เท่า และค่าใช้จ่ายไปป์ไลน์ในภาพรวมที่ลดลงถึง 30% ในทันทีเมื่อเทียบกับไปป์ไลน์เดิมที่อิงตาม GPU"

Yaroslav Shakula ผู้อำนวยการฝ่ายพัฒนาธุรกิจของ INGA Technologies

SkyWatch
"SkyWatch ประมวลผลข้อมูลทรัพยากรโลกนับล้านล้านพิกเซลที่จับภาพจากอวกาศทุกวัน การหันมาใช้ Inf1 instance ที่อิงตาม AWS Inferentia แบบใหม่ที่ใช้ Amazon SageMaker สำหรับการตรวจจับเมฆแบบเรียลไทม์และการให้คะแนนคุณภาพของรูปภาพนั้นทำได้ง่ายและรวดเร็ว เพียงแค่สับเปลี่ยนประเภทอินสแตนซ์ในการกำหนดค่าการติดตั้งใช้งานของเราเท่านั้นก็เรียบร้อย ด้วยการเปลี่ยนประเภทอินสแตนซ์เป็น Inf1 ที่อิงตาม Inferentia เราได้ปรับปรุงประสิทธิภาพการทำงานเพิ่มขึ้นถึง 40% และลดค่าใช้จ่ายโดยรวมลงได้ถึง 23% ถือเป็นชัยชนะที่ยิ่งใหญ่ โดยช่วยให้เราลดค่าใช้จ่ายในการดำเนินการโดยรวมได้พร้อมกับการส่งมอบภาพถ่ายดาวเทียมคุณภาพสูงได้อย่างต่อเนื่องให้กับลูกค้าของเราด้วยค่าใช้จ่ายทางวิศวกรรมเพียงเล็กน้อย เราเตรียมที่จะเปลี่ยนผ่านจากตำแหน่งข้อมูลการอนุมานและการประมวลผล ML แบบกลุ่มทั้งหมดของเรา แล้วหันมาใช้ Inf1 instance เพื่อปรับปรุงความน่าเชื่อถือของข้อมูลของเราและประสบการณ์ของลูกค้าเพิ่มเติม"

Adler Santos ผู้จัดการฝ่ายวิศวกรรมของ SkyWatch

บริการของ Amazon ที่ใช้ Amazon EC2 Inf1 instance

Amazon Alexa

มีการจำหน่ายอุปกรณ์ Alexa มากกว่า 100 ล้านเครื่องทั่วโลก และลูกค้าได้ให้การรีวิวระดับ 5 ดาวมากกว่า 400,000 ครั้งสำหรับอุปกรณ์ Echo บน Amazon "ระบบอัจฉริยะ AI และ ML ของ Amazon Alexa ซึ่งให้บริการโดย Amazon Web Services พร้อมให้บริการบนอุปกรณ์มากกว่า 100 ล้านเครื่องแล้วในวันนี้ และคำสัญญาของเราที่มีต่อลูกค้าคือการทำให้ Alexa ฉลาดยิ่งขึ้น สนทนาได้ดียิ่งขึ้น กระตือรือร้นมากขึ้น และกระทั่งน่าคบยิ่งกว่าเดิม" Tom Taylor รองประธานอาวุโสของ Amazon Alexa กล่าว "การทำให้คำสัญญานั้นเป็นจริงได้ต้องมีการปรับปรุงอย่างต่อเนื่องเกี่ยวกับระยะเวลาการตอบสนองและค่าใช้จ่ายในด้านโครงสร้างพื้นฐานแมชชีนเลิร์นนิ่ง ซึ่งเป็นเหตุผลที่เราตื่นเต้นที่จะใช้ Amazon EC2 Inf1 เพื่อลดเวลาแฝงในการอนุมานและค่าใช้จ่ายต่อการอนุมานบนการแปลงข้อความเป็นตัวอักษรของ Alexa ด้วย Amazon EC2 Inf1 เราสามารถให้การบริการที่ดียิ่งขึ้นกับลูกค้านับสิบล้านรายที่ใช้งาน Alexa ในแต่ละเดือน"

ราคา

*ราคาที่แสดงไว้สำหรับในรีเจี้ยน AWS ของสหรัฐอเมริกาฝั่งตะวันออก (เวอร์จิเนียตอนเหนือ) ราคาสำหรับอินสแตนซ์แบบเหมาจ่ายเป็นระยะเวลา 1 ปีและ 3 ปีนั้นมีไว้สำหรับตัวเลือกการชำระเงิน "ค่าบริการล่วงหน้าบางส่วน" หรือ "ไม่มีค่าบริการล่วงหน้า" สำหรับอินสแตนซ์ที่ไม่มีตัวเลือกค่าบริการล่วงหน้าบางส่วน

Amazon EC2 Inf1 instance พร้อมให้บริการในรีเจี้ยน AWS สหรัฐอเมริกาฝั่งตะวันออก (เวอร์จิเนียเหนือ) และสหรัฐอเมริกาฝั่งตะวันตก (ออริกอน) ในรูปแบบของอินสแตนซ์ตามความต้องการ อินสแตนซ์แบบเหมาจ่าย หรืออินสแตนซ์สปอต

เริ่มต้นใช้งาน

การใช้ Amazon SageMaker

Amazon SageMaker ทำให้ง่ายต่อการคอมไพล์และการติดตั้งใช้จริงโมเดลแมชชีนเลิร์นนิ่งที่ผ่านการฝึกอบรมมาแล้วในระหว่างการผลิตบน Amazon Inf1 instance ดังนั้นคุณจึงสามารถเริ่มสร้างการคาดการณ์สำหรับข้อมูลแบบเรียลไทม์ด้วยเวลาแฝงที่ต่ำได้ทันที AWS Neuron ซึ่งเป็นคอมไพเลอร์สำหรับ AWS Inferentia ถูกผสานการทำงานเข้ากับ Amazon SageMaker Neo เพื่อช่วยให้คุณคอมไพล์โมเดลแมชชีนเลิร์นนิ่งที่ได้รับการฝึกอบรมมาให้ทำงานอย่างเหมาะสมบน Inf1 instance ด้วย Amazon SageMaker คุณสามารถใช้งานโมเดลบนคลัสเตอร์ auto-scaling ของ Inf1 instance ที่ครอบคลุมหลาย Availability Zone ได้ง่าย เพื่อมอบทั้งประสิทธิภาพการทำงานและการอนุมานแบบเรียลไทม์ที่มีความพร้อมใช้งานสูง เรียนรู้วิธีติดตั้งใช้จริง Inf1 โดยใช้ Amazon SageMaker ด้วยตัวอย่างบน Github

การใช้ AWS Deep Learning AMI

AWS Deep Learning AMI (DLAMI) มอบโครงสร้างพื้นฐานและเครื่องมือต่างๆ ให้แก่ผู้ปฏิบัติงานและนักวิจัยด้านแมชชีนเลิร์นนิ่ง เพื่อเร่งให้เกิดดีปเลิร์นนิ่งในระบบคลาวด์ทุกขนาด AWS Neuron SDK มาพร้อมกับ AWS Deep Learning AMI ที่ติดตั้งไว้ล่วงหน้าเพื่อคอมไพล์และใช้งานโมเดลแมชชีนเลิร์นนิ่งอย่างมีประสิทธิภาพบน Inf1 instance หากต้องการความช่วยเหลือในการเริ่มต้นใช้งานกระบวนการ ให้ไปที่คู่มือการเลือก AMI และทรัพยากรดีปเลิร์นนิ่งอื่นๆ ดูที่คู่มือการเริ่มต้นใช้งาน AWS DLAMI เพื่อเรียนรู้วิธีใช้งาน DLAMI ด้วย Neuron

การใช้ Deep Learning Containers

นักพัฒนาสามารถติดตั้งใช้จริง Inf1 instance ได้แล้วใน Amazon Elastic Kubernetes Service (EKS) ซึ่งเป็นบริการ Kubernetes ที่มีการจัดการอย่างเต็มรูปแบบ รวมถึง Amazon Elastic Container Service (ECS) ซึ่งเป็นบริการประสานรวมคอนเทนเนอร์ที่มีการจัดการอย่างเต็มรูปแบบจาก Amazon เรียนรู้เพิ่มเติมเกี่ยวกับการใช้งานด้วย Inf1 บน Amazon EKS ได้ในบล็อกนี้ รายละเอียดเพิ่มเติมเกี่ยวกับการใช้งานคอนเทนเนอร์บน Inf1 instance มีอยู่ในหน้าบทแนะนำสอนการใช้งานเครื่องมือคอนเทนเนอร์ Neuron การสนับสนุน Inf1 สำหรับ AWS DL Containers กำลังมาในเร็วๆ นี้

แหล่งข้อมูลเพิ่มเติม