Phiên bản Amazon EC2 Inf1

Hiệu năng cao và chi phí suy luận thấp từ công nghệ máy học

Các doanh nghiệp thuộc nhiều ngành nghề đang tìm kiếm một phương thức chuyển đổi dựa trên trí tuệ nhân tạo (AI) để tăng tốc độ đổi mới, cải thiện trải nghiệm khách hàng và xử lý các cải tiến. Những mô hình máy học (ML) hỗ trợ ứng dụng AI đang ngày càng trở nên phức tạp hơn, từ đó làm tăng chi phí cơ sở hạ tầng điện toán. Chi phí suy luận có thể chiếm tới 90% trong tổng chi phí cơ sở hạ tầng cho hoạt động phát triển và chạy ứng dụng máy học (ML). Khách hàng đang rất cần những giải pháp cơ sở hạ tầng tiết kiệm chi phí để đưa các ứng dụng ML của họ vào sử dụng.

Các phiên bản Amazon EC2 Inf1 mang đến khả năng suy luận ML hiệu suất cao và chi phí thấp. Những phiên bản này cung cấp thông lượng cao gấp 2,3 lần với chi phí thấp hơn đến 70% trên mỗi suy luận so với các phiên bản Amazon EC2 tương đương. Các phiên bản Inf1 được xây dựng từ đầu để hỗ trợ các ứng dụng suy luận ML. Các phiên bản Inf1 này được trang bị tới 16 chip AWS Inferentia, loại chip suy luận ML hiệu năng cao do AWS thiết kế và xây dựng. Ngoài ra, các phiên bản Inf1 còn có bộ xử lý Intel Xeon Scalable thế hệ 2 cùng khả năng kết nối mạng lên tới 100 Gbps để mang đến khả năng suy luận thông lượng cao.

Khách hàng có thể dùng các phiên bản Inf1 để chạy các ứng dụng suy luận ML quy mô lớn, chẳng hạn như công cụ tìm kiếm, công cụ đề xuất, thị giác máy tính, nhận dạng giọng nói, xử lý ngôn ngữ tự nhiên (NLP), cá nhân hóa và phát hiện lừa đảo.

Các nhà phát triển có thể triển khai mô hình ML của họ trên các phiên bản Inf1 bằng cách dùng SDK AWS Neuron, bộ công cụ này được tích hợp với những khung ML phổ biến như TensorFlow, PyTorch và Apache MXNet. Họ có thể tiếp tục dùng các quy trình ML hiện tại và di chuyển liền mạch các ứng dụng sang các phiên bản Inf1 với ít thay đổi về mã và không phải phụ thuộc vào giải pháp cụ thể nào của nhà cung cấp.

Bắt đầu dễ dàng với các phiên bản Inf1 với Amazon SageMaker, AMI học sâu của AWS (DLAMI) được cấu hình sẵn với SDK Neuron hoặc Dịch vụ bộ chứa linh hoạt của Amazon (Amazon ECS) hoặc Dịch vụ Kubernetes linh hoạt Amazon (Amazon EKS) cho các ứng dụng ML có trong bộ chứa.

Phiên bản Amazon EC2 Inf1 (1:23)

Lợi ích

Giảm tới 70% chi phí cho mỗi lần suy luận

Bằng cách dùng Inf1, nhà phát triển có thể giảm đáng kể chi phí triển khai ML để đưa vào sử dụng. Nhờ chi phí phiên bản thấp và thông lượng cao, các phiên bản Inf1 có chi phí trên mỗi suy luận thấp hơn tới 70% so với các phiên bản Amazon EC2 tương đương.

Tính dễ dùng và tính linh động về mã

SDK Neuron được tích hợp với các khung ML phổ biến như TensorFlow, PyTorch và MXNet. Nhà phát triển có thể tiếp tục dùng các quy trình ML hiện tại và tích hợp liền mạch ứng dụng lên các phiên bản Inf1 với chỉ một vài thay đổi rất nhỏ về mã. Nhờ đó, họ có thể thoải mái sử dụng khung ML ưa thích và nền tảng điện toán phù hợp yêu cầu cũng như các công nghệ mới nhất mà không phải phụ thuộc vào giải pháp cụ thể nào của nhà cung cấp.

Thông lượng cao gấp 2,3 lần

Các phiên bản Inf1 cung cấp thông lượng cao gấp 2,3 lần so với các phiên bản Amazon EC2 tương đương. Các chip AWS Inferentia mà phiên bản Inf1 sử dụng được thiết kế để tối ưu hóa hiệu suất suy luận cho kích thước lô nhỏ, cho phép các ứng dụng thời gian thực tối đa hóa thông lượng và đáp ứng các yêu cầu về độ trễ.

Độ trễ cực thấp

Chip của AWS Inferentia được trang bị bộ nhớ lớn gắn trên chip, cho phép lưu trực tiếp các mô hình ML vào bộ nhớ đệm trên chính các chip này. Bạn có thể triển khai mô hình của mình bằng các chức năng như Quy trình NeuronCore để không phải sử dụng đến các tài nguyên bộ nhớ bên ngoài. Với các phiên bản Inf1, bạn có thể triển khai ứng dụng suy luận theo thời gian thực với độ trễ cận thời gian thực mà không làm ảnh hưởng tới băng thông.

Hỗ trợ cho nhiều mô hình ML và kiểu dữ liệu khác nhau

Các phiên bản Inf1 hỗ trợ nhiều kiến trúc mô hình ML thông dụng như SSD, VGG và ResNext để nhận biết/phân loại hình ảnh, cũng như Transformer và BERT để xử lý ngôn ngữ tự nhiên (NLP). Ngoài ra, việc hỗ trợ kho mô hình HuggingFace trong Neuron mang đến cho khách hàng khả năng biên dịch và chạy suy luận dễ dàng bằng các mô hình đào tạo sẵn hoặc mô hình được tinh chỉnh mà chỉ cần thay đổi một dòng mã. Nhiều loại dữ liệu, trong đó có BF16 và FP16, với độ chính xác hỗn hợp cũng được hỗ trợ để đáp ứng nhiều mô hình và nhu cầu hiệu suất khác nhau.

Tính năng

Được AWS Inferentia cung cấp

AWS Inferentia là chip ML được AWS xây dựng cho mục đích nhất định nhằm cung cấp khả năng suy luận hiệu năng cao với chi phí thấp. Mỗi chip AWS Inferentia sẽ có bốn NeuronCore thế hệ đầu tiên và có hiệu suất lên đến 128 nghìn tỷ hoạt động mỗi giây (TOPS). Loại chip này cũng hỗ trợ các loại dữ liệu FP16, BF16 và INT8. Chip AWS Inferentia còn nổi bật ở bộ nhớ dung lượng lớn trên chip, có thể dùng để lưu các mô hình lớn vào bộ đệm. Điều này đặc biệt hữu ích đối với các mô hình đòi hỏi truy cập thường xuyên vào bộ nhớ.

SDK AWS Neuron bao gồm trình biên dịch, trình điều khiển thời gian hoạt động và các công cụ phân tích hiệu suất. Bộ công cụ này cho phép bạn triển khai các phiên bản Amazon Inf1 để thực thi những mô hình mạng nơ-ron phức tạp được tạo và đào tạo trong các khung phổ biến như TensorFlow, PyTorch và MXNet. Với Quy trình NeuronCore, bạn có thể phân tách mô hình lớn để thực thi trên nhiều chip Inferentia nhờ sự liên kết vật lý tốc độ cao giữa các chip, qua đó mang đến thông lượng suy luận cao và chi phí suy luận thấp hơn.

Kết nối mạng và lưu trữ hiệu năng cao

Các phiên bản Inf1 cung cấp thông lượng mạng lên tới 100 Gbps cho các ứng dụng yêu cầu khả năng kết nối mạng tốc độ cao. Bộ điều hợp mạng linh hoạt (ENA) thế hệ tiếp theo và công nghệ NVM Express (NVMe) cung cấp những giao diện thông lượng cao, độ trễ thấp cho việc kết nối mạng và Kho lưu trữ khối linh hoạt của Amazon (Amazon EBS) cho các phiên bản Inf1.

Được phát triển trên hệ thống AWS Nitro

Hệ thống AWS Nitro là một tập hợp đa dạng các khối dựng, giúp giảm tải nhiều chức năng ảo hóa truyền thống sang phần cứng và phần mềm chuyên dụng để mang lại hiệu suất cao, tính sẵn sàng cao và độ bảo mật cao, đồng thời giảm tổng chi phí ảo hóa.

Cách hoạt động

Cách sử dụng Inf1 và AWS Inferentia

Chứng thực từ khách hàng

airbnb-case-study

Được thành lập năm 2008, Airbnb với trụ sở tại San Francisco là một thị trường cộng đồng với hơn 4 triệu chủ trọ. Các chủ trọ này đã tiếp đón hơn 900 triệu lượt khách ở hầu khắp mọi quốc gia trên thế giới.

"Nền tảng hỗ trợ cộng đồng của Airbnb mang đến các trải nghiệm dịch vụ thông minh, có quy mô linh hoạt và vượt trội cho cộng đồng với hàng triệu khách hàng và chủ trọ trên khắp thế giới. Chúng tôi không ngừng tìm kiếm cách thức để cải thiện hiệu suất của mô hình NLP mà các ứng dụng chatbot hỗ trợ của chúng tôi sử dụng. Với phiên bản Amazon EC2 Inf1 được cung cấp bởi AWS Inferentia, chúng tôi nhận thấy hiệu suất của thông lượng ngay từ đầu đã tăng gấp 2 lần so với các phiên bản dựa trên GPU dành cho mô hình BERT dựa trên PyTorch của mình. Chúng tôi mong muốn tận dụng phiên bản Inf1 cho các mô hình và trường hợp sử dụng khác trong tương lai.”

Bo Zeng, Giám đốc kỹ thuật của Airbnb
Snap Inc
“Chúng tôi đã tích hợp công nghệ ML vào nhiều khía cạnh của Snapchat. Trong lĩnh vực này, việc khám phá sự đổi mới là ưu tiên hàng đầu. Khi nghe về Inferentia, chúng tôi đã cộng tác với AWS để áp dụng các phiên bản Inf1/Inferentia nhằm hỗ trợ việc triển khai ML xoay quanh hiệu năng và chi phí. Chúng tôi bắt đầu từ mô hình đề xuất và trong tương lai, chúng tôi sẽ tìm cách triển khai những mô hình khác bằng các phiên bản Inf1.”

Nima Khajehnouri, Phó chủ tịch phụ trách kỹ thuật của Snap Inc.
Sprinklr
“Nền tảng quản lý trải nghiệm người dùng thống nhất (Unified-CXM) định hướng AI của Sprinklr cho phép các công ty thu thập và chuyển đổi phản hồi của khách hàng theo thời gian thực trên nhiều kênh thành những thông tin chuyên sâu hữu ích – từ đó chủ động giải quyết vấn đề, tăng cường phát triển sản phẩm, cải thiện quá trình tiếp thị nội dung, nâng cao dịch vụ khách hàng, v.v. Bằng cách sử dụng Amazon EC2 Inf1, chúng tôi đã có thể cải thiện đáng kể hiệu suất của một trong những mô hình NLP cũng như một trong những mô hình thị giác máy tính của chúng tôi. Chúng tôi mong muốn tiếp tục sử dụng Amazon EC2 Inf1 để phục vụ những khách hàng toàn cầu của mình tốt hơn.”

Vasant Srinivasan, Phó chủ tịch cấp cao về kỹ thuật sản phẩm của Sprinklr
Print
"Sản phẩm NLP Finch for Text tiên tiến của chúng tôi cung cấp cho người dùng khả năng trích xuất, phân định nghĩa cũng như làm phong phú thêm nhiều loại thực thể nằm trong khối lượng văn bản khổng lồ. Finch for Text cần khá nhiều tài nguyên điện toán để cung cấp cho máy khách của chúng tôi những tính năng bổ sung có độ trễ thấp trên nguồn cấp dữ liệu toàn cầu. Chúng tôi hiện đang sử dụng các phiên bản AWS Inf1 trong những mô hình PyTorch NLP, dịch thuật và xác định thực thể. Chúng tôi có thể giảm trên 80% chi phí suy luận (so với GPU) với những mục tối ưu hóa ở mức tối thiểu, đồng thời vẫn duy trì được tốc độ cũng như hiệu suất suy luận của mình. Sự cải tiến này cho phép các khách hàng của chúng tôi làm phong phú thêm văn bản bằng tiếng Pháp, Tây Ban Nha, Đức và Hà Lan theo thời gian thực trên nguồn cấp dữ liệu truyền liên tục và trên quy mô toàn cầu – điều này có ý nghĩa quan trọng đối với các dịch vụ tài chính, công cụ tổng hợp dữ liệu và khách hàng ở khu vực công của chúng tôi.”

Scott Lightner, Giám đốc công nghệ của Finch Computing
Finch Computing
“Chúng tôi cảnh báo về nhiều loại sự kiện trên toàn thế giới bằng nhiều ngôn ngữ, ở các định dạng khác nhau (hình ảnh, video, âm thanh, cảm biến văn bản, kết hợp tất cả các loại này) từ hàng trăm nghìn nguồn. Tối ưu hóa tốc độ và chi phí với quy mô đó là điều vô cùng quan trọng đối với doanh nghiệp của chúng tôi. Với AWS Inferentia, chúng tôi đã giảm độ trễ của mô hình và đạt được thông lượng tốt hơn tới 9 lần trên mỗi đồng tiền. Điều này đã cho phép chúng tôi tăng độ chính xác của mô hình và phát triển khả năng của nền tảng bằng cách triển khai các mô hình DL tinh vi hơn và xử lý khối lượng dữ liệu gấp 5 lần, đồng thời vẫn kiểm soát được chi phí.”

Alex Jaimes, Giám đốc khoa học và Phó chủ tịch cấp cao về AI của Dataminr
Autodesk
"Autodesk đang sử dụng Inferentia để cải tiến công nghệ nhận thức cho trợ lý ảo hoạt động dựa trên AI của mình, với tên gọi Autodesk Virtual Agent (AVA). AVA có thể trả lời 100.000 câu hỏi của khách hàng mỗi tháng bằng cách áp dụng hệ thống hiểu ngôn ngữ tự nhiên (NLU) và các kỹ thuật học sâu (DL) để rút ra ngữ cảnh, ý định và ý nghĩa đằng sau các câu hỏi. Với việc thí điểm Inferentia, chúng tôi đạt được mức thông lượng qua G4dn cao hơn 4,9 lần cho các mô hình NLU của mình và sẽ tìm cách chạy thêm khối lượng công việc trên các phiên bản Inf1 dựa trên Inferentia.”

Binghui Ouyang, Nhà khoa học dữ liệu cấp cao của Autodesk
Screening Eagle
“Việc sử dụng radar xuyên đất và phát hiện các sai sót trực quan thường là lĩnh vực của các khảo sát viên chuyên nghiệp. Kiến trúc dựa trên vi dịch vụ của AWS cho phép chúng tôi xử lý các video thu được từ những phương tiện kiểm tra tự động và nhân viên thanh tra. Nhờ việc di chuyển các mô hình được xây dựng nội bộ từ những phiên bản dựa trên GPU truyền thống sang Inferentia, chúng tôi có thể giảm 50% chi phí. Hơn nữa, chúng tôi còn nhận thấy hiệu suất tăng lên so với thời điểm sử dụng phiên bản GPU G4dn. Nhóm của chúng tôi mong muốn chạy nhiều khối lượng công việc hơn trên những phiên bản Inf1 dựa trên Inferentia.”

Jesús Hormigo, Giám đốc đám mây và AI của Screening Eagle Technologies
NTT PC

NTT PC Communications là nhà cung cấp giải pháp truyền thông và dịch vụ mạng tại Nhật Bản. Đây là công ty viễn thông đi đầu trong việc giới thiệu các sản phẩm sáng tạo mới đến thị trường công nghệ thông tin và truyền thông.

“NTT PC đã phát triển AnyMotion, dịch vụ nền tảng API phân tích chuyển động dựa trên các mô hình ML dự đoán tư thế nâng cao. Chúng tôi đã triển khai nền tảng AnyMotion của mình trên các phiên bản Amazon EC2 Inf1 bằng cách sử dụng Amazon ECS cho dịch vụ điều phối bộ chứa được quản lý toàn phần. Nhờ việc triển khai bộ chứa AnyMotion của mình trên Amazon EC2 Inf1, chúng tôi đạt thông lượng gấp 4,5 lần, độ trễ suy luận giảm 25% và chi phí giảm 90% so với phiên bản EC2 dựa trên GPU thế hệ hiện tại. Những kết quả vượt trội này sẽ giúp cải thiện chất lượng của dịch vụ AnyMotion trên quy mô lớn.”

Toshiki Yanagisawa, Kỹ sư phần mềm của NTT PC Communications Inc.
Anthem

Anthem là công ty chuyên về trợ cấp sức khỏe hàng đầu cả nước, phục vụ nhu cầu chăm sóc sức khỏe của hơn 40 triệu thành viên tại hàng chục tiểu bang. 

"Thị trường về nền tảng sức khỏe số đang phát triển với tốc độ chóng mặt. Việc thu thập thông tin về thị trường này là một công việc đầy thách thức do lượng dữ liệu về ý kiến của khách hàng là rất lớn và phi cấu trúc. Ứng dụng của chúng tôi tự động tạo ra thông tin chuyên sâu hữu ích dựa trên ý kiến của khách hàng thông qua mô hình ngôn ngữ tự nhiên DL (Transformer). Ứng dụng này thiên về điện toán và cần được triển khai theo cách mang lại hiệu quả cao. Chúng tôi đã triển khai liền mạch khối lượng công việc suy luận DL của mình trên các phiên bản Amazon EC2 Inf1 dựa trên sức mạnh của bộ xử lý AWS Inferentia. Phiên bản Inf1 mới mang lại thông lượng cao gấp 2 lần cho các phiên bản dựa trên GPU và cho phép chúng tôi hợp lý hóa các khối lượng công việc suy luận.”

Numan Laanait và Miro Mihaylov, Tiến sĩ, Nhà khoa học dữ liệu/AI chính của Anthem

 

Condé Nast
"Danh mục toàn cầu của Condé Nast gồm hơn 20 thương hiệu truyền thông hàng đầu, trong đó có Wired, VogueVanity Fair. Trong một vài tuần, nhóm của chúng tôi có thể tích hợp công cụ đề xuất với chip AWS Inferentia. Sự kết hợp này cho phép tối ưu hóa nhiều thời gian chạy cho các mô hình ngôn ngữ tự nhiên tiên tiến trên các phiên bản Inf1 của SageMaker. Kết quả là chúng tôi nhận thấy chi phí giảm 72% so với các phiên bản GPU được triển khai trước đây".

Paul Fryzel, Kỹ sư trưởng phụ trách cơ sở hạ tầng AI của Condé Nast
Ciao
“Ciao đang phát triển camera an ninh truyền thống thành camera phân tích có hiệu năng cao tương đương với khả năng của mắt người. Ứng dụng của chúng tôi đang thúc đẩy phòng chống thiên tai, giám sát các điều kiện môi trường bằng cách sử dụng các giải pháp camera AI dựa trên đám mây để cảnh báo trước khi thảm họa diễn ra. Việc cảnh báo này hỗ trợ khả năng ứng phó trước với tình hình. Dựa trên việc phát hiện đối tượng, chúng tôi cũng có thể cung cấp thông tin chuyên sâu bằng cách ước tính số lượng khách đến mà không có nhân viên hỗ trợ từ video trong các cửa hàng thực. Ciao Camera đã áp dụng một cách thương mại các phiên bản Inf1 dựa trên AWS Inferentia có tỷ lệ giá/hiệu năng tốt hơn 40% so với G4dn với YOLOv4. Chúng tôi mong muốn có thêm nhiều dịch vụ sử dụng Inf1 để tận dụng khả năng tiết kiệm chi phí đáng kể.”

Shinji Matsumoto, Kỹ sư phần mềm của Ciao Inc.
欧文ベーシックロゴ(The Asahi Shimbun)
"Asahi Shimbun là một trong những tờ nhật báo nổi tiếng nhất ở Nhật Bản. Media Lab, được thiết lập là một trong những phòng ban trong công ty chúng tôi, có nhiệm vụ nghiên cứu về công nghệ tối tân nhất, đặc biệt là AI và kết nối các công nghệ tiên tiến cho các doanh nghiệp mới. Với sự ra mắt phiên bản Amazon EC2 Inf1 dựa trên AWS Inferentia tại Tokyo, chúng tôi đã thử nghiệmứng dụng AI tóm tắt văn bản dựa trên PyTorch trên những phiên bản này. Ứng dụng này xử lý một lượng lớn văn bản, tạo ra các tiêu đề và câu tóm tắt được huấn luyện thông qua các bài báo trong suốt 30 năm qua. Với Inferentia, chúng tôi đã giảm đáng kể chi phí so với các phiên bản dựa trên CPU. Việc giảm chi phí đáng kể này cho phép chúng tôi triển khai các mô hình phức tạp nhất trên quy mô lớn mà trước đây tưởng rằng không khả thi về mặt kinh tế.”

Tiến sĩ Hideaki Tamori, Nhà quản trị cấp cao, Media Lab của Công ty Asahi Shimbun
CS Disco
"CS Disco đang thực hiện đổi mới công nghệ pháp lý trong vai trò nhà cung cấp hàng đầu các giải pháp AI cho khám phá điện tử do các luật sư phát triển cho các luật sư. Disco AI thúc đẩy tác vụ tìm kiếm nhàm chán qua hàng terabyte dữ liệu, tăng thời gian xem xét và cải thiện độ chính xác của quá trình xem xét bằng cách sử dụng các mô hình NLP phức tạp, tốn kém về mặt điện toán và chi phí quá đắt đỏ. Disco phát hiện ra rằng các phiên bản Inf1 dựa trên AWS Inferentia giảm chi phí suy luận trong Disco AI ít nhất 35% so với các phiên bản GPU ngày nay. Dựa trên trải nghiệm tích cực với các phiên bản Inf1, CS Disco sẽ khám phá các cơ hội để di chuyển sang Inferentia.”

Alan Lockett, Giám đốc nghiên cứu của CS Disco
Talroo
"Tại Talroo, chúng tôi cung cấp cho khách hàng một nền tảng dựa trên dữ liệu cho phép họ thu hút các ứng viên phù hợp để tuyển dụng. Chúng tôi không ngừng khám phá các công nghệ mới nhằm đảm bảo luôn cung cấp các sản phẩm và dịch vụ tốt nhất đến khách hàng. Với Inferentia, chúng tôi trích xuất thông tin chuyên sâu từ kho dữ liệu văn bản để nâng cao công nghệ tìm kiếm và đối sánh do AI của chúng tôi cung cấp. Talroo tận dụng các phiên bản Amazon EC2 Inf1 để tạo các mô hình NLU thông lượng cao với SageMaker. Thử nghiệm ban đầu của Talroo cho thấy các phiên bản Amazon EC2 Inf1 mang lại độ trễ suy luận thấp hơn 40% và thông lượng cao hơn gấp 2 lần so với các phiên bản dựa trên GPU G4dn. Dựa trên những kết quả này, Talroo mong muốn sử dụng phiên bản Amazon EC2 Inf1 như một phần trong cơ sở hạ tầng AWS của mình.”

Janet Hu, Kỹ sư phần mềm của Talroo
DMP
“Digital Media Professionals (DMP) phác họa tương lai bằng nền tảng ZIA™ dựa trên AI. Các công nghệ phân loại thị giác máy tính hiệu quả của DMP được dùng để xây dựng thông tin chuyên sâu dựa trên lượng dữ liệu lớn về hình ảnh thời gian thực, chẳng hạn như quan sát tình trạng, ngăn chặn tội phạm và ngăn chặn tai nạn. Chúng tôi nhận ra rằng các mô hình phân đoạn hình ảnh của chúng tôi chạy nhanh hơn 4 lần trên các phiên bản Inf1 dựa trên AWS Inferentia so với các phiên bản G4 dựa trên GPU. Do thông lượng cao hơn và chi phí thấp hơn, Inferentia hỗ trợ chúng tôi triển khai các khối lượng công việc sử dụng AI, chẳng hạn như các ứng dụng dành cho camera hành trình cho ô tô ở quy mô lớn.”

Hiroyuki Umeda, Giám đốc kiêm Tổng quản lý, Nhóm bán hàng và tiếp thị của Digital Media Professionals
Hotpot.ai

Hotpot.ai hỗ trợ những người không chuyên về thiết kế tạo ra đồ họa cuốn hút và giúp những nhà thiết kế chuyên nghiệp tự động hóa các tác vụ lặp lại. 

“Chiến lược của chúng tôi lấy ML làm trọng tâm, nên chúng tôi rất hào hứng dùng thử các phiên bản Inf1 dựa trên AWS Inferentia. Phiên bản Inf1 rất dễ tích hợp vào quy trình nghiên cứu và phát triển của chúng tôi. Quan trọng hơn hết, chúng tôi nhận thấy hiệu năng tăng rõ rệt so với các phiên bản dựa trên GPU G4dn. Trong mô hình đầu tiên của chúng tôi, các phiên bản Inf1 đạt thông lượng cao hơn khoảng 45% và giảm chi phí trên mỗi suy luận đi gần 50%. Trong tương lai, chúng tôi sẽ hợp tác chặt chẽ với đội ngũ AWS để triển khai các mô hình khác và chuyển hầu hết cơ sở hạ tầng suy luận máy học của mình sang AWS Inferentia".

Clarence Hu, Nhà sáng lập của Hotpot.ai
SkyWatch
“Mỗi ngày, SkyWatch xử lý hàng trăm nghìn tỷ dữ liệu quan sát từ Trái đất được thu thập từ vũ trụ. Khi chúng tôi áp dụng phiên bản Inf1 mới, dựa trên AWS Inferentia qua Amazon SageMaker cho hoạt động phát hiện đám mây theo thời gian thực và ghi điểm chất lượng hình ảnh, việc đó được thực hiện thật nhanh chóng và dễ dàng. Chúng tôi chỉ việc đổi loại phiên bản trong cấu hình triển khai của mình. Khi chuyển sang phiên bản Inf1 dựa trên Inferentia, chúng tôi nâng cao hiệu suất thêm 40% và giảm chi phí tổng thể đi 23%. Đó là một sự chuyển biến vô cùng to lớn. Nó giúp chúng tôi giảm chi phí vận hành tổng thể, đồng thời vẫn tiếp tục cung cấp hình ảnh vệ tinh có chất lượng cao cho khách hàng với tổng chi phí kỹ thuật ở mức thấp nhất. Chúng tôi kỳ vọng có thể sử dụng phiên bản Inf1 cho tất cả các điểm cuối suy luận và quy trình ML theo lô của mình để cải thiện hơn nữa độ tin cậy của dữ liệu và trải nghiệm của khách hàng".

Adler Santos, Giám đốc kỹ thuật của SkyWatch
Money Forward, Inc.

Money Forward Inc. cung cấp cho các doanh nghiệp và cá nhân một nền tảng tài chính công khai và công bằng. Với tư cách là một phần của nền tảng này, HiTTO Inc., một công ty thuộc tập đoàn Money Forward, cung cấp dịch vụ chatbot AI sử dụng các mô hình NLP được tùy chỉnh để giải quyết các nhu cầu đa dạng của khách hàng doanh nghiệp của họ.

"Việc di chuyển dịch vụ chatbot AI của chúng tôi sang các phiên bản Amazon EC2 Inf1 diễn ra rất đơn giản. Chúng tôi đã hoàn tất quá trình di chuyển trong vòng hai tháng và khởi chạy dịch vụ quy mô lớn trên các phiên bản Inf1 bằng Amazon ECS. Bằng cách cung cấp nhiều mô hình cho mỗi phiên bản Inf1, chúng tôi đã có thể giảm 97% độ trễ suy luận và hơn 50% chi phí suy luận (so với các phiên bản dựa trên GPU tương đương). Chúng tôi mong muốn chạy nhiều khối lượng công việc hơn trên những phiên bản Inf1 dựa trên Inferentia.”

Kento Adachi, Trưởng bộ phận kỹ thuật, văn phòng CTO của Money Forward Inc.

Các dịch vụ Amazon sử dụng phiên bản Amazon EC2 Inf1

Amazon Advertising

Amazon Advertising giúp các doanh nghiệp thuộc mọi quy mô kết nối với khách hàng ở tất cả các giai đoạn trên hành trình mua sắm của họ. Hàng triệu quảng cáo, bao gồm văn bản và hình ảnh, được điều chỉnh, phân loại và phân phối để mang đến trải nghiệm khách hàng tối ưu mỗi ngày.

“Để xử lý quảng cáo dạng văn bản, chúng tôi triển khai trên toàn cầu mô hình BERT dựa vào PyTorch trên phiên bản Inf1 sử dụng AWS Inferentia. Nhờ việc di chuyển từ GPU sang Inferentia, chúng tôi đã có thể giảm 69% chi phí với hiệu suất tương đương. Chúng tôi chỉ dành ra không đến ba tuần để biên soạn và kiểm thử mô hình cho AWS Inferentia. Khi sử dụng Amazon SageMaker để triển khai các mô hình của mình cho phiên bản Inf1, việc triển khai được đảm bảo là có thể thay đổi quy mô và dễ quản lý. Khi tôi lần đầu tiên phân tích các mô hình đã biên soạn, hiệu suất với AWS Inferentia ấn tượng đến mức tôi phải chạy lại các điểm quy chuẩn để đảm bảo tính chính xác của chúng! Trong tương lai, chúng tôi dự định chuyển các mô hình xử lý quảng cáo hình ảnh của mình sang Inferentia. Chúng tôi đã tiến hành đo lường theo quy chuẩn và nhận thấy độ trễ thấp hơn 30% và tiết kiệm 71% chi phí so với các phiên bản dựa trên GPU tương đương cho những mô hình này.”

Yashal Kanungo, Nhà khoa học ứng dụng của Amazon Advertising

Đọc blog tin tức »
Alexa 8up logo
“Thông qua AWS, công nghệ trí tuệ dựa trên AI và ML của Amazon Alexa hiện nay đã có mặt trên hơn 100 triệu thiết bị. Chúng tôi cam kết với khách hàng rằng Alexa sẽ ngày càng trở nên thông minh hơn, giao tiếp tốt hơn, chủ động hơn và thậm chí là dễ thương hơn. Để thực hiện lời hứa đó, chúng tôi sẽ phải liên tục cải thiện thời gian phản hồi và giảm bớt chi phí cơ sở hạ tầng ML, vì vậy, chúng tôi rất vui mừng khi có thể sử dụng Amazon EC2 Inf1 để giảm bớt độ trễ suy luận và chi phí của mỗi lần suy luận cho chức năng chuyển văn bản thành lời nói của Alexa. Với Amazon EC2 Inf1, chúng tôi sẽ có thể cung cấp dịch vụ tốt hơn nữa cho hàng chục triệu khách hàng đang sử dụng Alexa mỗi tháng.”

Tom Taylor, Phó chủ tịch cấp cao, Amazon Alexa
 
"Chúng tôi không ngừng đổi mới để cải thiện hơn nữa trải nghiệm của khách hàng cũng như giảm chi phí cơ sở hạ tầng. Chúng tôi di chuyển khối lượng công việc về giải đáp thắc mắc trên nền tảng web (WBQA) từ phiên bản P3 dựa trên GPU sang phiên bản Inf1 dựa trên AWS Inferentia, việc này không chỉ giúp chúng tôi giảm 60% chi phí suy luận mà còn cải thiện hơn 40% độ trễ đầu cuối, từ đó giúp nâng cao trải nghiệm giải đáp thắc mắc của khách hàng với Alexa. Nhờ sử dụng Amazon SageMaker cho mô hình dựa trên TensorFlow của chúng tôi, quy trình chuyển sang các phiên bản Inf1 trở nên đơn giản và dễ quản lý. Chúng tôi hiện đang sử dụng các phiên bản Inf1 trên toàn cầu để chạy những khối lượng công việc WBQA này, đồng thời tối ưu hóa hiệu suất của chúng cho AWS Inferentia để giảm hơn nữa chi phí và độ trễ.”

Eric Lind, Kỹ sư phát triển phần mềm của Alexa AI
Amazon Alexa
“Amazon Prime Video sử dụng các mô hình ML thị giác máy tính để phân tích chất lượng video của các sự kiện trực tiếp nhằm đảm bảo trải nghiệm người xem tối ưu cho các thành viên của Prime Video. Chúng tôi đã triển khai các mô hình ML phân loại hình ảnh trên những phiên bản EC2 Inf1 và có thể nhận thấy hiệu suất được cải thiện gấp 4 lần, đồng thời tiết kiệm lên đến 40% chi phí. Hiện giờ, chúng tôi đang tìm cách để tận dụng những khoản chi phí tiết kiệm được này để đổi mới và xây dựng các mô hình tiên tiến có thể phát hiện nhiều sai sót phức tạp hơn, chẳng hạn như lỗ hổng đồng bộ hóa giữa tệp âm thanh và video để mang lại trải nghiệm xem được nâng cao hơn cho các thành viên của Prime Video.”

Victor Antonino, Kiến trúc sư giải pháp của Amazon Prime Video
Amazon Alexa
“Amazon Rekognition là ứng dụng phân tích hình ảnh/video đơn giản và tiện dụng, giúp khách hàng xác định vật thể, con người, văn bản và hoạt động. Amazon Rekognition cần cơ sở hạ tầng DL hiệu năng cao, có thể phân tích hàng tỷ hình ảnh và video mỗi ngày cho khách hàng. Với các phiên bản Inf1 dựa trên AWS Inferentia, việc chạy các mô hình Amazon Rekognition như phân loại vật thể sẽ có độ trễ thấp hơn 8 lần và thông lượng cao hơn 2 lần so với khi chạy những mô hình này trên GPU. Dựa vào những kết quả này, chúng tôi đang chuyển Amazon Rekognition sang Inf1 để khách hàng có thể nhận được kết quả nhanh và chính xác hơn.”

Rajneesh Singh, Giám đốc, Kỹ sư phần mềm của Amazon Rekognition and Video

Giá cả

*Mức giá trình bày ở trên dành cho Khu vực AWS Miền Đông Hoa Kỳ (Bắc Virginia). Các mức giá cho phiên bản đặt trước 1 năm và 3 năm là dành cho các tùy chọn thanh toán "Trả trước một phần" hoặc "Không trả trước" đối với phiên bản không có tùy chọn Trả trước một phần.

Phiên bản Amazon EC2 Inf1 được cung cấp dưới dạng Theo nhu cầu, Đặt trước hoặc Phiên bản dùng ngay ở Khu vực AWS Miền Đông Hoa Kỳ (Bắc Virginia) và Miền Tây Hoa Kỳ (Oregon).

Bắt đầu

Sử dụng Amazon SageMaker

SageMaker giúp bạn biên soạn và triển khai mô hình ML đã đào tạo của mình dễ dàng hơn để đưa vào sử dụng trên các phiên bản Amazon Inf1. Nhờ đó, bạn có thể bắt đầu tạo ra những dự đoán theo thời gian thực với độ trễ thấp. AWS Neuron là công cụ biên soạn cho AWS Inferentia, được tích hợp với Amazon SageMaker Neo, giúp bạn biên soạn các mô hình ML đã đào tạo của mình để chạy tối ưu trên phiên bản Inf1. Với SageMaker, bạn có thể dễ dàng chạy mô hình của mình trên các cụm tự động thay đổi quy mô của phiên bản Inf1, trải rộng khắp nhiều Vùng sẵn sàng, mang lại cả hiệu năng cao lẫn khả năng suy luận theo thời gian thực có độ sẵn sàng cao. Tìm hiểu cách triển khai trên phiên bản Inf1 bằng dịch vụ SageMaker với các ví dụ trên GitHub.

Sử dụng DLAMI

DLAMI cung cấp cho các học viên và nhà nghiên cứu ML cơ sở hạ tầng và công cụ để tăng tốc DL trên đám mây, ở mọi quy mô. SDK AWS Neuron được cài đặt sẵn trong DLAMI để biên soạn và chạy các mô hình ML của bạn một cách tối ưu trên các phiên bản Inf1. Để được hướng dẫn về quá trình bắt đầu, bạn hãy tham khảo hướng dẫn lựa chọn AMI và các tài nguyên DL khác. Xem tài liệu hướng dẫn Bắt đầu sử dụng DLAMI của AWS để tìm hiểu cách dùng DLAMI với Neuron.

Sử dụng bộ chứa học sâu

Giờ đây, các nhà phát triển có thể triển khai phiên bản Inf1 trong Amazon EKS, một dịch vụ Kubernetes được quản lý toàn phần cũng như trong Amazon ECS, dịch vụ điều phối bộ chứa được quản lý toàn phần của Amazon. Tìm hiểu thêm cách bắt đầu sử dụng Inf1 trên Amazon EKS hoặc với Amazon ECS. Bạn có thể tìm thêm thông tin chi tiết về cách chạy bộ chứa trong phiên bản Inf1 trên trang hướng dẫn về công cụ bộ chứa Neuron. Neuron cũng được cài đặt sẵn trong Bộ chứa học sâu của AWS.

Blog và bài viết

Cách Amazon Search giảm 85% chi phí suy luận ML bằng AWS Inferentia

bởi Joao Moura, Jason Carlson, Jaspreet Singh, Shaohui Xi, Shruti Koparkar, Haowei Sun, Weiqi Zhang và Zhuoqi Zhangs, 22/09/2022

Máy học trên đám mây sẽ giúp các doanh nghiệp đổi mới

Tác giả: MIT Technology Review Insights, 15/10/2021

AWS Inferentia cung cấp 3.000 mô hình deep learning trên Amazon EKS với giá chưa đến 50 USD/giờ

Tác giả: Alex Iankoulski, Joshua Correa, Mahadevan Balasubramaniam và Sundar Ranganatha, 30/09/2021

Tài nguyên khác