Phiên bản Amazon EC2 Inf1

Hiệu suất cao và chi phí suy luận thấp từ công nghệ máy học

Các doanh nghiệp thuộc nhiều ngành nghề đang tìm kiếm một phương thức chuyển đổi dựa trên AI để tăng tốc độ đổi mới, cải thiện trải nghiệm khách hàng và xử lý các cải tiến. Những mô hình máy học hỗ trợ ứng dụng AI đang ngày càng trở nên phức tạp hơn, từ đó làm tăng chi phí cơ sở hạ tầng điện toán. Chi phí suy luận có thể chiếm tới 90% trong tổng chi phí cơ sở hạ tầng cho hoạt động phát triển và chạy ứng dụng máy học (ML). Khách hàng đang rất cần những giải pháp cơ sở hạ tầng tiết kiệm chi phí để đưa các ứng dụng ML của họ vào sử dụng.

Các phiên bản Amazon EC2 Inf1 mang đến khả năng suy luận ML hiệu suất cao và chi phí thấp. Những phiên bản này cung cấp thông lượng cao gấp 2,3 lần với chi phí thấp hơn đến 70% trên mỗi suy luận so với các phiên bản Amazon EC2 dựa trên GPU thế hệ hiện tại. Các phiên bản Inf1 được xây dựng từ đầu để hỗ trợ các ứng dụng suy luận máy học. Chúng được trang bị tới 16 chip AWS Inferentia. Đây là loại chip suy luận máy học hiệu suất cao do AWS thiết kế và xây dựng. Ngoài ra, các phiên bản Inf1 còn có bộ xử lý Intel® Xeon® Scalable thế hệ 2 cùng khả năng kết nối mạng lên tới 100 Gbps để mang đến khả năng suy luận thông lượng cao.

Khách hàng có thể dùng các phiên bản Inf1 để chạy các ứng dụng suy luận máy học quy mô lớn, chẳng hạn như công cụ tìm kiếm, công cụ đề xuất, thị giác máy tính, nhận biết lời nói, xử lý ngôn ngữ tự nhiên, cá nhân hóa và phát hiện lừa đảo.

Các nhà phát triển có thể triển khai mô hình máy học của họ trên các phiên bản Inf1 bằng cách dùng SDK AWS Neuron, bộ công cụ này được tích hợp với những khung máy học phổ biến như TensorFlow, PyTorch và MXNet. Họ có thể tiếp tục dùng các quy trình ML hiện tại và tích hợp liền mạch ứng dụng lên các phiên bản Inf1 với chỉ một vài thay đổi rất nhỏ về mã và không phải phụ thuộc vào giải pháp cụ thể nào của đối tác.

Dễ dàng bắt đầu sử dụng các phiên bản Inf1 bằng cách dùng Amazon SageMaker, AMI học sâu của AWS được đặt cấu hình sẵn với Neuron SDK, hoặc dùng Amazon ECS hay Amazon EKS cho các ứng dụng ML dạng bộ chứa.

Phiên bản Amazon EC2 Inf1 | Amazon Web Services (1:23)

Lợi ích

Giảm tới 70% chi phí cho mỗi lần suy luận

Bằng cách dùng Inf1, nhà phát triển có thể giảm đáng kể chi phí triển khai ứng dụng máy học vào sử dụng. Nhờ chi phí phiên bản thấp và thông lượng cao, các phiên bản Inf1 có chi phí trên mỗi suy luận thấp hơn tới 70% so với các phiên bản EC2 dựa trên GPU thế hệ hiện tại.

Tính dễ dùng và tính linh động về mã

Neuron SDK được tích hợp với các khung máy học phổ biến như TensorFlow, PyTorch và MXNet. Nhà phát triển có thể tiếp tục dùng các quy trình ML hiện tại và tích hợp liền mạch ứng dụng lên các phiên bản Inf1 với chỉ một vài thay đổi rất nhỏ về mã. Nhờ đó, họ có thể thoải mái sử dụng khung máy học ưa thích và nền tảng điện toán phù hợp yêu cầu, cũng như tận dụng các công nghệ mới nhất mà không phải phụ thuộc vào giải pháp cụ thể nào của đối tác.

Thông lượng cao gấp 2,3 lần

Các phiên bản Inf1 cung cấp thông lượng cao gấp 2,3 lần so với các phiên bản Amazon EC2 dựa trên GPU thế hệ hiện tại. Các chip AWS Inferentia mà phiên bản Inf1 sử dụng được thiết kế để tối ưu hóa hiệu suất suy luận cho kích thước lô nhỏ, cho phép các ứng dụng thời gian thực tối đa hóa thông lượng và đáp ứng các yêu cầu về độ trễ.

Độ trễ cực thấp

Chip của AWS Inferentia được trang bị bộ nhớ lớn gắn trên chip, cho phép lưu trực tiếp các mô hình máy học vào bộ nhớ đệm trên chính các chip này. Bạn có thể triển khai mô hình của mình bằng các chức năng như NeuronCore Pipeline để không phải sử dụng đến các tài nguyên bộ nhớ bên ngoài. Với các phiên bản Inf1, bạn có thể triển khai ứng dụng suy luận theo thời gian thực với độ trễ cận thời gian thực mà không làm ảnh hưởng tới băng thông.

Khả năng hỗ trợ nhiều mô hình máy học và loại dữ liệu đa dạng

Các phiên bản Inf1 hỗ trợ nhiều kiến trúc mô hình máy học thông dụng như SSD, VGG và ResNext để nhận biết/phân loại hình ảnh, cũng như Transformer và BERT để xử lý ngôn ngữ tự nhiên. Ngoài ra, việc hỗ trợ kho mô hình HuggingFace trong Neuron mang đến cho khách hàng khả năng biên tập và chạy suy luận bằng các mô hình đào tạo sẵn hoặc dễ dàng tinh chỉnh các mô hình đó mà chỉ cần thay đổi một dòng mã. Nhiều loại dữ liệu, trong đó có BF16 và FP16, với độ chính xác hỗn hợp cũng được hỗ trợ để đáp ứng các mô hình và nhu cầu hiệu suất đa dạng.

Tính năng

Được AWS Inferentia cung cấp

AWS Inferentia là chip máy học được AWS xây dựng cho mục đích nhất định nhằm cung cấp hiệu suất suy luận cao với chi phí thấp. Mỗi chip AWS Inferentia sẽ có bốn NeuronCore thế hệ đầu tiên và có hiệu suất lên đến 128 nghìn tỷ hoạt động mỗi giây (TOPS). Loại chip này cũng hỗ trợ các loại dữ liệu FP16, BF16 và INT8. Chip AWS Inferentia còn nổi bật ở bộ nhớ dung lượng lớn trên chip, có thể dùng để lưu các mô hình lớn vào bộ đệm. Điều này đặc biệt hữu ích đối với các mô hình đòi hỏi truy cập thường xuyên vào bộ nhớ.

Bộ công cụ phát triển phầm mềm (SDK) AWS Neuron gồm một công cụ biên soạn, trình điều khiển thời gian chạy và các công cụ tạo cấu hình. Bộ công cụ này cho phép bạn triển khai các phiên bản Amazon Inf1 để thực thi những mô hình mạng nơ-ron phức tạp được tạo và đào tạo trong các khung phổ biến như TensorFlow, PyTorch và MXNet. Với NeuronCore Pipeline của Neuron, bạn có thể phân tách mô hình lớn để thực thi trên nhiều chip Inferentia nhờ sự liên thông thực ở tốc độ cao giữa các chip, qua đó mang đến thông lượng suy luận cao và chi phí suy luận thấp.

Kết nối mạng và lưu trữ với hiệu suất cao

Các phiên bản Inf1 cung cấp thông lượng nối mạng lên tới 100 Gbps cho các ứng dụng cần đến khả năng kết nối mạng tốc độ cao. Elastic Network Adapter (ENA) thế hệ tiếp theo và công nghệ NVM Express (NVMe) cung cấp những giao diện công suất cao, độ trễ thấp cho việc kết nối mạng và Amazon Elastic Block Store (Amazon EBS) cho các phiên bản Inf1.

Được phát triển trên hệ thống AWS Nitro

Hệ thống AWS Nitro là một tập hợp đa dạng các khối dựng, giúp giảm tải nhiều chức năng ảo hóa truyền thống sang phần cứng và phần mềm chuyên dụng để mang lại hiệu suất cao, tính sẵn sàng cao và độ bảo mật cao, đồng thời giảm tổng chi phí ảo hóa.

Cách hoạt động

Cách sử dụng Inf1 và AWS Inferentia

Chứng thực của khách hàng

airbnb-case-study

Được thành lập năm 2008, Airbnb với trụ sở tại San Francisco là một thị trường cộng đồng với hơn 4 triệu Chủ trọ. Các chủ trọ này đã tiếp đón hơn 900 triệu lượt khách ở hầu khắp mọi quốc gia trên thế giới.

"Nền tảng hỗ trợ cộng đồng của Airbnb mang đến các trải nghiệm dịch vụ thông minh, có quy mô linh hoạt và vượt trội cho cộng đồng với hàng triệu khách hàng và chủ trọ trên khắp thế giới. Chúng tôi không ngừng tìm kiếm cách thức để cải thiện hiệu suất của mô hình Xử lý ngôn ngữ tự nhiên mà các ứng dụng chatbot hỗ trợ của chúng tôi sử dụng. Với phiên bản Amazon EC2 Inf1 được cung cấp bởi AWS Inferentia, chúng tôi nhận thấy hiệu suất của thông lượng ngay từ đầu đã tăng gấp 2 lần so với các phiên bản dựa trên GPU dành cho mô hình BERT dựa trên PyTorch của mình. Chúng tôi mong muốn tận dụng phiên bản Inf1 cho các mô hình và trường hợp sử dụng khác trong tương lai.”

Bo Zeng, Giám đốc kỹ thuật - AirBnB

Snap Inc
"Chúng tôi đã tích hợp công nghệ máy học (ML) vào nhiều khía cạnh của Snapchat. Trong lĩnh vực này, việc khám phá sự đổi mới là ưu tiên hàng đầu. Khi nghe về Inferentia, chúng tôi đã cộng tác với AWS để áp dụng các phiên bản Inf1/Inferentia nhằm hỗ trợ việc triển khai ML xoay quanh hiệu năng và chi phí. Chúng tôi bắt đầu từ mô hình đề xuất và trong tương lai, chúng tôi sẽ tìm cách triển khai những mô hình khác bằng các phiên bản Inf1.”

Nima Khajehnouri, VP phụ trách kỹ thuật - Snap Inc.

Sprinklr
"Nền tảng quản lý trải nghiệm người dùng thống nhất (Unified-CXM) định hướng AI của Sprinklr cho phép các công ty thu thập và chuyển đổi phản hồi của khách hàng theo thời gian thực trên nhiều kênh thành những thông tin chi tiết thiết thực – từ đó chủ động giải quyết vấn đề, tăng cường phát triển sản phẩm, cải thiện quá trình tiếp thị nội dung, nâng cao dịch vụ khách hàng, v.v. Bằng cách sử dụng Amazon EC2 Inf1, chúng tôi đã có thể cải thiện đáng kể hiệu suất của một trong những mô hình xử lý ngôn ngữ tự nhiên (NLP) cũng như một trong những mô hình thị giác máy tính của chúng tôi. Chúng tôi mong muốn tiếp tục sử dụng Amazon EC2 Inf1 để phục vụ tốt hơn những khách hàng toàn cầu của mình".

Vasant Srinivasan, Phó chủ tịch cấp cao về kỹ thuật sản phẩm - Sprinklr

Print
“Sản phẩm Xử lý ngôn ngữ tự nhiên (NLP) Finch for Text tiên tiến của chúng tôi cung cấp cho người dùng khả năng trích xuất, phân định nghĩa cũng như làm phong phú thêm nhiều loại thực thể nằm trong khối lượng văn bản khổng lồ. Finch for Text cần khá nhiều tài nguyên điện toán để cung cấp cho máy khách của chúng tôi những tính năng bổ sung có độ trễ thấp trên nguồn cấp dữ liệu toàn cầu. Chúng tôi hiện đang sử dụng các phiên bản AWS Inf1 trong những mô hình PyTorch NLP, dịch thuật và xác định thực thể. Chúng tôi có thể giảm trên 80% chi phí suy luận (so với GPU) với những mục tối ưu hóa ở mức tối thiểu, trong khi đó vẫn duy trì được tốc độ cũng như hiệu suất suy luận của mình. Sự cải tiến này cho phép các khách hàng của chúng tôi làm phong phú thêm văn bản bằng tiếng Pháp, Tây Ban Nha, Đức và Hà Lan theo thời gian thực trên nguồn cấp dữ liệu truyền trực tuyến và trên quy mô toàn cầu – điều này có ý nghĩa quan trọng đối với các dịch vụ tài chính, công cụ tổng hợp dữ liệu và khách hàng ở lĩnh vực công của chúng tôi”.

Scott Lightner, Giám đốc công nghệ - Finch Computing

Autodesk
"Autodesk đang sử dụng Inferentia để cải tiến công nghệ nhận thức cho trợ lý ảo hoạt động dựa trên AI của mình, với tên gọi Autodesk Virtual Agent (AVA). AVA có thể trả lời 100.000 câu hỏi của khách hàng mỗi tháng bằng cách áp dụng hiểu biết về ngôn ngữ tự nhiên (NLU) và các kỹ thuật học sâu để rút ra ngữ cảnh, dự định và ý nghĩa đằng sau các lượt truy vấn. Với việc thí điểm Inferentia, chúng tôi đạt được mức thông lượng qua G4dn cao hơn 4,9 lần cho các mô hình NLU của mình và sẽ tìm cách chạy thêm khối lượng công việc trên các phiên bản Inf1 dựa trên Inferentia.”

Binghui Ouyang, Nhà khoa học dữ liệu cao cấp - Autodesk

Screening Eagle
“Việc sử dụng Radar xuyên đất và phát hiện các sai sót trực quan thường là lĩnh vực của các khảo sát viên chuyên nghiệp. Kiến trúc dựa trên vi dịch vụ của AWS cho phép chúng tôi xử lý các video thu được từ những phương tiện kiểm tra tự động và kiểm tra viên. Nhờ việc di chuyển các mô hình được xây dựng nội bộ từ những phiên bản dựa trên GPU truyền thống sang Inferentia, chúng tôi có thể giảm 50% chi phí. Hơn nữa, chúng tôi còn nhận thấy hiệu suất tăng lên so với thời điểm sử dụng phiên bản GPU G4dn. Nhóm của chúng tôi mong muốn chạy nhiều khối lượng công việc hơn trên những phiên bản Inf1 dựa trên Inferentia”.

Jesús Hormigo, Giám đốc đám mây và AI - Screening Eagle Technologies

NTT PC

NTTPC Communications là nhà cung cấp giải pháp truyền thông và dịch vụ mạng tại Nhật Bản. Đây là công ty viễn thông đi đầu trong việc giới thiệu các sản phẩm sáng tạo mới đến thị trường Thông tin và công nghệ truyền thông.

"NTTPC đã phát triển “AnyMotion", dịch vụ nền tảng API phân tích chuyển động dựa trên các mô hình máy học dự đoán tư thế nâng cao. NTTPC triển khai nền tảng AnyMotion của họ trên phiên bản Amazon EC2 Inf1 bằng cách sử dụng Amazon Elastic Container Service (ECS) cho dịch vụ điều phối bộ chứa được quản lý hoàn toàn. Nhờ việc triển khai bộ chứa AnyMotion của mình trên Amazon EC2 Inf1, NTTPC đạt mức tăng trưởng gấp 4,5 lần trên mọi mặt, độ trễ suy luận giảm 25% và chi phí giảm 90% so với phiên bản EC2 dựa trên GPU thế hệ hiện tại. Những kết quả vượt trội này sẽ giúp cải thiện chất lượng của dịch vụ AnyMotion trên quy mô lớn."

Toshiki Yanagisawa, Kỹ sư phần mềm - NTT PC Communications Incorporated

Anthem

Anthem là công ty chuyên về trợ cấp sức khỏe hàng đầu cả nước, phục vụ nhu cầu chăm sóc sức khỏe của hơn 40 triệu thành viên tại hàng chục bang. 

"Thị trường về nền tảng sức khỏe số đang phát triển với tốc độ chóng mặt. Việc thu thập thông tin về thị trường này là một công việc đầy thách thức do lượng dữ liệu về ý kiến của khách hàng là rất lớn và phi cấu trúc. Ứng dụng của chúng tôi tạo ra thông tin chuyên sâu có thể hành động dựa trên ý kiến của khách hàng thông qua mô hình ngôn ngữ tự nhiên deep learning (Tác nhân chuyển đổi). Ứng dụng này thiên về điện toán và cần được triển khai theo cách mang lại hiệu quả cao. Chúng tôi đã tích hợp liền mạch khối lượng công việc suy luận deep learning của mình lên các phiên bản Amazon EC2 Inf1 dựa trên sức mạnh của bộ xử lý AWS Inferentia. Phiên bản Inf1 mới mang lại thông lượng cao gấp 2 lần cho các phiên bản dựa trên GPU và cho phép chúng tôi tinh giản các khối lượng công việc suy luận.”

Tiến sĩ Numan Laanait, Nhà khoa học dữ liệu/AI - Anthem
Tiến sĩ Miro Mihaylov, Nhà khoa học dữ liệu/AI - Anthem

Condé Nast
"Danh mục toàn cầu của Condé Nast gồm hơn 20 thương hiệu truyền thông hàng đầu, trong đó có Wired, Vogue và Vanity Fair. Trong một vài tuần, nhóm của chúng tôi có thể tích hợp công cụ đề xuất với chip AWS Inferentia. Sự kết hợp này cho phép tối ưu hóa nhiều thời gian chạy cho các mô hình ngôn ngữ tự nhiên tiên tiến trên các phiên bản Inf1 của SageMaker. Kết quả là chúng tôi nhận thấy chi phí giảm 72% so với các phiên bản GPU được triển khai trước đây."

Paul Fryzel, Kỹ sư trưởng phụ trách cơ sở hạ tầng AI - Condé Nast

Ciao
“Ciao đang phát triển camera an ninh truyền thống thành camera phân tích có hiệu năng cao tương đương với khả năng của mắt người. Ứng dụng của chúng tôi đang thúc đẩy phòng chống thiên tai, giám sát các điều kiện môi trường bằng cách sử dụng các giải pháp camera AI dựa trên đám mây để cảnh báo trước khi thảm họa diễn ra. Việc cảnh báo này hỗ trợ khả năng ứng phó trước với tình hình. Dựa trên việc phát hiện đối tượng, chúng tôi cũng có thể cung cấp thông tin chuyên sâu bằng cách ước tính số lượng khách đến mà không có nhân viên hỗ trợ từ video trong các cửa hàng thực. Ciao Camera đã áp dụng một cách thương mại các phiên bản Inf1 dựa trên AWS Inferentia có hiệu năng về giá tốt hơn 40% so với G4dn với YOLOv4. Chúng tôi mong muốn có thêm nhiều dịch vụ sử dụng Inf1 để tận dụng khả năng tiết kiệm chi phí đáng kể.”

Shinji Matsumoto, Kỹ sư phần mềm - Ciao Inc.

欧文ベーシックロゴ(The Asahi Shimbun)
“Asahi Shimbun là một trong những tờ nhật báo nổi tiếng nhất ở Nhật Bản. Media Lab, được thiết lập là một trong những phòng ban trong công ty chúng tôi, có nhiệm vụ nghiên cứu về công nghệ tối tân nhất, đặc biệt là AI và kết nối các công nghệ tiên tiến cho các doanh nghiệp mới. Với sự ra mắt phiên bản Amazon EC2 Inf1 dựa trên AWS Inferentia tại Tokyo, chúng tôi đã thử nghiệmứng dụng AI tóm tắt văn bản dựa trên PyTorch trên những phiên bản này. Ứng dụng này xử lý một lượng lớn văn bản, tạo ra các tiêu đề và câu tóm tắt được huấn luyện thông qua các bài báo trong suốt 30 năm qua. Với Inferentia, chúng tôi đã giảm đáng kể chi phí so với các phiên bản dựa trên CPU. Việc giảm chi phí đáng kể này cho phép chúng tôi triển khai các mô hình phức tạp nhất trên quy mô lớn mà trước đây tưởng rằng không khả thi về mặt kinh tế”

Tiến sĩ Hideaki Tamori, Nhà quản trị cấp cao, Media Lab - Công ty Asahi Shimbun

CS Disco
“CS Disco đang thực hiện đổi mới công nghệ pháp lý trong vai trò nhà cung cấp hàng đầu các giải pháp AI cho khám phá điện tử do các luật sư phát triển cho các luật sư. Disco AI thúc đẩy tác vụ tìm kiếm nhàm chán qua hàng terabyte dữ liệu, tăng thời gian xem xét và cải thiện độ chính xác của quá trình xem xét bằng cách sử dụng các mô hình Xử lý dữ liệu tự nhiên phức tạp, tốn kém về mặt máy tính và chi phí quá đắt đỏ. Disco phát hiện ra rằng các phiên bản Inf1 dựa trên AWS Inferentia giảm chi phí suy luận trong Disco AI ít nhất 35% so với các phiên bản GPU ngày nay. Dựa trên trải nghiệm tích cực với các phiên bản Inf1, CS Disco sẽ khám phá các cơ hội để di chuyển sang Inferentia”.

Alan Lockett, Sr. Giám đốc nghiên cứu - CS Disco

Talroo
“Tại Talroo, chúng tôi cung cấp cho khách hàng một nền tảng dựa trên dữ liệu cho phép họ thu hút các ứng viên phù hợp để tuyển dụng. Chúng tôi không ngừng khám phá các công nghệ mới nhằm đảm bảo luôn cung cấp các sản phẩm và dịch vụ tốt nhất đến khách hàng. Với Inferentia, chúng tôi trích xuất thông tin chi tiết từ kho dữ liệu văn bản để nâng cao công nghệ tìm kiếm và đối sánh do AI của chúng tôi cung cấp. Talroo tận dụng các phiên bản Amazon EC2 Inf1 để tạo ra các mô hình Thấu hiểu ngôn ngữ tự nhiên thông lượng cao với SageMaker. Thử nghiệm ban đầu của Talroo cho thấy các phiên bản Amazon EC2 Inf1 mang lại độ trễ suy luận thấp hơn 40% và thông lượng cao hơn gấp 2 lần so với các phiên bản dựa trên GPU G4dn. Dựa trên những kết quả này, Talroo mong chờ được sử dụng phiên bản Amazon EC2 Inf1 như một phần trong cơ sở hạ tầng AWS của mình.”

Janet Hu, Kỹ sư phần mềm - Talroo

DMP
“Digital Media Professionals (DMP) phác họa tương lai bằng nền tảng ZIA™ dựa trên trí tuệ nhân tạo (AI). Các công nghệ phân loại hình ảnh máy tính hiệu quả của DMP được dùng để xây dựng thông tin chuyên sâu dựa trên lượng dữ liệu lớn về hình ảnh thời gian thực, chẳng hạn như quan sát tình trạng, ngăn chặn tội phạm và ngăn chặn tai nạn. Chúng tôi nhận ra rằng các mô hình phân đoạn hình ảnh của chúng tôi chạy nhanh hơn 4 lần trên AWS Inferentia dựa vào các phiên bản Inf1 so với các phiên bản G4 dựa trên GPU. Do thông lượng cao hơn và chi phí thấp hơn, Inferentia hỗ trợ chúng tôi triển khai các khối lượng công việc sử dụng AI, chẳng hạn như các ứng dụng dành cho dashcam ô tô ở quy mô lớn."

Hiroyuki Umeda, Giám đốc kiêm Tổng quản lý, Nhóm bán hàng & tiếp thị - Digital Media Professionals

Hotpot.ai

Hotpot.ai hỗ trợ những người không chuyên về thiết kế tạo ra đồ họa cuốn hút và giúp những nhà thiết kế chuyên nghiệp tự động hóa các tác vụ lặp lại. 

"Chiến lược của chúng tôi lấy máy học làm trọng tâm, nên chúng tôi rất hào hứng dùng thử các phiên bản Inf1 dựa trên AWS Inferentia. Phiên bản Inf1 rất dễ tích hợp vào quy trình nghiên cứu và phát triển của chúng tôi. Quan trọng hơn hết, chúng tôi nhận thấy hiệu năng tăng rõ rệt so với các phiên bản dựa trên GPU G4dn. Trong mô hình đầu tiên của chúng tôi, các phiên bản Inf1 đạt thông lượng cao hơn khoảng 45% và giảm chi phí trên mỗi suy luận đi gần 50%. Trong tương lai, chúng tôi sẽ hợp tác chặt chẽ với đội ngũ AWS để triển khai các mô hình khác và chuyển hầu hết cơ sở hạ tầng suy luận máy học của mình sang AWS Inferentia."

Clarence Hu, Nhà sáng lập - Hotpot.ai

SkyWatch
"SkyWatch mỗi ngày xử lý hàng trăm nghìn tỷ dữ liệu quan sát Trái đất được thu thập từ vũ trụ. Khi chúng tôi áp dụng phiên bản Inf1 mới, dựa trên AWS Inferentia qua Amazon SageMaker cho hoạt động phát hiện đám mây theo thời gian thực và ghi điểm chất lượng hình ảnh, việc đó được thực hiện thật nhanh chóng và dễ dàng. Chúng tôi chỉ việc đổi loại phiên bản trong cấu hình triển khai của mình. Khi chuyển sang phiên bản Inf1 dựa trên Inferentia, chúng tôi nâng cao hiệu suất thêm 40% và giảm chi phí tổng thể đi 23%. Đó là một sự chuyển biến vô cùng to lớn. Nó giúp chúng tôi giảm được chi phí vận hành tổng thể trong khi vẫn tiếp tục cung cấp hình ảnh vệ tinh có chất lượng cao cho khách hàng với tổng chi phí kỹ thuật ở mức thấp nhất. Chúng tôi kỳ vọng có thể sử dụng phiên bản Inf1 cho tất cả các điểm cuối suy luận và quy trình ML theo lô của mình để cải thiện hơn nữa độ tin cậy của dữ liệu và trải nghiệm của khách hàng."

Adler Santos, Giám đốc kỹ thuật - SkyWatch

Money Forward, Inc.

Money Forward, Inc. cung cấp cho các doanh nghiệp và cá nhân một nền tảng tài chính công khai và công bằng. Với tư cách là một phần của nền tảng này, HiTTO Inc., một công ty thuộc tập đoàn Money Forward, cung cấp dịch vụ chatbot AI, trong đó sử dụng các mô hình NLP được tùy chỉnh để giải quyết các nhu cầu đa dạng của khách hàng doanh nghiệp của họ.

“Việc di chuyển dịch vụ chatbot AI của chúng tôi sang các phiên bản Amazon EC2 Inf1 diễn ra rất đơn giản. Chúng tôi đã hoàn thành quá trình di chuyển trong vòng 2 tháng và khởi chạy một dịch vụ có quy mô lớn trên các phiên bản Inf1 bằng Dịch vụ bộ chứa linh hoạt (ECS) của Amazon. Bằng cách cung cấp nhiều mô hình cho mỗi phiên bản Inf1, chúng tôi đã có thể giảm 97% độ trễ suy luận và hơn 50% chi phí suy luận (so với các phiên bản dựa trên GPU tương đương). Chúng tôi mong muốn chạy nhiều khối lượng công việc hơn trên những phiên bản Inf1 dựa trên Inferentia”.

Kento Adachi, Trưởng bộ phận Kỹ thuật, văn phòng CTO - Money Forward, Inc.

Các dịch vụ Amazon sử dụng phiên bản Amazon EC2 Inf1

Amazon Advertising

Amazon Advertising giúp các doanh nghiệp thuộc mọi quy mô kết nối với khách hàng ở tất cả các giai đoạn trên hành trình mua sắm của họ. Hàng triệu quảng cáo, bao gồm văn bản và hình ảnh, được điều chỉnh, phân loại và phân phối để mang đến trải nghiệm khách hàng tối ưu mỗi ngày.

“Để xử lý quảng cáo dạng văn bản, chúng tôi triển khai trên toàn cầu mô hình BERT dựa vào PyTorch trên phiên bản Inf1 sử dụng AWS Inferentia. Nhờ việc di chuyển từ GPU sang Inferentia, chúng tôi đã có thể giảm 69% chi phí với hiệu suất tương đương. Chúng tôi chỉ dành ra không đến ba tuần để biên soạn và kiểm thử mô hình cho AWS Inferentia. Khi sử dụng Amazon SageMaker để triển khai các mô hình của mình cho phiên bản Inf1, việc triển khai được đảm bảo là có thể thay đổi quy mô và dễ quản lý. Khi tôi lần đầu tiên phân tích các mô hình đã biên soạn, hiệu suất với AWS Inferentia ấn tượng đến mức tôi phải chạy lại các điểm quy chuẩn để đảm bảo tính chính xác của chúng! Trong tương lai, chúng tôi dự định chuyển các mô hình xử lý quảng cáo hình ảnh của mình sang Inferentia. Chúng tôi đã tiến hành đo lường theo quy chuẩn và nhận thấy độ trễ thấp hơn 30% và tiết kiệm 71% chi phí so với các phiên bản dựa trên GPU tương đương cho những mô hình này”.

Yashal Kanungo, Nhà khoa học ứng dụng, Amazon Advertising

Đọc blog tin tức »

Alexa 8up logo
“Thông qua Amazon Web Services, AI và công nghệ trí tuệ dựa trên ML của Amazon Alexa hiện nay đã có mặt trên hơn 100 triệu thiết bị. Chúng tôi cam kết với khách hàng rằng Alexa sẽ ngày càng trở nên thông minh hơn, giao tiếp tốt hơn, chủ động hơn và thậm chí là dễ thương hơn. Để thực hiện lời hứa đó, chúng tôi sẽ phải liên tục cải thiện thời gian phản hồi và giảm bớt chi phí hạ tầng cơ sở máy học, vì vậy, chúng tôi rất vui mừng khi có thể sử dụng Amazon EC2 Inf1 để giảm bớt độ trễ suy luận và chi phí của mỗi lần suy luận cho chức năng chuyển văn bản thành lời nói của Alexa. Với Amazon EC2 Inf1, chúng tôi sẽ có thể cung cấp dịch vụ tốt hơn nữa cho hàng chục triệu khách hàng đang sử dụng Alexa mỗi tháng.”

Tom Taylor, Phó chủ tịch cấp cao, Amazon Alexa

"Chúng tôi không ngừng đổi mới để cải thiện hơn nữa trải nghiệm của khách hàng cũng như giảm chi phí cơ sở hạ tầng. Chúng tôi di chuyển khối lượng công việc về giải đáp thắc mắc trên nền tảng web (WBQA) từ phiên bản P3 dựa trên GPU sang phiên bản Inf1 dựa trên AWS Inferentia, việc này không chỉ giúp chúng tôi giảm 60% chi phí suy luận mà còn cải thiện hơn 40% độ trễ đầu cuối, từ đó giúp nâng cao trải nghiệm giải đáp thắc mắc của khách hàng với Alexa. Nhờ sử dụng Amazon SageMaker cho mô hình dựa trên Tensorflow của chúng tôi, quy trình chuyển sang các phiên bản Inf1 trở nên đơn giản và dễ quản lý. Chúng tôi hiện đang sử dụng các phiên bản Inf1 trên toàn cầu để chạy những khối lượng công việc WBQA này, đồng thời tối ưu hóa hiệu suất của chúng cho AWS Inferentia để giảm hơn nữa chi phí và độ trễ”.

Eric Lind, Kỹ sư phát triển phần mềm, Alexa AI

Amazon Alexa
“Amazon Prime Video sử dụng các mô hình ML thị giác máy tính để phân tích chất lượng video của các sự kiện trực tiếp nhằm đảm bảo trải nghiệm người xem tối ưu cho các thành viên của Prime Video. Chúng tôi đã triển khai các mô hình ML phân loại hình ảnh trên những phiên bản EC2 Inf1 và có thể nhận thấy hiệu suất được cải thiện gấp 4 lần, đồng thời tiết kiệm lên đến 40% chi phí. Hiện giờ, chúng tôi đang tìm cách để tận dụng những khoản chi phí tiết kiệm được này để đổi mới và xây dựng các mô hình tiên tiến có thể phát hiện nhiều sai sót phức tạp hơn, chẳng hạn như lỗ hổng đồng bộ hóa giữa tệp âm thanh và video để mang lại trải nghiệm xem được nâng cao hơn cho các thành viên của Prime Video”.
 
Victor Antonino, Kiến trúc sư giải pháp, Amazon Prime Video
Amazon Alexa
“Amazon Rekognition là ứng dụng phân tích hình ảnh/video đơn giản và tiện dụng, giúp khách hàng xác định vật thể, con người, văn bản và hoạt động. Amazon Rekognition cần cơ sở hạ tầng học sâu hiệu năng cao, có thể phân tích hàng tỷ hình ảnh và video mỗi ngày cho khách hàng. Với các phiên bản Inf1 dựa trên AWS Inferentia, việc chạy các mô hình Rekognition như phân loại vật thể sẽ có độ trễ thấp hơn 8 lần và thông lượng cao hơn 2 lần so với khi chạy những mô hình này trên GPU. Dựa vào những kết quả này, chúng tôi đang chuyển Rekognition sang Inf1 để khách hàng có thể nhận được kết quả nhanh và chính xác hơn.”
 
Rajneesh Singh, Giám đốc, Kỹ sư phần mềm, Rekognition and Video

Giá cả

*Mức giá trình bày ở trên dành cho Khu vực AWS Miền Đông Hoa Kỳ (Bắc Virginia). Các mức giá cho phiên bản đặt trước 1 năm và 3 năm là dành cho các tùy chọn thanh toán "Trả trước một phần" hoặc "Không trả trước" đối với phiên bản không có tùy chọn Trả trước một phần.

Phiên bản Amazon EC2 Inf1 được cung cấp dưới dạng Theo nhu cầu, Đặt trước hoặc Phiên bản dùng ngay ở Khu vực AWS Miền Đông Hoa Kỳ (Bắc Virginia) và Miền Tây Hoa Kỳ (Oregon).

Bắt đầu

Sử dụng Amazon SageMaker

Amazon SageMaker giúp bạn dễ dàng biên soạn và triển khai mô hình máy học đã đào tạo của mình để đưa vào sử dụng trên các phiên bản Amazon Inf1. Nhờ đó, bạn có thể bắt đầu tạo ra những dự đoán theo thời gian thực với độ trễ thấp. AWS Neuron là công cụ biên soạn cho AWS Inferentia, được tích hợp với Amazon SageMaker Neo, cho phép bạn biên soạn các mô hình máy học đã đào tạo của mình để chạy tối ưu trên phiên bản Inf1. Với Amazon SageMaker, bạn có thể dễ dàng chạy mô hình của mình trên các cụm tự động thay đổi quy mô của phiên bản Inf1, trải rộng khắp nhiều vùng sẵn sàng, mang lại cả hiệu suất cao lẫn khả năng suy luận theo thời gian thực có độ sẵn sàng cao. Hãy tìm hiểu cách triển khai trên phiên bản Inf1 bằng dịch vụ Amazon SageMaker với các ví dụ trên Github.

Sử dụng AMI Deep Learning của AWS

AMI Deep Learning của AWS (DLAMI) cung cấp cơ sở hạ tầng và công cụ để tăng tốc deep learning trên đám mây ở mọi quy mô cho các nhà nghiên cứu và người sử dụng công nghệ máy học. AWS Neuron SDK được cài đặt sẵn trong AMI Deep Learning của AWS để biên soạn và chạy các mô hình máy học của bạn một cách tối ưu trên phiên bản Inf1. Để được hướng dẫn về quá trình bắt đầu, bạn hãy tham khảo hướng dẫn lựa chọn AMI và các tài nguyên deep learning khác. Xem tài liệu hướng dẫn Bắt đầu sử dụng DLAMI của AWS để tìm hiểu cách dùng DLAMI với Neuron.

Sử dụng bộ chứa Deep Learning

Giờ đây, các nhà phát triển có thể triển khai phiên bản Inf1 trong Amazon Elastic Kubernetes Service (EKS), một dịch vụ Kubernetes được quản lý toàn phần, cũng như trong Amazon Elastic Container Service (ECS), dịch vụ điều phối bộ chứa được quản lý toàn phần của Amazon. Hãy tìm hiểu thêm cách bắt đầu với Inf1 trên Amazon EKS hoặc với Amazon ECS. Bạn có thể tìm thêm thông tin chi tiết về cách chạy bộ chứa trong phiên bản Inf1 trên trang hướng dẫn về công cụ bộ chứa Neuron. Neuron cũng được cài đặt sẵn trong Bộ chứa DL AWS.

Blog và bài viết

Cách Amazon Search giảm 85% chi phí suy luận ML bằng AWS Inferentia

bởi Joao Moura, Jason Carlson, Jaspreet Singh, Shaohui Xi, Shruti Koparkar, Haowei Sun, Weiqi Zhang và Zhuoqi Zhangs, 22/09/2022

Máy học trên đám mây sẽ giúp các doanh nghiệp đổi mới

Tác giả: MIT Technology Review Insights, 15/10/2021

AWS Inferentia cung cấp 3.000 mô hình deep learning trên Amazon EKS với giá chưa đến 50 USD/giờ

Tác giả: Alex Iankoulski, Joshua Correa, Mahadevan Balasubramaniam và Sundar Ranganatha, 30/09/2021