Phiên bản Amazon EC2 Inf1

Hiệu suất cao và chi phí suy luận máy học thấp nhất trong đám mây

Các doanh nghiệp thuộc nhiều ngành nghề đang tìm kiếm một phương thức chuyển đổi dựa trên AI để tăng tốc độ đổi mới, cải thiện trải nghiệm khách hàng và xử lý các cải tiến. Những mô hình máy học hỗ trợ ứng dụng AI đang ngày càng trở nên phức tạp hơn, từ đó làm tăng chi phí cơ sở hạ tầng điện toán. Chi phí suy luận có thể chiếm tới 90% trong tổng chi phí cơ sở hạ tầng cho hoạt động phát triển và chạy ứng dụng máy học (ML). Khách hàng đang rất cần những giải pháp cơ sở hạ tầng tiết kiệm chi phí để đưa các ứng dụng ML của họ vào sử dụng.

Các phiên bản Amazon EC2 Inf1 mang đến khả năng suy luận ML hiệu suất cao với chi phí thấp nhất trong đám mây. Những phiên bản này cung cấp thông lượng cao gấp 2,3 lần với chi phí thấp hơn đến 70% trên mỗi suy luận so với các phiên bản Amazon EC2 dựa trên GPU thế hệ hiện tại. Các phiên bản Inf1 được xây dựng từ đầu để hỗ trợ các ứng dụng suy luận máy học. Chúng được trang bị tới 16 chip AWS Inferentia. Đây là loại chip suy luận máy học hiệu suất cao do AWS thiết kế và xây dựng. Ngoài ra, các phiên bản Inf1 còn có bộ xử lý Intel® Xeon® Scalable thế hệ 2 cùng khả năng kết nối mạng lên tới 100 Gbps để mang đến khả năng suy luận thông lượng cao.

Khách hàng có thể dùng các phiên bản Inf1 để chạy các ứng dụng suy luận máy học quy mô lớn, chẳng hạn như công cụ tìm kiếm, công cụ đề xuất, thị giác máy tính, nhận biết lời nói, xử lý ngôn ngữ tự nhiên, cá nhân hóa và phát hiện lừa đảo với chi phí thấp nhất trong đám mây.

Các nhà phát triển có thể triển khai mô hình máy học của họ trên các phiên bản Inf1 bằng cách dùng SDK AWS Neuron, bộ công cụ này được tích hợp với những khung máy học phổ biến như TensorFlow, PyTorch và MXNet. Họ có thể tiếp tục dùng các quy trình ML hiện tại và tích hợp liền mạch ứng dụng lên các phiên bản Inf1 với chỉ một vài thay đổi rất nhỏ về mã và không phải phụ thuộc vào giải pháp cụ thể nào của đối tác.

Dễ dàng bắt đầu sử dụng các phiên bản Inf1 bằng cách dùng Amazon SageMaker, AWS Deep Learning AMI được đặt cấu hình sẵn với Neuron SDK, hoặc dùng Amazon ECS hay Amazon EKS cho các ứng dụng ML dạng bộ chứa.

Phiên bản Amazon EC2 Inf1 dựa trên AWS Inferentia (2:51)

Lợi ích

Giảm tới 70% chi phí cho mỗi lần suy luận

Bằng cách dùng Inf1, nhà phát triển có thể giảm đáng kể chi phí triển khai ứng dụng máy học vào sử dụng với chi phí thấp nhất cho mỗi suy luận trong đám mây. Nhờ chi phí phiên bản thấp và thông lượng cao, các phiên bản Inf1 có chi phí trên mỗi suy luận thấp hơn tới 70% so với các phiên bản EC2 dựa trên GPU thế hệ hiện tại.

Tính dễ dùng và tính linh động về mã

Neuron SDK được tích hợp với các khung máy học phổ biến như TensorFlow, PyTorch và MXNet. Nhà phát triển có thể tiếp tục dùng các quy trình ML hiện tại và tích hợp liền mạch ứng dụng lên các phiên bản Inf1 với chỉ một vài thay đổi rất nhỏ về mã. Nhờ đó, họ có thể thoải mái sử dụng khung máy học ưa thích và nền tảng điện toán phù hợp yêu cầu, cũng như tận dụng các công nghệ mới nhất mà không phải phụ thuộc vào giải pháp cụ thể nào của đối tác.

Thông lượng cao gấp 2,3 lần

Các phiên bản Inf1 cung cấp thông lượng cao gấp 2,3 lần so với các phiên bản Amazon EC2 dựa trên GPU thế hệ hiện tại. Các chip AWS Inferentia mà phiên bản Inf1 sử dụng được thiết kế để tối ưu hóa hiệu suất suy luận cho kích thước lô nhỏ, cho phép các ứng dụng thời gian thực tối đa hóa thông lượng và đáp ứng các yêu cầu về độ trễ.

Độ trễ cực thấp

Chip của AWS Inferentia được trang bị bộ nhớ lớn gắn trên chip, cho phép lưu trực tiếp các mô hình máy học vào bộ nhớ đệm trên chính các chip này. Bạn có thể triển khai mô hình của mình bằng các chức năng như NeuronCore Pipeline để không phải sử dụng đến các tài nguyên bộ nhớ bên ngoài. Với các phiên bản Inf1, bạn có thể triển khai ứng dụng suy luận theo thời gian thực với độ trễ cận thời gian thực mà không làm ảnh hưởng tới băng thông.

Khả năng hỗ trợ nhiều mô hình máy học và loại dữ liệu đa dạng

Các phiên bản Inf1 hỗ trợ nhiều kiến trúc mô hình máy học thông dụng như SSD, VGG và ResNext để nhận biết/phân loại hình ảnh, cũng như Transformer và BERT để xử lý ngôn ngữ tự nhiên. Ngoài ra, việc hỗ trợ kho mô hình HuggingFace trong Neuron mang đến cho khách hàng khả năng biên tập và chạy suy luận bằng các mô hình đào tạo sẵn hoặc dễ dàng tinh chỉnh các mô hình đó mà chỉ cần thay đổi một dòng mã. Nhiều loại dữ liệu, trong đó có BF16 và FP16, với độ chính xác hỗn hợp cũng được hỗ trợ để đáp ứng các mô hình và nhu cầu hiệu suất đa dạng.

Tính năng

Sử dụng AWS Inferentia

AWS Inferentia là chip suy luận máy học được chính AWS phát triển tùy chỉnh để cung cấp hiệu suất suy luận cao với chi phí thấp. Mỗi chip AWS Inferentia có thể đạt hiệu suất đến 128 TOPS (nghìn tỷ hoạt động mỗi giây) và hỗ trợ các loại dữ liệu FP16, BF16 và INT8. Chip AWS Inferentia còn nổi bật ở bộ nhớ dung lượng lớn trên chip, có thể dùng để lưu các mô hình lớn vào bộ đệm. Điều này đặc biệt hữu ích đối với các mô hình đòi hỏi truy cập thường xuyên vào bộ nhớ.

Bộ công cụ phát triển phầm mềm (SDK) AWS Neuron gồm một công cụ biên soạn, trình điều khiển thời gian chạy và các công cụ tạo cấu hình. Bộ công cụ này cho phép bạn triển khai các phiên bản Amazon Inf1 để thực thi những mô hình mạng nơ-ron phức tạp được tạo và đào tạo trong các khung phổ biến như TensorFlow, PyTorch và MXNet. Với NeuronCore Pipeline của Neuron, bạn có thể phân tách mô hình lớn để thực thi trên nhiều chip Inferentia nhờ sự liên thông thực ở tốc độ cao giữa các chip, qua đó mang đến thông lượng suy luận cao và chi phí suy luận thấp.

Kết nối mạng và lưu trữ với hiệu suất cao

Các phiên bản Inf1 cung cấp thông lượng nối mạng lên tới 100 Gbps cho các ứng dụng cần đến khả năng kết nối mạng tốc độ cao. Elastic Network Adapter (ENA) thế hệ tiếp theo và công nghệ NVM Express (NVMe) cung cấp những giao diện công suất cao, độ trễ thấp cho việc kết nối mạng và Amazon Elastic Block Store (Amazon EBS) cho các phiên bản Inf1.

Được phát triển trên hệ thống AWS Nitro

Hệ thống AWS Nitro là một tập hợp đa dạng các khối dựng, giúp giảm tải nhiều chức năng ảo hóa truyền thống sang phần cứng và phần mềm chuyên dụng để mang lại hiệu suất cao, tính sẵn sàng cao và độ bảo mật cao, đồng thời giảm tổng chi phí ảo hóa.

Cách hoạt động

Cách sử dụng Inf1 và AWS Inferentia

Chứng thực của khách hàng

SkyWatch
“Bungee Tech tạo điều kiện để các nhà bán lẻ và thương hiệu cạnh tranh có hiệu quả trong bối cảnh thay đổi không ngừng, bằng cách phân tích hàng triệu sản phẩm trên khắp thế giới để cung cấp dữ liệu thông minh vượt trội về thị trường với những số liệu phân tích hữu ích nhất. Chúng tôi thiết kế tính năng phân tích để đạt được độ chính xác, khả năng đưa ra hành động và sự kịp thời, qua đó mang lại lợi thế cạnh tranh độc nhất cho khách hàng của chúng tôi. Chúng tôi đã di chuyển các khối lượng công việc suy luận NLP thông lượng cao từ các phiên bản dựa trên GPU sang phiên bản Amazon EC2 Inf1. Việc tối ưu hóa mô hình để chạy trên các phiên bản Inf1 là rất đơn giản và chỉ cần một kỹ sư dành ra khoảng một ngày là đã có thể thiết lập và tự động hóa. Bằng cách cho phép chúng tôi chạy các mô hình lớn hơn và chính xác hơn mà không làm tăng chi phí, các phiên bản Inf1 đã tạo điều kiện để chúng tôi mang đến trải nghiệm vượt trội cho khách hàng của mình.”

Charles Ding, Giám đốc công nghệ (CTO) của Bungee Tech

SkyWatch
"Chúng tôi đã tích hợp công nghệ máy học (ML) vào nhiều khía cạnh của Snapchat. Trong lĩnh vực này, việc khám phá sự đổi mới là ưu tiên hàng đầu. Khi nghe về Inferentia, chúng tôi đã cộng tác với AWS để áp dụng các phiên bản Inf1/Inferentia nhằm hỗ trợ việc triển khai ML xoay quanh hiệu năng và chi phí. Chúng tôi bắt đầu từ mô hình đề xuất và tương lai sẽ tìm cách triển khai những mô hình khác bằng các phiên bản Inf1.”

Nima Khajehnouri, Kỹ sư VP của Snap Inc.

Anthem
"Autodesk đang dùng Inferentia để cải tiến công nghệ nhận thức cho trợ lý ảo hoạt động dựa trên AI của mình, với tên gọi Autodesk Virtual Agent (AVA). AVA có thể trả lời 100.000 câu hỏi của khách hàng mỗi tháng bằng cách áp dụng hiểu biết về ngôn ngữ tự nhiên (NLU) và các kỹ thuật học sâu để rút ra ngữ cảnh, dự định và ý nghĩa đằng sau các lượt truy vấn. Với việc thí điểm Inferentia, chúng tôi đạt được mức thông lượng qua G4dn cao hơn 4,9 lần cho các mô hình NLU của mình và sẽ tìm cách chạy thêm khối lượng công việc trên các phiên bản Inf1 dựa trên Inferentia.”

Binghui Ouyang, Nhà khoa học dữ liệu cao cấp của Autodesk

Anthem
Anthem là công ty phúc lợi sức khỏe hàng đầu cả nước, phục vụ nhu cầu chăm sóc sức khỏe của hơn 40 triệu thành viên tại hàng chục bang. "Thị trường về nền tảng sức khỏe số đang phát triển với tốc độ chóng mặt. Việc thu thập thông tin về thị trường này là một công việc đầy thách thức do lượng dữ liệu về ý kiến của khách hàng là rất lớn và phi cấu trúc. Ứng dụng của chúng tôi tạo ra thông tin chuyên sâu có thể hành động dựa trên ý kiến của khách hàng thông qua mô hình ngôn ngữ tự nhiên deep learning (Tác nhân chuyển đổi). Ứng dụng này thiên về điện toán và cần được triển khai theo cách mang lại hiệu quả cao. Chúng tôi đã tích hợp liền mạch khối lượng công việc suy luận deep learning của mình lên các phiên bản Amazon EC2 Inf1 dựa trên sức mạnh của bộ xử lý AWS Inferentia. Phiên bản Inf1 mới mang lại thông lượng cao gấp 2 lần cho các phiên bản dựa trên GPU và cho phép chúng tôi tinh giản các khối lượng công việc suy luận.”

Tiến sĩ Numan Laanait, Nhà khoa học cấp cao về AI/Dữ liệu & Tiến sĩ Miro Mihaylov, Nhà khoa học cấp cao về AI/Dữ liệu

Condé Nast
"Danh mục toàn cầu của Condé Nast gồm hơn 20 thương hiệu truyền thông hàng đầu, trong đó có Wired, Vogue và Vanity Fair. Trong một vài tuần, nhóm của chúng tôi có thể tích hợp công cụ đề xuất với chip AWS Inferentia. Sự kết hợp này cho phép tối ưu hóa nhiều thời gian chạy cho các mô hình ngôn ngữ tự nhiên tiên tiến trên các phiên bản Inf1 của SageMaker. Kết quả là chúng tôi nhận thấy chi phí giảm 72% so với các phiên bản GPU trước đây."

Paul Fryzel, Kỹ sư trưởng phụ trách cơ sở hạ tầng AI

Asahi Shimbun
“Ciao đang phát triển camera an ninh truyền thống thành camera phân tích có hiệu năng cao tương đương với khả năng của mắt người. Ứng dụng của chúng tôi đang thúc đẩy phòng chống thiên tai, giám sát các điều kiện môi trường bằng cách sử dụng các giải pháp camera AI dựa trên đám mây để cảnh báo trước khi thảm họa diễn ra. Việc cảnh báo này hỗ trợ khả năng ứng phó trước với tình hình. Dựa trên việc phát hiện đối tượng, chúng tôi cũng có thể cung cấp thông tin chuyên sâu bằng cách ước tính số lượng khách đến mà không có nhân viên hỗ trợ từ video trong các cửa hàng thực. Ciao Camera đã áp dụng một cách thương mại các phiên bản Inf1 dựa trên AWS Inferentia có hiệu năng về giá tốt hơn 40% so với G4dn với YOLOv4. Chúng tôi mong muốn có thêm nhiều dịch vụ sử dụng Inf1 để tận dụng khả năng tiết kiệm chi phí đáng kể.”

Shinji Matsumoto, Kỹ sư phần mềm, Ciao Inc.

Asahi Shimbun
“Asahi Shimbun là một trong những nhật báo nổi tiếng nhất ở Nhật Bản. Media Lab, được thiết lập là một trong những phòng ban trong công ty chúng tôi, có nhiệm vụ nghiên cứu về công nghệ tối tân nhất, đặc biệt là AI và kết nối các công nghệ tiên tiến cho các doanh nghiệp mới. Với sự ra mắt phiên bản Amazon EC2 Inf1 dựa trên AWS Inferentia tại Tokyo, chúng tôi đã thử nghiệmứng dụng AI tóm tắt văn bản dựa trên PyTorch trên những phiên bản này. Ứng dụng này xử lý một lượng lớn văn bản, tạo ra các tiêu đề và câu tóm tắt được huấn luyện thông qua các bài báo trong suốt 30 năm qua. Với Inferentia, chúng tôi đã giảm đáng kể chi phí so với các phiên bản dựa trên CPU. Việc giảm chi phí đáng kể này cho phép chúng tôi triển khai các mô hình phức tạp nhất trên quy mô lớn mà trước đây tưởng rằng không khả thi về mặt kinh tế”

Hideki Tamori, Tiến sĩ, Nhà quản trị Cấp cao, Media Lab, Công ty Asahi Shimbun

CS Disco
“CS Disco đang thực hiện đổi mới công nghệ pháp lý trong vai trò nhà cung cấp hàng đầu các giải pháp AI cho khám phá điện tử do các luật sư phát triển cho các luật sư. Disco AI thúc đẩy tác vụ tìm kiếm nhàm chán qua hàng terabyte dữ liệu, tăng thời gian xem xét và cải thiện độ chính xác của quá trình xem xét bằng cách sử dụng các mô hình Xử lý dữ liệu tự nhiên phức tạp, tốn kém về mặt máy tính và chi phí quá đắt đỏ. Disco phát hiện ra rằng các phiên bản Inf1 dựa trên AWS Inferentia giảm chi phí suy luận trong Disco AI ít nhất 35% so với các phiên bản GPU ngày nay. Dựa trên trải nghiệm tích cực với các phiên bản Inf1, CS Disco sẽ khám phá các cơ hội để di chuyển sang Inferentia.”

Alan Lockett, Sr. Giám đốc nghiên cứu tại CS Disco

Talroo
“Tại Talroo, chúng tôi cung cấp cho khách hàng một nền tảng dựa trên dữ liệu cho phép họ thu hút các ứng viên phù hợp để tuyển dụng. Chúng tôi không ngừng khám phá các công nghệ mới nhằm đảm bảo luôn cung cấp các sản phẩm và dịch vụ tốt nhất đến khách hàng. Với Inferentia, chúng tôi trích xuất thông tin chi tiết từ kho dữ liệu văn bản để nâng cao công nghệ tìm kiếm và đối sánh do AI của chúng tôi cung cấp. Talroo tận dụng các phiên bản Amazon EC2 Inf1 để tạo ra các mô hình Thấu hiểu ngôn ngữ tự nhiên thông lượng cao với SageMaker. Thử nghiệm ban đầu của Talroo cho thấy các phiên bản Amazon EC2 Inf1 mang lại độ trễ suy luận thấp hơn 40% và thông lượng cao hơn gấp 2 lần so với các phiên bản dựa trên GPU G4dn. Dựa trên những kết quả này, Talroo mong chờ được sử dụng phiên bản Amazon EC2 Inf1 như một phần trong cơ sở hạ tầng AWS của mình.”

Janet Hu, Kỹ sư phần mềm, Talroo

Chuyên gia phương tiện truyền thông kỹ thuật số (DMP)
“Digital Media Professionals (DMP) phác họa tương lai bằng nền tảng ZIA™ dựa trên trí tuệ nhân tạo (AI). Các công nghệ phân loại hình ảnh máy tính hiệu quả của DMP được dùng để xây dựng thông tin chuyên sâu dựa trên lượng dữ liệu lớn về hình ảnh thời gian thực, chẳng hạn như quan sát tình trạng, ngăn chặn tội phạm và ngăn chặn tai nạn. Chúng tôi nhận ra rằng các mô hình phân đoạn hình ảnh của chúng tôi chạy nhanh hơn 4 lần trên AWS Inferentia dựa vào các phiên bản Inf1 so với các phiên bản G4 dựa trên GPU. Do thông lượng cao hơn và chi phí thấp hơn, Inferentia hỗ trợ chúng tôi triển khai các khối lượng công việc sử dụng AI, chẳng hạn như các ứng dụng dành cho dashcam ô tô ở quy mô lớn."

Hiroyuki Umeda - Giám đốc và Tổng quản lý, Nhóm bán hàng & tiếp thị, Digital Media Professionals

Hotpot.ai
Hotpot.ai hỗ trợ những người không chuyên về thiết kế tạo ra đồ họa cuốn hút và giúp những nhà thiết kế chuyên nghiệp tự động hóa các tác vụ lặp lại. "Chiến lược của chúng tôi lấy máy học làm trọng tâm, nên chúng tôi rất hào hứng dùng thử các phiên bản Inf1 dựa trên AWS Inferentia. Phiên bản Inf1 rất dễ tích hợp vào quy trình nghiên cứu và phát triển của chúng tôi. Quan trọng hơn hết, chúng tôi nhận thấy hiệu năng tăng rõ rệt so với các phiên bản dựa trên GPU G4dn. Trong mô hình đầu tiên của chúng tôi, các phiên bản Inf1 đạt thông lượng cao hơn khoảng 45% và giảm chi phí trên mỗi suy luận đi gần 50%. Trong tương lai, chúng tôi sẽ hợp tác chặt chẽ với đội ngũ AWS để triển khai các mô hình khác và chuyển hầu hết cơ sở hạ tầng suy luận máy học của mình sang AWS Inferentia."

Clarence Hu, Nhà sáng lập của Hotpot.ai

SkyWatch
"SkyWatch mỗi ngày xử lý hàng trăm nghìn tỷ dữ liệu quan sát Trái đất được thu thập từ vũ trụ. Khi chúng tôi áp dụng phiên bản Inf1 mới, dựa trên AWS Inferentia qua Amazon SageMaker cho hoạt động phát hiện đám mây theo thời gian thực và ghi điểm chất lượng hình ảnh, việc đó được thực hiện thật nhanh chóng và dễ dàng. Chúng tôi chỉ việc đổi loại phiên bản trong cấu hình triển khai của mình. Khi chuyển sang phiên bản Inf1 dựa trên Inferentia, chúng tôi nâng cao hiệu suất thêm 40% và giảm chi phí tổng thể đi 23%. Đó là một sự chuyển biến vô cùng to lớn. Nó giúp chúng tôi giảm được chi phí vận hành tổng thể trong khi vẫn tiếp tục cung cấp hình ảnh vệ tinh có chất lượng cao cho khách hàng với tổng chi phí kỹ thuật ở mức thấp nhất. Chúng tôi kỳ vọng có thể sử dụng phiên bản Inf1 cho tất cả các điểm cuối suy luận và quy trình ML theo lô của mình để cải thiện hơn nữa độ tin cậy của dữ liệu và trải nghiệm của khách hàng."

Adler Santos, Giám đốc kỹ thuật, SkyWatch

Các dịch vụ Amazon sử dụng phiên bản Amazon EC2 Inf1

Amazon Alexa

Hơn 100 triệu thiết bị Alexa đã được bán trên toàn cầu và các khách hàng cũng đã cho hơn 400.000 lượt đánh giá 5 sao đối với các thiết bị Echo trên Amazon. "Thông qua Amazon Web Services, AI và công nghệ trí tuệ dựa trên ML của Amazon Alexa hiện nay đã có mặt trên hơn 100 triệu thiết bị. Chúng tôi cam kết với khách hàng rằng Alexa sẽ ngày một trở nên thông minh hơn, giao tiếp tốt hơn, chủ động hơn và thậm chí là dễ thương hơn", ông Tom Taylor, Phó chủ tịch cấp cao của Amazon Alexa cho biết. "Để thực hiện lời hứa đó, chúng tôi sẽ phải liên tục cải thiện thời gian phản hồi và giảm bớt chi phí hạ tầng cơ sở máy học, vì vậy, chúng tôi rất vui mừng khi có thể sử dụng Amazon EC2 Inf1 để giảm bớt độ trễ suy luận và chi phí cho mỗi lần suy luận cho chức năng chuyển văn bản thành lời nói của Alexa. Với Amazon EC2 Inf1, chúng tôi sẽ có thể cung cấp dịch vụ tốt hơn nữa cho hàng chục triệu khách hàng đang sử dụng Alexa mỗi tháng.”

Amazon Alexa
“Amazon Rekognition là ứng dụng phân tích hình ảnh/video đơn giản và tiện dụng, giúp khách hàng xác định vật thể, con người, văn bản và hoạt động. Amazon Rekognition cần cơ sở hạ tầng học sâu hiệu năng cao, có thể phân tích hàng tỷ hình ảnh và video mỗi ngày cho khách hàng. Với các phiên bản Inf1 dựa trên AWS Inferentia, việc chạy các mô hình Rekognition như phân loại vật thể sẽ có độ trễ thấp hơn 8 lần và thông lượng cao hơn 2 lần so với khi chạy những mô hình này trên GPU. Dựa vào những kết quả này, chúng tôi đang chuyển Rekognition sang Inf1 để khách hàng có thể nhận được kết quả nhanh và chính xác hơn.”
 
Rajneesh Singh, Giám đốc, Kỹ sư phần mềm, Rekognition and Video

Giá cả

*Giá trình bày ở trên là cho Khu vực AWS Miền Đông Hoa Kỳ (Bắc Virginia). Các mức giá cho phiên bản đặt trước 1 năm và 3 năm là dành cho các tùy chọn thanh toán "Trả trước một phần" hoặc "Không trả trước" đối với phiên bản không có tùy chọn Trả trước một phần.

Phiên bản Amazon EC2 Inf1 được cung cấp dưới dạng Theo nhu cầu, Đặt trước hoặc Phiên bản dùng ngay ở Khu vực AWS Miền Đông Hoa Kỳ (Bắc Virginia) và Miền Tây Hoa Kỳ (Oregon).

Bắt đầu

Sử dụng Amazon SageMaker

Amazon SageMaker giúp bạn dễ dàng biên soạn và triển khai mô hình máy học đã đào tạo của mình để đưa vào sử dụng trên các phiên bản Amazon Inf1. Nhờ đó, bạn có thể bắt đầu tạo ra những dự đoán theo thời gian thực với độ trễ thấp. AWS Neuron là công cụ biên soạn cho AWS Inferentia, được tích hợp với Amazon SageMaker Neo, cho phép bạn biên soạn các mô hình máy học đã đào tạo của mình để chạy tối ưu trên phiên bản Inf1. Với Amazon SageMaker, bạn có thể dễ dàng chạy mô hình của mình trên các cụm tự động thay đổi quy mô của phiên bản Inf1, trải rộng khắp nhiều vùng sẵn sàng, mang lại cả hiệu suất cao lẫn khả năng suy luận theo thời gian thực có độ sẵn sàng cao. Hãy tìm hiểu cách triển khai trên Inf1 bằng Amazon SageMaker với các ví dụ trên Github.

Sử dụng AMI Deep Learning của AWS

AMI Deep Learning của AWS (DLAMI) cung cấp cơ sở hạ tầng và công cụ để tăng tốc deep learning trên đám mây ở mọi quy mô cho các nhà nghiên cứu và người sử dụng công nghệ máy học. AWS Neuron SDK được cài đặt sẵn trong AMI Deep Learning của AWS để biên soạn và chạy các mô hình máy học của bạn một cách tối ưu trên phiên bản Inf1. Để được hướng dẫn về quá trình bắt đầu, bạn hãy tham khảo hướng dẫn lựa chọn AMI và các tài nguyên deep learning khác. Xem tài liệu hướng dẫn Bắt đầu sử dụng DLAMI của AWS để tìm hiểu cách dùng DLAMI với Neuron.

Sử dụng bộ chứa Deep Learning

Giờ đây, các nhà phát triển có thể triển khai phiên bản Inf1 trong Amazon Elastic Kubernetes Service (EKS), một dịch vụ Kubernetes được quản lý toàn phần, cũng như trong Amazon Elastic Container Service (ECS), dịch vụ điều phối bộ chứa được quản lý toàn phần của Amazon. Hãy tìm hiểu thêm cách bắt đầu với Inf1 trên Amazon EKS hoặc với Amazon ECS. Bạn có thể tìm thêm thông tin chi tiết về cách chạy bộ chứa trong phiên bản Inf1 trên trang hướng dẫn về công cụ bộ chứa Neuron. Neuron cũng được cài đặt sẵn trong Bộ chứa DL AWS.

Blog và bài viết