Phiên bản Amazon EC2 P3

Tăng tốc độ machine learning và các ứng dụng điện toán hiệu năng cao với GPU mạnh mẽ

Bắt đầu với phiên bản P3

Phiên bản Amazon EC2 P3 đem đến điện toán hiệu năng cao trên đám mây với tối đa 8 GPU nhân xử lý NVIDIA® V100 Tensor và tối đa 100 Gbps thông lượng kết nối mạng cho machine learning và các ứng dụng HPC. Các phiên bản này đem đến tối đa một petaflop hiệu năng chính xác hỗn hợp cho mỗi phiên bản để tăng tốc đáng kể khả năng machine learning và các ứng dụng điện toán hiệu năng cao. Các phiên bản Amazon EC2 P3 đã được chứng minh có khả năng giảm thời gian huấn luyện machine learning từ nhiều ngày xuống chỉ còn vài phút cũng như tăng thêm 3-4 lần số lượng mô phỏng được thực hiện cho điện toán hiệu năng cao.

Với băng thông mạng của phiên bản P3.16xlarge cao hơn tới 4 lần, phiên bản P3dn.24xlarge của Amazon EC2 là sự bổ sung mới nhất cho dòng phiên bản P3, được tối ưu hóa cho máy học phân tán và các ứng dụng HPC. Các phiên bản này cung cấp thông lượng kết nối mạng lên tới 100 Gbps, 96 vCPU Intel® Xeon® Scalable (Skylake) tùy chỉnh, 8 GPU nhân xử lý NVIDIA® V100 Tensor với 32 GB bộ nhớ mỗi GPU và 1,8 TB dung lượng lưu trữ cục bộ SSD trên NVMe. Các phiên bản P3dn.24xlarge cũng hỗ trợ Elastic Fabric Adapter (EFA). Giao diện này tăng tốc các ứng dụng máy học phân tán sử dụng Thư viện giao tiếp chung NVIDIA (NCCL). EFA có thể mở rộng quy mô lên đến hàng nghìn GPU, cải thiện đáng kể thông lượng và khả năng mở rộng của các mô hình huấn luyện deep learning, từ đó cho kết quả nhanh hơn.

Tổng quan về phiên bản Amazon EC2 P3 (2:18)

Lợi ích

Giảm thời gian đào tạo machine learning từ vài ngày xuống còn vài phút

Đối với những nhà khoa học dữ liệu, nhà nghiên cứu và nhà phát triển cần tăng tốc ứng dụng ML, phiên bản Amazon EC2 P3 là loại phiên bản có tốc độ nhanh nhất trên đám mây dành cho việc đào tạo ML. Các phiên bản Amazon EC2 P3 được hỗ trợ đến tám GPU nhân xử lý NVIDIA Tesla V100 thế hệ mới nhất và mang đến tối đa một petaflop hiệu năng chính xác hỗn hợp nhằm tăng tốc đáng kể khối lượng công việc ML. Đào tạo mô hình nhanh hơn có thể giúp các nhà khoa học dữ liệu và các kỹ sư machine learning lặp lại nhanh hơn, đào tạo nhiều mô hình hơn và gia tăng độ chính xác.

Giải pháp đào tạo ML tối ưu chi phí nhất trong ngành

Một trong những phiên bản GPU mạnh mẽ nhất trên đám mây, được kết hợp với các gói giá linh hoạt giúp tạo ra giải pháp có mức chi phí siêu hợp lý dành cho công tác đào tạo machine learning. Đối với các phiên bản Amazon EC2 nói chung, phiên bản P3 được cung cấp dưới dạng Phiên bản theo nhu cầu, Phiên bản dự trữ hoặc Phiên bản Spot. Phiên bản Spot tận dụng công suất chưa sử dụng của phiên bản EC2 và có thể giảm đáng kể chi phí Amazon EC2 của bạn tới 70% so với giá của phiên bản Theo nhu cầu.

Điện toán hiệu năng cao đầy mạnh mẽ, linh động

Không như các hệ thống tại chỗ, việc chạy điện toán hiệu năng cao trên các phiên bản Amazon EC2 P3 cung cấp dung lượng gần như không giới hạn, giúp bạn thay đổi quy mô cơ sở hạ tầng và độ linh hoạt để thay đổi tài nguyên một cách dễ dàng và thường xuyên theo nhu cầu khối lượng công việc của bạn. Bạn có thể cấu hình tài nguyên của mình nhằm đáp ứng nhu cầu của ứng dụng và khởi chạy một cụm HPC trong vài phút, mà chỉ phải trả tiền cho những gì bạn sử dụng.

Bắt đầu xây dựng ngay

Sử dụng tệp ảnh sao lưu Docker đóng gói sẵn để triển khai môi trường deep learning trong vài phút. Các tệp ảnh sao lưu chứa các công cụ cùng với thư viện framework về deep learning cần thiết (hiện tại là TensorFlow và Apache MXNet) và đã được kiểm tra đầy đủ. Bạn có thể dễ dàng thêm các thư viện và công cụ của riêng mình cùng với các tệp ảnh sao lưu này để có mức độ kiểm soát cao hơn đối với việc theo dõi, tuân thủ và xử lý dữ liệu. Ngoài ra, các phiên bản Amazon EC2 P3 hoạt động liền mạch kết hợp cùng Amazon SageMaker để cung cấp nền tảng machine learning hoàn chỉnh và trực quan mạnh mẽ. Amazon SageMaker là một nền tảng machine learning được quản lý toàn phần cho phép bạn nhanh chóng và dễ dàng xây dựng, huấn luyện và triển khai các mô hình machine learning. Hơn nữa, các phiên bản Amazon EC2 P3 có thể được tích hợp với AWS Deep Learning Amazon Machine Images (AMI) đã được cài đặt sẵn các framework về deep learning phổ biến. Việc này giúp bắt đầu nhanh chóng và dễ dàng hơn với việc đào tạo machine learning và suy luận.

Đào tạo machine learning nhiều nút có khả năng thay đổi quy mô

Bạn có thể sử dụng nhiều phiên bản Amazon EC2 P3 với thông lượng mạng lên tới 100 Gbps để đào tạo nhanh các mô hình machine learning. Thông lượng mạng cao hơn cho phép nhà phát triển truyền dữ liệu không bị nghẽn và mở rộng các tác vụ huấn luyện mô hình của mình qua nhiều phiên bản P3 một cách hiệu quả. Khách hàng có khả năng huấn luyện ResNet-50, một mô hình phân loại ảnh phổ biến, với độ chính xác theo tiêu chuẩn ngành chỉ trong 18 phút bằng cách sử dụng 16 phiên bản P3. Trước đây, phần lớn khách hàng ML đều không đạt được mức hiệu năng này vì cần phải có mức đầu tư CapEx lớn để xây dựng các cụm GPU tại chỗ. Với các phiên bản P3 và tính khả dụng của chúng thông qua mô hình sử dụng Theo nhu cầu, tất cả các nhà phát triển và kỹ sư machine learning hiện đều có thể đạt được mức hiệu suất này. Ngoài ra, các phiên bản P3dn.24xlarge hỗ trợ Elastic Fabric Adapter (EFA). Giao diện này sử dụng NVIDIA Collective Communications Library (NCCL) để mở rộng quy mô lên đến hàng nghìn GPU.

Hỗ trợ tất cả các framework chính về machine learning

Các phiên bản Amazon EC2 P3 hỗ trợ tất cả các framework chính về machine learning bao gồm TensorFlow, PyTorch, Apache MXNet, Caffe, Caffe2, Microsoft Cognitive Toolkit (CNTK), Chainer, Theano, Keras, Gluon và Torch. Bạn được linh hoạt lựa chọn framework phù hợp nhất với ứng dụng của mình.

Câu chuyện của khách hàng

Airbnb

Airbnb đang sử dụng machine learning để tối ưu hóa các đề xuất tìm kiếm và cải thiện hướng dẫn định giá động cho máy chủ, cả hai đều giúp gia tăng tỉ lệ thực hiện đặt phòng. Với các phiên bản Amazon EC2 P3, Airbnb có thể chạy các khối lượng công việc đào tạo nhanh hơn, thực hiện nhiều lần lặp hơn, xây dựng các mô hình máy học tốt hơn và giúp giảm chi phí.

Celgene

Celgene là một công ty công nghệ sinh học toàn cầu, hiện đang phát triển các liệu pháp nhắm đích để đưa ra biện pháp điều trị phù hợp với bệnh nhân. Công ty này chạy khối lượng công việc HPC cho các mô phỏng hóa học và quá trình giải trình tự gen thế hệ mới trên các phiên bản Amazon EC2 P3. Với công suất điện toán này, Celgene có thể đào tạo các mô hình deep learning để phân biệt tế bào ác tính với tế bào lành tính. Trước khi sử dụng các phiên bản P3, công ty này mất hai tháng để chạy các tác vụ điện toán quy mô lớn, giờ đây họ chỉ mất bốn giờ. Công nghệ AWS đã cho phép Celgene đẩy nhanh quá trình phát triển các liệu pháp thuốc cho bệnh ung thư và các bệnh viêm nhiễm.

Hyperconnect

Hyperconnect chuyên áp dụng các công nghệ mới dựa trên máy học để xử lý hình ảnh và video. Đây còn là công ty đầu tiên phát triển công nghệ webRTC cho nền tảng di động.

“Hyperconnect sử dụng phương pháp phân loại hình ảnh dựa trên AI trên ứng dụng giao tiếp video của mình để nhận ra môi trường hiện tại trong đó có người dùng. Chúng tôi đã giảm thiểu thời gian đào tạo mô hình máy học từ hơn 1 tuần xuống chỉ còn chưa đến 1 ngày bằng cách dùng Horovod để di chuyển từ máy trạm tại chỗ sang nhiều phiên bản Amazon EC2 P3. Với việc sử dụng PyTorch làm khung máy học, chúng tôi có thể nhanh chóng phát triển mô hình và tận dụng các thư viện có sẵn trong cộng đồng mã nguồn mở.”

Sungjoo Ha, Giám đốc phòng thực hành AI, Hyperconnect

Đọc toàn bộ nghiên cứu điển hình »

NerdWallet là một công ty khởi nghiệp về tài chính cá nhân, chuyên cung cấp các công cụ và lời khuyên giúp khách hàng dễ dàng trả nợ, lựa chọn các sản phẩm và dịch vụ tài chính tốt nhất, cũng như giải quyết các mục tiêu lớn trong đời như mua nhà hoặc tiết kiệm để chuẩn bị nghỉ hưu. Công ty phụ thuộc rất nhiều vào khoa học dữ liệu và máy học (ML) để kết nối khách hàng với các sản phẩm tài chính được cá nhân hóa.

Việc sử dụng phiên bản Amazon SageMaker và Amazon EC2 P3 với GPU nhân xử lý NVIDIA V100 Tensor cũng đã cải thiện tính linh hoạt và hiệu quả của NerdWallet, đồng thời giảm thiểu thời gian các nhà khoa học dữ liệu cần để đào tạo mô hình ML. “Trước đây, chúng tôi thường mất vài tháng để khởi chạy và lặp lại quy trình trên các mô hình. Giờ đây, chúng tôi chỉ mất vài ngày.”

Ryan Kirkman, Giám đốc kỹ thuật cấp cao – NerdWallet

Đọc toàn bộ nghiên cứu »

Xem thêm

PathWise

Đi đầu trong các giải pháp hệ thống chất lượng, PathWise của Aon là bộ ứng dụng SaaS dựa trên đám mây hướng đến mô hình quản lý rủi ro dành cho doanh nghiệp. Bộ ứng dụng này cung cấp tốc độ, sự tin cậy, tính bảo mật và dịch vụ theo nhu cầu cho một loạt khách hàng.

“PathWise Solutions Group thuộc Aon cung cấp giải pháp quản lý rủi ro cho phép khách hàng tận dụng công nghệ mới nhất để nhanh chóng giải quyết các thách thức bảo hiểm quan trọng hiện nay, chẳng hạn như quản lý và kiểm thử chiến lược phòng ngừa rủi ro, dự báo pháp lý và kinh tế, cũng như quản lý ngân sách. PathWise đã vận hành hoạt động của mình trên AWS từ năm 2011 và hiện đang sử dụng các phiên bản P-Series của Amazon EC2. Điều này giúp chúng tôi tăng tốc quy trình tính toán cần thiết để giải quyết những thách thức kể trên cho khách hàng của mình trên toàn thế giới, trong một thị trường đang phát triển và tiến hóa nhanh hơn bao giờ hết.”

Peter Phillips, Chủ tịch kiêm Giám đốc điều hành – PathWise Solutions Group

Đọc về nghiên cứu điển hình »

Pinterest

Pinterest sử dụng phương thức đào tạo độ chính xác kết hợp trong các phiên bản P3 trên AWS để đẩy nhanh quá trình đào tạo các mô hình deep learning, đồng thời dùng các phiên bản P3 để suy luận các mô hình này nhanh hơn, nhằm đem lại cho người dùng trải nghiệm khám phá nhanh và độc đáo. Pinterest sử dụng PinSage, công cụ được tạo ra bằng cách sử dụng PyTorch trên AWS. Mô hình AI này nhóm các hình ảnh với nhau dựa trên một số chủ đề nhất định. Với 3 tỷ hình ảnh trên nền tảng, có 18 tỷ mối liên hệ khác nhau kết nối các hình ảnh. Những mối liên hệ này giúp Pinterest ngữ cảnh hóa các chủ đề, phong cách và đem lại trải nghiệm phù hợp hơn với từng người dùng.

Salesforce

Salesforce đang sử dụng machine learning để hỗ trợ Einstein Vision, cho phép các nhà phát triển khai thác sức mạnh của nhận dạng hình ảnh đối với các trường hợp sử dụng như tìm kiếm hình ảnh, phát hiện thương hiệu và nhận dạng sản phẩm. Các phiên bản Amazon EC2 P3 cho phép nhà phát triển đào tạo các mô hình deep learning nhanh hơn hẳn, nhờ đó rút ngắn thời gian đạt được mục tiêu máy học.

Schrodinger

Schrodinger sử dụng điện toán hiệu năng cao (HPC) để phát triển các mô hình dự đoán nhằm mở rộng quy mô phát hiện và tối ưu hóa, đồng thời cung cấp cho khách hàng khả năng đưa các loại thuốc cứu sinh ra thị trường nhanh hơn. Các phiên bản Amazon EC2 P3 cho phép Schrodinger thực hiện số mô phỏng trong một ngày gấp bốn lần so với khi sử dụng phiên bản P2.

Subtle Medical là một công ty công nghệ về chăm sóc sức khỏe, hoạt động với mục đích nâng cao hiệu quả hình ảnh y khoa và trải nghiệm của bệnh nhân bằng giải pháp deep learning đổi mới. Đội ngũ của công ty bao gồm các nhà khoa học về hình ảnh, bác sĩ X quang và chuyên gia AI nổi tiếng từ Standford, MIT, MD Anderson và nhiều tổ chức khác.

“Các bệnh viện và trung tâm hình ảnh muốn áp dụng giải pháp này mà không tạo thêm gánh nặng phải học hỏi chuyên môn về GPU cho bộ phận CNTT, cũng như không phải xây dựng và duy trì trung tâm dữ liệu tốn kém hoặc nền tảng đám mây nhỏ. Họ muốn triển khai thành công với công sức và khoản đầu tư bỏ ra thấp nhất... AWS có thể đáp ứng yêu cầu này.”

Enhao Gong, Nhà sáng lập kiêm Giám đốc điều hành của Subtle Medical

Đọc toàn bộ nghiên cứu điển hình »

Western Digital

Western Digital sử dụng HPC để chạy hàng chục nghìn mô phỏng cho khoa học vật liệu, luồng nhiệt, từ tính và truyền dữ liệu để cải thiện chất lượng cũng như hiệu năng của giải pháp lưu trữ và ổ đĩa. Dựa trên quá trình kiểm thử ban đầu, các phiên bản P3 cho phép các đội ngũ kỹ thuật chạy mô phỏng nhanh hơn ít nhất ba lần so với các giải pháp đã triển khai trước đó.

Ẩn bớt

Phiên bản Amazon EC2 P3 và Amazon SageMaker

Cách nhanh nhất để đào tạo và chạy các mô hình machine learning

Amazon SageMaker là một dịch vụ được quản lý toàn phần nhằm xây dựng, đào tạo và triển khai các mô hình machine learning. Khi được sử dụng cùng với các phiên bản Amazon EC2 P3, khách hàng có thể dễ dàng thay đổi quy mô đến hàng chục, hàng trăm hoặc hàng nghìn GPU để huấn luyện mô hình nhanh chóng ở mọi quy mô mà không cần lo lắng về việc thiết lập các cụm và đường dẫn dữ liệu. Bạn cũng có thể dễ dàng truy cập tài nguyên Amazon Virtual Private Cloud (Amazon VPC) để huấn luyện và lưu trữ máy chủ luồng công việc trên Amazon SageMaker. Với tính năng này, bạn có thể sử dụng các bộ chứa Amazon Simple Storage Service (Amazon S3) chỉ có thể truy cập thông qua VPC của bạn để lưu trữ dữ liệu huấn luyện cũng như lưu trữ và lưu trữ máy chủ các thành phần lạ mô hình thu được từ quá trình huấn luyện. Ngoài S3, các mô hình có thể truy cập tất cả các tài nguyên AWS khác có trong VPC. Tìm hiểu thêm.

Xây dựng

Amazon SageMaker giúp xây dựng các mô hình machine learning dễ dàng và sẵn sàng để huấn luyện. Thành phần này cung cấp mọi thứ bạn cần để nhanh chóng kết nối với dữ liệu huấn luyện cũng như chọn và tối ưu hóa thuật toán và framework phù hợp nhất cho ứng dụng của bạn. Amazon SageMaker gồm có các máy tính xách tay Jupyter có máy chủ lưu trữ giúp việc khám phá và trực quan hóa dữ liệu huấn luyện của bạn được lưu trữ trên Amazon S3 trở nên dễ dàng. Bạn cũng có thể sử dụng phiên bản máy tính xách tay để viết mã tạo các công việc huấn luyện mô hình, triển khai các mô hình vào lưu trữ Amazon SageMaker và kiểm tra hoặc xác nhận các mô hình của bạn.

Huấn luyện

Bạn có thể bắt đầu huấn luyện mô hình của mình chỉ bằng một cú nhấp chuột trên bảng điều khiển hoặc một lệnh gọi API đơn giản. Amazon SageMaker được cấu hình sẵn với các phiên bản mới nhất của TensorFlow và Apache MXNet, với sự hỗ trợ thư viện CUDA9 để đạt hiệu năng tối ưu với các GPU của NVIDIA. Ngoài ra, việc tối ưu hóa siêu tham số có thể tự động tinh chỉnh mô hình của bạn bằng cách điều chỉnh các kết hợp khác nhau một cách thông minh để nhanh chóng đạt được các dự đoán chính xác nhất. Đối với các nhu cầu quy mô lớn hơn, bạn có thể thay đổi quy mô đến hàng chục phiên bản để hỗ trợ xây dựng mô hình nhanh hơn.

Triển khai

Sau khi huấn luyện, bạn có thể triển khai mô hình vào các phiên bản Amazon EC2 auto scaling trên nhiều vùng sẵn sàng chỉ với một cú nhấp chuột. Trong giai đoạn sản xuất, Amazon SageMaker quản lý cơ sở hạ tầng điện toán thay bạn để thực hiện kiểm tra tình trạng, áp dụng các bản vá bảo mật và thực hiện bảo trì định kỳ khác, tất cả đều được tích hợp chức năng giám sát và ghi nhật ký Amazon CloudWatch.

Phiên bản Amazon EC2 P3 và AMI AWS Deep Learning

Môi trường phát triển được cấu hình sẵn để nhanh chóng bắt đầu xây dựng các ứng dụng deep learning

Một giải pháp thay thế cho Amazon SageMaker dành cho các nhà phát triển có yêu cầu tùy biến cao hơn, AWS Deep Learning AMI cung cấp cho những người thực hành machine learning và các nhà nghiên cứu cơ sở hạ tầng và các công cụ để tăng tốc deep learning trong đám mây ở mọi quy mô. Bạn có thể nhanh chóng khởi chạy các phiên bản Amazon EC2 P3 được cài đặt sẵn với các framework về deep learning phổ biến như TensorFlow, PyTorch, Apache MXNet, Microsoft Cognitive Toolkit, Caffe, Caffe2, Theano, Torch, Chainer, Gluon và Keras để đào tạo các mô hình AI tùy biến phức tạp, thử nghiệm thuật toán mới hoặc tìm hiểu kỹ năng và kỹ thuật mới. Tìm hiểu thêm >>

Phiên bản Amazon EC2 P3 và điện toán hiệu năng cao

Giải quyết các vấn đề điện toán lớn và thu thập thông tin chuyên sâu mới bằng cách tận dụng sức mạnh của HPC trên AWS

Các phiên bản Amazon EC2 P3 là nền tảng lý tưởng để chạy các mô phỏng kỹ thuật, điện toán tài chính, phân tích địa chấn, dựng mô hình phân tử, nghiên cứu gen và chức năng gen, phối cảnh và các khối lượng công việc điện toán GPU khác. Điện toán hiệu năng cao (HPC) cho phép các nhà khoa học và kỹ sư giải quyết các vấn đề phức tạp, tốn nhiều tài nguyên điện toán này. Các ứng dụng HPC thường yêu cầu hiệu năng mạng cao, lưu trữ nhanh, dung lượng bộ nhớ lớn, khả năng điện toán cao hoặc tất cả các yếu tố kể trên. AWS cho phép bạn tăng tốc độ nghiên cứu và rút ngắn thời gian nhận được kết quả bằng cách chạy HPC trên đám mây và thay đổi quy mô để số lượng các tác vụ chạy song song nhiều hơn so với thực tế trong hầu hết các môi trường tại chỗ. Ví dụ: phiên bản P3dn.24xlarge hỗ trợ Elastic Fabric Adapter (EFA) cho phép các ứng dụng HPC sử dụng Giao diện trao đổi thông điệp (MPI) để mở rộng quy mô lên đến hàng nghìn GPU. AWS giúp giảm chi phí bằng cách cung cấp các giải pháp được tối ưu hóa cho những ứng dụng cụ thể và không cần vốn đầu tư lớn. Tìm hiểu thêm >>

Hỗ trợ NVIDIA RTX Virtual Workstation

Các AMI NVIDIA RTX Virtual Workstation cung cấp hiệu năng đồ họa cao bằng cách sử dụng phiên bản P3 mạnh mẽ kết hợp với các GPU NVIDIA Volta V100 chạy trong đám mây AWS. Các AMI này được cài sẵn phần mềm đồ họa GPU NVIDIA mới nhất cùng với trình điều khiển RTX mới nhất và chứng nhận NVIDIA ISV hỗ trợ lên tới bốn độ phân giải màn hình 4K. Các phiên bản P3 có các GPU NVIDIA V100 kết hợp với RTX vWS cung cấp máy trạm có hiệu năng cao trong đám mây với bộ nhớ GPU lên tới 32 GiB, công nghệ dò tia (ray tracing) nhanh và dựng hình sử dụng trí tuệ nhân tạo.

Các AMI mới đã có mặt trên AWS Marketplace, hỗ trợ Windows Server 2016 và Windows Server 2019.

Phiên bản Amazon EC2 P3dn.24xlarge

Kích thước phiên bản mới nhanh hơn, mạnh hơn và lớn hơn được tối ưu hóa để hỗ trợ máy học phân tán và điện toán hiệu năng cao

Các phiên bản Amazon EC2 P3dn.24xlarge là phiên bản nhanh nhất, mạnh mẽ nhất và có quy mô phiên bản P3 lớn nhất, đồng thời cung cấp thông lượng mạng lên tới 100 Gbps, 8 GPU NVIDIA® V100 Tensor Core với bộ nhớ 32 GiB mỗi GPU, 96 vCPU tùy chỉnh Intel® Xeon® Scalable (Skylake) và 1,8 TB lưu trữ SSD cục bộ trên NVMe. Kết nối mạng nhanh hơn, bộ xử lý mới, bộ nhớ GPU gấp đôi và vCPU bổ sung cho phép nhà phát triển giảm đáng kể thời gian đào tạo các mô hình ML hoặc chạy nhiều bản mô phỏng HPC hơn bằng cách tăng quy mô tác vụ trong một số phiên bản (ví dụ: phiên bản 16, 32 hoặc 64). Các mô hình máy học đòi hỏi một lượng lớn dữ liệu để đào tạo và ngoài việc tăng thông lượng truyền dữ liệu giữa các phiên bản, cũng có thể sử dụng thông lượng mạng bổ sung của các phiên bản P3dn.24xlarge để tăng tốc truy cập vào lượng lớn dữ liệu đào tạo nhờ việc kết nối với Amazon S3 hoặc các giải pháp hệ thống tập tin được chia sẻ như Amazon EFS.

Hết nghẽn mạng và giảm thời gian đào tạo máy học

Với thông lượng mạng 100 Gbps, các nhà phát triển có thể sử dụng hiệu quả một số lượng lớn các phiên bản P3dn.24xlarge để đào tạo phân tán và giảm đáng kể thời gian đào tạo các mô hình của họ. 96 vCPU của bộ xử lý Intel Skylake tùy chỉnh theo AWS với chỉ dẫn AVX-512 hoạt động ở tốc độ 2,5GHz sẽ giúp tối ưu hóa hoạt động xử lý dữ liệu trước. Ngoài ra, phiên bản P3dn.24xlarge sử dụng Hệ thống AWS Nitro, một sự kết hợp giữa phần cứng chuyên dụng và hypervisor gọn nhẹ, mang đến hầu như tất cả các tài nguyên điện toán và bộ nhớ của phần cứng lưu trữ tới phiên bản của bạn. Phiên bản P3dn.24xlarge cũng hỗ trợ Elastic Fabric Adapter cho phép các ứng dụng máy học sử dụng Thư viện giao tiếp chung NVIDIA (NCCL) để mở rộng quy mô lên tới hàng nghìn GPU.

Giảm TCO (Tổng chi phí sở hữu) nhờ tối ưu hóa mức sử dụng GPU

Bạn có thể sử dụng kết nối mạng được tăng cường bằng cách sử dụng phiên bản mới nhất của Elastic Network Adapter với tối đa 100 Gbps tổng băng thông mạng không chỉ để chia sẻ dữ liệu giữa một số phiên bản P3dn.24xlarge mà còn để truy cập dữ liệu thông lượng cao thông qua Amazon S3 hoặc giải pháp hệ thống tệp được chia sẻ chẳng hạn như Amazon EFS. Truy cập dữ liệu thông lượng cao có ý nghĩa quyết định đến việc tối ưu hóa mức sử dụng GPU và đem đến hiệu năng tối đa từ các phiên bản điện toán.

Hỗ trợ các mô hình lớn hơn và phức tạp hơn

Phiên bản P3dn.24xlarge cung cấp các GPU nhân xử lý NVIDIA V100 Tensor với 32GiB bộ nhớ để đem đến sự linh hoạt trong việc đào tạo những mô hình máy học cao cấp hơn và lớn hơn, cũng như xử lý các lô dữ liệu lớn hơn chẳng hạn như ảnh 4k cho các hệ thống phân loại ảnh và phát hiện đối tượng.

Chi tiết sản phẩm phiên bản Amazon EC2 P3

Kích cỡ phiên bản	GPU - Tesla V100	GPU Peer to Peer	Bộ nhớ GPU (GB)	vCPU	Bộ nhớ (GB)	Băng thông mạng	Băng thông EBS	Giá theo yêu cầu/giờ*	Giá thực tế theo giờ của phiên bản dự trữ 1 năm*	Giá thực tế theo giờ của phiên bản dự trữ 3 năm*
p3.2xlarge	1	Không áp dụng	16	8	61	Lên đến 10 Gbps	1.5 Gbps	3.06 USD	1.99 USD	1.05 USD
p3.8xlarge	4	NVLink	64	32	244	10 Gbps	7 Gbps	12.24 USD	7.96 USD	4.19 USD
p3.16xlarge	8	NVLink	128	64	488	25 Gbps	14 Gbps	24.48 USD	15.91 USD	8.39 USD
p3dn.24xlarge	8	NVLink	256	96	768	100 Gbps	19 Gbps	31,218 USD	18.30 USD	9.64 USD

* - Giá hiển thị là dành cho Linux/Unix ở Khu vực AWS Miền Đông Hoa Kỳ (Phía Bắc Virginia) và được làm tròn đến cent nhỏ nhất. Để xem đầy đủ thông tin chi tiết về giá, hãy xem trang về giá của Amazon EC2.

Khách hàng có thể mua các phiên bản P3 dưới dạng Phiên bản theo nhu cầu, Phiên bản dự trữ, Phiên bản Spot và Máy chủ chuyên dụng.

Tính tiền theo giây

Một trong nhiều ưu điểm của điện toán đám mây là bản chất co giãn của việc cung cấp hoặc ngừng cung cấp tài nguyên khi bạn cần chúng. Bằng cách sử dụng thanh toán xuống đến mức giây, chúng tôi cho phép khách hàng tăng mức độ co giãn, tiết kiệm tiền và cho phép họ tối ưu hóa phân bổ nguồn lực để đạt được các mục tiêu machine learning của mình.

Giá Phiên bản dự trữ

Phiên bản dự trữ đưa ra mức chiết khấu đáng kể (lên đến 75%) so với giá Phiên bản theo nhu cầu. Bên cạnh đó, khi Phiên bản dự trữ được chỉ định cho một Vùng sẵn sàng cụ thể, các Phiên bản dự trữ sẽ cung cấp một dự trữ công suất, giúp bạn thêm tự tin vào khả năng khởi chạy các phiên bản khi cần.

Giá Spot

Với Phiên bản Spot, bạn thanh toán giá Spot theo khoảng thời gian các phiên bản của bạn chạy. Giá phiên bản Spot là giá do Amazon EC2 ấn định và được điều chỉnh dần theo các xu hướng dài hạn về năng lực cung cầu đối với Phiên bản Spot. Phiên bản Spot được giảm giá tới 90% so với giá của phiên bản Theo nhu cầu.

Khả năng sử dụng trên toàn cầu

Khả năng sử dụng trên toàn cầu của phiên bản P3

Các phiên bản P3.2xlarge, P3.8xlarge và P3.16xlarge của Amazon EC2 được cung cấp ở 14 Khu vực AWS để khách hàng có thể linh hoạt đào tạo và triển khai các mô hình machine learning của họ tại bất cứ nơi nào dữ liệu của họ được lưu trữ. P3 được cung cấp tại các khu vực AWS Miền Đông Hoa Kỳ (Bắc Virginia), Miền Đông Hoa Kỳ (Ohio), Miền Tây Hoa Kỳ (Oregon), Canada (Miền Trung), Châu Âu (Ai-len), Châu Âu (Frankfurt), Châu Âu (London), Châu Á Thái Bình Dương (Tokyo), Châu Á Thái Bình Dương (Seoul), Châu Á Thái Bình Dương (Sydney), Châu Á Thái Bình Dương (Singapore), Trung Quốc (Bắc Kinh), Trung Quốc (Ninh Hạ) và GovCloud (Miền Tây Hoa Kỳ).

Phiên bản P3dn.24xlarge được cung cấp ở khu vực AWS Châu Á Thái Bình Dương (Tokyo), Châu Âu (Ai-len), Miền Đông Hoa Kỳ (Bắc Virginia), Miền Tây Hoa Kỳ (Oregon), GovCloud (Miền Tây Hoa Kỳ) và GovCloud (Miền Đông Hoa Kỳ).

Bắt đầu với các phiên bản Amazon EC2 P3 cho machine learning

Để bắt đầu trong vòng vài phút, hãy tìm hiểu thêm về Amazon SageMaker hoặc sử dụng AMI AWS Deep Learning, được cài đặt sẵn với các framework về deep learning phổ biến như Caffe2 và MXNet. Ngoài ra, bạn cũng có thể sử dụng AMI NVIDIA với trình điều khiển GPU và bộ công cụ CUDA được cài sẵn.

Blog, bài viết và hội thảo trên web

Jeff Barr

Mới – Phiên bản Amazon EC2 với tối đa 8 GPU NVIDIA Tesla V100 (P3)

_{Jeff Barr}

_{Ngày 25 tháng 10 năm 2017}

Amazon SageMaker – Tăng tốc Machine Learning

_{Randall Hunt}

_{Ngày 29 tháng 11 năm 2017}

Bắt đầu Deep Learning bằng việc sử dụng AWS Deep Learning AMI

_{Cynthya Peranandam}

_{Ngày 13 tháng 9 năm 2017}

Viện nghiên cứu Toyota tăng tốc lái xe tự động an toàn với deep learning ở quy mô toàn cầu trên AWS

_{Geoff Murase}

_{Ngày 20 tháng 6 năm 2018}

Đào tạo deep learning đa nút với quy mô linh hoạt bằng GPU trên Đám mây AWS

_{Amr Ragab, Chetan Kapoor, Rahul Huilgol, Jarvis Lee, Tyler Mullenbach và Yong Wu}

_{Ngày 20 tháng 7 năm 2018}

Huấn luyện đa nút với quy mô linh hoạt cùng TensorFlow

_{Aaron Markham}

_{Ngày 17 tháng 12 năm 2018}

GPU lập lịch cho các tác vụ deep learning trên Amazon ECS

_{Brent Langston}

_{Ngày 13 tháng 2 năm 2019}

Bộ phận Nghiên cứu của tập đoàn Volkswagen làm việc với Altair và sử dụng công nghệ Nvidia trên AWS để đẩy nhanh công tác thiết kế khái niệm khí động học

_{Tháng 5 năm 2019}

Hội thảo trên web: Phát triển các mô hình Deep Learning cho thị giác máy tính với các phiên bản Amazon EC2 P3

Ngày phát sóng: 19 tháng 12 năm 2018

Cấp độ: 200

Tầm nhìn máy tính liên quan đến cách máy tính có thể được huấn luyện để có được mức độ hiểu biết cao từ hình ảnh hoặc video kỹ thuật số. Lịch sử của tầm nhìn máy tính bắt nguồn từ năm 1960, nhưng những tiến bộ gần đây trong công nghệ xử lý đã hỗ trợ các ứng dụng như điều hướng các phương tiện tự lái hoạt động. Buổi nói chuyện công nghệ này sẽ xem xét các bước khác nhau cần thiết để xây dựng, đào tạo và triển khai mô hình machine learning cho tầm nhìn máy tính. Chúng ta sẽ so sánh và đối chiếu việc đào tạo các mô hình thị giác máy tính bằng cách sử dụng các phiên bản Amazon EC2 khác nhau và nêu bật mức độ tiết kiệm thời gian đáng kể có thể đạt được bằng cách sử dụng các phiên bản Amazon EC2 P3.

Hội thảo trên web: Tăng tốc khối lượng công việc Machine Learning bằng cách sử dụng phiên bản Amazon EC2 P3

Ngày phát sóng: 31 tháng 7 năm 2018

Cấp độ 200

Các tổ chức đang giải quyết các câu hỏi phức tạp theo cấp số nhân trên các lĩnh vực khoa học, năng lượng, công nghệ cao và y tế tiên tiến. Machine learning (ML) cho phép khám phá nhanh vô số tình huống và đưa ra câu trả lời tốt nhất, từ hình ảnh, video và nhận dạng giọng nói đến hệ thống xe tự hành và dự báo thời tiết. Đối với các nhà khoa học dữ liệu, nhà nghiên cứu và nhà phát triển muốn tăng tốc độ phát triển ứng dụng ML của họ, các phiên bản Amazon EC2 P3 chính là phiên bản điện toán GPU mạnh mẽ, linh hoạt và hiệu quả nhất về chi phí có sẵn trong đám mây.

Sức mạnh của P3: Giảm thời gian đào tạo về Machine Learning từ vài ngày xuống còn vài phút

Giới thiệu về Amazon SageMaker

Nhấp vào đây để tìm hiểu thêm

Giới thiệu về Deep Learning trên AWS

Nhấp vào đây để tìm hiểu thêm

Giới thiệu về Điện toán hiệu năng cao (HPC)

Nhấp vào đây để tìm hiểu thêm

Bạn đã sẵn sàng bắt đầu chưa?

Đăng ký

Bạn có câu hỏi khác ư?

Liên hệ với chúng tôi