- Amazon EC2›
- Loại phiên bản›
- Phiên bản P4
Phiên bản Amazon EC2 P4
Hiệu năng cao cho đào tạo ML và các ứng dụng HPC trên đám mây
Tại sao nên chọn Phiên bản Amazon EC2 P4?
Phiên bản Amazon Elastic Compute Cloud (Amazon EC2) P4d mang lại hiệu năng cao cho đào tạo máy học (ML) và các ứng dụng điện toán hiệu năng cao (HPC) trên đám mây. Phiên bản P4d hoạt động trên nền GPU NVIDIA A100 Tensor Core và mang lại thông lượng cao và kết nối mạng độ trễ thấp hàng đầu trong ngành. Các phiên bản này hỗ trợ kết nối mạng phiên bản 400 Gbps. Phiên bản P4d cung cấp chi phí đào tạo mô hình ML thấp hơn tới 60%, bao gồm hiệu năng tốt hơn trung bình 2,5 lần cho các mô hình học sâu so với phiên bản P3 và P3dn thế hệ trước.
Phiên bản P4d được triển khai trong các cụm được gọi là Amazon EC2 UltraClusters bao gồm tính toán hiệu suất cao, kết nối mạng và lưu trữ trên đám mây. Mỗi EC2 UltraCluster là một trong những siêu máy tính mạnh nhất trên thế giới, giúp bạn chạy khối lượng công việc HPC phân tán và đào tạo ML nhiều nút phức tạp nhất. Bạn có thể dễ dàng điều chỉnh quy mô từ vài đến hàng nghìn GPU NVIDIA A100 trong EC2 UltraClusters dựa trên nhu cầu dự án ML hoặc HPC của bạn.
Các nhà nghiên cứu, nhà khoa học dữ liệu và nhà phát triển có thể sử dụng các phiên bản P4d để đào tạo các mô hình ML cho các trường hợp sử dụng như xử lý ngôn ngữ tự nhiên, phát hiện và phân loại đối tượng và các công cụ đề xuất. Họ cũng có thể sử dụng phiên bản này để chạy các ứng dụng HPC như khám phá dược phẩm, phân tích địa chấn và lập mô hình tài chính. Không giống như các hệ thống tại chỗ, bạn có thể truy cập dung lượng lưu trữ và điện toán hầu như không giới hạn, điều chỉnh quy mô cơ sở hạ tầng dựa trên nhu cầu kinh doanh và thực hiện tác vụ đào tạo ML nhiều nút hoặc ứng dụng HPC phân tán được liên kết phụ thuộc trong vài phút mà không cần bất kỳ chi phí thiết lập hoặc bảo trì nào.
Công bố Phiên bản Amazon EC2 P4d mới
Lợi ích
Với GPU NVIDIA A100 Tensor Core thế hệ mới nhất, mỗi phiên bản P4d mang lại hiệu năng học sâu tốt hơn trung bình 2,5 lần so với phiên bản P3 thế hệ trước. EC2 UltraClusters của phiên bản P4d giúp các nhà phát triển hàng ngày, nhà khoa học dữ liệu và nhà nghiên cứu chạy khối lượng công việc ML và HPC phức tạp nhất của họ bằng cách cung cấp quyền truy cập vào hiệu năng cấp siêu máy tính mà không cần bất kỳ chi phí trả trước hoặc cam kết dài hạn nào. Thời gian đào tạo giảm nhờ phiên bản P4d giúp tăng năng suất, cho phép các nhà phát triển tập trung vào sứ mệnh cốt lõi của họ là xây dựng trí thông minh ML vào các ứng dụng kinh doanh.
Các nhà phát triển có thể điều chỉnh quy mô liền mạch lên đến hàng nghìn GPU với EC2 UltraClusters của phiên bản P4d. Kết nối mạng thông lượng cao, độ trễ thấp với hỗ trợ kết nối mạng phiên bản 400 Gbps, Trình chuyển cấu trúc linh hoạt (EFA) và công nghệ GPUDirect RDMA giúp đào tạo nhanh các mô hình ML bằng cách sử dụng các kỹ thuật tăng quy mô theo phiên bản/phân tán. EFA sử dụng Thư viện giao tiếp chung NVIDIA (NCCL) để điều chỉnh quy mô lên hàng nghìn GPU và công nghệ GPUDirect RDMA cho phép giao tiếp giữa GPU và GPU có độ trễ thấp giữa các phiên bản P4d.
Phiên bản P4d mang lại chi phí đào tạo mô hình ML thấp hơn tới 60% so với phiên bản P3. Ngoài ra, phiên bản P4d có sẵn để mua dưới dạng Phiên bản dùng ngay. Phiên bản dùng ngay tận dụng công suất chưa sử dụng của phiên bản EC2 và có thể giảm đáng kể chi phí EC2 của bạn tới 90% so với giá của phiên bản Theo nhu cầu. Với chi phí đào tạo ML thấp hơn nhờ các phiên bản P4d, ngân sách có thể được phân bổ lại để xây dựng thêm trí thông minh ML vào các ứng dụng kinh doanh.
AMI học sâu của AWS (DLAMI) và Bộ chứa học sâu của Amazon giúp triển khai môi trường học sâu P4d dễ dàng hơn trong vài phút vì chúng chứa các thư viện và công cụ khung DL cần thiết. Bạn cũng có thể dễ dàng thêm thư viện và công cụ của riêng bạn vào những hình ảnh này. Phiên bản P4d hỗ trợ các khung ML phổ biến, chẳng hạn như TensorFlow, PyTorch và MXNet. Ngoài ra, các phiên bản P4d được hỗ trợ bởi các dịch vụ AWS chính cho ML, quản lý và điều phối, chẳng hạn như Amazon SageMaker, Dịch vụ Kubernetes linh hoạt Amazon (Amazon EKS), Amazon Elastic Container Service (Amazon ECS), Lô AWS và AWS ParallelCluster.
Tính năng
GPU NVIDIA A100 Tensor Core mang đến khả năng tăng tốc chưa từng có ở quy mô lớn cho ML và HPC. Tensor Core thế hệ thứ ba của NVIDIA A100 tăng tốc mọi khối lượng công việc chính xác, đẩy nhanh thời gian có được thông tin chuyên sâu và thời gian đưa ra thị trường. Mỗi GPU A100 cung cấp hiệu năng điện toán cao hơn 2,5 lần so với GPU V100 thế hệ trước và đi kèm với bộ nhớ GPU hiệu năng cao 40 GB HBM2 (trong các phiên bản P4d) hoặc 80 GB HBM2e (trong các phiên bản P4de). Bộ nhớ GPU cao hơn đặc biệt mang lại lợi ích cho việc đào tạo khối lượng công việc trên các tập dữ liệu lớn của dữ liệu có độ phân giải cao. GPU NVIDIA A100 sử dụng thông lượng kết nối GPU NVSwitch để mỗi GPU có thể giao tiếp với mọi GPU khác trong cùng một phiên bản ở cùng một thông lượng hai chiều 600 Gb/giây và với độ trễ một bước nhảy.
Phiên bản P4d cung cấp kết nối mạng 400 Gbps để giúp khách hàng tăng quy mô theo phiên bản tốt hơn cho khối lượng công việc phân tán của họ như đào tạo nhiều nút hiệu quả hơn với kết nối mạng thông lượng cao giữa các phiên bản P4d cũng như giữa phiên bản P4d và các dịch vụ lưu trữ như Amazon Simple Storage Service (Amazon S3) và FSx dành cho Lustre. EFA là giao diện mạng tùy chỉnh do AWS thiết kế để giúp điều chỉnh quy mô các ứng dụng ML và HPC lên hàng nghìn GPU. Để giảm độ trễ hơn nữa, EFA được kết hợp với NVIDIA GPUDirect RDMA để cho phép giao tiếp giữa GPU với GPU có độ trễ thấp giữa các máy chủ bỏ qua hệ điều hành.
Truy cập lưu trữ thông lượng cao, độ trễ thấp và quy mô hàng petabyte với FSx dành cho Lustre hoặc lưu trữ tiết kiệm chi phí hầu như không giới hạn với Amazon S3 ở tốc độ 400 Gbps. Đối với khối lượng công việc cần truy cập nhanh vào các tập dữ liệu lớn, mỗi phiên bản P4d cũng bao gồm lưu trữ SSD dựa trên NVMe 8 TB với thông lượng đọc 16 GB/giây.
Phiên bản P4d được xây dựng trên AWS Nitro System, hệ thống này là một tập hợp đa dạng các khối dựng, giúp giảm tải nhiều chức năng ảo hóa truyền thống sang phần cứng và phần mềm chuyên dụng để mang lại hiệu năng cao, độ sẵn sàng cao và độ bảo mật cao, đồng thời giảm tổng chi phí ảo hóa.
Chứng thực từ khách hàng
Dưới đây là một số ví dụ về cách khách hàng và đối tác đạt được mục tiêu kinh doanh của mình với các phiên bản P4 cho Amazon EC2.
Toyota Research Institute (TRI)
BA QUẢNG CÁO
BA QUẢNG CÁO
GE Healthcare
HEAVY.AI
Công ty TNHH Zenotech
Aon
Rad AI
Chi tiết sản phẩm
|
Kích thước phiên bản
|
vCPU
|
Bộ nhớ phiên bản (GiB)
|
GPU – A100
|
Bộ nhớ GPU
|
Băng thông mạng (Gbps)
|
GPUDirect RDMA
|
GPU ngang hàng
|
Lưu trữ phiên bản (GB)
|
Băng thông EBS (Gbps)
|
|---|---|---|---|---|---|---|---|---|---|
|
p4d.24xlarge
|
96
|
1.152
|
8
|
320 GB
HBM2 |
ENA và EFA 400
|
Có
|
NVSwitch 600 GB/giây
|
8 x 1000 SSD NVMe
|
19
|
|
p4de.24xlarge
|
96
|
1.152
|
8
|
640 GB
HBM2e |
ENA và EFA 400
|
Có
|
NVSwitch 600 GB/giây
|
8 x 1000 SSD NVMe
|
19
|
Bắt đầu sử dụng phiên bản P4d cho máy học
Amazon SageMaker là một dịch vụ được quản lý đầy đủ để xây dựng, đào tạo và triển khai các mô hình ML. Khi được sử dụng cùng với các phiên bản P4d, khách hàng có thể dễ dàng điều chỉnh quy mô đến hàng chục, hàng trăm hoặc hàng nghìn GPU để đào tạo mô hình nhanh chóng ở mọi quy mô mà không cần lo lắng về việc thiết lập các cụm và quy trình dữ liệu.
DLAMI cung cấp cho các học viên và nhà nghiên cứu ML cơ sở hạ tầng và công cụ để tăng tốc DL trên đám mây, ở bất kỳ quy mô nào. Deep Learning Contain ers là các hình ảnh Docker được cài đặt sẵn với các khung DL để giúp triển khai môi trường ML tùy chỉnh một cách nhanh chóng dễ dàng hơn bằng cách cho phép bạn bỏ qua quá trình xây dựng và tối ưu hóa môi trường phức tạp của mình từ đầu.
Bắt đầu sử dụng phiên bản P4d cho HPC
Các phiên bản P4d là lựa chọn lý tưởng để chạy các mô phỏng kỹ thuật, tài chính điện toán, phân tích địa chấn, dựng mô hình phân tử, nghiên cứu gen, phối cảnh và các khối lượng công việc HPC dựa trên GPU khác. Các ứng dụng HPC thường yêu cầu hiệu năng mạng cao, lưu trữ nhanh, dung lượng bộ nhớ lớn, khả năng điện toán cao hoặc tất cả các yếu tố kể trên. Các phiên bản P4d hỗ trợ EFA cho phép các ứng dụng HPC sử dụng Giao diện truyền tin nhắn (MPI) để điều chỉnh quy mô lên hàng nghìn GPU. AWS Batch và AWS ParallelCluster giúp các nhà phát triển HPC nhanh chóng xây dựng và điều chỉnh quy mô các ứng dụng HPC phân tán.