Phiên bản Amazon EC2 P5
Phiên bản dựa trên GPU có hiệu năng cao nhất cho các ứng dụng học sâu và HPC
Các phiên bản Amazon Elastic Compute Cloud (Amazon EC2) P5 hoạt động trên nền GPU NVIDIA H100 Tensor Core và các phiên bản P5e hoạt động trên nền GPU NVIDIA H200 Tensor Core mang lại hiệu năng cao nhất trong Amazon EC2 cho các ứng dụng học sâu (DL) và điện toán hiệu năng cao (HPC). Các phiên bản này giúp bạn tăng tốc thời gian đưa ra giải pháp lên đến 4 lần so với các phiên bản EC2 dựa trên GPU thế hệ trước và giảm tới 40% chi phí đào tạo các mô hình máy học. Các phiên bản này giúp bạn lặp lại các giải pháp của mình với nhịp độ nhanh hơn và đưa ra thị trường nhanh hơn. Bạn có thể sử dụng các phiên bản P5 và P5e để đào tạo và triển khai các mô hình ngôn ngữ lớn (LLM) ngày càng phức tạp và các mô hình khuếch tán hỗ trợ cho các ứng dụng trí tuệ nhân tạo (AI) tạo sinh đòi hỏi khắt khe nhất. Các ứng dụng này bao gồm trả lời câu hỏi, tạo mã, tạo video và hình ảnh và nhận dạng giọng nói. Bạn cũng có thể sử dụng các phiên bản này để triển khai các ứng dụng HPC đòi hỏi khắt khe ở quy mô lớn để tìm hiểu về dược phẩm, phân tích địa chấn, dự báo thời tiết và lập mô hình tài chính.
Để thực hiện những cải tiến về hiệu năng và tiết kiệm chi phí này, các phiên bản P5 và P5e bổ sung cho GPU NVIDIA H100 và H200 Tensor Core với hiệu năng CPU gấp đôi, bộ nhớ hệ thống gấp đôi và ổ lưu trữ cục bộ gấp 4 lần so với các phiên bản dựa trên GPU thế hệ trước. Các phiên bản này đem lại khả năng mở rộng quy mô hàng đầu thị trường cho đào tạo phân tán và khối lượng công việc HPC được liên kết chặt chẽ với mạng lên đến 3.200 Gbps sử dụng Trình chuyển cấu trúc linh hoạt thế hệ thứ hai (EFAv2). Để tiến hành điện toán quy mô lớn với độ trễ thấp, các phiên bản P5 và P5e được triển khai trong Amazon EC2 UltraClusters cho phép tăng quy mô lên đến 20.000 GPU H100 và H200. Các phiên bản này được kết nối với nhau với một mạng không chặn có quy mô petabit. Các phiên bản P5 và P5e trong Siêu cụm EC2 có thể đạt tổng công suất điện toán tối đa 20 exaflop, đây là hiệu năng tương đương một siêu máy tính.
Đặt trước phiên bản P5 ngay để sử dụng trong tương lai
Với Khối dung lượng Amazon EC2 dành cho ML, bạn có thể dễ dàng đặt trước các phiên bản P5 và P5e lên đến tám tuần. Bạn có thể đặt trước các phiên bản này trong khoảng thời gian từ một đến 14 ngày và với kích thước cụm từ một đến 64 phiên bản (512 GPU), giúp bạn linh hoạt chạy một loạt khối lượng công việc.
Lợi ích
Đào tạo các mô hình từ 100 tỷ tham số trở lên ở quy mô lớn
Các phiên bản P5 và P5e có thể đào tạo các mô hình AI tạo sinh siêu lớn ở quy mô lớn và mang lại hiệu năng gấp 4 lần so với các phiên bản EC2 dựa trên GPU thế hệ trước.
Giảm thời gian đưa ra giải pháp và lặp lại nhanh hơn
Các phiên bản P5 và P5e giảm thời gian đào tạo và thời gian đưa ra giải pháp từ vài tuần xuống chỉ còn vài ngày. Nhờ đó, bạn lặp lại với nhịp độ nhanh hơn và tiếp cận thị trường nhanh hơn.
Giảm chi phí cơ sở hạ tầng học sâu và HPC
Các phiên bản P5 và P5e tiết kiệm tới 40% chi phí đào tạo học sâu và cơ sở hạ tầng HPC so với các phiên bản EC2 dựa trên GPU thế hệ trước.
Chạy đào tạo phân tán và HPC với công suất điện toán ở quy mô exaflop
Các phiên bản P5 và P5e cung cấp kết nối mạng EFAv2 lên đến 3.200 Gbps. Các phiên bản này được triển khai trong Siêu cụm EC2 và có tổng công suất điện toán tối đa 20 exaflop.
Tính năng
GPU NVIDIA H100 và H200 Tensor Core
Các phiên bản P5 cung cấp tối đa 8 GPU NVIDIA H100 với tổng dung lượng bộ nhớ GPU HBM3 lên đến 640 GB cho mỗi phiên bản. Các phiên bản P5e cung cấp tối đa 8 GPU NVIDIA H200 với tổng dung lượng bộ nhớ GPU HBM3e lên đến 1128 GB cho mỗi phiên bản. Cả hai phiên bản hỗ trợ kết nối GPU NVSwitch lên đến 900 GB/giây (tổng băng thông chia đôi 3,6 TB/giây trong mỗi phiên bản), vì vậy mỗi GPU có thể giao tiếp với mọi GPU khác trong cùng một phiên bản với độ trễ một bước nhảy.
Công cụ bộ chuyển đổi mới và chỉ dẫn DPX
GPU NVIDIA H100 và H200 có một công cụ bộ chuyển đổi mới quản lý thông minh và lựa chọn linh hoạt giữa các phép tính FP8 và 16 bit. Tính năng này giúp tăng tốc đào tạo học sâu nhanh hơn trên LLM so với GPU A100 thế hệ trước. Đối với khối lượng công việc HPC, GPU NVIDIA H100 và H200 có chỉ dẫn DPX mới giúp tăng tốc hơn nữa các thuật toán lập trình động so với GPU A100.
Kết nối mạng hiệu năng cao
Các phiên bản P5 và P5e mang lại kết nối mạng EFAv2 lên đến 3.200 Gbps. EFAv2 giúp cải thiện tới 50% hiệu năng giao tiếp tập thể cho khối lượng công việc đào tạo phân tán. EFAv2 cũng được kết hợp với NVIDIA GPUDirect RDMA để cho phép giao tiếp giữa các GPU có độ trễ thấp giữa các máy chủ bỏ qua hệ điều hành.
Lưu trữ hiệu năng cao
Các phiên bản P5 và P5e hỗ trợ Amazon FSx dành cho Lustre để bạn có thể truy cập dữ liệu với thông lượng hàng trăm GB/giây và hàng triệu IOPS cần thiết cho khối lượng công việc học sâu và HPC quy mô lớn. Mỗi phiên bản P5 và P5e cũng hỗ trợ ổ lưu trữ SSD NVMe cục bộ lên đến 30 TB để truy cập nhanh các tập dữ liệu lớn. Bạn cũng có thể sử dụng kho lưu trữ tiết kiệm chi phí gần như không giới hạn Amazon Simple Storage Service (Amazon S3).
Siêu cụm EC2 thế hệ thứ hai
Các phiên bản P5 được triển khai trong Siêu cụm EC2 thế hệ thứ hai, cung cấp kết cấu mạng cho phép quy mô lớn hơn, ít bước nhảy mạng hơn trên cụm và độ trễ thấp hơn so với Siêu cụm thế hệ trước. Các phiên bản P5 trong Siêu cụm có thể tăng quy mô theo tài nguyên lên đến 20.000 GPU H100 được kết nối với mạng có quy mô petabit và có tổng công suất điện toán 20 exaflop.
Tích hợp liền mạch với các dịch vụ AWS khác
Các phiên bản P5 và P5e có thể được triển khai bằng AMI học sâu của AWS (DLAMI) và Bộ chứa học sâu của AWS. Các phiên bản này được cung cấp thông qua các dịch vụ được quản lý như Amazon SageMaker, Dịch vụ Kubernetes linh hoạt Amazon (Amazon EKS), Amazon Elastic Container Service (Amazon ECS), Lô AWS, v.v.
Câu chuyện của khách hàng
Anthropic xây dựng các hệ thống AI đáng tin cậy, có thể diễn giải và có thể điều khiển mà sẽ có nhiều cơ hội để tạo ra giá trị thương mại và vì lợi ích công cộng.
“Tại Anthropic, chúng tôi đang nỗ lực để xây dựng các hệ thống AI đáng tin cậy, có thể diễn giải và có thể điều khiển. Mặc dù các hệ thống AI chung quy mô lớn ngày nay có thể mang lại những lợi ích đáng kể nhưng cũng có thể không thể dự đoán, không đáng tin cậy và không rõ ràng. Mục tiêu của chúng tôi là cải thiện được những vấn đề này và triển khai các hệ thống mà mọi người thấy hữu ích. Chúng tôi là một trong số ít các tổ chức trên thế giới đang xây dựng các mô hình nền tảng trong nghiên cứu học sâu. Những mô hình này rất phức tạp và để phát triển và đào tạo các mô hình tiên tiến này, chúng ta cần phân phối các mô hình này một cách hiệu quả trên các cụm GPU lớn. Hiện nay, chúng ta đang sử dụng rộng rãi các phiên bản Amazon EC2 P4 và chúng tôi rất vui mừng về việc ra mắt các phiên bản P5. Chúng tôi hy vọng các phiên bản này sẽ mang lại lợi ích giá/hiệu năng đáng kể so với các phiên bản P4d và các phiên bản này sẽ có sẵn ở quy mô lớn cần thiết để xây dựng LLM thế hệ tiếp theo và các sản phẩm có liên quan”.
Tom Brown, Người đồng sáng lập, Anthropic
Công ty tiên phong hàng đầu về AI ngôn ngữ là Cohere tạo điều kiện cho mọi nhà phát triển và doanh nghiệp xây dựng các sản phẩm tuyệt vời với công nghệ xử lý ngôn ngữ tự nhiên (NLP) hàng đầu thế giới trong khi vẫn đảm bảo dữ liệu của họ riêng tư và an toàn
“Cohere dẫn đầu trong việc giúp mọi doanh nghiệp khai thác sức mạnh của AI ngôn ngữ để khám phá, tạo, tìm kiếm và hành động dựa trên thông tin một cách tự nhiên và trực quan, triển khai trên nhiều nền tảng đám mây trong môi trường dữ liệu hoạt động hiệu quả nhất cho từng khách hàng. Các phiên bản Amazon EC2 P5 hoạt động trên nền NVIDIA H100 sẽ giải phóng khả năng tạo, phát triển và mở rộng quy mô nhanh hơn cho các doanh nghiệp với khả năng điện toán kết hợp với các khả năng của AI tạo sinh và LLM hiện đại của Cohere”.
Aidan Gomez, Giám đốc Điều hành, Cohere
Hugging Face đang thực hiện sứ mệnh dân chủ hóa máy học tốt.
“Là cộng đồng nguồn mở phát triển nhanh nhất cho máy học, hiện chúng tôi cung cấp hơn 150.000 mô hình được đào tạo trước và 25.000 tập dữ liệu trên nền tảng của chúng tôi cho NLP, thị giác máy tính, sinh học, học tăng cường, v.v. Với những tiến bộ đáng kể trong LLM và AI tạo sinh, chúng tôi đang hợp tác với AWS để xây dựng và đóng góp các mô hình nguồn mở của tương lai. Chúng tôi mong muốn sẽ sử dụng các phiên bản Amazon EC2 P5 thông qua Amazon SageMaker trên quy mô lớn trong Siêu cụm với EFA để đẩy nhanh việc cung cấp các mô hình AI nền tảng mới cho mọi người”.
Julien Chaumond, Giám đốc Công nghệ và Người đồng sáng lập, Hugging Face
Chi tiết sản phẩm
Kích cỡ phiên bản | vCPU | Dung lượng bộ nhớ của phiên bản (TiB) | GPU | Bộ nhớ GPU | Băng thông mạng (Gbps) | GPUDirect RDMA | GPU ngang hàng | Dung lượng lưu trữ của phiên bản (TB) | Băng thông EBS (Gbps) |
---|---|---|---|---|---|---|---|---|---|
p5.48xlarge | 192 | 2 | 8 H100 | 640 GB HBM3 |
EFA 3200 Gbps | Có | NVSwitch 900 GB/giây | 8 x 3.84 SSD NVMe | 80 |
p5e.48xlarge | 192 | 2 | 8 H200 | 1128 GB HBM3e |
EFA 3200 Gbps | Có | NVSwitch 900 GB/giây | 8 x 3.84 SSD NVMe | 80 |
Bắt đầu với các trường hợp sử dụng ML
Sử dụng SageMaker
SageMaker là một dịch vụ được quản lý toàn phần nhằm xây dựng, đào tạo và triển khai các mô hình máy học. Khi được sử dụng cùng các phiên bản P5, bạn có thể dễ dàng điều chỉnh quy mô lên hàng chục, hàng trăm hoặc hàng nghìn GPU để huấn luyện mô hình nhanh chóng ở quy mô bất kỳ mà không cần lo lắng về việc thiết lập các cụm và quy trình dữ liệu.
Sử dụng DLAMI hoặc Bộ chứa học sâu
DLAMI cung cấp cơ sở hạ tầng và công cụ cho những người thực hành và nhà nghiên cứu máy học để tăng tốc học sâu trên đám mây ở mọi quy mô. Bộ chứa học sâu là các hình ảnh Docker được cài đặt sẵn với các khung học sâu để hợp lý hóa việc triển khai môi trường máy học tùy chỉnh bằng cách cho phép bạn bỏ qua quá trình xây dựng và tối ưu hóa môi trường phức tạp của mình ngay từ đầu.
Sử dụng Amazon EKS hoặc Amazon ECS
Nếu muốn quản lý khối lượng công việc trong bộ chứa của riêng mình thông qua các dịch vụ điều phối bộ chứa, bạn có thể triển khai các phiên bản P5 với Amazon EKS hoặc Amazon ECS.
Bắt đầu với các trường hợp sử dụng HPC
Các phiên bản P5 là nền tảng lý tưởng để chạy các mô phỏng kỹ thuật, tài chính điện toán, phân tích địa chấn, dựng mô hình phân tử, nghiên cứu gen và chức năng gen, phối cảnh và các khối lượng công việc HPC dựa trên GPU khác. Các ứng dụng HPC thường yêu cầu hiệu năng mạng cao, lưu trữ nhanh, dung lượng bộ nhớ lớn, khả năng điện toán cao hoặc tất cả các yếu tố kể trên. Các phiên bản P5 hỗ trợ EFAv2 cho phép các ứng dụng HPC sử dụng Giao diện truyền tin nhắn (MPI) để điều chỉnh quy mô lên hàng nghìn GPU. Lô AWS Batch và AWS ParallelCluster giúp các nhà phát triển HPC nhanh chóng xây dựng và điều chỉnh quy mô các ứng dụng HPC phân tán.
Tìm hiểu thêm »
Bắt đầu sử dụng AWS
Đăng ký tài khoản AWS
Nhận ngay quyền sử dụng Bậc miễn phí của AWS.
Tìm hiểu bằng hướng dẫn 10 phút
Khám phá và tìm hiểu bằng những hướng dẫn đơn giản.
Bắt đầu dựng trong bảng điều khiển
Bắt đầu dựng với các hướng dẫn từng bước để giúp bạn khởi tạo dự án AWS của mình.