Phiên bản Amazon EC2 P4

Hiệu năng cao cho đào tạo ML và các ứng dụng HPC trên đám mây

Tại sao nên chọn Phiên bản Amazon EC2 P4?

Phiên bản Amazon Elastic Compute Cloud (Amazon EC2) P4d mang lại hiệu năng cao cho đào tạo máy học (ML) và các ứng dụng điện toán hiệu năng cao (HPC) trên đám mây. Phiên bản P4d hoạt động trên nền GPU NVIDIA A100 Tensor Core và mang lại thông lượng cao và kết nối mạng độ trễ thấp hàng đầu trong ngành. Các phiên bản này hỗ trợ kết nối mạng phiên bản 400 Gbps. Phiên bản P4d cung cấp chi phí đào tạo mô hình ML thấp hơn tới 60%, bao gồm hiệu năng tốt hơn trung bình 2,5 lần cho các mô hình học sâu so với phiên bản P3 và P3dn thế hệ trước.

Phiên bản P4d được triển khai trong các cụm siêu quy mô được gọi là Amazon EC2 UltraClusters bao gồm điện toán hiệu năng cao, kết nối mạng và lưu trữ trên đám mây. Mỗi EC2 UltraCluster là một trong những siêu máy tính mạnh nhất trên thế giới, giúp bạn chạy khối lượng công việc HPC phân tán và đào tạo ML nhiều nút phức tạp nhất. Bạn có thể dễ dàng điều chỉnh quy mô từ vài đến hàng nghìn GPU NVIDIA A100 trong EC2 UltraClusters dựa trên nhu cầu dự án ML hoặc HPC của bạn.

Các nhà nghiên cứu, nhà khoa học dữ liệu và nhà phát triển có thể sử dụng các phiên bản P4d để đào tạo các mô hình ML cho các trường hợp sử dụng như xử lý ngôn ngữ tự nhiên, phát hiện và phân loại đối tượng và các công cụ đề xuất. Họ cũng có thể sử dụng phiên bản này để chạy các ứng dụng HPC như khám phá dược phẩm, phân tích địa chấn và lập mô hình tài chính. Không giống như các hệ thống tại chỗ, bạn có thể truy cập dung lượng lưu trữ và điện toán hầu như không giới hạn, điều chỉnh quy mô cơ sở hạ tầng dựa trên nhu cầu kinh doanh và thực hiện tác vụ đào tạo ML nhiều nút hoặc ứng dụng HPC phân tán được liên kết phụ thuộc trong vài phút mà không cần bất kỳ chi phí thiết lập hoặc bảo trì nào.

Công bố Phiên bản Amazon EC2 P4d mới

Lợi ích

Với GPU NVIDIA A100 Tensor Core thế hệ mới nhất, mỗi phiên bản P4d mang lại hiệu năng học sâu tốt hơn trung bình 2,5 lần so với phiên bản P3 thế hệ trước. EC2 UltraClusters của phiên bản P4d giúp các nhà phát triển hàng ngày, nhà khoa học dữ liệu và nhà nghiên cứu chạy khối lượng công việc ML và HPC phức tạp nhất của họ bằng cách cung cấp quyền truy cập vào hiệu năng cấp siêu máy tính mà không cần bất kỳ chi phí trả trước hoặc cam kết dài hạn nào. Thời gian đào tạo giảm nhờ phiên bản P4d giúp tăng năng suất, cho phép các nhà phát triển tập trung vào sứ mệnh cốt lõi của họ là xây dựng trí thông minh ML vào các ứng dụng kinh doanh.

Các nhà phát triển có thể điều chỉnh quy mô liền mạch lên đến hàng nghìn GPU với EC2 UltraClusters của phiên bản P4d. Kết nối mạng thông lượng cao, độ trễ thấp với hỗ trợ kết nối mạng phiên bản 400 Gbps, Trình chuyển cấu trúc linh hoạt (EFA) và công nghệ GPUDirect RDMA giúp đào tạo nhanh các mô hình ML bằng cách sử dụng các kỹ thuật tăng quy mô theo phiên bản/phân tán. EFA sử dụng Thư viện giao tiếp chung NVIDIA (NCCL) để điều chỉnh quy mô lên hàng nghìn GPU và công nghệ GPUDirect RDMA cho phép giao tiếp giữa GPU và GPU có độ trễ thấp giữa các phiên bản P4d.

Phiên bản P4d mang lại chi phí đào tạo mô hình ML thấp hơn tới 60% so với phiên bản P3. Ngoài ra, phiên bản P4d có sẵn để mua dưới dạng Phiên bản dùng ngay. Phiên bản dùng ngay tận dụng công suất chưa sử dụng của phiên bản EC2 và có thể giảm đáng kể chi phí EC2 của bạn tới 90% so với giá của phiên bản Theo nhu cầu. Với chi phí đào tạo ML thấp hơn nhờ các phiên bản P4d, ngân sách có thể được phân bổ lại để xây dựng thêm trí thông minh ML vào các ứng dụng kinh doanh.

AMI học sâu của AWS (DLAMI) và Bộ chứa học sâu của Amazon giúp triển khai môi trường học sâu P4d dễ dàng hơn trong vài phút vì chúng chứa các thư viện và công cụ khung DL cần thiết. Bạn cũng có thể dễ dàng thêm thư viện và công cụ của riêng bạn vào những hình ảnh này. Phiên bản P4d hỗ trợ các khung ML phổ biến, chẳng hạn như TensorFlow, PyTorch và MXNet. Ngoài ra, các phiên bản P4d được hỗ trợ bởi các dịch vụ AWS chính cho ML, quản lý và điều phối, chẳng hạn như Amazon SageMaker, Dịch vụ Kubernetes linh hoạt Amazon (Amazon EKS), Amazon Elastic Container Service (Amazon ECS), Lô AWS và AWS ParallelCluster.

Tính năng

GPU NVIDIA A100 Tensor Core mang đến khả năng tăng tốc chưa từng có ở quy mô lớn cho ML và HPC. Tensor Core thế hệ thứ ba của NVIDIA A100 tăng tốc mọi khối lượng công việc chính xác, đẩy nhanh thời gian có được thông tin chuyên sâu và thời gian đưa ra thị trường. Mỗi GPU A100 cung cấp hiệu năng điện toán cao hơn 2,5 lần so với GPU V100 thế hệ trước và đi kèm với bộ nhớ GPU hiệu năng cao 40 GB HBM2 (trong các phiên bản P4d) hoặc 80 GB HBM2e (trong các phiên bản P4de). Bộ nhớ GPU cao hơn đặc biệt mang lại lợi ích cho việc đào tạo khối lượng công việc trên các tập dữ liệu lớn của dữ liệu có độ phân giải cao. GPU NVIDIA A100 sử dụng thông lượng kết nối GPU NVSwitch để mỗi GPU có thể giao tiếp với mọi GPU khác trong cùng một phiên bản ở cùng một thông lượng hai chiều 600 Gb/giây và với độ trễ một bước nhảy.

Phiên bản P4d cung cấp kết nối mạng 400 Gbps để giúp khách hàng tăng quy mô theo phiên bản tốt hơn cho khối lượng công việc phân tán của họ như đào tạo nhiều nút hiệu quả hơn với kết nối mạng thông lượng cao giữa các phiên bản P4d cũng như giữa phiên bản P4d và các dịch vụ lưu trữ như Amazon Simple Storage Service (Amazon S3) và FSx dành cho Lustre. EFA là giao diện mạng tùy chỉnh do AWS thiết kế để giúp điều chỉnh quy mô các ứng dụng ML và HPC lên hàng nghìn GPU. Để giảm độ trễ hơn nữa, EFA được kết hợp với NVIDIA GPUDirect RDMA để cho phép giao tiếp giữa GPU với GPU có độ trễ thấp giữa các máy chủ bỏ qua hệ điều hành.

Truy cập lưu trữ thông lượng cao, độ trễ thấp và quy mô hàng petabyte với FSx dành cho Lustre hoặc lưu trữ tiết kiệm chi phí hầu như không giới hạn với Amazon S3 ở tốc độ 400 Gbps. Đối với khối lượng công việc cần truy cập nhanh vào các tập dữ liệu lớn, mỗi phiên bản P4d cũng bao gồm lưu trữ SSD dựa trên NVMe 8 TB với thông lượng đọc 16 GB/giây.

Phiên bản P4d được xây dựng trên AWS Nitro System, hệ thống này là một tập hợp đa dạng các khối dựng, giúp giảm tải nhiều chức năng ảo hóa truyền thống sang phần cứng và phần mềm chuyên dụng để mang lại hiệu năng cao, độ sẵn sàng cao và độ bảo mật cao, đồng thời giảm tổng chi phí ảo hóa.

Chứng thực từ khách hàng

Dưới đây là một số ví dụ về cách khách hàng và đối tác đạt được mục tiêu kinh doanh của mình với các phiên bản Amazon EC2 P4.

  • Toyota Research Institute (TRI)

    Viện Nghiên cứu Toyota (TRI), được thành lập vào năm 2015, đang nỗ lực phát triển công nghệ lái xe tự động, robot và các công nghệ khuếch đại con người khác cho Toyota.

    Tại TRI, chúng tôi đang nỗ lực xây dựng một tương lai nơi mọi người đều có thể tự do di chuyển. Các phiên bản P3 thế hệ trước đã giúp chúng tôi giảm thời gian đào tạo các mô hình ML từ vài ngày xuống còn vài giờ. Chúng tôi rất mong chờ sử dụng các phiên bản P4d, vì bộ nhớ GPU bổ sung và các định dạng số thực hiệu quả hơn sẽ cho phép đội ngũ máy học của chúng tôi đào tạo với các mô hình phức tạp hơn với tốc độ thậm chí còn nhanh hơn.

    Mike Garrison, Trưởng bộ phận Kỹ thuật, Kỹ thuật cơ sở hạ tầng, TRI
  • TRI-AD

    Tại TRI-AD, chúng tôi đang nỗ lực xây dựng một tương lai nơi mọi người có thể tự do di chuyển và khám phá, tập trung vào việc giảm thương tích và tử vong trên xe bằng cách sử dụng lái xe thích ứng và thành phố thông minh. Thông qua việc sử dụng phiên bản Amazon EC2 P4d, chúng tôi đã có thể giảm 40% thời gian đào tạo nhận dạng đối tượng so với các phiên bản GPU thế hệ trước mà không cần bất kỳ sửa đổi nào đối với mã hiện có.

    Junya Inada, Giám đốc Lái xe tự động (Nhận dạng), TRI-AD
  • TRI-AD

    Thông qua việc sử dụng phiên bản Amazon EC2 P4d, chúng tôi đã có thể giảm ngay chi phí đào tạo so với các phiên bản GPU thế hệ trước, cho phép chúng tôi tăng số lượng nhóm làm việc trong đào tạo mô hình. Các cải tiến kết nối mạng trong P4d cho phép chúng tôi điều chỉnh quy mô hiệu quả lên hàng chục phiên bản, điều này mang lại tính linh hoạt đáng kể để nhanh chóng tối ưu hóa, đào tạo lại và triển khai các mô hình trong xe thử nghiệm hoặc môi trường mô phỏng để kiểm thử thêm.

    Jack Yan, Giám đốc cấp cao Kỹ thuật cơ sở hạ tầng, TRI-AD
  • GE Healthcare

    GE Healthcare là nhà đổi mới công nghệ y tế và giải pháp kỹ thuật số hàng đầu toàn cầu. GE Healthcare cho phép các bác sĩ lâm sàng đưa ra quyết định nhanh hơn, sáng suốt hơn thông qua các thiết bị thông minh, phân tích dữ liệu, ứng dụng và dịch vụ, được hỗ trợ bởi nền tảng trí thông minh Edison.

    Tại GE Healthcare, chúng tôi cung cấp cho bác sĩ lâm sàng các công cụ giúp họ tổng hợp dữ liệu, áp dụng AI và phân tích vào dữ liệu đó và khám phá thông tin chuyên sâu giúp cải thiện kết quả bệnh nhân, thúc đẩy hiệu quả và loại bỏ lỗi. Các thiết bị chụp hình y tế của chúng tôi tạo ra một lượng lớn dữ liệu cần được các nhà khoa học dữ liệu của chúng tôi xử lý. Với các cụm GPU trước đây, sẽ mất nhiều ngày để đào tạo các mô hình AI phức tạp, chẳng hạn như GAN lũy tiến, để mô phỏng và xem kết quả. Sử dụng phiên bản P4d mới giúp giảm thời gian xử lý từ vài ngày xuống còn vài giờ. Chúng tôi đã thấy tốc độ lớn hơn hai đến ba lần trên các mô hình đào tạo với các kích thước hình ảnh khác nhau, đồng thời đạt được hiệu năng tốt hơn với kích thước lô tăng và năng suất cao hơn với chu kỳ phát triển mô hình nhanh hơn.

    Karley Yoder, Phó Chủ tịch kiêm Giám đốc điều hành, Trí tuệ nhân tạo, GM Healthcare
  • HEAVY.AI

    HEAVY.AI là công ty tiên phong trong phân tích tăng tốc. Nền tảng HEAVY.AI được sử dụng trong doanh nghiệp và chính phủ để tìm thông tin chuyên sâu về dữ liệu vượt quá giới hạn của các công cụ phân tích chính thống.

    Tại HEAVY.AI, chúng tôi đang nỗ lực xây dựng một tương lai nơi khoa học dữ liệu và phân tích hội tụ để phá vỡ và hợp nhất các lô cốt dữ liệu. Khách hàng đang tận dụng lượng dữ liệu khổng lồ của họ có thể bao gồm thông tin về vị trí và thời gian để xây dựng bức tranh toàn cảnh không chỉ về những gì đang xảy ra, mà còn xảy ra khi nào và ở đâu thông qua việc trực quan hóa chi tiết dữ liệu không gian-thời gian. Công nghệ của chúng tôi cho phép nhìn thấy cả rừng và cây cối. Thông qua việc sử dụng các phiên bản Amazon EC2 P4d, chúng tôi đã có thể giảm đáng kể chi phí triển khai nền tảng của mình so với các phiên bản GPU thế hệ trước, do đó cho phép chúng tôi điều chỉnh quy mô các tập dữ liệu khổng lồ một cách tiết kiệm chi phí. Những cải tiến về kết nối mạng trên A100 đã nâng cao hiệu quả của chúng tôi trong việc điều chỉnh quy mô lên hàng tỷ hàng dữ liệu và cho phép khách hàng thu thập thông tin chuyên sâu nhanh hơn.

    Ray Falcione, Phó Chủ tịch Khu vực công Hoa Kỳ, HEAVY.AI
  • Zenotech Ltd.

    Zenotech Ltd. đang định nghĩa lại lĩnh vực kỹ thuật trực tuyến thông qua việc sử dụng Đám mây HPC cung cấp các mô hình cấp phép theo nhu cầu cùng với các lợi ích hiệu năng cực cao bằng cách tận dụng GPU.

    Tại Zenotech, chúng tôi đang phát triển các công cụ để cho phép các nhà thiết kế tạo ra các sản phẩm hiệu quả hơn và thân thiện với môi trường. Chúng tôi hoạt động trong nhiều ngành khác nhau và các công cụ của chúng tôi cung cấp thông tin chuyên sâu tốt hơn về hiệu năng sản phẩm thông qua việc sử dụng mô phỏng quy mô lớn. Việc sử dụng phiên bản AWS P4d cho phép chúng tôi chạy mô phỏng nhanh hơn 3,5 lần so với thế hệ GPU trước đó. Tốc độ nhanh hơn này giúp chúng tôi giảm đáng kể thời gian giải quyết, cho phép khách hàng đưa các thiết kế ra thị trường nhanh hơn hoặc thực hiện các mô phỏng có độ trung thực cao hơn so với trước đây.

    Jamil Appa, Giám đốc và Đồng sáng lập, Zenotech
  • Aon

    Aon là một công ty dịch vụ chuyên nghiệp hàng đầu toàn cầu cung cấp một loạt các giải pháp rủi ro, hưu trí và sức khỏe. Aon PathWise là giải pháp quản lý rủi ro HPC dựa trên GPU và có quy mô linh hoạt mà các công ty bảo hiểm và tái bảo hiểm, ngân hàng và quỹ hưu trí có thể sử dụng để giải quyết các thách thức chính hiện nay như kiểm thử chiến lược phòng hộ, dự báo kinh tế và theo quy định, cũng như lập ngân sách. 

    Tại PathWise Solutions Group LLC, sản phẩm của chúng tôi cho phép các công ty bảo hiểm, công ty tái bảo hiểm và quỹ hưu trí tiếp cận công nghệ thế hệ tiếp theo để nhanh chóng giải quyết các thách thức bảo hiểm chính hiện nay, chẳng hạn như máy học, kiểm thử chiến lược phòng hộ, báo cáo theo quy định và tài chính, lập kế hoạch kinh doanh và dự báo kinh tế, cũng như phát triển và định giá sản phẩm mới. Thông qua việc sử dụng phiên bản Amazon EC2 P4d, chúng tôi có thể mang lại những cải tiến đáng kinh ngạc về tốc độ cho các phép toán số thực đơn và kép so với các phiên bản GPU thế hệ trước cho các phép toán khắt khe nhất, cho phép khách hàng thực hiện phạm vi phép toán và dự báo mới lần đầu tiên. Tốc độ rất quan trọng và chúng tôi tiếp tục cung cấp giá trị có ý nghĩa và công nghệ mới nhất cho khách hàng nhờ các phiên bản mới từ AWS.

    Van Beach, Giám đốc toàn cầu về giải pháp cuộc sống, Aon Pathwise Strategy and Technology Group
  • Rad AI

    Bao gồm các chuyên gia X-quang và AI, Rad AI xây dựng các sản phẩm tối đa hóa năng suất của bác sĩ X-quang, cuối cùng làm cho việc chăm sóc sức khỏe dễ tiếp cận hơn và cải thiện kết quả của bệnh nhân. Đọc trường hợp điển hình để tìm hiểu thêm

    Tại Rad AI, sứ mệnh của chúng tôi là tăng khả năng tiếp cận và chất lượng chăm sóc sức khỏe cho tất cả mọi người. Tập trung vào quy trình làm việc chụp hình y tế, Rad AI tiết kiệm thời gian cho bác sĩ X-quang, giảm tình trạng kiệt sức và nâng cao độ chính xác. Chúng tôi sử dụng AI để tự động hóa quy trình làm việc X-quang và giúp hợp lý hóa báo cáo X-quang. Với phiên bản EC2 P4d mới, chúng tôi đã thấy khả năng suy luận nhanh hơn và khả năng đào tạo các mô hình nhanh hơn 2,4 lần, với độ chính xác cao hơn so với các phiên bản P3 thế hệ trước. Điều này cho phép chẩn đoán nhanh hơn, chính xác hơn và tăng cường khả năng tiếp cận các dịch vụ X-quang chất lượng cao do khách hàng của chúng tôi cung cấp trên khắp Hoa Kỳ.

    Doktor Gurson, Đồng sáng lập, Rad AI

Chi tiết sản phẩm

Kích cỡ phiên bản vCPU Bộ nhớ phiên bản (GiB) GPU – A100 Bộ nhớ GPU Băng thông mạng (Gbps) GPUDirect RDMA GPU ngang hàng Lưu trữ phiên bản (GB) Băng thông EBS (Gbps) Giá theo nhu cầu/giờ Giá thực tế theo giờ của phiên bản đặt trước 1 năm* Giá thực tế theo giờ của phiên bản đặt trước 3 năm*
p4d.24xlarge 96 1.152 8 320 GB
HBM2
ENA và EFA 400 NVSwitch 600 GB/giây 8 x 1000 SSD NVMe 19 32,77 USD 19,22 USD 11,57 USD
p4de.24xlarge (bản xem trước) 96 1.152 8 640 GB
HBM2e
ENA và EFA 400 NVSwitch 600 GB/giây 8 x 1000 SSD NVMe 19 40,96 USD 24,01 USD 14,46 USD
*Giá hiển thị là dành cho Linux/Unix ở Khu vực AWS Miền Đông Hoa Kỳ (Bắc Virginia) và được làm tròn đến cent nhỏ nhất. Để xem đầy đủ thông tin chi tiết về giá, hãy xem Định giá Amazon EC2.

Phiên bản P4d được cung cấp ở khu vực Miền Đông Hoa Kỳ (Bắc Virginia và Ohio), Miền Tây Hoa Kỳ (Oregon), Châu Á Thái Bình Dương (Seoul và Tokyo) và Châu Âu (Frankfurt và Ireland). Phiên bản P4de được cung cấp ở khu vực AWS Miền Đông Hoa Kỳ (Bắc Virginia) và Miền Tây Hoa Kỳ (Oregon).

Khách hàng có thể mua phiên bản P4d và P4de dưới dạng Phiên bản theo nhu cầu, Phiên bản đặt trước, Phiên bản dùng ngay, Máy chủ chuyên dụng hoặc như một phần của Gói tiết kiệm.

Bắt đầu sử dụng phiên bản P4d cho máy học

Amazon SageMaker là một dịch vụ được quản lý toàn phần nhằm xây dựng, đào tạo và triển khai các mô hình máy học. Khi được sử dụng cùng với các phiên bản P4d, khách hàng có thể dễ dàng điều chỉnh quy mô đến hàng chục, hàng trăm hoặc hàng nghìn GPU để đào tạo mô hình nhanh chóng ở mọi quy mô mà không cần lo lắng về việc thiết lập các cụm và quy trình dữ liệu.

DLAMI cung cấp cơ sở hạ tầng và công cụ cho những người thực hành và nhà nghiên cứu máy học để tăng tốc học sâu trên đám mây ở mọi quy mô. Bộ chứa học sâu là các hình ảnh Docker được cài đặt sẵn với các khung học sâu để dễ dàng và nhanh chóng triển khai môi trường máy học tùy chỉnh bằng cách cho phép bạn bỏ qua quá trình xây dựng và tối ưu hóa môi trường phức tạp của mình ngay từ đầu.

Nếu muốn quản lý khối lượng công việc được gói trong bộ chứa của riêng mình thông qua các dịch vụ điều phối bộ chứa, bạn có thể triển khai các phiên bản P4d với Amazon EKS hoặc Amazon ECS.

Bắt đầu sử dụng phiên bản P4d cho HPC

Các phiên bản P4d là lựa chọn lý tưởng để chạy các mô phỏng kỹ thuật, tài chính điện toán, phân tích địa chấn, dựng mô hình phân tử, nghiên cứu gen, phối cảnh và các khối lượng công việc HPC dựa trên GPU khác. Các ứng dụng HPC thường yêu cầu hiệu năng mạng cao, lưu trữ nhanh, dung lượng bộ nhớ lớn, khả năng điện toán cao hoặc tất cả các yếu tố kể trên. Các phiên bản P4d hỗ trợ EFA cho phép các ứng dụng HPC sử dụng Giao diện truyền tin nhắn (MPI) để điều chỉnh quy mô lên hàng nghìn GPU. Lô AWS Batch và AWS ParallelCluster giúp các nhà phát triển HPC nhanh chóng xây dựng và điều chỉnh quy mô các ứng dụng HPC phân tán.

Tìm hiểu thêm