Tính năng của Amazon SageMaker HyperPod
Điều chỉnh quy mô và tăng tốc phát triển mô hình AI tạo sinh trên hàng nghìn trình tăng tốc AI
Quản trị tác vụ
Amazon SageMaker HyperPod cung cấp khả năng hiển thị toàn diện và kiểm soát việc phân bổ tài nguyên điện toán trên các tác vụ phát triển mô hình AI tạo sinh, chẳng hạn như đào tạo và suy luận. SageMaker HyperPod tự động quản lý hàng đợi tác vụ, đảm bảo các tác vụ quan trọng nhất được ưu tiên, đồng thời sử dụng tài nguyên điện toán hiệu quả hơn để giảm chi phí phát triển mô hình. Trong một vài bước ngắn gọn, quản trị viên có thể xác định mức độ ưu tiên cho các tác vụ khác nhau và thiết lập giới hạn cho số lượng tài nguyên điện toán mà mỗi nhóm hoặc dự án có thể sử dụng. Sau đó, các nhà khoa học dữ liệu và nhà phát triển tạo các tác vụ (ví dụ: chạy đào tạo, tinh chỉnh một mô hình cụ thể hoặc đưa ra dự đoán trên mô hình được đào tạo) mà SageMaker HyperPod tự động chạy, tuân thủ các giới hạn tài nguyên điện toán và ưu tiên mà quản trị viên đã đặt ra. Khi một tác vụ có mức độ ưu tiên cao cần được hoàn thành ngay lập tức nhưng tất cả tài nguyên điện toán đang được sử dụng, SageMaker HyperPod sẽ tự động giải phóng tài nguyên điện toán khỏi các tác vụ có mức độ ưu tiên thấp hơn. Ngoài ra, SageMaker HyperPod tự động sử dụng tài nguyên điện toán nhàn rỗi để tăng tốc các tác vụ chờ đợi. SageMaker HyperPod cung cấp bảng điều khiển mà trong đó quản trị viên có thể giám sát và kiểm tra các tác vụ đang chạy hoặc đang chờ tài nguyên điện toán.
Kế hoạch đào tạo linh hoạt
Để đáp ứng thời gian và ngân sách đào tạo của bạn, SageMaker HyperPod giúp bạn tạo các kế hoạch đào tạo tiết kiệm chi phí nhất sử dụng tài nguyên điện toán từ nhiều khối dung lượng điện toán. Sau khi bạn phê duyệt kế hoạch đào tạo, SageMaker HyperPod sẽ tự động cung cấp cơ sở hạ tầng và chạy các tác vụ đào tạo trên các tài nguyên điện toán này mà không đòi hỏi bất kỳ sự can thiệp thủ công nào. Bạn không phải mất nhiều tuần tốn công sức quản lý quá trình đào tạo để điều chỉnh các tác vụ sao cho phù hợp với mức điện toán sẵn sàng.
Công thức được tối ưu hóa
Công thức SageMaker HyperPod giúp các nhà khoa học dữ liệu và nhà phát triển với mọi bộ kỹ năng được hưởng lợi từ hiệu năng hiện đại trong khi nhanh chóng bắt đầu đào tạo và tinh chỉnh các mô hình AI tạo sinh được cung cấp công khai, bao gồm Llama 3.1 405B, Mixtral 8x22B và Mistral 7B. Mỗi công thức bao gồm một ngăn xếp đào tạo đã được AWS kiểm thử, giúp bạn không phải tốn nhiều tuần làm các công việc tẻ nhạt khi kiểm thử các cấu hình mô hình khác nhau. Bạn có thể chuyển đổi giữa phiên bản dựa trên GPU và phiên bản dựa trên AWS Trainium bằng cách thay đổi công thức một dòng, kích hoạt tính năng tạo điểm kiểm tra mô hình tự động để cải thiện khả năng phục hồi quá trình đào tạo và chạy khối lượng công việc ở khâu sản xuất trên SageMaker HyperPod.
Đào tạo phân tán hiệu năng cao
SageMaker HyperPod tăng tốc đào tạo phân tán bằng cách tự động chia tách các mô hình và tập dữ liệu đào tạo của bạn trên các trình tăng tốc của AWS. Nó giúp bạn tối ưu hóa tác vụ đào tạo của mình cho cơ sở hạ tầng mạng AWS và cấu trúc liên kết cụm, đồng thời hợp lý hóa việc tạo điểm kiểm tra mô hình bằng cách tối ưu hóa tần suất lưu các điểm kiểm tra, đảm bảo chi phí tối thiểu trong quá trình đào tạo.
Các công cụ thử nghiệm và khả năng quan sát nâng cao
Bạn có thể sử dụng các công cụ AI tích hợp sẵn trong SageMaker HyperPod để cải thiện hiệu năng của mô hình. Ví dụ: TensorBoard được quản lý trong SageMaker giúp bạn tiết kiệm thời gian phát triển bằng cách trực quan hóa kiến trúc mô hình để xác định và khắc phục các lỗi hội tụ. Việc tích hợp với Thông tin chuyên sâu về bộ chứa của Amazon CloudWatch cung cấp thông tin chuyên sâu chi tiết hơn về hiệu năng, tình trạng và mức sử dụng cụm. MLflow được quản lý trong SageMaker giúp bạn quản lý hiệu quả các thử nghiệm trên quy mô lớn.
Lên lịch và điều phối khối lượng công việc
Giao diện người dùng SageMaker HyperPod cho phép tùy chỉnh dễ dàng bằng Slurm hoặc Dịch vụ Kubernetes linh hoạt Amazon (Amazon EKS). Bạn có thể chọn và cài đặt bất kỳ khung hoặc công cụ nào cần thiết. Tất cả các cụm được cung cấp loại phiên bản và số lượng phiên bản do bạn chọn và chúng được giữ lại để bạn sử dụng trên các khối lượng công việc. Với sự hỗ trợ của Amazon EKS trong SageMaker HyperPod, bạn có thể quản lý và vận hành các cụm với trải nghiệm quản trị viên nhất quán chạy trên Kubernetes. Vận hành và mở rộng khối lượng công việc một cách hiệu quả, từ đào tạo đến tinh chỉnh và suy luận. Bạn cũng có thể chia sẻ dung lượng điện toán và chuyển đổi giữa Slurm và EKS của Amazon cho các loại khối lượng công việc khác nhau.
Tự động kiểm tra và sửa chữa tình trạng của cụm
Nếu bất kỳ phiên bản nào bị lỗi trong khối lượng công việc phát triển mô hình, SageMaker HyperPod sẽ tự động phát hiện và giải quyết các vấn đề cơ sở hạ tầng. Để phát hiện phần cứng bị lỗi, SageMaker HyperPod thường xuyên tiến hành một loạt kiểm tra tình trạng để kiểm tra tính toàn vẹn của trình tăng tốc và mạng.