Khách hàng sử dụng Amazon SageMaker HyperPod

Các công ty khởi nghiệp và tổ chức AI hàng đầu thuộc mọi quy mô đang đào tạo và triển khai các mô hình nền tảng ở quy mô lớn trên SageMaker HyperPod

  • Hugging Face

    Hugging Face đã sử dụng SageMaker HyperPod để tạo ra các mô hình nền tảng mở mới quan trọng như StarCoder, IDEFICS và Zephyr – tất cả đều có hàng triệu lượt tải xuống. Khả năng phục hồi và hiệu suất được xây dựng có mục đích của SageMaker HyperPod đã cho phép nhóm khoa học mở của chúng tôi tập trung vào việc đổi mới và công bố những cải tiến quan trọng về cách xây dựng các mô hình nền tảng, thay vì quản lý cơ sở hạ tầng. Chúng tôi đặc biệt thích cách SageMaker HyperPod có thể phát hiện lỗi phần cứng ML và nhanh chóng thay thế phần cứng bị lỗi mà không làm gián đoạn quá trình đào tạo mô hình đang diễn ra. Vì các nhóm của chúng tôi cần đổi mới nhanh chóng nên tính năng khôi phục công việc tự động này đã giúp chúng tôi giảm thiểu sự gián đoạn trong quá trình đào tạo mô hình nền tảng, nhờ đó tiết kiệm được hàng trăm giờ đào tạo chỉ trong một năm.

    Jeff Boudier, Trưởng phòng sản phẩm tại Hugging Face
  • Perplexity AI

    Chúng tôi đang tìm kiếm cơ sở hạ tầng ML phù hợp để tăng năng suất và giảm chi phí nhằm xây dựng các mô hình ngôn ngữ lớn có hiệu suất cao. Sau khi chạy một vài thử nghiệm thành công, chúng tôi đã ngừng làm việc với các nhà cung cấp dịch vụ đám mây khác và chuyển sang AWS để sử dụng Amazon SageMaker HyperPod. Chúng tôi đã sử dụng HyperPod trong bốn tháng qua để xây dựng và tinh chỉnh các LLM nhằm hỗ trợ công cụ trả lời hội thoại Perplexity, công cụ này sẽ trả lời các câu hỏi và cung cấp tài liệu tham khảo dưới dạng trích dẫn. Vì SageMaker HyperPod tự động theo dõi tình trạng cụm và khắc phục lỗi GPU, nên các nhà phát triển của chúng tôi có thể tập trung vào việc xây dựng mô hình thay vì dành thời gian quản lý và tối ưu hóa cơ sở hạ tầng cơ bản. Thư viện lưu trữ song song dữ liệu và mô hình tích hợp của SageMaker HyperPod đã giúp chúng tôi tối ưu hóa thời gian đào tạo trên GPU và tăng gấp đôi thông lượng đào tạo. Do đó, các thử nghiệm đào tạo của chúng tôi giờ đây có thể chạy nhanh gấp đôi, đồng nghĩa với việc những nhà phát triển của chúng tôi có thể lặp lại nhanh hơn, đẩy nhanh quá trình phát triển các trải nghiệm AI tạo sinh mới cho khách hàng.

    Aravind Srinivas, Nhà đồng sáng lập và Giám đốc Điều hành tại Perplexity AI
  • Articul8 AI

    Đọc trường hợp điển hình

    Khả năng quản trị tác vụ của Amazon SageMaker HyperPod giúp tối đa hóa việc sử dụng GPU trên các đội ngũ và dự án khác nhau. Là một công ty khởi nghiệp phát triển nhanh chóng trong lĩnh vực AI tạo sinh, Articul8 AI liên tục tối ưu hóa môi trường điện toán của họ để phân bổ tài nguyên điện toán tăng tốc một cách hiệu quả nhất có thể. Nhờ khả năng tự động ưu tiên tác vụ và phân bổ tài nguyên trong SageMaker HyperPod, họ đã nhận thấy mức sử dụng GPU cải thiện đáng kể, qua đó giảm thời gian nhàn rỗi và đẩy nhanh quá trình phát triển mô hình bằng cách tối ưu hóa các tác vụ từ đào tạo và tinh chỉnh đến suy luận. Khả năng tự động chuyển tài nguyên sang các tác vụ có mức độ ưu tiên cao đã tăng năng suất của đội ngũ, cho phép họ mang những đổi mới về AI tạo sinh mới ra thị trường nhanh hơn bao giờ hết.

    Amazon SageMaker HyperPod đã giúp chúng tôi rất nhiều trong việc quản lý và vận hành các tài nguyên điện toán hiệu quả hơn với thời gian ngừng hoạt động tối thiểu. Chúng tôi là những người đầu tiên sử dụng dịch vụ HyperPod dựa trên Slurm và được hưởng lợi từ tính dễ sử dụng và khả năng phục hồi của dịch vụ này, giúp cải thiện năng suất lên tới 35% và nhanh chóng tăng quy mô theo tài nguyên cho các hoạt động GenAI của chúng tôi. Là một đơn vị Kubernetes, hiện chúng tôi rất vui mừng chào đón sự ra mắt tính năng hỗ trợ Amazon EKS cho SageMaker HyperPod. Đây là một bước đột phá đối với chúng tôi vì tính năng này tích hợp liền mạch với những quy trình đào tạo hiện có của chúng tôi, giúp chúng tôi quản lý và vận hành các cụm Kubernetes quy mô lớn dễ dàng hơn. Ngoài ra, điều này cũng giúp ích cho khách hàng cuối của chúng tôi vì giờ đây chúng tôi có thể đóng gói và đưa năng lực này vào nền tảng GenAI dưới dạng sản phẩm, cho phép khách hàng tự chạy chương trình đào tạo và tinh chỉnh khối lượng công việc theo cách hợp lý hơn.

    Arun Subramaniyan, Nhà sáng lập kiêm Giám đốc Điều hành của Articul8 AI
  • Thomson Reuters

    Đọc blog

    Thomson Reuters, một công ty công nghệ theo định hướng nội dung và AI toàn cầu, đã thử nghiệm khả năng quản trị tác vụ trong Amazon SageMaker HyperPod để giải quyết thách thức chính xung quanh việc ưu tiên khối lượng công việc. Nhờ khả năng quản trị nhiệm vụ, giờ đây họ có thể quản lý khối lượng công việc của khách hàng như yêu cầu suy luận cùng với các dự án phát triển mô hình đang diễn ra của riêng họ, đảm bảo ưu tiên các yêu cầu khẩn cấp của khách hàng mà không làm gián đoạn nghiên cứu nội bộ, giúp sử dụng tài nguyên tốt hơn và làm hài lòng khách hàng. John Duprey, Kỹ sư xuất sắc tại Thomson Reuters Labs cho biết: “Bằng cách sử dụng Amazon SageMaker HyperPod, chúng tôi có thể đáp ứng các yêu cầu đào tạo mô hình ngôn ngữ lớn. Khi sử dụng Amazon EKS trên SageMaker HyperPod, chúng tôi có thể tăng quy mô dung lượng theo tài nguyên và dễ dàng thực hiện các công việc đào tạo, cho phép chúng tôi khai thác lợi ích của LLM trong các lĩnh vực như tóm tắt và phân loại pháp lý.”

    Thomson Reuters đã đi đầu trong phát triển AI trong hơn 30 năm và chúng tôi cam kết cung cấp các giải pháp có ý nghĩa giúp khách hàng đưa ra kết quả nhanh hơn, với khả năng truy cập tốt hơn vào thông tin đáng tin cậy. Để đẩy nhanh quá trình đổi mới trong AI tạo sinh, ngoài việc hợp tác với các nhà cung cấp LLM, chúng tôi còn đang khám phá cách đào tạo những mô hình tùy chỉnh hiệu quả hơn bằng nội dung độc quyền và chuyên môn của con người. Thư viện đào tạo phân tán của SageMaker HyperPod giúp chúng tôi cải thiện hiệu suất đào tạo mô hình quy mô lớn. Và tính năng phục hồi của công cụ này giúp tiết kiệm thời gian khi chúng tôi giám sát và quản lý cơ sở hạ tầng. Việc đào tạo các mô hình nền tảng của chúng tôi trên SageMaker HyperPod sẽ giúp chúng tôi tăng tốc độ đưa sản phẩm ra thị trường và nhanh chóng cung cấp các giải pháp chất lượng cho khách hàng.

    Joel Hron, Trưởng bộ phận AI và Labs, Thomson Reuters và John Duprey, Kỹ sư xuất sắc, Thomson Reuters Labs
  • Stability AI

    Với tư cách là công ty AI tạo sinh nguồn mở hàng đầu, mục tiêu của chúng tôi là tối đa hóa khả năng tiếp cận AI hiện đại. Chúng tôi đang xây dựng các mô hình nền tảng với hàng chục tỷ tham số, đòi hỏi cơ sở hạ tầng có thể điều chỉnh quy mô hiệu suất đào tạo được tối ưu hóa. Với cơ sở hạ tầng được quản lý và thư viện tối ưu hóa của SageMaker HyperPod, chúng tôi có thể giảm hơn 50% thời gian và chi phí đào tạo. Việc này giúp hoạt động đào tạo mô hình của chúng tôi linh hoạt hơn và hiệu quả hơn, qua đó xây dựng được những mô hình hiện đại nhanh hơn.

    Emad Mostaque, Nhà sáng lập kiêm Giám đốc Điều hành, Stability AI
  • Recursal AI

    Toàn bộ quá trình đã được đơn giản hóa. Bằng cách sử dụng SageMaker HyperPod, chúng tôi có thể tận dụng các tính năng phục hồi cụm nhằm xác định và tự động khôi phục các công việc đào tạo từ điểm kiểm tra đã lưu gần đây nhất trong trường hợp xảy ra lỗi phần cứng. Chúng tôi chạy khối lượng công việc rất đa dạng – từ ứng dụng, suy luận và đào tạo – với Kubernetes làm nền tảng chung. Đối với chúng tôi, Amazon EKS với SageMaker HyperPod hoạt động rất ăn ý: các nút chỉ cần thả vào cụm của chúng tôi.

    Nathan Wilce, Trưởng bộ phận cơ sở hạ tầng/dữ liệu, Recursal
  • Hippocratic AI

    Hippocratic AI, một công ty AI phát triển Mô hình ngôn ngữ lớn (LLM) tập trung vào an toàn đầu tiên cho lĩnh vực chăm sóc sức khỏe. Để đào tạo LLM chính và các mô hình giám sát, Hippocratic AI cần đến tài nguyên điện toán mạnh mẽ, có lượng cầu lớn và khó có được. Các kế hoạch đào tạo linh hoạt của Amazon SageMaker HyperPod giúp họ truy cập vào Phiên bản P5 cho Amazon Elastic Compute Cloud (Amazon EC2) một cách dễ dàng hơn. Hippocratic AI cũng đang tận dụng các dịch vụ AWS như Grafana để theo dõi các chỉ số quan trọng về mức sử dụng GPU. Nhờ sử dụng Phiên bản P5 cho Amazon EC2, Hippocratic AI đã tăng tốc độ đào tạo mô hình lên bốn lần và điều chỉnh quy mô giải pháp của mình cho phù hợp với hàng trăm trường hợp sử dụng. Phiên bản này giúp họ có được tài nguyên điện toán cần thiết và đào tạo các mô hình một cách nhanh chóng.

  • NinjaTech

     

    NinjaTech AI, một công ty AI tạo sinh cung cấp SuperAgent đa dụng nhằm đạt năng suất vô hạn, đã sử dụng các kế hoạch đào tạo linh hoạt của Amazon SageMaker HyperPod để tăng tốc độ tinh chỉnh các mô hình nội bộ khác nhau, bao gồm mô hình Llama 3.1 405B, nhằm giảm chi phí đào tạo mô hình và tự động hóa quy trình. Công ty đặt mục tiêu cung cấp một trải nghiệm liền mạch cho người dùng muốn truy cập vào các tác tử AI khác nhau để hỗ trợ cho Công nghệ SuperAgent của họ. Để đạt được điều này, họ cần một mô hình có thể tự động dự đoán ý định của người dùng và xác định tác tử AI nào sẽ phù hợp với ý định đó. Cơ chế này đòi hỏi thường xuyên cập nhật mô hình bằng cách kết hợp phản hồi của khách hàng và các tính năng mới một cách lặp đi lặp lại, trong đó mỗi lần tinh chỉnh LoRA bao gồm từ 10 triệu đến 100 triệu token. Là một công ty khởi nghiệp, việc có được và vận hành các tài nguyên điện toán hiệu năng cao là cả một thách thức do các vấn đề lớn về chi phí và băng thông, đặc biệt là trong các cụm nhiều nút liên quan đến mạng tốc độ cao và lưu trữ nhanh cùng với điện toán tăng tốc. Ngoài ra, quá trình đào tạo tốn thời gian, bao gồm các bước như tải xuống mô hình, đào tạo phân tán, điểm kiểm tra, giám sát, tự động khắc phục, hợp nhất và lượng tử hóa. Các kế hoạch đào tạo linh hoạt của HyperPod đã cung cấp cho công ty tài nguyên điện toán đáng tin cậy, có giá cả phải chăng trước khi tiến hành đào tạo, phù hợp với các yêu cầu điện toán và lịch trình cụ thể của họ, đồng thời đảm bảo đào tạo mô hình hiệu quả.

  • OpenBabylon

    Các nhà phát triển và nhà khoa học dữ liệu tại OpenBabylon, một công ty AI tùy chỉnh các mô hình ngôn ngữ lớn cho các ngôn ngữ chưa được hỗ trợ nhiều, đã sử dụng các kế hoạch đào tạo linh hoạt của SageMaker HyperPod trong vài tháng để hợp lý hóa việc truy cập vào tài nguyên GPU nhằm chạy các thử nghiệm quy mô lớn. Sử dụng khả năng đào tạo phân tán của SageMaker HyperPod nhiều nút, họ đã tiến hành 100 thí nghiệm đào tạo mô hình quy mô lớn, đạt được kết quả rất tốt trong việc dịch tiếng Anh sang tiếng Ukraina. Bước đột phá này diễn ra đúng thời hạn và tiết kiệm chi phí, thể hiện khả năng của SageMaker HyperPod trong việc thực hiện thành công các dự án phức tạp đúng thời hạn và hợp ngân sách.

  • Salesforce

    Các nhà nghiên cứu tại Salesforce tìm cách nhanh chóng bắt đầu đào tạo mô hình nền tảng và tinh chỉnh mà không phải lo lắng về cơ sở hạ tầng hoặc dành hàng tuần để tối ưu hóa ngăn xếp đào tạo của họ cho từng mô hình mới. Với công thức của Amazon SageMaker HyperPod, các nhà nghiên cứu tại Salesforce có thể tiến hành xây dựng nguyên mẫu nhanh chóng khi tùy chỉnh FM. Giờ đây, các đội ngũ Nghiên cứu AI của Salesforce có thể bắt đầu làm việc trong vài phút với đa dạng các công thức đào tạo trước và tinh chỉnh, đồng thời có thể vận hành các mô hình tiên phong với hiệu năng cao.

Đối tác của Amazon SageMaker HyperPod

 

Thúc đẩy đổi mới và mở khóa giá trị kinh doanh lớn hơn với các đối tác AWS sở hữu kiến thức kỹ thuật chuyên sâu và khả năng giúp khách hàng thành công đã được kiểm chứng

  • Accenture

    Chúng tôi đang mở rộng quan hệ đối tác với AWS với tư cách là đối tác ra mắt cho quản trị tác vụ Amazon SageMaker HyperPod. Quan hệ hợp tác với AWS sẽ cho phép chúng tôi hướng dẫn khách hàng hướng tới những đột phá công nghệ mới nhất đồng thời giúp giảm chi phí ứng dụng AI tạo sinh. Bằng cách kết hợp các khả năng quản trị tập trung trong SageMaker HyperPod cũng như nhờ kinh nghiệm của chúng tôi trong các dự án AI tạo sinh, chúng tôi có thể giúp các công ty nhận ra giá trị của AI tạo sinh nhanh hơn nữa, cải thiện trải nghiệm của khách hàng và tăng lợi tức đầu tư.

    Jennifer Jackson, Trưởng nhóm kinh doanh Accenture AWS toàn cầu và Giám đốc điều hành cấp cao
  • Slalom

    Chúng tôi rất vui mừng được hợp tác với AWS với tư cách là đối tác ra mắt cho quản trị tác vụ Amazon SageMaker HyperPod. Nhờ làm việc với AWS, giờ đây chúng tôi có thể giúp khách hàng nhanh chóng áp dụng những tiến bộ công nghệ mới nhất và giảm chi phí cho các ứng dụng AI tạo sinh của họ. Bằng cách kết hợp khả năng quản trị tập trung trong SageMaker HyperPod với trải nghiệm AI và đám mây phong phú của Slalom, chúng tôi có thể mang lại trải nghiệm khách hàng đặc biệt cùng với việc tăng lợi tức đầu tư.

    Jeff Kempiners, Giám đốc Điều hành Trung tâm Xuất sắc Amazon (CoE) của Slalom
  • Rackspace Technology

    Chúng tôi rất vui mừng được hợp tác với AWS với tư cách là đối tác ra mắt cho quản trị tác vụ SageMaker HyperPod. Chúng tôi có thể cùng nhau giúp khách hàng giảm chi phí cho các ứng dụng AI tạo sinh, đồng thời theo kịp những tiến bộ công nghệ mới nhất. Bằng cách kết hợp khả năng quản trị tập trung của SageMaker HyperPod với chuyên môn sâu về AI và đám mây của Rackspace, chúng tôi có thể chuyển đổi trải nghiệm của khách hàng, đồng thời cải thiện lợi tức đầu tư của họ.

    Srini Koushik, Chủ tịch phụ trách AI, công nghệ và phát triển bền vững, Rackspace Technology