Клиенты Amazon SageMaker HyperPod
Ведущие стартапы и организации в сфере искусственного интеллекта любого размера обучают и развертывают базовые модели в большом масштабе с помощью SageMaker HyperPod
-
Hugging Face
Компания Hugging Face применила SageMaker HyperPod для создания новых важных моделей с открытой основой, таких как StarCoder, IDEFICS и Zephyr, которые были загружены миллионы раз. Специально разработанные возможности SageMaker HyperPod по обеспечению отказоустойчивости и производительности позволили нашей команде ученых сосредоточиться на развитии и публикации новых методов построения базовых моделей, а не на управлении инфраструктурой. Нам особенно понравилось, как хорошо SageMaker HyperPod справляется с аппаратными сбоями и быстро заменяет неисправное оборудование для машинного обучения, не прерывая текущие процессы. Поскольку нашим специалистам нужно быстро внедрять инновации, функция автоматического восстановления рабочих мест помогла нам свести к минимуму перерывы в процессе обучения базовых моделей и сэкономить сотни часов времени на обучение уже за первый год.
Джефф Будье, руководитель отдела продуктов, компания Hugging Face -
Perplexity AI
Мы искали подходящую инфраструктуру машинного обучения, которая позволит повысить производительность и снизить затраты при создании высокопроизводительных больших языковых моделей. Проведя несколько успешных экспериментов, мы перешли на AWS от других поставщиков облачных услуг, специально чтобы использовать Amazon SageMaker HyperPod. Последние четыре месяца мы используем HyperPod для создания и настройки больших языковых моделей, на которых будет основан механизм разговорных ответов Perplexity, предоставляющий ответы вопросы вместе с цитатами, содержащими справочные сведения. Поскольку SageMaker HyperPod автоматически отслеживает состояние кластера и восстанавливает его при сбоях в работе графического процессора, разработчики могут сосредоточиться на создании моделей и не отвлекаться на управление базовой инфраструктурой и ее оптимизацию. Встроенные параллельные библиотеки данных и моделей SageMaker HyperPod помогли нам оптимизировать время обучения на графических процессорах и удвоить его производительность. Это означает, что обучающие эксперименты теперь могут выполняться в два раза быстрее, и наши разработчики завершают итерации быстрее, что в итоге ускоряет разработку новых решений на основе генеративного искусственного интеллекта для наших клиентов.
Аравинд Сринивас, соучредитель и генеральный директор, компания Perplexity AI -
Articul8 AI
Ознакомиться с примером использования
Управление задачами Amazon SageMaker HyperPod помогает максимально эффективно использовать графический процессор в различных командах и проектах. Как быстрорастущий стартап в области генеративного искусственного интеллекта, Articul8 AI постоянно оптимизирует свою вычислительную среду для максимально эффективного распределения ускоренных вычислительных ресурсов. Благодаря автоматической приоритизации задач и распределению ресурсов в SageMaker HyperPod он значительно улучшил использование графического процессора, сократив тем самым время простоя и ускорив процесс разработки моделей за счет оптимизации задач: обучения, настройки и получения логических выводов. Благодаря возможности автоматического перераспределения ресурсов на высокоприоритетные задачи команда повысила производительность, что позволило ей как никогда быстро выводить на рынок инновации в области генеративного искусственного интеллекта.
Amazon SageMaker HyperPod очень помог нам более эффективно распоряжаться вычислительными ресурсами с минимальным временем простоя. Мы одними из первых применили сервис HyperPod на базе Slurm, и его простота использования в сочетании с отказоустойчивостью позволили повысить производительность на 35 % и быстро увеличить масштаб операций с генеративным искусственным интеллектом. Мы тесно связаны с Kubernetes, поэтому очень рады появлению поддержки Amazon EKS для SageMaker HyperPod. Для нас это существенно меняет ситуацию, позволяя легко интегрироваться с существующими конвейерами обучения и упростить управление крупномасштабными кластерами Kubernetes. Это приносит пользу и нашим конечным клиентам, поскольку теперь мы можем добавить эту возможность в нашу платформу генеративного искусственного интеллекта, а значит клиенты будут более эффективно проводить обучение и настраивать рабочие нагрузки.
Арун Субраманиян, основатель и генеральный директор, компания Articul8 AI -
Thomson Reuters
Thomson Reuters, глобальная компания в области ИИ и контент-ориентированных технологий, тестирует возможность управления задачами в функции Amazon SageMaker HyperPod для решения ключевой проблемы – приоритизации рабочих нагрузок. Благодаря управлению задачами компания теперь может контролировать рабочие нагрузки клиентов, такие как запросы на получение логических выводов, а также собственные текущие проекты по разработке моделей. Это позволяет приоритизировать срочные запросы клиентов без прерывания внутренних исследований и способствует более эффективному использованию ресурсов и удовлетворенности клиентов. «С помощью Amazon SageMaker HyperPod нам удалось удовлетворить наши требования к обучению большой языковой модели, – говорит Джон Дюпри, ведущий инженер Thomson Reuters Labs. – Используя Amazon EKS на базе SageMaker HyperPod, мы смогли выполнить вертикальное масштабирование ресурсов и с легкостью решить обучающие задачи, что позволило нам использовать преимущества LLM в таких сферах, как юридическое обобщение и классификация».
Thomson Reuters уже более 30 лет находится на передовом крае развития искусственного интеллекта, и мы стремимся предоставлять нашим клиентам эффективные решения, которые ускорят получение результатов и повысят доступность достоверной информации. Чтобы ускорить внедрение инноваций в области генеративного искусственного интеллекта, мы не только сотрудничаем с поставщиками больших языковых моделей, но и изучаем возможности более эффективно обучать настраиваемые модели с применением нашего уникального опыта и запатентованного контента. Распределенные библиотеки для обучения SageMaker HyperPod помогают нам повысить эффективность обучения крупномасштабных моделей. А функция отказоустойчивости экономит время на операции по мониторингу инфраструктуры и управлению ею. Обучение базовых моделей с использованием SageMaker HyperPod ускорит выход на рынок и поможет нам в нужном темпе предоставлять качественные решения для наших клиентов.
Джоэл Хрон, руководитель отдела ИИ и исследований Thomson Reuters, и Джон Дюпри, ведущий инженер Thomson Reuters Labs -
Stability AI
Как ведущая компания в сфере генеративного искусственного интеллекта с открытым исходным кодом, мы стремимся максимально повысить доступность современных технологий искусственного интеллекта. Мы создаем базовые модели с десятками миллиардов параметров, для которых требуется инфраструктура с возможностью масштабироваться для оптимальной эффективности обучения. Благодаря управляемой инфраструктуре и библиотекам оптимизации SageMaker HyperPod мы смогли сократить время и затраты на обучение более чем на 50 %. Это делает обучение наших моделей более устойчивым к сбоям и более эффективным, а значит позволяет быстрее создавать самые современные модели.
Эмад Мостак, основатель и генеральный директор, Stability AI -
Recursal AI
Мы упростили весь процесс. Используя SageMaker HyperPod, мы можем воспользоваться функциями отказоустойчивости кластера, которые отслеживают задания по обучению и автоматически восстанавливают их по последней сохраненной контрольной точке в случае аппаратного сбоя. Мы выполняем самые разные рабочие нагрузки – рабочие приложения, логический вывод и обучение, – используя Kubernetes в качестве общей основы. Amazon EKS с SageMaker HyperPod у нас «просто работает», то есть узлы сами появляются в кластере.
Натан Уайлс, руководитель отдела инфраструктуры и данных, компания Recursal -
Hippocratic AI
Hippocratic AI – компания в области ИИ, которая разрабатывает для здравоохранения первую большую языковую модель (LLM), ориентированную на безопасность. Для обучения основных LLM и руководящих моделей компании Hippocratic AI требовались мощные вычислительные ресурсы, которые пользовались большим спросом и которые было трудно получить. Гибкие учебные планы Amazon SageMaker HyperPod упростили ей доступ к инстансам Amazon Elastic Compute Cloud (Amazon EC2) P5. Hippocratic AI также применяет сервисы AWS, такие как Grafana, для отслеживания важных показателей использования графического процессора. Используя инстансы Amazon EC2 P5, компания Hippocratic AI увеличила скорость обучения моделей в четыре раза и масштабировала свое решение для сотен сценариев использования. Это помогло ей обеспечить необходимые вычислительные ресурсы и быстро обучить модели.
-
NinjaTech
NinjaTech AI – компания в области генеративного искусственного интеллекта, которая предлагает универсальную технологию SuperAgent для неограниченной производительности. Она использовала гибкие учебные планы Amazon SageMaker HyperPod для ускорения настройки различных внутренних моделей, включая модель Llama 3.1 405B, чтобы снизить затраты на обучение моделей и автоматизировать процесс. Компания стремится обеспечить беспрепятственные возможности для пользователей, которым необходим доступ к различным агентам ИИ для поддержки ее технологии SuperAgent. Для достижения этой цели ей была необходима модель, которая могла бы автоматически прогнозировать намерения пользователя и определять, какой агент ИИ ему подходит. Этот механизм требовал частого обновления модели путем итеративного добавления отзывов клиентов и новых функций с использованием 10–100 млн токенов на каждом этапе настройки LoRA. Для стартапа приобретение и эксплуатация высокопроизводительных вычислительных ресурсов сопряжены с трудностями из-за высоких затрат и проблем с пропускной способностью, особенно в многоузловых кластерах, где помимо ускоренных вычислений используются быстрая сеть и быстрое хранилище. Кроме того, процесс обучения занимает много времени и включает такие этапы, как загрузка моделей, распределенное обучение, контрольная точка, мониторинг, автоматическое исправление, объединение и квантование. Гибкие учебные планы HyperPod предоставили компании надежные и доступные вычислительные ресурсы перед началом обучения, соответствующие конкретным требованиям к вычислительным ресурсам и срокам, а также обеспечивающие эффективное обучение моделей.
-
OpenBabylon
Разработчики и специалисты по обработке данных из OpenBabylon, компании в области ИИ, которая настраивает большие языковые модели для недостаточно представленных языков, уже несколько месяцев используют гибкие учебные планы SageMaker HyperPod, чтобы упростить доступ к ресурсам графического процессора для проведения крупномасштабных экспериментов. Используя возможности распределенного обучения многоузловой платформы SageMaker HyperPod, они провели 100 крупномасштабных экспериментов по обучению моделей, добившись высоких результатов в переводе с английского на украинский язык. Этот прорыв был достигнут в срок и с оптимальными затратами, что продемонстрировало способность SageMaker HyperPod успешно реализовывать сложные проекты своевременно и в рамках бюджета.
-
Salesforce
Исследователи из компании Salesforce искали способы быстро приступить к обучению и настройке базовых моделей, не беспокоясь об инфраструктуре и не тратя недели на оптимизацию учебного стека для каждой новой модели. Используя готовые решения Amazon SageMaker HyperPod, исследователи из компании Salesforce могут быстро создавать прототипы при настройке базовых моделей (FM). Теперь команды Salesforce по исследованию ИИ могут приступать к работе за считаные минуты, используя различные готовые решения по предварительному обучению и настройке, а также эффективно применять передовые модели с высокой производительностью.
Партнеры Amazon SageMaker HyperPod
Внедряйте инновации и повышайте прибыль для бизнеса с помощью Партнеров AWS, обладающих глубокими техническими знаниями и доказавших свою успешность в работе с клиентами
-
Accenture
Мы рады расширить сотрудничество с AWS в качестве партнера по запуску системы управления задачами Amazon SageMaker HyperPod. Это партнерство позволит нам не только познакомить клиентов с последними технологическими достижениями, но и значительно снизить затраты на создание и использование приложений генеративного ИИ. Объединив возможности централизованного управления SageMaker HyperPod с нашим опытом в области генеративного ИИ, мы помогаем компаниям быстрее реализовать преимущества этой технологии, улучшить качество обслуживания клиентов и повысить окупаемость инвестиций.
Akshay Krishnaswamy, руководитель глобальной бизнес-группы и старший управляющий директор, Accenture AWS -
Slalom
Мы рады сотрудничать с AWS в качестве партнера по запуску системы управления задачами Amazon SageMaker HyperPod. Благодаря этому партнерству мы можем помочь нашим клиентам быстрее внедрять передовые технологические достижения и снижать затраты на генеративные приложения ИИ. Объединив возможности централизованного управления SageMaker HyperPod с обширным опытом Slalom в области ИИ и облачных технологий, мы создаем условия для предоставления исключительного качества обслуживания клиентов и повышения окупаемости инвестиций.
Jeff Kempiners, управляющий директор Центра передового опыта Amazon (CoE), Slalom -
Rackspace Technology
Мы рады сотрудничать с AWS в качестве партнера по запуску системы управления задачами SageMaker HyperPod. Вместе мы можем помочь нашим клиентам снизить затраты на приложения на основе генеративного ИИ, не отставая при этом от последних технологических достижений. Объединив возможности централизованного управления SageMaker HyperPod с глубоким опытом Rackspace в области ИИ и облачных технологий, мы создаем условия для трансформации качества обслуживания клиентов и повышения окупаемости инвестиций.
Srini Koushik, президент по ИИ, технологиям и устойчивому развитию, Rackspace Technology