Инстансы Amazon EC2 Inf1

Высокопроизводительные и самые экономичные логические выводы машинного обучения в облаке

Предприятия в разнообразных отраслях переходят на машинное обучение, адаптируясь к таким сценариям использования, как предоставление индивидуальных рекомендаций о покупках, усовершенствование модерации интернет-контента, а также улучшение взаимодействия клиентов с контекстно-зависимыми чат-ботами. Но вместе с развитием способностей моделей машинного обучения растет и их сложность. Из-за этого требуется больше вычислительных мощностей, что повышает расходы. Во многих случаях до 90 % инфраструктуры, требуемой для разработки и выполнения приложений для машинного обучения, задействовано для получения логических выводов, поэтому высокопроизводительная и экономически эффективная инфраструктура получения выводов с помощью машинного обучения крайне важна.

Инстансы Inf1 на основе Amazon EC2 обеспечивают до 30 % большую пропускную способность и до 45 % меньшую стоимость логических выводов, чем инстансы Amazon EC2 G4, которые до сих пор считались самым экономичным решением для генерирования логических выводов машинного обучения в облаке. Инстансы Inf1 изначально разработаны для поддержки логических приложений машинного обучения. Эти инстансы содержат до 16 высокопроизводительных микросхем логических выводов машинного обучения AWS Inferentia, разработанных и созданных компанией AWS. Кроме того, инстансы Inf1 оснащены самыми современными процессорами Intel® Xeon® Scalable 2-го поколения и сетевым интерфейсом со скоростью до 100 Гбит/с, что обеспечивает высокую пропускную способность логических выводов. С помощью инстансов Inf1 клиенты могут с самой низкой стоимостью в облаке запускать широкомасштабные приложения логических выводов машинного обучения, такие как рекомендации по поиску, машинное зрение, обработка естественного языка, персонализация, а также выявление мошенничества.

Разработчики могут развертывать модели машинного обучения на инстансах Inf1 с помощью AWS Neuron SDK, интегрированного в популярные среды машинного обучения, такие как TensorFlow, PyTorch и MXNet. Он включает в себя компилятор, среду выполнения и инструменты профилирования для повышения эффективности получения логических выводов с использованием AWS Inferentia. Самый простой и быстрый способ начать работу с инстансами Inf1 – через Amazon SageMaker, полностью управляемый сервис, позволяющий разработчикам быстро создавать, обучать и развертывать модели машинного обучения. Разработчики, которые предпочитают управлять собственными платформами разработки приложений, использующих машинное обучение, могут начать работу либо запустив инстансы Inf1 с AMI AWS Deep Learning, в которые включен Neuron SDK, либо воспользовавшись инстансами Inf1 посредством сервиса Amazon Elastic Kubernetes Service (EKS) или Amazon Elastic Container Service (ECS) для контейнерных приложений с использованием машинного обучения.

SiteMerch-EC2-Instances_accelerated-trial_2up

Бесплатная пробная версия: до 10 000 USD в виде кредитов AWS на инстансы EC2 с аппаратным ускорением, которые идеально подходят для ML, HPC и графических приложений.

Нажмите здесь, чтобы подать заявку 
Инстансы Amazon EC2 Inf1 на основе AWS Inferentia (2:51)

Преимущества

До 45 % меньшая стоимость логических выводов

Высокая пропускная способность инстансов Inf1 обеспечивает наименьшую стоимость логических выводов в облаке – до 45 % меньше, чем инстансы Amazon EC2 G4, которые до сих пор считались самым экономичным решением для логических выводов машинного обучения в облаке. Поскольку на логические выводы машинного обучения приходится до 90 % всех эксплуатационных расходов на рабочие нагрузки машинного обучения, это приведет к значительной экономии средств.

До 30 % повышенная пропускная способность

Инстансы inf1 обеспечивают высокую пропускную способность для приложений пакетных логических выводов – до 30 % большую, чем инстансы Amazon EC2 G4. Приложения пакетных логических выводов, такие как расстановка тегов на фотографиях, чувствительны к пропускной способности логических выводов, т. е. к количеству обрабатываемых логических выводов в секунду. Инстансы Inf1 оптимизированы для обеспечения высокой производительности обработки небольших пакетов, что крайне важно для приложений со строгими требованиями ко времени ответа. Благодаря наличию в них от 1 до 16 микросхем AWS Inferentia, инстансы Inf1 могут масштабировать свою продуктивность до 2000 триллионов операций в секунду (терафлопсов).

Крайне низкая задержка

Инстансы inf1 обеспечивают низкую задержку для приложений в режиме реального времени. Приложения логических выводов в режиме реального времени, такие как генерирование речи и поиск, требуют быстрой реакции на ввод пользователя и чувствительны к задержке логических выводов. Большой объем встроенной памяти на микросхемах AWS Inferentia позволяет инстансам Inf1 кэшировать модели машинного обучения прямо в микросхеме. Благодаря этому во время производства логических выводов отпадает потребность в доступе к внешним ресурсам памяти, что снижает задержку, не влияя на пропускную способность.

Генерирование логических выводов с использованием машинного обучения для широкого круга применений

Разработчики могут пользоваться возможностями высокопроизводительного генерирования логических выводов при малой задержке и низкой цене с использованием инстансов Inf1 для широкого круга приложений, применяющих машинное обучение для различных потребностей бизнеса, в том числе для анализа изображений и видео, диалоговых агентов, выявления мошенничества, финансового прогнозирования, автоматизации в сфере здравоохранения, работы сервисов рекомендаций, анализа и расшифровки текста.

Простота использования и универсальность кода

Поскольку комплект Neuron SDK интегрирован в популярные среды машинного обучения, такие как TensorFlow и PyTorch, разработчики имеют возможность развертывать существующие модели на инстансах Inf1 на основе EC2 с минимальными изменениями в коде. Это дает им свободу продолжать использовать знакомую среду машинного обучения, выбрать вычислительную платформу, которая больше всего отвечает их требованиям к производительности и применить новейшие технологии, не будучи привязанными к специальным библиотекам программного обеспечения.

Поддержка разных моделей машинного обучения и типов данных

Благодаря пакету AWS Neuron инстансы Inf1 поддерживают многие часто используемые модели машинного обучения, такие как средство обнаружения объектов на одном снимке (SSD) и ResNet для распознавания или классификации изображений, а также Transformer и BERT для обработки и перевода естественного языка. Также поддерживается несколько типов данных, в том числе INT8, BF16 и FP16 со смешанной точностью, обеспечивая широкий диапазон моделей и требований к производительности.

Возможности

На базе AWS Inferentia

AWS Inferentia – это специальная микросхема для машинного обучения, разработанная и созданная компанией AWS для обеспечения высокой производительности получения логических выводов при низкой стоимости. Каждый чип AWS Inferentia производит до 128 триллионов операций в секунду (терафлопсов) и поддерживает типы данных FP16, BF16 и INT8. Также микросхемы AWS Inferentia имеют большой объем встроенной памяти, которую можно использовать для кэширования больших моделей, что особенно полезно для моделей, которым необходим частый доступ к памяти.

Комплект средств разработки ПО (SDK) AWS Neuron состоит из компилятора, среды выполнения и инструментов профилирования. Он позволяет выполнять сложные модели нейронных сетей, созданные и обученные на популярных платформах, таких как TensorFlow, PyTorch и MXNet, используя инстансы Inf1. С помощью AWS Neuron также можно разделять большие модели для выполнения на нескольких микросхемах Inferentia с использованием высокоскоростного физического соединения микросхем, что повышает пропускную способность и снижает затраты.

Высокая производительность сети и хранилища

Для приложений, которым требуется высокая сетевая производительность, инстансы Inf1 обеспечивают пропускную способность сети до 100 Гбит/с. Благодаря эластичным сетевым адаптерам (ENA) и технологии NVM Express (NVMe) нового поколения инстансы Inf1 оснащены интерфейсами с высокой пропускной способностью и низкой задержкой для работы с сетями и Amazon Elastic Block Store (Amazon EBS).

Создано на основе системы AWS Nitro

Система AWS Nitro предлагает широкий выбор структурных блоков, позволяющих использовать выделенное оборудование и программное обеспечение для выполнения многих традиционных задач виртуализации, чтобы повышать производительность, доступность и безопасность при одновременном сокращении издержек, связанных с виртуализацией.

Принцип работы сервиса

Использование Inf1 и AWS Inferentia

Отзывы клиентов

Anthem
Anthem – один из ведущих поставщиков медицинского страхования в стране, обслуживающий более 40 млн клиентов из десятков штатов. «Рынок цифровых платформ для сферы здравоохранения растет невиданными темпами. Сбор информации на этом рынке является трудной задачей в связи с огромным количеством неструктурированных данных об отзывах клиентов. Наше приложение автоматизирует создание полезной аналитической информации на основе отзывов клиентов при помощи моделей глубокого обучения для естественного языка (Transformers). Наше приложение требует интенсивного использования вычислительных ресурсов и развертывания с крайне высокой производительностью. Мы легко развернули логическую рабочую нагрузку глубокого обучения в инстансах Amazon EC2 Inf1 на базе процессора AWS Inferentia. Новые инстансы Inf1 обеспечивают вдвое большую пропускную способность, чем инстансы на базе графических процессоров, и помогают нам упростить логические рабочие нагрузки»

Нуман Лаанайт, доктор философии, главный специалист по работе с данными и искусственным интеллектом; Миро Михайлов, доктор философии, главный специалист по работе с данными и искусственным интеллектом

Condé Nast
«В международный портфель Condé Nast входят более 20 ведущих медиабрендов, включая Wired, Vogue и Vanity Fair. Наша команда смогла интегрировать наш механизм рекомендаций с микросхемами AWS Inferentia за несколько недель. Эта интеграция позволяет проводить множество оптимизаций среды выполнения для современных моделей естественного языка в инстансах SageMaker Inf1. В результате мы получили повышение производительности в виде снижения расходов на 72 % по сравнению с ранее развернутыми инстансами на базе GPU».

Пол Фрайзел, главный инженер по инфраструктуре искусственного интеллекта

Asahi Shimbun
«Asahi Shimbun – одна из наиболее популярных газет в Японии. Media Lab – это одно из подразделений нашей компании, задача которого заключается в изучении последних технологий, в особенности ИИ, а также в подключении инновационных технологий для новой бизнес-деятельности. Запуск инстансов Amazon EC2 Inf1 на базе AWS Inferentia в Токио позволил нам протестировать на этих инстансах наше ИИ-приложение для резюмирования текста на основе PyTorch. Это приложение обрабатывает большой объем данных, а также генерирует заголовки и краткие предложения на основе статей за последние 30 лет. Используя Inferentia, нам удалось в несколько раз сократить расходы по сравнению с инстансами на базе ЦП. Значительное сокращение расходов позволит нам развертывать наиболее сложные модели в нужном масштабе, что ранее казалось недоступным с финансовой точки зрения».

Хидеаки Тамори, доктор философии, главный администратор, Media Lab, Asahi Shimbun

CS Disco
«CS Disco заново изобретает юридические технологии и становится ведущим поставщиком решений искусственного интеллекта для электронного поиска, разработанных юристами для юристов. Disco AI ускоряет неблагодарную задачу просеивания терабайтов данных, ускоряет время просмотра и повышает точность обзора документов за счет использования сложных моделей обработки естественного языка, которые требуют больших вычислительных ресурсов и чрезвычайно затратны. Disco обнаружила, что инстансы Inf1 на базе AWS Inferentia снижают стоимость логического вывода в Disco AI как минимум на 35 % по сравнению с современными инстансами на базе GPU. Благодаря этому положительному опыту работы с инстансами Inf1 CS Disco рассмотрит возможность перехода на AWS Inferentia».

Алан Локетт, старший директор по исследованиям, CS Disco

Talroo
«Компания Talroo предоставляет клиентам платформу на основе данных. С помощью этой платформы они могут привлекать внимание уникальных кандидатов и нанимать сотрудников. Мы неустанно следим за новыми технологиями, чтобы предлагать клиентам лучшие продукты и услуги. С помощью Inferentia мы извлекаем данные из фонда текстовых данных, чтобы совершенствовать ИИ-технологии поиска соответствий. Talroo использует инстансы Amazon EC2 Inf1 для создания моделей понимания естественных языков с высокой пропускной способностью на основе SageMaker. Результаты первоначального тестирования Talroo свидетельствуют о том, что инстансы Amazon EC2 Inf1 на 40 % сокращают задержки логических выводов и в два раза увеличивают пропускную способность по сравнению с инстансами G4dn на базе графических процессоров. Учитывая эти результаты, Talroo с нетерпением ждет, когда настанет время использовать инстансы Amazon EC2 Inf1 в составе своей инфраструктуры AWS».

Джанет Ху, инженер-программист, Talroo

Digital Media Professionals (DMP)
«Компания Digital Media Professionals (DMP) смотрит в будущее благодаря работающей в реальном времени платформе ZIA на базе искусственного интеллекта. DMP использует эффективные технологии классификации машинного зрения для сбора сведений о больших количествах поступающих в реальном времени изображений, например в целях наблюдения за условиями, а также предотвращения преступлений и несчастных случаев. Мы активно испытываем инстансы Inf1 и сравниваем их с альтернативами, поскольку считаем, что Inferentia обеспечит производительность и экономию, необходимые нам для масштабного развертывания приложений ИИ» 

Хироюки Умеда, директор и генеральный менеджер отдела продаж и маркетинга, Digital Media Professionals

Hotpot.ai
Hotpot.ai дает новичкам возможность создавать привлекательный графический дизайн и помогает профессиональным дизайнерам автоматизировать рутинные задачи. «Так как машинное обучение является основой нашей стратегии, мы были рады опробовать инстансы Inf1 на базе AWS Inferentia. Мы обнаружили, что инстансы Inf1 легко интегрируются с нашими научно-исследовательскими процессами. Что самое важное, мы заметили впечатляющий прирост производительности по сравнению с инстансами G4dn на базе графических процессоров. В нашей первой модели инстансы Inf1 показали на 45 % большую пропускную способность и сократили расходы на получение логических выводов почти на 50 %. Мы планируем тесно сотрудничать со специалистами AWS, чтобы портировать другие модели и перенести большую часть нашей логической инфраструктуры машинного обучения на сервис AWS Inferentia»

Кларенс Ху, основатель Hotpot.ai

INGA
«Миссия компании INGA – создавать передовые решения для резюмирования текста на основе технологий искусственного интеллекта и глубокого обучения, которые можно просто интегрировать в текущие бизнес‑процессы. Мы считаем, что резюмирование текста будет определяющим инструментом, который поможет предприятиям извлекать осмысленные выводы из данных. Мы стали быстро развиваться, используя AWS Inferentia на основе инстансов Amazon EC2 Inf1, которые мы интегрировали в свой процесс разработки. Влияние на наш бизнес было незамедлительным и значимым. Инстансы Inf1 обеспечивают высокую производительность, что дает нам возможность повышать эффективность и производительность конвейеров моделей генерирования логических выводов. Сразу же в 4 раза повысилась производительность, а затраты на конвейер снизились на 30 % по сравнению с прежним конвейером на основе GPU».

Ярослав Шакула, директор по развитию бизнеса, INGA Technologies

SkyWatch
«SkyWatch обрабатывает сотни триллионов пикселей из данных, ежедневно получаемых при наблюдении за Землей из космоса. Переход к использованию новых инстансов Inf1 на основе AWS Inferentia с использованием Amazon SageMaker для обнаружения облаков и оценки качества изображений в режиме реального времени прошел быстро и легко. Для этого нужно было всего лишь изменить тип инстанса в конфигурации развертывания. Изменив тип инстанса на Inf1 на основе Inferentia, мы повысили производительность на 40 % и снизили общие затраты на 23 %. Это было большой победой. Мы смогли снизить общие эксплуатационные расходы и при этом продолжили предоставлять своим клиентам высококачественные спутниковые снимки с минимальными затратами на проектирование. Мы стремимся перевести все свои конечные точки, генерирующие логические выводы, и пакетные процессы машинного обучения на использование инстансов Inf1, чтобы и в дальнейшем повышать достоверность наших данных и улучшать взаимодействие с клиентами».

Адлер Сантос, менеджер по разработке систем, SkyWatch

Сервисы Amazon с использованием инстансов Inf1 на основе Amazon EC2

Сервис Amazon Alexa

В мире продается более 100 миллионов устройств Alexa, и клиенты оставили на Amazon более 400 тысяч отзывов с пятью звездочками об устройствах Echo. «Возможности искусственного интеллекта и машинного обучения Amazon Alexa, которые работают на основе Amazon Web Services, сегодня доступны более чем на 100 миллионах устройств, и мы обещаем клиентам, что Alexa все время будет становиться умнее, общительнее, предусмотрительнее и даже очаровательнее», – говорит Том Тейлор, старший вице-президент Amazon Alexa. «Чтобы выполнить это обещание, нужно постоянно сокращать время отклика и затраты на инфраструктуру машинного обучения, поэтому мы рады применять инстансы Inf1 на основе Amazon EC2, чтобы снижать задержку генерирования логических выводов и сокращать затраты на каждый логический вывод при использовании функции Alexa для преобразования текста в речь. Благодаря Inf1 на основе Amazon EC2 мы сможем сделать этот сервис еще удобнее для десятков миллионов клиентов, которые пользуются Alexa каждый месяц».

Цены

* Цены указаны для региона AWS Восток США (Северная Вирджиния). Цены, указанные для инстансов, зарезервированных на 1 и 3 года, действительны при выборе способа оплаты с частичной предоплатой или без предоплаты (для инстансов, не предусматривающих возможности частичной предоплаты).

Инстансы Amazon EC2 Inf1 доступны в регионах AWS Восток США (Северная Вирджиния) и Запад США (Орегон) как инстансы по требованию, а также зарезервированные и спотовые инстансы.

Начало работы

Использование Amazon SageMaker

Amazon SageMaker упрощает компиляцию и развертывание обученной модели машинного обучения в производственной среде на инстансах Amazon Inf1, чтобы вы могли начать генерировать прогнозы в реальном времени и с низкой задержкой. AWS Neuron, компилятор для AWS Inferentia, интегрирован с Amazon SageMaker Neo, что позволяет компилировать обученные модели машинного обучения для оптимальной работы на инстансах Inf1. С помощью Amazon SageMaker вы можете легко запускать модели в автомасштабируемых кластерах инстансов Inf1, расположенных в нескольких зонах доступности, что обеспечивает высокую производительность и доступность логических выводов в реальном времени. Узнайте, как развернуть модель на инстансе Inf1 с помощью Amazon SageMaker, изучив примеры на Github.

Использование AWS Deep Learning AMI

Образы AWS Deep Learning AMI (DLAMI) предоставляют специалистам по машинному обучению и ученым инфраструктуру и инструменты для ускорения глубокого обучения в облаке в любых масштабах. В AWS Neuron SDK заранее установлены образы AWS Deep Learning AMI для оптимальной компиляции и работы ваших моделей машинного обучения на инстансах Inf1. Чтобы получить инструкции по началу работы, см. Руководство по выбору AMI и другие ресурсы по глубокому обучению. Чтобы узнать, как пользоваться DLAMI с Neuron, см. Руководство по началу работы с AWS DLAMI.

Контейнеры глубокого обучения AWS

Теперь разработчики могут развертывать инстансы Inf1 в Amazon Elastic Kubernetes Service (EKS), полностью управляемом сервисе Kubernetes, а также в Amazon Elastic Container Service (ECS), полностью управляемом сервисе оркестрации контейнеров от Amazon. Подробнее о начале работы с Inf1 на основе Amazon EKS читайте в этой публикации блога. Дополнительная информация о работе контейнеров на инстансах Inf1 доступна на странице Учебного пособия по инструментам контейнеров Neuron. Скоро будет реализована поддержка Inf1 для контейнеров AWS DL.