Amazon EC2 Inf1 Instances

Inférence machine learning haute performance et à moindre coût dans le cloud

Les instances Inf1 d'Amazon EC2 offrent des performances élevées et l'inférence de machine learning la plus économique dans le cloud. Les instances Inf1 sont créées de A à Z pour prendre en charge les applications d'inférence de machine learning. Les instances Inf1 comportent jusqu'à 16 puces AWS Inferentia. Il s'agit de puces d'inférence de machine learning spécialement conçues et fabriquées par AWS pour offrir des performances élevées. Nous avons en outre combiné les puces Inferentia aux derniers processeurs Intel® Xeon® Scalable de 2e génération, ainsi qu'à une mise en réseau à un débit atteignant 100 Gbit/s pour assurer une inférence à haut débit. Avec cette puissante configuration, les instances Inf1 offrent un débit jusqu'à 3 fois plus élevé et un coût par inférence jusqu'à 40 % inférieur à celui des instances Amazon EC2 G4 alors même que ces dernières étaient déjà les instances les plus moins chères pour l'inférence de machine learning disponible dans le cloud. Les clients qui utilisent les instances Inf1 peuvent exécuter à moindre coût dans le cloud des applications d'inférence de machine learning à grande échelle comme la reconnaissance d'images, la reconnaissance vocale, le traitement du langage naturel, la personnalisation et la détection des fraudes.

Les clients d'un large éventail de secteurs font appel au machine learning pour traiter les cas d'utilisation courants pour les applications telles que la fourniture de recommandations d'achat personnalisées, l'amélioration de la sûreté et de la sécurité par la modération du contenu en ligne et l'amélioration de l'engagement client avec des Chatbots. Ils recherchent plus de performances pour leurs applications de machine learning avec pour objectif d'offrir la meilleure expérience possible à l'utilisateur final.

Pour commencer l'inférence de machine learning avec des instances Inf1, vous pouvez prendre votre modèle de machine learning entraîné et le compiler afin de l'exécuter sur la puce AWS Inferentia à l'aide d'AWS Neuron. AWS Neuron est un kit de développement logiciel (SDK) comprenant un compilateur ainsi que des outils d'exécution et de profilage qui optimisent les performances d'inférence de machine learning des puces Inferentia. Il est intégré aux frameworks de machine learning populaires tels que TensorFlow, PyTorch et MXNet et est pré-installé sur les AMI AWS Deep Learning. Il peut également être installé sur votre environnement personnalisé sans framework. Avec les instances Inf1, le plus simple est de commencer avec Amazon SageMaker, un service entièrement géré qui permet aux développeurs de créer, d'entraîner et de déployer rapidement des modèles de machine learning. Amazon SageMaker prend en charge les instances Inf1 et AWS Neuron pour fournir un déploiement en un clic de modèles de machine learning sur des instances Inf1, avec une scalabilité automatique sur plusieurs zones de disponibilité pour une redondance élevée.

SiteMerch-EC2-Instances_accelerated-trial_2up

Essai gratuit : jusqu'à 10 000 USD de crédits AWS pour les instances accélérées matérielles EC2, idéales pour les applications de ML, HPC et graphiques.

Cliquer ici pour faire une demande 
Amazon EC2 Inf1 instances based on AWS Inferentia (2:51)

Avantages

Jusqu'à 40 % de réduction du coût par inférence

Le haut débit des instances Inf1 permet d'obtenir le coût par inférence le plus bas dans le cloud. En effet, avec ces instances, vous pouvez avoir des coûts par interférence jusqu'à 40 % inférieurs à ceux des instances Amazon EC2 G4 alors même que ces dernières étaient déjà les instances les plus moins chères pour l'inférence de machine learning disponible dans le cloud. Étant donné que l'inférence de machine learning représente jusqu'à 90 % des coûts d'exploitation globaux pour l'exécution des charges de travail de machine learning, il apparaît que l'utilisation d'instances Inf1 permet de faire d'énormes économies.

Débit jusqu'à 3 fois plus important

Les instances Inf1 offrent un débit élevé pour les applications d'inférence par lots, soit jusqu'à 3 fois plus important que celui des instances Amazon EC2 G4. Les applications d'inférence par lots (applications de marquage de photos, par exemple) sont sensibles au débit d'inférence ou au nombre d'inférences qui peuvent être traitées par seconde. Les instances Inf1 peuvent atteindre une performance 2000 téra-opérations par seconde (TOPS) avec 1 à 16 puces AWS Inferentia par instance.

Temps de latence extrêmement faible

Les instances Inf1 assurent une latence extrêmement faible pour les applications de traitement en temps réel. Les applications d'inférence en temps réel comme la reconnaissance vocale doivent rapidement faire des inférences en réponse à la donnée entrée par un utilisateur. Elles sont sensibles à la latence d'inférence. La grande mémoire sur puce des puces AWS Inferentia utilisées dans les instances Inf1 permet la mise en cache des modèles de machine learning directement sur la puce. Avec cette configuration, il n'est plus nécessaire d'accéder à des ressources mémoire externes pendant l'inférence, ce qui garantit une faible latence sans effet sur la bande passante.

Simplicité d'utilisation

Les instances Inf1 sont faciles à utiliser et nécessitent peu ou pas de changements de code pour prendre en charge les modèles formés à l'aide des cadres de machine learning les plus populaires, notamment TensorFlow, PyTorch, et MXNet. Avec les instances Inf1, le plus simple est de commencer avec Amazon SageMaker, un service entièrement géré qui permet aux développeurs de créer, d'entraîner et de déployer rapidement des modèles de machine learning.

Flexibilité pour différents modèles de machine learning

Les instances Inf1 associées à AWS Neuron prennent en charge de nombreux modèles de machine learning couramment utilisés comme le détecteur de prise de vue unique (SSD) et ResNet pour la reconnaissance/classification des images, ainsi que Transformer et BERT pour le traitement et la traduction du langage naturel.

Prise en charge de plusieurs types de données

Les instances Inf1 prennent en charge plusieurs types de données, notamment INT8, BF16 et FP16, avec une précision variable pour prendre en charge un large éventail de modèles et de besoins de performances.

Amazon SageMaker

Amazon SageMaker facilite la compilation et le déploiement de votre modèle de machine learning entraîné en production sur des instances Amazon Inf1, afin que vous puissiez commencer à générer des prévisions en temps réel avec une faible latence. Amazon SageMaker est un service entièrement géré permettant aux développeurs et aux scientifiques des données de créer, former et déployer rapidement et facilement des modèles de machine learning. Amazon SageMaker facilite chaque étape du processus de machine learning afin de simplifier le développement de modèles de haute qualité, de régler ces derniers pour des performances optimisées et de les déployer en production plus rapidement. AWS Neuron, le compilateur pour AWS Inferentia, est intégré à Amazon SageMaker Neo, ce qui vous permet de compiler vos modèles de machine learning pour un fonctionnement optimal sur les instances Inf1. Votre modèle s'exécutera sur des clusters à scalabilité automatique d'instances Inf1 d'Amazon SageMaker réparties entre plusieurs zones de disponibilité pour offrir de hautes performances et une disponibilité élevée.

En savoir plus »

Fonctionnement

Mode d'emploi d'Inf1 et d'AWS Inferentia

Puces d'AWS Inferentia

AWS Inferentia est une puce d'inférence de machine learning conçue et créée par AWS pour offrir des performances élevées à faible coût. Chaque puce AWS Inferentia possède 4 cœurs Neuron et prend en charge les données de type FP16, BF16, et INT8. Les puces AWS Inferentia disposent d'une grande mémoire qui peut être utilisée pour la mise en cache de modèles conséquents, ce qui est particulièrement avantageux pour les modèles qui nécessitent un accès fréquent à la mémoire. AWS Inferentia est doté du kit de développement logiciel (SDK) AWS Neuron, qui comprend un compilateur, un environnement d'exécution et des outils de profilage. Il permet d'exécuter des modèles de réseaux de neurones complexes, créés et formés dans des frameworks courants, tels que Tensorflow, PyTorch et MXNet, à l'aide des instances Inf1 d'Amazon EC2 basées sur AWS Inferentia. AWS Neuron prend également en charge la division de grands modèles à exécuter sur plusieurs puces Inferentia via une interconnexion physique haute vitesse, offrant un débit d'inférence élevé et des coûts réduits.

En savoir plus >>

Cas d'utilisation

Recommendations

Le machine learning est de plus en plus utilisé pour améliorer l'engagement clients en générant des recommandations de produits et de contenus personnalisés, des résultats de recherche personnalisés et des promotions marketing ciblées.

Prévisions

De nos jours, les entreprises utilisent tout ce qu'elles peuvent, des simples feuilles de calcul à des logiciels complexes de planification financière pour essayer de prévoir avec précision leurs résultats commerciaux concernant par exemple la demande en produit, les besoins en ressources ou les performances financières. Ces outils élaborent des prévisions sur la base d'une série de données historique appelées données de séries chronologiques. De plus en plus d'entreprises font appel au machine learning pour combiner des données de séries chronologiques avec des variables supplémentaires afin d'établir des prévisions.

Analyse image et vidéo

Désormais, le machine learning est utilisé pour identifier les objets, les personnes, les textes, les scènes et les activités, ainsi que pour détecter tout contenu inapproprié contenu dans les images ou les vidéos. De plus, l'analyse faciale et la reconnaissance faciale sur les images et les vidéos permettent de détecter, d'analyser et de comparer les visages pour une grande variété de raisons comme la vérification des utilisateurs, le comptage de personnes ou encore pour des besoins de sécurité publique.

Analyse de texte avancée

Le machine learning est particulièrement efficace pour identifier des points d'intérêt spécifiques dans de vastes ensembles de texte (identification de noms de sociétés dans des rapports d'analyse, par exemple). Il permet en outre de saisir les sentiments qui se cachent derrière le langage utilisé (identification des avis négatifs, ou des interactions client positives avec les agents du service client) dans une très large mesure.

Analyse de document

Le machine learning peut être utilisé pour lire instantanément presque tous les types de documents afin d'y extraire avec précision du texte et des données sans effort manuel ou sans code personnalisé. Vous pouvez automatiser les systèmes de documents rapidement, ce qui vous permet de traiter des millions de pages de documents par heures.

Voix

Les entreprises peuvent se servir du machine learning pour transformer le texte en paroles réalistes, ce qui leur permet de créer des applications qui parlent et de bâtir une toute nouvelle gamme de produits à fonctionnalité de reconnaissance vocale activée. Les services de synthèse vocale (TTS) peuvent exploiter des technologies avancées de deep learning pour synthétiser la parole de façon naturelle.

Agents de conversation

L'intelligence artificielle joue un rôle dans l'amélioration de l'expérience client dans les centres d'appels notamment à travers sont intégration dans les chatbots qui sont des assistants virtuels intelligents en langage naturel. Ces chatbots sont capables de reconnaître la voie humaine et de comprendre l'intention du mandataire sans que celui-ci ait besoin d'utiliser des phrases spécifiques. Les appelants peuvent effectuer des tâches telles que modifier un mot de passe, demander le solde d'un compte ou planifier un rendez-vous sans avoir besoin de s'adresser à un agent.

Traduction

Les entreprises peuvent utiliser la traduction basée sur le machine learning pour fournir une traduction plus précise et plus naturelle que les algorithmes de traduction statistiques et basés sur des règles traditionnels. Les entreprises peuvent localiser du contenu (sites Web et applications) pour des utilisateurs internationaux et traduire facilement de gros volumes de texte.

Transcription

La transcription au moyen du machine learning peut être utilisée dans de nombreuses applications courantes, notamment la transcription d'appels passés à des services clients et la génération de sous-titres sur du contenu audio et vidéo. Les services de transcription peuvent apposer des horodatages pour chaque mot afin que vous puissiez facilement retrouver l'audio dans la source originale en recherchant le texte.

Détection des fraudes

Fraud Detection using machine learning détecte les activités douteuses et les marque pour examen approfondie. En règle générale, les solutions de détection des fraudes sont utilisées dans le secteur des services financiers pour classer les transactions comme légitimes ou frauduleuses à l'aide d'un modèle qui attribue un score à une transaction en fonction du montant, du lieu, du commerçant ou du moment.

Santé

Dans le secteur de la santé, le machine learning permet aux médecins de traiter les patients plus rapidement, à moindre coût et avec de meilleurs résultats. Les hôpitaux améliorent les technologies traditionnelles d'imagerie par rayons X comme les ultrasons et les tomodensitogrammes en incorporant une variété d'ensembles de données (données déclarées par les patients, données des capteurs et de nombreuses autres sources) dans le processus de balayage. Les algorithmes de machine learning sont alors capables de reconnaître la différence entre les résultats normaux et anormaux.

Tarification

Mise en route

Pour compiler et déployer un modèle de machine learning entraîné vers une instance Inf1, vous pouvez utiliser Amazon SageMaker ou le SDK AWS Neuron.

• Prise en main d'AWS Neuron sur Github
• Consultez le forum des développeurs AWS Neuron pour obtenir de l'aide
• Apprenez à déployer vers des instances Inf1 à l'aide d'exemples Amazon SageMaker sur Github