Les agents, les flux et les bases de connaissances pour Amazon Bedrock prennent désormais en charge les modèles optimisés en termes de latence

Publié le: 23 déc. 2024

Les agents, les flux et les bases de connaissances pour Amazon Bedrock proposent désormais un support pour les modèles récemment annoncés, en avant-première et optimisés en termes de latence via le kit SDK. Cette amélioration permet d'accélérer les temps de réponse et d'améliorer la réactivité des applications d'IA créées avec Amazon Bedrock Tooling. Actuellement, cette optimisation est disponible pour le modèle Claude 3.5 Haiku d'Anthropic et les modèles Llama 3.1 405B et 70B de Meta, offrant une latence réduite par rapport aux modèles standard sans compromettre la précision.

Cette mise à jour est particulièrement utile pour les clients qui développent des applications sensibles à la latence, telles que les chatbots de service client en temps réel et les assistants de codage interactifs. En tirant parti de puces d'IA spécialement conçues comme AWS Trainium2 et des optimisations logicielles avancées dans Amazon Bedrock, les clients peuvent désormais accéder à davantage d'options pour optimiser leur inférence pour des cas d'utilisation spécifiques. Il est important de noter que ces fonctionnalités peuvent être intégrées immédiatement dans les applications existantes sans configuration supplémentaire ni ajustement du modèle, ce qui se traduit par des performances améliorées et des temps de réponse plus rapides.

La prise en charge d'inférence optimisée en termes de latence pour les agents, les flux et les bases de connaissances pour Amazon Bedrock est disponible dans la région USA Est (Ohio) via une inférence interrégionale. Les clients peuvent accéder à ces nouvelles fonctionnalités via le SDK Amazon Bedrock via une configuration d'exécution, ce qui leur permet d'intégrer par programmation ces modèles optimisés dans leurs flux de travail et applications.

Pour en savoir plus sur Amazon Bedrock et ses fonctionnalités, notamment cette nouvelle prise en charge de l'inférence optimisée pour la latence, consultez la page produit, la page sur la tarification et la documentation d'Amazon Bedrock.