Кэширование текстовых запросов Amazon Bedrock
Обзор
Во многих случаях использования базовой модели (FM) определенные части текстовых запросов (префиксов) в вызовах API используются повторно. Поддерживаемые модели позволяют кэшировать повторяющиеся префиксы текстовых запросов между их отправкой. Этот кэш позволяет модели пропустить повторное вычисление совпадающих префиксов. В результате кэширование текстовых запросов в Amazon Bedrock позволяет в некоторых случаях сократить расходы для поддерживаемых моделей на 90 %, а задержки – на 85 %.
Повышение производительности для нескольких сценариев использования
Многие приложения, такие как вопросы и ответы по документации, помощники по программированию, агентивный поиск или чат с подробными ответами, требуют подробных текстовых запросов или работают с ними эффективнее. Чтобы добиться результатов, подходящих для вашего сценария использования, даже при использовании наиболее интеллектуальных базовых моделей часто приходится вводить подробные текстовые запросы с детальными инструкциями и множеством примеров. Однако длинные текстовые запросы, повторно используемые во всех вызовах API, могут привести к увеличению средней задержки. При кэшировании текстовых запросов нет необходимости пересчитывать внутреннее состояние модели, если префикс текстового запроса уже был кэширован. Это экономит время обработки и, как следствие, снижает задержку перед ответом.

Сократите расходы, связанные с большими повторяющимися текстовыми запросами
Необходимые части текстового запроса можно кэшировать, чтобы сэкономить на стоимости входных токенов. Кэш привязан к вашему аккаунту и содержит состояние внутренней модели, представляющее ваши текстовые запросы. Поскольку модель может пропустить повторное вычисление кэшированных префиксов, вычислительные ресурсы, необходимые для обработки ваших запросов, уменьшаются. В результате ваши расходы снижаются.
Простая интеграция с другими функциями Amazon Bedrock
Кэширование текстового запроса интегрируется с такими функциями Amazon Bedrock, как агенты, что позволяет ускорить выполнение многоэтапных задач и даже использовать более длинные системные текстовые запросы, чтобы улучшить поведение агентов без замедления ответов.