Общедоступное мультимодальное извлечение данных в базах знаний Bedrock
Сегодня AWS объявляет о поддержке мультимодального извлечения данных в базах знаний Bedrock. Базы знаний Amazon Bedrock поддерживают комплексные управляемые рабочие процессы дополненной извлеченными данными генерации (RAG) для создания высокоточных специализированных приложений генеративного искусственного интеллекта (ИИ) с низкой задержкой, использующих контекстную информацию из корпоративных источников данных. Поддержка мультимодального извлечения данных в базах знаний позволяет разработчикам создавать приложения для поиска и ответов на вопросы на основе ИИ, которые работают с текстом, изображениями, аудио- и видеофайлами. Например, пользователь может попросить ИИ-помощника «показать прогнозы Amazon Bedrock на первый квартал», и базы знаний Bedrock извлекут из документов, графиков, фрагментов видео и аудиозаписей необходимый текст, связанный с прогнозами доходов Bedrock, чтобы помощник мог предоставить пользователю более подробные и полные ответы. Ранее клиентам был доступен поиск только в текстовых документах и изображениях. Теперь же стало возможно получать аналитику по всем корпоративным форматам данных в рамках единого и полностью управляемого рабочего процесса.
Организациям бывает трудно анализировать постоянно растущий объем мультимедийных данных, включающих видео- и аудиозаписи, изображения и документы, поскольку создание ИИ-приложений, способных осуществлять поиск в этих непохожих форматах, является сложной задачей. В результате ценная информации, хранящаяся в терабайтах записей совещаний, учебных видеороликов и визуальной документации, остается недоступной, что мешает организациям быстро и точно принимать решения на основе данных. Благодаря мультимодальному извлечению данных из баз знаний разработчики могут использовать разнородный контент, полностью контролируя анализ, разбивку, встраивание (например, с помощью мультимодальной модели Amazon Nova) и хранение векторных данных. Отправив текстовый запрос или изображение в качестве входных данных, можно получить необходимые фрагменты текста, изображений, аудио и видео, чтобы сгенерировать ответ в приложениях генеративного искусственного интеллекта, используя предпочтительную большую языковую модель (LLM).
Подробные сведения о создании мультиканальных баз знаний в Bedrock см. в документации. Доступность в регионах зависит от поддержки выбранных мультимодальных функций. Подробности см. в документации.