El refinamiento por refuerzo de Amazon Bedrock suma compatibilidad con modelos de ponderación abierta con API compatibles con OpenAI
Amazon Bedrock ahora amplía la compatibilidad con el refinamiento por refuerzo (RFT) a los modelos populares de peso abierto, incluidos los modelos OpenAI GPT-OSS y Qwen, e introduce API de refinamiento compatibles con OpenAI. Estas capacidades facilitan a los desarrolladores la mejora de la precisión de los modelos de peso abierto sin necesidad de una profunda experiencia en machine learning ni de grandes volúmenes de datos etiquetados. El refinamiento por refuerzo en Amazon Bedrock automatiza el flujo de trabajo de personalización de principio a fin, lo que permite a los modelos aprender de los comentarios sobre múltiples respuestas posibles mediante un conjunto reducido de peticiones, en lugar de los grandes conjuntos de datos de entrenamiento tradicionales. El refinamiento por refuerzo permite que los clientes utilicen variantes de modelo más pequeñas, rápidas y rentables, a la vez que mantienen una alta calidad.
Las organizaciones suelen tener dificultades para adaptar los modelos básicos a sus requisitos empresariales únicos, lo que obliga a hacer concesiones entre modelos genéricos con un rendimiento limitado y procesos de personalización complejos y costosos que requieren infraestructura y experiencia especializadas. Amazon Bedrock elimina esta complejidad al proporcionar una experiencia de refinamiento por refuerzo segura y completamente administrada. Los clientes definen las funciones de recompensa utilizando evaluadores verificables basados en reglas o jueces basados en inteligencia artificial, que incluyen plantillas integradas tanto para tareas objetivas, como la generación de código y el razonamiento matemático, como para tareas subjetivas, como el seguimiento de las instrucciones o la calidad de la conversación. Durante la capacitación, los clientes pueden usar las funciones de AWS Lambda para la lógica de calificación personalizada y acceder a los puntos de control del modelo intermedio para evaluar, depurar y seleccionar el modelo con mejor rendimiento, lo que mejora la velocidad de iteración y la eficiencia del entrenamiento. Todos los datos patentados permanecen en el entorno seguro y gobernado de AWS durante todo el proceso de personalización.
Los modelos compatibles en este lanzamiento son: qwen.qwen3-32b y openai.gpt-oss-20b. Una vez finalizado el refinamiento, los clientes pueden utilizar inmediatamente el modelo perfeccionado resultante para realizar inferencias bajo demanda a través de las API compatibles con OpenAI de Amazon Bedrock (API de respuestas y API de finalización de chat), sin ningún paso de implementación adicional. Para obtener más información, consulte la documentación de Amazon Bedrock.