Amazon Comprehend es un servicio de procesamiento de lenguaje natural (NLP) que utiliza el machine learning para analizar textos. Amazon Comprehend proporciona reconocimiento de entidades personalizadas, clasificación personalizada, extracción de frases clave, análisis de opiniones, reconocimiento de entidades y más API para que pueda integrar fácilmente el procesamiento de lenguaje natural en las aplicaciones. Basta con llamar a las API de Amazon Comprehend en una aplicación y proporcionar la ubicación del documento o el texto de origen. Las API producen entidades, frases clave, opiniones e idioma en formato JSON, que puede usar en su aplicación.
Reconocimiento de entidades personalizadas
El reconocimiento de entidades personalizadas le permite personalizar Amazon Comprehend para identificar términos específicos de su dominio. Mediante AutoML, Comprehend aprenderá a partir de un pequeño conjunto de ejemplos (por ejemplo, una lista de números de póliza, números de reclamación o NSS) y, a continuación, formará un modelo privado y personalizado para reconocer estos términos, como los números de reclamación, en cualquier otro bloque de texto dentro de archivos PDF, texto sin formato o documentos de Microsoft Word, sin necesidad de machine learning. Consulte la página de documentación para obtener más información.
-
Ejemplo: en este ejemplo, a una empresa de seguros le gustaría analizar los documentos de texto correspondientes a entidades específicas de su empresa, los números de póliza.
Texto de muestra: Hola, me llamo Sam Ford y quisiera presentar una reclamación por accidente de coche. Mi código de póliza es 456-YQT.
Entidad Categoría Recuento Confianza 456-YQT Policy_ID 1 0.95
Clasificación personalizada
La API de clasificación personalizada le permite crear fácilmente modelos de clasificación personalizada de textos utilizando las etiquetas específicas de su empresa sin tener que aprender ML. Por ejemplo, su organización de soporte al cliente puede usar la clasificación personalizada para categorizar automáticamente las solicitudes entrantes por tipo de problema según cómo el cliente haya descrito el inconveniente. Con el modelo personalizado, es fácil moderar los comentarios de los sitios web, evaluar la opinión de los clientes y organizar los documentos de los grupos de trabajo. Consulte la página de documentación para obtener más información.
-
Ejemplo: supongamos que desea organizar los comentarios de atención al cliente de una compañía aérea. Quiere organizar cada comentario en las categorías “Preguntas sobre la cuenta”, “Reembolsos de billetes” y “Reclamaciones de vuelo”. Para formar el servicio, cree un archivo CSV que contenga texto de ejemplo de cada problema y etiquete cada ejemplo con una de las tres etiquetas que corresponda. El servicio formará automáticamente un modelo personalizado en su nombre. Para utilizar su modelo para analizar todas las llamadas al día siguiente, envíe cada archivo de texto al servicio y recibirá los resultados etiquetados junto con la confianza de la etiqueta correspondiente.
Texto Etiqueta Puntuación de confianza Línea 0 Pregunta sobre la cuenta 0,92 Línea 1 Reembolso de boletos 1 Línea 2 Quejas sobre el vuelo 1 Línea 3 Quejas sobre el vuelo 0,91 Doc5.csv Reembolso de boletos 1
Reconocimiento de entidad
La API de reconocimiento de entidades devuelve las entidades nombradas (“Personas”, “Lugares”, “Ubicaciones”, etc.) que se categorizan de manera automática a partir del texto proporcionado. Consulte la página de documentación para obtener más información.
-
Ejemplo: en este ejemplo, examinamos la descripción de una empresa. La API identifica entidades como la empresa, la fecha y la ubicación y produce una puntuación de confianza.
Texto de muestra: Amazon.com, Inc. se encuentra ubicada en Seattle, WA y fue fundada el 5 de julio de 1994 por Jeff Bezos. Permite a los clientes comprar de todo, desde libros a batidoras. Seattle está al norte de Portland y al sur de Vancouver, BC. Otras compañías importantes con sede en Seattle son Starbucks y Boeing.
Entidad Categoría Confianza Amazon.com, Inc.
Organización 0,96 Seattle, WA Ubicación 0,96 5 de julio de 1994 Fecha 0,99 Jeff Bezos Persona 0,99 Seattle
Ubicación 0,98 Portland
Ubicación 0,99 Vancouver, BC Ubicación 0,97 Starbucks
Organización 0,91 Boeing
Organización 0,99
Análisis de opiniones
La API de análisis de opiniones produce la opinión general de un texto (positiva, negativa, neutra o mixta). Consulte la página de documentación para obtener más información.
-
Ejemplo: en este ejemplo, un cliente está publicando un comentario acerca de un par de zapatos. La API identifica la opinión del cliente y produce una puntuación de confianza.
Texto de muestra: Pedí un número pequeño y esperaba que me quedaran bien, pero en realidad el número era más bien mediano-grande. Los zapatos son de gran calidad. El color marrón es algo más claro que el de la imagen, pero se acerca bastante. Sería mucho mejor si incorporaran un forro de algodón o lana.
Sentimiento Puntuación Combinación 0,89 Positiva 0,09 Negativa 0,01 Neutra 0,00
Opinión focalizada
La opinión focalizada proporciona información más granular mediante la identificación de opiniones (positivas, negativas, neutrales o mixtas) en las entidades de un texto. Consulte la página de documentación para obtener más información.
-
Ejemplo: En este ejemplo, un restaurante revisa la opinión de un cliente para entender en qué puede mejorar su empresa.
Texto de muestra: Me gustó mucho la hamburguesa, pero el servicio fue muy lento.
Texto Tipo de entidad Puntuación de confianza de la entidad Opinión Puntuación I Persona 0,99 Neutra 0,99 Hamburguesa Otro 0,99 Positiva 0,99 Servicio Atributo 0,99 Negativa 0,99
Identificación y redacción de PII
Use las capacidades de ML de Amazon Comprehend para detectar y redactar información de identificación personal (PII) en correos electrónicos de clientes, tickets de soporte, reseñas de productos, redes sociales y más. No se necesita experiencia previa en ML. Por ejemplo, puede analizar tickets de soporte y artículos de conocimiento para detectar entidades de PII y redactar el texto antes de indexar los documentos en la solución de búsqueda. Después, las soluciones de búsqueda no tienen entidades de PII en documentos. Redactar entidades de PII lo ayuda a proteger la privacidad y cumplir con las leyes y normativas locales. Consulte la página de documentación para obtener más información.
-
Ejemplo: en este ejemplo, un cliente quiere redactar datos financieros y personales de un extracto bancario. La API de redacción de PII identificará y redactará la PII junto con una puntuación de confianza.
Texto de muestra: Hola, John Smith. La cuenta 1111-0000-1111-0008 de la tarjeta de crédito de AnyCompany Financial Services, LLC tiene un pago mínimo de 24,53 USD que vence el 31 de julio. En función de la configuración de pago automática, se cobrará el pago de la cuenta bancaria XXXXXX1111 con el número de enrutamiento XXXXX0000 el día del vencimiento.
Entidad
Tipo
Puntuación
John Smith
Nombre
0,99+
1111-0000-111-0008
Número de débito o crédito
0,99+
31 de julio
Fecha y hora
0,99+
XXXXXX111
Número de cuenta bancaria
0,99+
XXXXX0000
Número de enrutamiento bancario
0,99+
Detección de toxicidad
La detección de toxicidad de Comprehend proporciona una solución simple basada en NLP para la detección de contenido tóxico en documentos de texto. La capacidad está disponible de fábrica para moderar la conversación entre pares en plataformas en línea y las entradas y salidas de IA generativa. Consulte la página de documentación para obtener más información.
Clasificación de seguridad rápida
Comprehend proporciona un clasificador binario previamente entrenado que puede clasificar la solicitud de entrada como dañina o no. Esto se puede integrar para permitir que los LLM solo respondan a contenido inofensivo. Consulte la página de documentación para obtener más información.
Extracción de frases clave
La API de extracción de frases clave produce frases clave o temas de conversación y una puntuación de confianza que respalda que se trata de una frase clave. Consulte la página de documentación para obtener más información.
-
Ejemplo: en este ejemplo, un cliente compara una cámara DSLR con una cámara instantánea de película. La API extrae las frases más importantes y envía una puntuación de confianza sobre los resultados.
Texto de muestra: Soy un fotógrafo entusiasta y principalmente saco fotos con mi cámara DSLR o con mi cámara instantánea de película que llevo conmigo para uso esporádico. Aunque nada supera a la DSLR en potencia y comodidad, la cámara instantánea de película tiene cierta magia. Quizás es que se toman las imágenes en película real o que cada imagen es un artefacto físico único (algo especial en el mundo de hoy de Instagram y Facebook, en el que encontramos imágenes por todas partes). Lo que está claro es que son muy divertidas de utilizar y que a todos se les ilumina la mirada cuando sacas una en una fiesta.
Frase clave Confianza un fotógrafo entusiasta 0,99
mi DSLR 0,97 mi cámara instantánea de película 0,99
uso esporádico 0,99
potencia y comodidad 0,94 película real 0,99 cada imagen 0,92 un artefacto físico único 0,99
hoy 0,91 mundo 0,99
Instagram y Facebook 0,99
Detección de eventos
Comprehend Events le permite extraer la estructura de eventos de un documento, en el que sintetiza las páginas de un texto a datos procesados fácilmente para el consumo por aplicaciones de IA o herramientas de visualización de gráficos. Esta API le permite responder a las preguntas “quién”, “qué”, “cuándo” y “dónde” en grandes conjuntos de documentos, a escala y sin experiencia previa en NLP. Use Comprehend Events para extraer detalles pormenorizados sobre eventos reales y entidades asociadas expresadas en texto sin estructurar. Consulte la página de documentación para obtener más información.
Detección de idioma
La API de detección de idioma identifica automáticamente texto escrito en más de 100 idiomas y devuelve el idioma dominante con una puntuación de confianza para respaldar que un idioma es dominante. Consulte la página de documentación para obtener más información.
-
Ejemplo: en este ejemplo, la API analiza el texto y es capaz de identificar que el idioma dominante del texto es el italiano, y produce además una puntuación de confianza.
Texto de muestra: Amazon Elastic Compute Cloud (Amazon EC2) è un servizio Web che fornisce capacità di elaborazione sicura e scalabile nel cloud. È concepito per rendere più semplice il cloud computing su scala Web per gli sviluppatori.
Código de idioma ISO-639-1 Idioma Confianza it Italiano 1,0
Análisis sintáctico
La API Syntax de Amazon Comprehend permite a los clientes analizar texto con tokenización y categorías gramaticales, e identificar etiquetas y límites de palabras, como sustantivos y adjetivos, dentro del texto. Consulte la página de documentación para obtener más información.
-
Ejemplo: en este ejemplo, analizaremos un documento breve con la API Syntax de Comprehend. La API Syntax tokeniza (define los límites de las palabras) el texto y etiqueta cada palabra con su categoría gramatical correspondiente, por ejemplo, sustantivo y verbo. Además de marcar el inicio y el fin (para que sepa dónde se encuentra la palabra dentro del texto), también suministramos una puntuación de fiabilidad.
Ejemplo de muestra: ¡Me encanta mi flamante y ágil Kindle Fire!
Texto Etiqueta Me Pronombre Encanta Verbo
Mi Pronombre Rapidez Adjetivo , Puntuación Novedades Adjetivo Kindle Nombre propio Fire
Nombre propio . Puntuación
Modelado de tema
La creación de modelos de temas identifica términos o temas relevantes a partir de un conjunto de documentos almacenados en Amazon S3. Identifica los temas más comunes del conjunto y los organiza en grupos. A continuación, identifica qué documentos pertenecen a qué tema. Consulte la página de documentación para obtener más información.
-
Ejemplo: si sus documentos (Doc1.txt, Doc2.txt, Doc3.txt y Doc4.txt) están almacenados en Amazon S3 y apunta Amazon Comprehend a su ubicación, Comprehend los analizará y producirá dos vistas:
1. Agrupación de palabras clave que son temas.
Cada grupo de palabras clave está asociado con un grupo de tema. El peso se refiere a la prevalencia de esa palabra clave en el grupo. Las palabras clave con el peso que más se acerca a 1 son las que más indican el contexto del grupo del tema.Grupo de temas Palabras claves Peso 1 Amazon 0,87 1 Seattle 0,65 2 Vacaciones 0,78 2 Compras 0,67 Cada grupo de palabras clave está asociado con un grupo de tema. El peso se refiere a la prevalencia de esa palabra clave en el grupo. Las palabras clave con el peso que más se acerca a 1 son las que más indican el contexto del grupo del tema.2. Agrupación de documentos por temas.
Nombre del documento Grupo de temas Proporción Doc1.txt 1 0,87 Doc2.txt 1 0,65 Doc3.txt 2 0,78 Doc4.txt 2 0,67 Cada documento se asigna a un grupo de tema en función de la proporción de las palabras clave ponderadas del grupo del tema presentes en el documento.
Compatibilidad con varios idiomas
Amazon Comprehend puede llevar a cabo análisis de textos en alemán, inglés, español, italiano,
portugués, francés, japonés, coreano, hindi, árabe, chino (simplificado) y chino (tradicional). Para crear aplicaciones en otros idiomas, los clientes pueden usar Amazon Translate para traducir el texto a un idioma compatible con Comprehend y, a continuación, usar Comprehend para analizar textos. Para obtener más información sobre la compatibilidad de idiomas, consulte la página de documentación.
Más información sobre los precios de Amazon Comprehend