Etiquetado automatizado de datos

Amazon SageMaker Ground Truth permite realizar el etiquetado automatizado de datos mediante el uso de aprendizaje automático. SageMaker Ground Truth primero seleccionará una muestra aleatoria de datos y la enviará a un equipo de personas para que realice el etiquetado. A continuación, los resultados se utilizan para entrenar un modelo de etiquetado que intenta etiquetar automáticamente una nueva muestra de datos sin procesar. Las etiquetas se confirman cuando el modelo puede etiquetar los datos con una puntuación de confianza que cumple con un umbral o lo supera. Cuando la puntuación de confianza no alcanza dicho umbral, los datos se envían al equipo de etiquetadores. Algunos de los datos etiquetados por el equipo se utilizan para generar un nuevo conjunto de datos de entrenamiento para el modelo de etiquetado y el modelo se vuelve a entrenar automáticamente para mejorar su precisión. Este proceso se repite con cada muestra de datos sin procesar que se etiquetará. Con cada iteración, el modelo de etiquetado mejora su capacidad para etiquetar automáticamente datos sin procesar, lo que permite enviar cada vez menos datos al equipo de etiquetadores. 

Flexibilidad en relación con la manera de trabajar con profesionales de etiquetado

Amazon SageMaker Ground Truth ofrece varias opciones para el etiquetado manual directamente en la consola de SageMaker Ground Truth. Puede usar su equipo privado de etiquetadores para trabajos de etiquetado internos, especialmente para manipular datos que deban permanecer en su organización.

Si desea ampliar el grupo de etiquetadores y sus datos no incluyen información confidencial ni información de identificación personal, Amazon Mechanical Turk le ofrece la posibilidad de obtener acceso a mano de obra disponible las 24 horas bajo demanda mediante 500 000 contratistas independientes de todo el mundo. Mechanical Turk es un mercado de subcontratación masiva voluntaria que conecta sus trabajos de etiquetado con mano de obra distribuida que puede realizar estas tareas de manera virtual.

Opcionalmente, puede usar un proveedor externo que se especialice en el etiquetado de datos. Amazon examinó a estos proveedores y comprobó que suministran etiquetas de alta calidad y que respetan procesos de seguridad. Los servicios de etiquetado de estos proveedores se suministran a través de AWS Marketplace. Se incluyen todos los detalles importantes, como los precios y las opiniones de los clientes, para ayudarlo a seleccionar al proveedor que mejor satisfaga sus necesidades.

Instrucciones sencillas para el etiquetado manual

Con Amazon SageMaker Ground Truth puede suministrar instrucciones de etiquetado al equipo de etiquetadores para garantizar la coherencia. Las instrucciones detalladas se encuentran disponibles para los etiquetadores dentro de la interfaz de etiquetado. Las instrucciones incluyen ejemplos visuales de etiquetas correctas e incorrectas para ayudar a los etiquetadores a producir etiquetas precisas y de alta calidad. Puede actualizar las instrucciones en cualquier momento, lo que facilita la incorporación de más detalles sobre tareas que los etiquetadores están realizando incorrectamente o la modificación de las instrucciones en función de nuevas necesidades. A continuación se incluye una instrucción de muestra. 

SamurAI Instructions for Bounding Box

Utilice flujos de trabajo para simplificar las tareas de etiquetado

Amazon SageMaker Ground Truth suministra flujos de trabajo de etiquetado integrados que guían a los etiquetadores paso a paso en las tareas y proveen herramientas que los ayudan a generar buenos resultados. Actualmente, los flujos de trabajo integrados se encuentran disponibles para trabajos de etiquetado de segmentación semántica, detección de objetos, clasificación de imágenes y clasificación de textos. 

Además de los flujos de trabajo integrados, SageMaker Ground Truth le da la opción de cargar flujos de trabajo personalizados. Un flujo de trabajo personalizado está conformado por una interfaz HTML y un algoritmo de optimización de precisión, ambos provistos por usted. La interfaz HTML provee a los etiquetadores todas las instrucciones y las herramientas que necesitan para completar la tarea de etiquetado. El algoritmo de optimización de precisión es una función que usted escribe para indicarle a SageMaker Ground Truth de qué manera debe evaluar la calidad de las etiquetas que el equipo provee. El algoritmo se usa para establecer un consenso acerca de lo que es "correcto" cuando los mismos datos se suministran a varios etiquetadores, así como también para identificar y restar importancia a los etiquetadores que suelen suministrar datos con calidad insuficiente. Debe utilizar la consola de SageMaker Ground Truth para cargar tanto la interfaz HTML como el algoritmo de optimización de precisión. 

Detección de objetos

Puede usar el flujo de trabajo de cuadro delimitador para identificar y etiquetar objetos en imágenes. Un cuadro delimitador es un cuadro de dos dimensiones que se dibuja alrededor de uno o más elementos de una imagen. Los modelos de visión artificial entrenados a partir de imágenes con cuadros delimitadores etiquetados aprenden que los píxeles ubicados dentro del cuadro corresponden a la etiqueta especificada. Es una manera muy rápida y asequible de etiquetar imágenes. Sin embargo, como a veces los cuadros contienen píxeles que no se relacionan con el tema de la etiqueta, es posible que se deban entrenar volúmenes mayores de datos para que un modelo logre un nivel de precisión alto.

La siguiente imagen muestra la interfaz de un cuadro delimitador con una tarea de ejemplo para identificar todos los perros que aparecen en una imagen determinada. La interfaz le permite especificar ejemplos claros de cuadros delimitadores correctos e incorrectos para conservar un nivel de precisión alto. También incluye un enlace al conjunto completo de instrucciones de etiquetado y una interfaz clara y optimizada para crear cuadros delimitadores. 

Bounding box

Clasificación de imágenes

La clasificación de imágenes incluye la categorización de imágenes en relación con un conjunto predefinido de etiquetas. La tarea difiere de la detección de objetos porque se etiqueta la imagen entera en vez de elementos individuales dentro de la imagen. La clasificación de imágenes es útil para los modelos de detección de escenas que deben considerar el contexto completo de la imagen. Por ejemplo, en la siguiente imagen, se solicita a los etiquetadores que identifiquen qué deporte se está practicando en una determinada imagen. 

Image classification

Clasificación de textos

La clasificación de textos incluye la categorización de cadenas de texto en relación con un conjunto predefinido de etiquetas. La categorización de textos con diferentes etiquetas se utiliza a menudo para modelos de procesamiento de lenguaje natural (NLP) que identifican cosas como temas (por ej., descripciones de productos, comentarios de películas), entidades (por ej., nombres, lugares, fechas) y opiniones. 

Text classification

Segmentación semántica

Para el etiquetado avanzado de imágenes, puede usar la segmentación semántica a fin de etiquetar las partes exactas de una imagen que corresponden a lo que su modelo necesita aprender. La segmentación semántica necesita más tiempo y habilidades de los que ofrecen los cuadros delimitadores. Sin embargo, provee datos de entrenamiento muy puros mediante el etiquetado exclusivo de los píxeles asociados con el tema. Por ejemplo, la forma irregular de un auto en una imagen podría ser registrada con exactitud con la segmentación semántica, mientras que un cuadro delimitador incluiría inevitablemente elementos de fondo que no se relacionan con el auto porque el cuadro solo tiene cuatro lados rectos.

Semantic Segmentation

Integración absoluta con Amazon SageMaker

Los conjuntos de datos de entrenamiento que se crean con SageMaker Ground Truth se pueden importar fácilmente a Amazon SageMaker para utilizarse en el desarrollo y entrenamiento de modelos. 

Amazon SageMaker facilita la creación de modelos de aprendizaje automático y su preparación para el entrenamiento, ya que proporciona todo lo necesario para etiquetar los datos de entrenamiento rápidamente y seleccionar y optimizar el mejor algoritmo y marco de trabajo para la aplicación. Amazon SageMaker incluye cuadernos de Jupyter alojados que facilitan el análisis y la visualización de los datos de entrenamiento almacenados en Amazon S3. Puede conectar directamente con los datos en S3, o bien utilizar AWS Glue a fin de migrar datos de Amazon RDS, Amazon DynamoDB y Amazon Redshift a S3 para su análisis en el bloc de notas.

Para ayudarlo a seleccionar el algoritmo, Amazon SageMaker incluye los algoritmos de aprendizaje automático más comunes, preinstalados y optimizados para ofrecer un rendimiento hasta 10 veces superior al que conseguiría si los ejecutara en cualquier otro lugar. Amazon SageMaker también viene preconfigurado para ejecutar TensorFlow, Apache MXNet, PyTorch y Chainer en contenedores Docker. También puede descargar estos contenedores de código abierto en su entorno local y usar el SDK para Python de Amazon SageMaker a fin de probar sus secuencias de comandos en modo local antes de utilizar Amazon SageMaker para el entrenamiento o el alojamiento de su modelo en producción. También tiene la opción de utilizar su marco de trabajo.

Puede comenzar a entrenar un modelo con un solo clic en la consola de Amazon SageMaker. Amazon SageMaker administra automáticamente toda la infraestructura subyacente y se puede escalar fácilmente para entrenar modelos de varios petabytes. Para que el proceso de entrenamiento sea incluso más rápido y sencillo, Amazon SageMaker puede ajustar automáticamente el modelo con el fin de lograr la mayor precisión posible.

Una vez que el modelo esté entrenado y ajustado, Amazon SageMaker facilitará la tarea de ponerlo en producción para empezar a generar predicciones (un proceso denominado inferencia) para datos en lotes o en tiempo real. Amazon SageMaker implementa el modelo en clústeres de escalado automático de instancias de aprendizaje automático de Amazon SageMaker distribuidas en varias zonas de disponibilidad para ofrecer un alto nivel de rendimiento y disponibilidad. Amazon SageMaker también incluye pruebas A/B integradas para contribuir a probar el modelo y experimentar con diferentes versiones a fin de obtener los mejores resultados.

Amazon SageMaker elimina el trabajo pesado del aprendizaje automático, lo que le permite crear, entrenar e implementar modelos de aprendizaje automático de forma rápida y sencilla.

Product-Page_Standard-Icons_01_Product-Features_SqInk
Más información sobre los precios de Amazon SageMaker Ground Truth

Comience a usar Amazon SageMaker Ground Truth sin cargos iniciales ni contratos a largo plazo. Para obtener más información, consulte la página de precios de Amazon SageMaker Ground Truth.

Product-Page_Standard-Icons_02_Sign-Up_SqInk
Inscríbase para obtener una cuenta gratuita

Obtenga acceso automáticamente a la capa gratuita de AWS. 

Inscribirse 
Product-Page_Standard-Icons_03_Start-Building_SqInk
Comience a crear en la consola

Comience a crear con Amazon SageMaker Ground Truth en la consola de administración de AWS.

Iniciar sesión