Predicción de enfermedades en cultivos cítricos con Amazon SageMaker

Por Rodrigo Machado, Licenciado en Biotecnología, Estudiante de doctorado de la FCEN-UBA, EEA Concordia, Entre Ríos, Argentina; Sofía Bengoa Luoni, PhD, research fellow at Wageningen University & Research, Wageningen, Países Bajos; Paula Fernández, Investigadora Independiente CONICET, Director, IABIMO, Buenos Aires, Argentina; Claudio Gómez, Responsable Laboratorio de Protección Vegetal y Biotecnología (LPVB), EEA Concordia, Entre Ríos, Argentina; Rodrigo Monge, Senior Solutions Architect, AWS Public Sector, Argentina; Mariano Stokle, Principal Account Manager, AWS Public Sector, Argentina.

El Laboratorio de Protección Vegetal y Biotecnología (LPVB) del INTA Concordia se dedica a la evaluación de patógenos y a la protección de la citricultura en Argentina. La misión del laboratorio es fortalecer la sanidad vegetal, contribuir al desarrollo sostenible del sector citrícola argentino mediante avances científicos y tecnológicos.

El Huanglongbing (HLB), una enfermedad devastadora para los cítricos, representa una seria amenaza para la producción citrícola en Argentina. El diagnóstico actual mediante qPCR (quantitative polymerase chain reaction), si bien es preciso, presenta limitaciones de costo, tiempo y accesibilidad para muchos actores del agro.

El LPVB tiene el desafío de encontrar soluciones más costo-efectivas para la detección temprana HLB sobre cultivos cítricos. Frente a esta problemática, el equipo de ciencia de datos del LPVB vislumbró aprovechar el poder del machine learning para crear un método de diagnóstico más rápido, económico y accesible. Sin embargo, este proyecto presentaba sus propios desafíos:

Necesidad de infraestructura de alto rendimiento con GPUs
Complejidad en la gestión de múltiples aplicaciones para diferentes tareas (etiquetado de imágenes, procesamiento, almacenamiento, entrenamiento de modelos, ajuste de hiperparámetros e inferencias)

En esta entrada explicamos cómo el equipo de científicos de datos utilizó Amazon SageMaker para entrenar una red neuronal convolucional (CNN) a partir de imágenes de hojas infectadas, con el objetivo de realizar un diagnóstico rápido y sensible del HLB.

Arquitectura de la solución

Los científicos de datos ejecutan el etiquetado, procesamiento, entrenamiento e inferencia a través de una Jupyter Notebook gestionada por Amazon SageMaker Studio.
Se clasifican las imágenes y se las prepara para lanzar el entrenamiento de la CNN. Las imágenes se almacenan en Amazon S3.
El entrenamiento de la CNN se realiza sobre cómputo efímero gestionado por Amazon SageMaker. El modelo entrenado se almacena sobre Amazon S3.
Las inferencias se ejecutan desde la misma Jupyter Notebook, invocando el modelo almacenado en Amazon S3.

Descripción de la solución

Para el entrenamiento y evaluación del modelo predictivo de la enfermedad HLB, se confeccionó un conjunto de datos (dataset) con imágenes de hojas de plantas. Estas imágenes provenían de diagnósticos realizados en la EEA Concordia (Estación Experimental Agropecuaria) desde 2021 hasta la actualidad, utilizando la técnica molecular de qPCR para determinar si las muestras eran positivas o negativas para HLB.

Todas las imágenes recopiladas llevaron un preprocesamiento con una técnica de data augmentation que permitió la normalización de los datos. Dicho preprocesamiento se realizó con las librerías PlantCV, Numpy y OpenCV en Python sobre la misma Jupyter Notebook de SageMaker Studio. Las imágenes recopiladas y preprocesadas, así como las imágenes crudas, fueron almacenadas en el servicio Amazon S3.

Posteriormente, se lanzó el entrenamiento de una red neuronal convolucional sobre una instancia efímera tipo ml.g4dn.16xlarge (64vCPUs, 256GB RAM, 1 GPU NVIDIA T4) gestionada por Amazon SageMaker. Una vez finalizado el entrenamiento, esa instancia de cómputo se destruyó, reduciendo significativamente tareas operativas y los costos asociados al proyecto.

El entrenamiento del modelo se realizó a partir de 3015 imágenes positivas y 3015 negativas, distribuidas en un 70% para entrenamiento, 15% para testeo y 15% para validación.

Resultados y evaluación de performance

Para desarrollar el modelo de detección de HLB, se recopilaron un total de 6030 imágenes (Figura 1), divididas en 3015 imágenes positivas, enfermas con HLB y 3015 imágenes negativas, negativas a qPCR. Se escanearon imágenes de hojas de plantas con una resolución de 2359 x 3440 píxeles. También se tomaron fotografías de hojas de plantas con una resolución de 2842 x 1926 píxeles.

Negativas		Positivas

Figura 1: muestra representativa de imágenes del dataset

Durante el proceso de optimización del modelo para la detección de HLB en plantas, se exploraron diversos hiperparámetros que variaron según lo detallado en la Tabla 1 de la metodología. Entre ellos se incluyeron opciones para el tamaño de lote (Batch Size), tamaño de kernel y la tasa de dropout, evaluándose su impacto en la precisión del modelo mediante pruebas con datos de validación cruzada. Finalmente, se establecieron 150 epoch de entrenamiento y un tamaño de lote de 64 imágenes, utilizando el optimizador SDG con una tasa de aprendizaje decreciente como configuración final para el modelo. Este enfoque permitió seleccionar los parámetros que mejor se adaptaron al objetivo de maximizar la precisión del sistema de detección de HLB.

Entre las arquitecturas evaluadas en Amazon SageMaker, ResNet50 destacó al alcanzar una precisión del 80% en la identificación de HLB, mostrando una pérdida mínima en comparación con otras arquitecturas como VGG19, como se muestra en la Figura 2. A pesar de explorar alternativas como ViT18 y Alexa, ninguna logró superar el rendimiento de ResNet50 en este contexto específico de diagnóstico de enfermedades en imágenes agrícolas.



Figura 2: Comparación de accuracy/loss para arquitecturas VGG19 vs Resnet50

Basándonos en la evaluación previa que destacó a ResNet50 como la arquitectura más eficaz, se entrenó un modelo utilizando estos hiperparámetros para las 6030 imágenes recopiladas. El desempeño del modelo de clasificación para la detección de HLB en plantas fue evaluado utilizando una matriz de confusión y diversas métricas de rendimiento. Los resultados obtenidos demuestran un rendimiento robusto y equilibrado del modelo, siendo efectivo tanto en la identificación de plantas enfermas como sanas (tabla 1).

Métrica	Valor	Interpretación
Sensibilidad (Recall)	75%	El modelo identifica correctamente el 75% de las plantas enfermas.
Especificidad	93.77%	El modelo identifica correctamente el 93.77% de las plantas sanas.
Precisión (Pos Pred Value)	92.31%	El 92.31% de las predicciones positivas del modelo son correctas (plantas enfermas identificadas como enfermas).
Valor Predictivo Negativo (Neg Pred Value)	79.01%	El 79.01% de las predicciones negativas del modelo son correctas (plantas sanas identificadas como sanas).
F1 Score	82.76%	Mide el equilibrio entre precisión y sensibilidad, indicando un buen balance entre ambas.
AUC (Área Bajo la Curva ROC)	0.84	Indica una buena capacidad del modelo para distinguir entre plantas enfermas y sanas.
Tabla 1: Evaluación del Desempeño del Modelo CNN para la Detección de

Conclusión

En cuestión de semanas el equipo del LPVB del INTA Concordia pudo realizar el preprocesamiento de imágenes de hojas y entrenamiento de una red neuronal convolucional que detecte HLB en plantas de cítricos, mediante el uso de Amazon SageMaker.

A través de este servicio de AWS, los científicos de datos pudieron experimentar diferentes arquitecturas y explorar distintas configuraciones de hiperparámetros sin necesidad de gestionar infraestructura, accediendo a cómputo de alta performance y pagando únicamente cuando los recursos están en uso.

El modelo desarrollado ha mostrado un rendimiento prometedor, con métricas que indican una alta capacidad para identificar correctamente tanto plantas enfermas como sanas. La arquitectura ResNet50, en particular, ha demostrado ser la más eficaz entre las evaluadas, alcanzando una precisión del 80% y manteniendo un buen balance entre sensibilidad y especificidad.

A pesar de estos resultados positivos, es esencial considerar las limitaciones y posibles mejoras. El proceso de selección y preprocesamiento de imágenes es crítico para garantizar la calidad y consistencia de los datos de entrenamiento. Además, el desarrollo de modelos más robustos podría beneficiarse de la inclusión de imágenes adicionales y de mayor diversidad, así como de la exploración de técnicas avanzadas de data augmentation y optimización de hiperparámetros.

Esta solución permitirá que un productor agropecuario pueda predecir con una fotografía tomada con su smartphone la probabilidad de que una planta esté enferma con HLB en tiempo real. Para LPVB, la solución podría reducir los tiempos y los costos asociados a la qPCR.

La implementación de este modelo ofrecerá un conjunto de beneficios tangibles:

• Agilidad: Acceso inmediato a infraestructura gestionada por Amazon SageMaker para procesamiento, entrenamiento e inferencia. Previo a este proyecto, el equipo de ciencia de datos contaba con recursos de infraestructura limitados y esporádicos.

• Reducción de costos: Se reducirán significativamente los costos y el tiempo de diagnóstico, haciéndolo accesible a un mayor número de productores.

• Diagnóstico más rápido: La detección temprana permitirá la toma de medidas oportunas para contener la propagación de la enfermedad, minimizando pérdidas económicas y protegiendo la salud de las plantas.

Próximos pasos

Es indispensable continuar refinando el modelo para mejorar aún más las predicciones. El siguiente paso incluye almacenar y difundir el modelo, así como evaluar su rendimiento utilizando un endpoint de inferencia sobre una instancia gestionada por Amazon SageMaker. Este objetivo permitirá expandir la difusión del modelo y ofrecer respuestas rápidas a las consultas de los usuarios, consolidando su uso como herramienta práctica y efectiva para el manejo de HLB en la citricultura argentina.

Un aspecto fundamental para fortalecer la confianza y la transparencia en el modelo es la implementación de técnicas de explicación como SHAP (SHapley Additive exPlanations) o LIME (Local Interpretable Model-agnostic Explanations). La incorporación de estas técnicas permitirá comprender mejor las decisiones del modelo y asegurar que las características relevantes de las imágenes de cítricos estén siendo interpretadas adecuadamente. Esto, a su vez, contribuirá a una mayor aceptación y adopción del modelo por parte de los usuarios finales.

Agradecimientos

Agradecemos al Ministerio de Ciencia y Tecnología de Córdoba, y especialmente al ministro Pablo De Chiara, por las gestiones del proyecto AWS Cloud Credits for Research. Expresamos además nuestra gratitud a AWS por proporcionar la infraestructura computacional necesaria para este proyecto. Agradecemos a SENASA por proveer muestras a INTA, y al Ing. Blas Tito y a Claudia Hauteville por su arduo trabajo en el laboratorio de Protección Vegetal y Biotecnología, realizando los análisis moleculares confirmatorios y la fotografía. Sin su colaboración y esfuerzo, este proyecto no habría sido posible.

Sobre los autores

	Rodrigo Machado es Licenciado en Biotecnología y estudiante de doctorado de la FCEN-UBA
	Sofía Bengoa Luoni, PhD, research fellow at Wageningen University & Research
	Rodrigo Monge es arquitecto de soluciones en Amazon Web Services
	Mariano Stokle es Principal Account Manager en Amazon Web Services