Blog de Amazon Web Services (AWS)

Facilitando el acceso a los datos del mar de Chile para la comunidad científica con AWS

Por Agustin Grangetto, Responsable de Soluciones, Sector Público,

y Jorge Sierra Jurado, Arquitecto de Soluciones, Sector Público

 

Amazon Web Services, junto con el Ministerio de Ciencia y Tecnología de Chile y la Universidad Adolfo Ibáñez, es socio fundador de la Fundación Data Observatory. Desde esta institución promovemos la innovación y lideramos la producción de soluciones de datos: analítica, descubrimiento, explotación, visualización, y su aporte al desarrollo del capital científico del país y la región.

Con el objetivo de hacer ciencia y disponibilizar información oceanográfica de la Región de Magallanes a la comunidad científica internacional, la Universidad Austral de Chile se asoció con el Data Observatory para llevar adelante el desarrollo de una solución altamente disponible, flexible, escalable y eficiente en costos en la nube de AWS.

 

Derribando los silos de información

Uno de los principales desafíos que enfrenta la comunidad científica es el acceso a las múltiples fuentes de datos necesarias para hacer ciencia y extraer información. En muchos casos, el acceso a los datos se dificulta por procesos burocráticos, autorizaciones y requisitos que el solicitante debe atravesar. Si tenemos en cuenta que para extraer información de relevancia se debe contar no solo con un gran volumen de datos sino también con diversidad de fuentes, la recopilación de información es de por sí un proceso que puede ser extenso y de escaso valor para el investigador.

Por otro lado, este modo de trabajo supone que el interesado conozca de antemano todas las potenciales relaciones en la información. El problema de trabajar así —con lo que comúnmente se llaman “silos de información”— es que se pierden variables de interés que generarían conclusiones relevantes. Esto se conoce como “investigación basada en descubrimiento” versus “investigación basada en hipótesis”. El Data Observatory desafía estas barreras, siendo un gran lago de datos de diversas áreas del conocimiento, como astronomía, oceanografía, geología, entre otras, y poniéndolos a disposición de la comunidad para el desarrollo de ciencia y tecnología.

Los investigadores de la Universidad Austral de Chile han visto en Data Observatory y en AWS la oportunidad de abrir al mundo sus datos oceanográficos de la Región de Magallanes, y aprovechar las múltiples fuentes de datos adicionales ya albergadas en Data Observatory para producir conocimientos de relevancia científica. En este blog destacaremos el proceso de ideación de esta solución y su implementación en la nube de AWS.

“Uno de los objetivos y la visión de Data Observatory es ofrecer infraestructura habilitante para almacenar, disponibilizar y procesar datos que son de interés nacional o global, como estos que tienen que ver con el clima, el agua y el océano” – Carlos Jeréz, Director Ejecutivo de Data Observatory.

 

Entendiendo la necesidad de la Universidad Austral de Chile

Existen diversos instrumentos para la medición de variables de relevancia para la oceanografía, como el pH del agua, la temperatura, la salinidad, entre otros. Los mismos podrían clasificarse en “fijos”, como una estación meteorológica o un anclaje, y “móviles”, como transbordadores desde los cuales se toman mediciones a lo largo de un recorrido determinado. Uno de los principales desafíos radica en el proceso de descarga y limpieza de los datos: Dado que los formatos difieren entre equipos, es necesario realizar procesos manuales de formateo y limpieza de los mismos previos a su utilización. Una vez consolidados los datos en un solo lugar y listos para hacer ciencia, se presenta la principal barrera y la motivación detrás de este proyecto conjunto: ¿Cómo abrir estos datos a la comunidad de una forma segura e intuitiva?

En sesiones conjuntas de descubrimiento y prototipado de la solución encontramos un producto mínimo viable que cumpliera con los siguientes requisitos:

  1. Tener la posibilidad de migrar los datos históricos de todos los equipos de medición desde un entorno local a la nube de AWS.
  2. Desarrollar un proceso automatizado de formateo, clasificación, ordenado y limpieza de los datos previo a su utilización.
  3. Publicar los conjuntos de datos en un entorno abierto y a la vez seguro para ser descargados y consumidos por el público general.
  4. Filtrar y visualizar los datos en una interfaz sencilla e intuitiva.

Entendida la problemática, los equipos de Data Observatory y AWS Professional Services comenzaron a trabajar de forma integrada en el despliegue de una solución a medida de las necesidades.

 

Desarrollando el producto mínimo viable

Dividimos en dos las líneas de trabajo para poder ejecutar las actividades en paralelo: Por un lado, el despliegue de toda la infraestructura subyacente, y por otro el desarrollo de la interfaz de usuario. La solución está montada sobre una infraestructura en la nube de AWS que emplea los siguientes servicios:

  • Amazon Simple Storage Service (S3): es un servicio de almacenamiento de objetos que ofrece escalabilidad, disponibilidad de datos, seguridad y rendimiento líderes en el sector. Se utilizó para alojar los datos y la web de interfaz de usuario.
  • AWS Lambda: es un servicio informático que permite ejecutar código sin aprovisionar ni administrar servidores. Se crearon funciones para formatear, procesar, clasificar y limpiar los datos.
  • Amazon API Gateway: es un servicio completamente administrado que facilita a los desarrolladores la creación, la publicación, el mantenimiento, el monitoreo y la protección de API a cualquier escala. Se utilizó para comunicar el sitio web en S3 con las funciones Lambda.
  • Amazon Athena: es un servicio de consultas interactivo que facilita el análisis de datos en Amazon S3 con SQL estándar sin aprovisionar ni administrar servidores. Se utilizó para consultar los datos desde la interfaz de usuario.
  • Amazon Cognito: es un servicio que permite incorporar de manera rápida y sencilla el registro, inicio de sesión y control de acceso de usuarios a aplicaciones web y móviles. Se utilizó para prevenir un uso malicioso del sitio web de consumo de los datos.
  • Amazon CloudFront: es un servicio de red de entrega de contenido (CDN) creado para ofrecer un alto rendimiento, seguridad y comodidad a los desarrolladores de aplicaciones. Se utilizó para cachear los datos y la interfaz de usuario en servidores cercanos a los usuarios finales.

 

Arquitectura de la solución en la nube de AWS.

 

Cada instrumento de medición genera un archivo específico que se carga a Amazon S3. Una vez termina la transferencia, una función de AWS Lambda ejecuta un proceso de limpieza y transformación de los datos para dejarlos en un formato optimizado para la nube. Estos archivos procesados pueden ser consultados a través de Amazon Athena a través de consultas SQL.

Los usuarios finales pueden descargar los conjuntos de información o bien consumir los datos desde paneles interactivos en un sitio web diseñado exclusivamente para este propósito por el equipo de AWS Professional Services y el Data Observatory. Para evitar un uso malintencionado del mismo, como descargas masivas —que podrían incrementar los costos—, integramos Amazon Cognito para registrar de manera simple al usuario, permitirle autenticarse y también obtener información analítica acerca del uso del sitio que usaremos para mejora continua.

 

Conectando los datos oceanográficos al lago de datos del Data Observatory

Como hemos mencionado previamente, la integración de cada vez más y diversas fuentes de datos al lago de datos del Data Observastory facilita el modelo de investigación basado en descubrimiento (En inglés discovery-driven research). El Data Observatory cuenta con información astronómica, del suelo y ambiental de la región, por lo que abre las puertas a realizar descubrimientos que de otra manera, con datos alojados en diferentes “silos”, no sería posible.

A partir de este proyecto, los investigadores podrán desarrollar modelos analíticos y de aprendizaje automático con Amazon SageMaker para explotar al máximo la información. Las posibilidades son ilimitadas.

 

Conclusiones

Los investigadores de la Universidad Austral de Chile ahora pueden abrir sus datos al mundo para hacer más y mejor ciencia. De la mano del Data Observatory y los servicios de AWS, pudimos lanzar una solución que es flexible, escalable y reutilizable a otros casos de uso de forma ágil. El Data Observatory integró un nuevo conjunto de datos a su lago de datos lo cual incrementa su valor como un socio estratégico de cara a la comunidad científica.

Desde AWS la experiencia de este proyecto conjunto nos hizo desarrollar código que automatiza el despliegue de este tipo de soluciones, empleando AWS CloudFormation, que nos permitirá a futuro desplegar arquitecturas similares para nuevas fuentes de información.

 

 


Sobre los autores

Agustín Grangetto es Responsable de Soluciones para Clientes en Amazon Web Services para Sector Público en Chile. Agustín es especialista en transformación digital, y ha apoyado las estrategias de digitalización de gobierno e instituciones privadas del país.

 

 

 

Jorge Sierra es Arquitecto de Soluciones en Amazon Web Services para Sector Público en Chile. Jorge es especialista en Analítica y Machine Learning, y ha colaborado con múltiples instituciones educativas públicas y privadas del país en la adopción de nube.