¿Qué es la virtualización de datos?
¿Qué es la virtualización de datos?
La virtualización de datos es el proceso de abstraer las operaciones de datos del almacenamiento de datos subyacente. Las organizaciones modernas almacenan datos en varios formatos, desde tablas tradicionales hasta mensajes y archivos en tiempo real, en varios sistemas y plataformas. Es posible que mover físicamente estos datos a un único sistema central no siempre sea práctico o rentable.
La virtualización de datos utiliza metadatos, datos sobre datos, para crear una capa virtual para la manipulación de datos. Los usuarios finales pueden leer y modificar los datos de forma integrada dentro de la capa virtual sin necesidad de comprender los aspectos técnicos subyacentes. En lugar del usuario final, la capa virtual interactúa con la capa de almacenamiento subyacente para enviar o recuperar datos según sea necesario.
¿Por qué es importante la virtualización de datos?
Las organizaciones actuales suelen tener datos distribuidos en orígenes de datos dispares en sistemas locales, servicios en la nube y otros sistemas en silos. Las capacidades de fusión de datos físicos son limitadas debido a los siguientes desafíos:
- La administración manual de los datos de origen en varias plataformas puede llevar mucho tiempo y ser propensa a errores.
- El control de acceso para múltiples fuentes independientes puede ser complejo debido a la gobernanza de datos obligatoria.
- Mantener conexiones directas entre los orígenes de datos puede ser difícil cuando se agregan nuevas fuentes o usuarios.
Otros métodos tradicionales de integración de datos requieren mover los datos a almacenes de datos o lagos de datos. Este enfoque ofrece centralización, pero requiere mantener varias copias sincronizadas, lo que a su vez puede afectar a las capacidades de generación de informes en tiempo real.
Los sistemas de virtualización de datos ofrecen varias ventajas clave con respecto a estos otros enfoques.
Abstracción
Las consultas se extraen de los orígenes reales, por lo que puede trabajar con conjuntos de datos complejos sin que los usuarios o los desarrolladores tengan que entender todos los detalles técnicos que hay detrás de ellos.
Gobernanza unificada
Dado que la virtualización de datos funciona con metadatos, puede implementar una gobernanza centralizada dentro de la capa de virtualización. También es fácil crear e iterar modelos de datos que están disponibles rápidamente y se pueden reutilizar para proyectos futuros.
Acceso en tiempo real
La virtualización de datos le permite consultar múltiples orígenes en tiempo real. No es necesario esperar a que se programen las sincronizaciones. Los usuarios de su empresa pueden interactuar con una sola aplicación en lugar de conectarse a cada sistema de forma individual.
Único origen de verdad
Elimina las redundancias y la confusión causadas por los datos desactualizados en un sistema debido a los retrasos en la sincronización con otro sistema. También reduce los costos de almacenamiento al no copiar lagos o almacenes de datos centralizados.
¿Cuáles son los casos de uso de la virtualización de datos?
Al facilitar el acceso a los datos en tiempo real, la virtualización puede admitir varias funciones importantes.
Análisis e inteligencia empresarial
Las iniciativas de análisis, como las relacionadas con la elaboración de informes internos o el cumplimiento normativo, suelen requerir la integración de datos de muchos orígenes dentro de una organización. El acceso virtualizado a los datos permite a los analistas y a los equipos de BI explorar fácilmente los datos y refinar las consultas sin afectar negativamente a los orígenes de datos de producción.
Soporte de migración a la nube
La migración de sistemas grandes a la nube puede ser un proceso lento y lleno de errores. La virtualización de datos es una herramienta poderosa para una planificación eficaz de la migración. Su equipo puede probar escenarios de transición y validar los procesos de integración de datos sin interrumpir los sistemas en funcionamiento.
Simplificación de las principales actualizaciones del sistema
La creación de entornos de prueba para proyectos importantes, como la actualización de un sistema de planificación de recursos empresariales (ERP), puede llevar mucho tiempo y requerir una amplia coordinación entre varios equipos. Con la tecnología de virtualización de datos, los equipos pueden generar rápidamente estructuras de datos complejas para un trabajo eficiente. Esto puede ayudar a reducir los costos de infraestructura y acortar los tiempos de implementación.
Soporte del sistema de producción
La solución de problemas complejos en los sistemas de producción a veces requiere recrear servicios de datos completos para realizar pruebas. La tecnología de virtualización de datos permite a sus equipos de TI crear y probar entornos rápidamente sin necesidad de copiar datos. Esto les permitirá verificar las correcciones e identificar los efectos secundarios no deseados.
Flujos de trabajo DevOps
Los desarrolladores y los evaluadores pueden trabajar con un entorno de datos virtual completo al preparar las aplicaciones para su lanzamiento. Pueden modelar cómo funciona el software en el mundo real sin necesidad de replicar grandes conjuntos de datos.
¿Cuáles son las capacidades de una capa de virtualización de datos?
El software de virtualización de datos puede proporcionar varias funciones clave que simplifican la administración de datos.
Modelado semántico
Los conceptos empresariales significativos, como un “cliente” o una “línea de productos”, se pueden representar en datos virtuales que están fragmentados en varios sistemas. Una capa de virtualización le permite usar los datos para definir conceptos significativos en varias fuentes con mayor facilidad.
Conectividad universal
Al acceder a los orígenes de datos de su organización a través de una capa de virtualización, puede desglosar más fácilmente los silos de datos y proporcionar a cada equipo acceso en tiempo real a un conjunto de datos unificado.
Consultas de alto rendimiento
El software de virtualización de datos puede utilizar técnicas de rendimiento inteligentes para optimizar las consultas complejas en una declaración única y eficiente. No realizará consultas redundantes a diferentes sistemas.
Catálogos de datos
La virtualización le permite almacenar metadatos o información sobre sus datos en el mismo sistema. Puede usar los datos para realizar un seguimiento de la información sobre su conjunto de datos existente y crear un catálogo de datos que permita la detección de datos.
¿Cómo funciona la virtualización de datos?
La virtualización de datos es un tipo de integración de datos. En lugar de trabajar con los datos directamente, los servicios de virtualización de datos funcionan solo con metadatos, como la información sobre dónde se almacenan los datos, cómo se clasifican y cómo se conectan a otros datos.
Consulta de usuario
Supongamos que tu empresa tiene una base de datos de administración de la relación con el cliente (CRM) y un sistema de inventario independiente para gestionar tus productos. Sin embargo, desea encontrar todos los pedidos realizados por clientes llamados “Smith” en los últimos dos meses, una solicitud que abarca los dos sistemas. Introduce la consulta en el servicio de virtualización de datos.
Integración de datos
El servicio de virtualización descompone la consulta en componentes más pequeños. Mediante sus metadatos, el servicio identifica la ubicación de los datos de cada componente de la consulta en sus diversas fuentes. Genera subconsultas para recuperar la información de los clientes de su CRM y la información de los pedidos del inventario.
Presentación de datos
A medida que los orígenes devuelven datos, el servicio de virtualización de datos los transforma en memoria de trabajo y ajusta el formato y los nombres según sea necesario. Filtra las redundancias identificadas por los metadatos. Luego, una vez que se completan las transformaciones, el servicio entrega un resultado integrado a su aplicación.
¿Cuáles son los enfoques de virtualización de datos en la nube?
Tiene tres enfoques generales para implementar la virtualización de datos en la nube: soluciones personalizadas, herramientas comerciales o soluciones nativas en la nube.
Virtualización de datos personalizada
La primera opción es crear de forma personalizada su propia solución de virtualización de datos mediante la infraestructura en la nube. Si bien puede ofrecer un mayor control sobre el diseño y las características, también requiere un desarrollo y un mantenimiento importantes.
Herramientas de virtualización de datos comerciales
Otra opción es utilizar una plataforma de virtualización de datos prediseñada de un proveedor. Estas herramientas suelen ofrecer conectores prediseñados para muchos orígenes de datos y optimizaciones de rendimiento. También pueden admitir la integración con los estándares de metadatos corporativos existentes.
Virtualización de datos nativos en la nube
Este enfoque utiliza los servicios gestionados proporcionados por los proveedores de la nube, como Amazon Web Services (AWS), para simplificar la implementación y las operaciones en curso. Permite a las organizaciones que ya trabajan en la nube o que están haciendo la transición a ella adoptar la virtualización de datos sin necesidad de una amplia experiencia técnica.
¿Cómo puede AWS cumplir con sus requisitos de virtualización de datos?
AWS ofrece capacidades nativas que se alinean con muchas de las que ofrecen los servicios comerciales de virtualización de datos. Estas características nativas pueden soportar potencialmente una amplia gama de casos de uso de virtualización de datos.
Amazon Redshift impulsa el análisis de datos moderno a escala. No importa si sus datos en crecimiento están almacenados en almacenes de datos operativos, lagos de datos, servicios de streaming o conjuntos de datos de terceros, Amazon Redshift lo ayuda a acceder, combinar y compartir datos de manera segura con el mínimo movimiento o copia.
Amazon Athena es un servicio de análisis interactivo que funciona directamente con los datos almacenados en Amazon S3. No tiene servidor, por lo que no hay que configurar ni administrar ninguna infraestructura y puede empezar a analizar los datos inmediatamente.
AWS Glue es un servicio de integración de datos sin servidor que simplifica el proceso de descubrimiento, preparación y combinación de datos. Amazon Athena y Amazon Redshift tienen una integración nativa con el catálogo de datos de AWS Glue, un repositorio de metadatos central que admite la virtualización.
AWS Lake Formation facilita la administración centralizada, la protección y el intercambio global de datos para el análisis y el machine learning (ML). Puede centralizar la seguridad y la gobernanza de los datos mediante el catálogo de datos de AWS Glue, administrando los metadatos y los permisos de datos en un solo lugar con características familiares de tipo base de datos. También ofrece un control de acceso a los datos detallado.
Para comenzar a utilizar la virtualización de datos en AWS, cree una cuenta gratuita hoy mismo.