¿Qué es el modelado de datos?

El modelado de datos es el proceso de creación de una representación visual o esquema que define los sistemas de recopilación y administración de información de cualquier organización. Este esquema o modelo de datos ayuda a las diferentes partes interesadas, como analistas de datos, científicos e ingenieros, a crear una vista unificada de los datos de una organización. El modelo esboza los datos que recoge la empresa, la relación entre los distintos conjuntos de datos y los métodos que se usarán para almacenarlos y analizarlos.

¿Por qué es importante el modelado de datos?

Hoy en día, las organizaciones recopilan una gran cantidad de datos procedentes de muchas fuentes diferentes. Sin embargo, los datos en bruto no son suficientes. Es necesario analizar los datos para obtener información procesable que pueda guiar a la hora de tomar decisiones empresariales rentables. Un análisis de datos preciso requiere de una recopilación, almacenamiento y procesamiento de datos eficientes. Existen varias tecnologías de bases de datos y herramientas de procesamiento de datos, así como diferentes conjuntos de datos que requieren diferentes herramientas para un análisis eficaz.

El modelado de datos le da la oportunidad de entender sus datos y tomar las decisiones tecnológicas correctas para almacenarlos y gestionarlos. Al igual que un arquitecto diseña un esquema antes de construir una casa, las partes interesadas del negocio diseñan un modelo de datos antes de crear soluciones de bases de datos para su organización.

El modelado de datos aporta las siguientes ventajas:

Reduce los errores en el desarrollo de software de bases de datos
Facilita la rapidez y eficacia en el diseño y creación de bases de datos
Crea coherencia en la documentación de los datos y el diseño del sistema en toda la organización
Facilita la comunicación entre los ingenieros de datos y los departamentos de inteligencia empresarial

¿Cuáles son los tipos de modelos de datos?

El modelado de datos suele comenzar representando los datos conceptualmente y, después, representándolos de nuevo en el contexto de las tecnologías elegidas. Los analistas y las partes interesadas crean varios tipos de modelos de datos durante la etapa de diseño de datos. A continuación se presentan tres tipos principales de modelos de datos:

Modelo de datos conceptual

Los modelos de datos conceptuales ofrecen una visión global de los datos. Explican lo siguiente:

Qué datos contiene el sistema
Atributos de los datos, así como las condiciones o restricciones de los mismos
Con qué reglas empresariales se relacionan los datos
Cómo se organizan mejor los datos
Requisitos de seguridad e integridad de datos

Por lo general, los interesados y los analistas de la empresa crean el modelo conceptual. Es una representación diagramática simple que no sigue las reglas formales de modelado de datos. Lo importante es que ayude a las partes interesadas, ya sean técnicas o no, a compartir una visión común y a ponerse de acuerdo acerca del propósito, el alcance y el diseño de su proyecto de datos.

Ejemplo de modelo de datos conceptual

Por ejemplo, el modelo de datos conceptual de un concesionario de automóviles podría mostrar las entidades de datos así:

Una entidad Salas de exhibiciones, que representa la información sobre los diferentes puntos de venta que tiene el concesionario.
Una entidad Autos, que representa los diversos autos que el concesionario tiene en stock.
Una entidad Clientes, que representa a todos los clientes que han hecho una compra en el concesionario.
Una entidad Ventas, que representa la información sobre la venta real.
Una entidad Vendedores que representa la información de todos los vendedores que trabajan en el concesionario.

Este modelo conceptual también incluiría requisitos empresariales, como los siguientes:

Cada auto tiene que pertenecer a una sala de exhibiciones específica.
En cada venta tiene que haber al menos un vendedor y un cliente asociados.
Cada auto tiene que contar con marca y número de producto.
Para ello, cada cliente tiene que facilitar su número de teléfono y su dirección de correo electrónico.

Así, los modelos conceptuales actúan como puente entre las reglas empresariales y el sistema físico de gestión de bases de datos (SGBD) subyacente. Los modelos de datos conceptuales también se denominan modelos de dominio.

Modelo de datos lógico

Los modelos de datos lógicos asignan las clases de datos conceptuales a estructuras de datos técnicas. Ofrecen más detalles sobre los conceptos de datos y las relaciones de datos complejas que se identificaron en el modelo conceptual, tales como estos:

Tipos de datos de distintos atributos (por ejemplo, cadena o número)
Relaciones entre las entidades de datos
Atributos primarios o campos clave de los datos

Los arquitectos de datos y los analistas trabajan juntos para crear el modelo lógico. Siguen uno de los varios sistemas formales de modelado de datos para crear la representación. A veces, algunos departamentos ágiles optan por saltarse este paso y pasar directamente de los modelos conceptuales a los físicos. No obstante, estos modelos son útiles para el diseño de grandes bases de datos, denominadas almacenamientos de datos, y para el diseño de sistemas automáticos de información.

Ejemplo de modelos de datos lógicos

En nuestro ejemplo del concesionario de automóviles, el modelo de datos lógico ampliaría el modelo conceptual y profundizaría en las clases de datos de esta forma:

La entidad Salas de exhibiciones tiene campos como el nombre y la ubicación como datos de texto y un número de teléfono como datos numéricos.
La entidad Clientes tiene un campo de dirección de correo electrónico con el formato xxx@ejemplo.com o xxx@ejemplo.com.yy. El nombre del campo no puede tener más de 100 caracteres.
La entidad Ventas tiene como campos el nombre del cliente y el nombre del vendedor, junto con la fecha de venta como tipo de dato de fecha y el importe como tipo de dato decimal.

Así, los modelos lógicos sirven de puente entre el modelo de datos conceptual y la tecnología y el lenguaje de base de datos subyacentes que los desarrolladores usan para crear la base de datos. Sin embargo, son independientes de la tecnología y se pueden implementar en cualquier lenguaje de base de datos. Los ingenieros de datos y las partes interesadas suelen tomar decisiones tecnológicas después de haber creado un modelo de datos lógico.

Modelo de datos físico

Los modelos de datos físicos asignan los modelos de datos lógicos a una tecnología específica de SGBD y usan la terminología del software. Por ejemplo, dan detalles sobre lo siguiente:

Tipos de campos de datos representados en el SGBD
Relaciones de datos representadas en el SGBD
Detalles adicionales, como el ajuste del rendimiento

Los ingenieros de datos crean el modelo físico antes de la implementación del diseño final. También siguen técnicas formales de modelado de datos para asegurarse de cubrir todos los aspectos del diseño.

Ejemplo de modelos de datos físicos

Supongamos que el concesionario de automóviles decide crear un archivo de datos en Amazon S3 Glacier Flexible Retrieval. Su modelo de datos físicos describe las siguientes especificaciones:

En Ventas, el importe de la venta es un tipo de dato float, y la fecha de venta es un tipo de dato timestamp.
En Clientes, el nombre del cliente es un tipo de dato string.
En la terminología de S3 Glacier Flexible Retrieval, un almacén es la ubicación geográfica de sus datos.

Su modelo de datos físicos también incluye detalles adicionales, como la región de AWS en la que creará su bóveda. De este modo, el modelo de datos físico actúa como puente entre el modelo de datos lógico y la implementación tecnológica final.

¿Cuáles son los tipos de técnicas de modelado de datos?

Las técnicas de modelado de datos son los diferentes métodos que se pueden emplear para crear diferentes modelos de datos. Los enfoques han evolucionado con el tiempo como resultado de las innovaciones en los conceptos de las bases de datos y la gobernanza de datos. A continuación, se indican los principales tipos de modelado de datos:

Modelado de datos jerárquico

En el modelado de datos jerárquico, se pueden representar las relaciones entre los distintos elementos de datos en formato de árbol. Los modelos de datos jerárquicos representan relaciones de uno a varios, con parents o clases de datos raíz que se asignan a varios children.

En el ejemplo del concesionario de automóviles, la clase principal Salas de exhibiciones tendría como elementos secundarios a las entidades Autos y Vendedores porque una sala de exhibiciones tiene varios autos y vendedores trabajando en esta.

Modelado de datos gráfico

El modelado jerárquico de datos ha evolucionado con el tiempo hasta convertirse en el modelado gráfico de datos. Los modelos de datos gráficos representan relaciones de datos que tratan a las entidades por igual. Las entidades pueden vincularse entre sí en relaciones de uno a varios o de varios a varios sin ningún concepto de parent o child.

Por ejemplo, una sala de exhibiciones puede tener varios vendedores, y un vendedor también puede trabajar en varias salas si sus turnos varían según la ubicación.

Modelado de datos relacional

El modelado de datos relacional es un enfoque de modelado popular que visualiza las clases de datos como tablas. Las diferentes tablas de datos se unen o enlazan entre sí mediante el uso de claves que representan la relación de las entidades del mundo real. Puede usar la tecnología de bases de datos relacionales para almacenar datos estructurados. Un modelo de datos relacional es un método útil para representar la estructura de su base de datos relacional.

Por ejemplo, el concesionario de automóviles tendría modelos de datos relacionales que representan la tabla Vendedores y la tabla Autos, como se muestra aquí:

ID del vendedor	Nombre
1	María
2	Juan

ID del auto	Marca del auto
C1	XYZ
C2	ABC

El ID del vendedor y del auto son claves principales que identifican de manera única a las entidades individuales del mundo real. En la tabla de salas de exhibiciones, estas claves principales actúan como claves foráneas que enlazan los segmentos de datos.

ID de la sala de exhibiciones	Nombre de la sala de exhibiciones	ID del vendedor	ID del auto
S1	Sala de exhibiciones NY	1	C1

En las bases de datos relacionales, las claves primarias y foráneas trabajan juntas para mostrar la relación de los datos. El cuadro anterior demuestra que las salas de exhibiciones pueden tener vendedores y autos.

Modelado de datos entidad-relación

El modelado de datos entidad-relación (ER) usa diagramas formales para representar las relaciones entre entidades en una base de datos. Los arquitectos de datos usan varias herramientas de modelado ER para representar los datos.

Modelado de datos orientado a objetos

La programación orientada a objetos usa estructuras de datos llamadas objetos para almacenar datos. Estos objetos de datos son abstracciones de software de entidades del mundo real. Por ejemplo, en un modelo de datos orientado a objetos, el concesionario de automóviles tendría objetos de datos como Clientes con atributos como nombre, dirección y número de teléfono. Los datos de los clientes se almacenan de forma que cada cliente del mundo real se represente como un objeto de datos de cliente.

Los modelos de datos orientados a objetos superan muchas de las limitaciones de los modelos de datos relacionales y son populares en las bases de datos multimedia.

Modelado de datos dimensional

La informática empresarial moderna usa la tecnología de almacenamiento de datos para guardar grandes cantidades de estos para su análisis. Puede usar proyectos de modelado de datos dimensionales para el almacenamiento y la recuperación de datos a alta velocidad desde un almacén de datos. Los modelos dimensionales usan datos duplicados o redundantes y priorizan el rendimiento sobre el uso de menos espacio para el almacenamiento de datos.

Por ejemplo, en los modelos de datos dimensionales, el concesionario de automóviles tiene dimensiones como Auto, Sala de exhibiciones y Tiempo. La dimensión Auto tiene atributos como el nombre y la marca, pero la dimensión Sala de exhibiciones tiene jerarquías como el estado, la ciudad, el nombre de la calle y el nombre de la sala.

¿Qué es el proceso de modelado de datos?

El proceso de modelado de datos sigue una secuencia de pasos que tiene que hacer repetidamente hasta crear un modelo de datos completo. Dentro de cualquier organización, varias partes interesadas se reúnen para crear una visión completa de los datos. Aunque los pasos varían según el tipo de modelado de datos, lo que sigue es una visión general.

Paso 1: identificar las entidades y sus propiedades

Identifique todas las entidades de su modelo de datos. Cada entidad tiene que ser lógicamente distinta de todas las demás y puede representar personas, lugares, cosas, conceptos o eventos. Cada entidad es distinta ya que tiene una o más propiedades únicas. Puede pensar en las entidades como sustantivos y en los atributos como adjetivos en su modelo de datos.

Paso 2: identificar las relaciones entre entidades

Las relaciones entre las distintas entidades son el núcleo del modelado de datos. Las reglas empresariales definen inicialmente estas relaciones en un nivel conceptual. Puede pensar en las relaciones como los verbos de su modelo de datos. Por ejemplo, el vendedor vende muchos autos, o la sala de exhibiciones emplea a muchos vendedores.

Paso 3: identificar la técnica de modelado de datos

Después de entender conceptualmente sus entidades y sus relaciones, puede determinar la técnica de modelado de datos que mejor se adapte a su caso de uso. Por ejemplo, puede usar el modelado de datos relacional para los datos estructurados, pero el modelado de datos dimensional para los datos no estructurados.

Paso 4: optimizar y repetir

Puede optimizar aún más su modelo de datos para adaptarlo a sus necesidades tecnológicas y de rendimiento. Por ejemplo, si tiene previsto usar Amazon Aurora y un lenguaje de consulta estructurado (SQL), pondrá las entidades directamente en tablas y especificará las relaciones mediante claves foráneas. Por el contrario, si decide usar Amazon DynamoDB, tendrá que pensar en los patrones de acceso antes de modelar la tabla. Puesto que DynamoDB da prioridad a la velocidad, primero hay que determinar cómo se va a acceder a los datos y, a continuación, modelar los datos en la forma en que se va a acceder a ellos.

Por lo general, estos pasos se repiten a medida que la tecnología y los requisitos cambian con el tiempo.

¿Cómo puede ayudar AWS en el modelado de datos?

Las bases de datos de AWS incluyen más de 15 motores de bases de datos que admiten diversos modelos de datos. Por ejemplo, puede usar Amazon Relational Database Service (Amazon RDS) para implementar modelos de datos relacionales y Amazon Neptune para implementar modelos de datos gráficos.

Además, puede usar el Almacén de datos de AWS Amplify para modelar datos de manera más rápida y sencilla a fin de crear aplicaciones móviles y web. Cuenta con una interfaz visual y basada en código para definir su modelo de datos con relaciones, lo que acelerará el desarrollo de su aplicación.

Para comenzar a modelar datos en AWS, cree una cuenta gratuita hoy mismo.

¿Qué es el modelado de datos?