Conceptos relacionados con el almacenamiento de datos

¿Qué es un almacenamiento de datos?

Un almacenamiento de datos es un repositorio central de información que se puede analizar para tomar decisiones mejor informadas. Los datos fluyen hacia un almacenamiento de datos desde sistemas transaccionales, bases de datos relacionales y otros orígenes, normalmente a una cadencia regular. Los analistas empresariales, los ingenieros de datos, los científicos de datos y los responsables de la toma de decisiones obtienen acceso a los datos mediante herramientas de inteligencia empresarial (BI), clientes SQL y otras aplicaciones de análisis.

Los datos y el análisis se han vuelto fundamentales para que las empresas mantengan la competitividad. Las empresas utilizan informes, paneles y herramientas de análisis para extraer información de los datos, monitorear el desempeño de la empresa y respaldar la toma de decisiones. Los almacenamientos de datos son fundamentales para estos informes, paneles y herramientas de análisis. Guardan los datos de manera eficaz para reducir las operaciones de entrada y salida (E/S) de datos y entregar resultados de consultas rápidamente a cientos y miles de usuarios de manera simultánea.

¿Cómo se diseña la arquitectura de los almacenamientos de datos?

La arquitectura de un almacenamiento de datos está compuesta por capas. El nivel superior es el cliente frontend que presenta los resultados mediante informes, análisis y herramientas de minería de datos. El nivel intermedio contiene el motor de análisis que se utiliza para obtener acceso a los datos y para analizarlos. El nivel inferior de la arquitectura es el servidor de la base de datos, donde los datos se cargan y almacenan. Los datos se almacenan de dos diferentes maneras: 1) los datos a los que se obtiene acceso de forma frecuente se almacenan en almacenamiento muy rápido (como unidades SSD); y, 2) los datos a los que se obtiene acceso de forma poco frecuente se almacenan en un almacenamiento de objetos rentable, como Amazon S3. El almacenamiento de datos se encarga automáticamente de que los datos a los que se obtiene acceso de forma poco frecuente se trasladen al almacenamiento “rápido” a fin de optimizar la velocidad de consulta.

¿Cómo funciona el almacenamiento de datos?

El almacenamiento de datos puede contener varias bases de datos. Dentro de cada base de datos, los datos se organizan en tablas y en columnas. Dentro de cada columna, se puede definir una descripción de los datos, como un número entero, un campo de datos o una cadena. Las tablas se pueden organizar dentro de esquemas, que se pueden concebir como carpetas. Cuando los datos se incorporan, se almacenan en varias tablas descritas por el esquema. Las herramientas de consulta usan el esquema para determinar a qué tablas de datos obtendrán acceso y cuáles de ellas analizarán.

¿Cuáles son los beneficios de utilizar un almacenamiento de datos?

Dentro de los beneficios de un almacenamiento de datos se incluyen los siguientes:

  • Toma de decisiones fundamentadas
  • Datos consolidados provenientes de muchos orígenes
  • Análisis de datos históricos
  • Calidad, coherencia y precisión de los datos
  • Separación del procesamiento de análisis de las bases de datos transaccionales, lo que mejora el rendimiento de ambos sistemas

¿Cómo trabajan en conjunto el almacenamiento de datos, las bases de datos y los lagos de datos?

Generalmente, las empresas utilizan una combinación de una base de datos, un lago de datos y un almacenamiento de datos para almacenar y analizar los datos. La arquitectura de la casa del lago de Amazon Redshift facilita esa integración.

A medida que el volumen y la variedad de los datos aumenta, resulta conveniente seguir uno o más patrones conocidos para trabajar con los datos en la base de datos, el lago de datos y el almacenamiento de datos:

Incorpore datos en una base de datos o en un lago de datos, prepare los datos, traslade los datos seleccionados a un almacenamiento de datos y, a continuación, genere el informe

Imagen (arriba): Incorpore datos en una base de datos o en un lago de datos, prepare los datos, traslade los datos seleccionados a un almacenamiento de datos y, a continuación, genere el informe.

Incorpore los datos en un almacenamiento de datos, analice los datos y, a continuación, comparta los datos para su uso con otros productos de análisis de AWS

Imagen (arriba): Incorpore los datos en un almacenamiento de datos, analice los datos y, a continuación, comparta los datos para su uso con otros servicios de análisis y aprendizaje automático.

Un almacenamiento de datos está diseñado especialmente para el análisis de datos, que incluye la lectura de grandes volúmenes de datos para comprender las relaciones y las tendencias entre los datos. Una base de datos se usa para capturar y almacenar datos, como el registro de los detalles de una transacción.

A diferencia de un almacenamiento de datos, un lago de datos es un repositorio centralizado para todos los datos, incluidos los estructurados, los semiestructurados y los no estructurados. Un almacenamiento de datos requiere que los datos se organicen en un formato tabular, para lo que el esquema adquiere relevancia. El formato tabular se necesita para poder utilizar SQL para consultar los datos. Pero no todas las aplicaciones requieren que los datos estén en formatos tabulares. Algunas aplicaciones, como el análisis de big data, la búsqueda de texto completo y el aprendizaje automático pueden acceder a los datos, incluso cuando estos son semiestructurados o no estructurados.

Diferencias entre el almacenamiento de datos y el lago de datos

Características Almacenamiento de datos Lago de datos
Datos

Datos relacionales provenientes de sistemas transaccionales, bases de datos operativas y aplicaciones de línea de negocio

Todos los datos, incluidos los estructurados, los semiestructurados y los no estructurados

Esquema

Con frecuencia se diseña antes de la implementación del almacenamiento de datos, pero también se puede escribir al momento del análisis

(esquema de escritura o esquema de lectura)

Escrito al momento del análisis (esquema de lectura)

Precio / rendimiento

Resultados de búsqueda más rápidos con almacenamiento local

Resultados de búsqueda más rápidos con almacenamiento de bajo costo y desacoplamiento de la informática y el almacenamiento

Calidad de los datos

Datos seleccionados detalladamente que funcionan como fuente certera

Cualquier dato que pueda estar seleccionado o no (es decir, datos no procesados)

Usuarios

Analistas empresariales, científicos de datos y desarrolladores de datos

Analistas empresariales (que usan datos seleccionados), científicos de datos, desarrolladores de datos, ingenieros de datos y arquitectos de datos

Análisis

Generación de informes en lotes, inteligencia empresarial y visualizaciones

Aprendizaje automático, análisis de exploración, descubrimiento de datos, streaming, análisis de operaciones, big data y generación de perfiles

Diferencias entre un almacenamiento de datos y una base de datos

Características Almacenamiento de datos Base de datos transaccional

Cargas de trabajo admitidas

Análisis, generación de informes, big data

Procesamiento de transacciones
Origen de datos Datos recopilados y normalizados de muchos orígenes

Datos capturados sin modificar desde un único origen, como un sistema transaccional

Captura de datos

Operaciones de escritura masivas normalmente basadas en un cronograma por lotes predeterminado

Optimizado para operaciones de escritura continua a medida que datos nuevos se encuentran disponibles para maximizar el rendimiento de las transacciones

Normalización de datos

Esquemas no normalizados, como los esquemas Star o Snowflake

Esquemas estáticos con alto nivel de normalización

Almacenamiento de datos

Optimizado para acceso simple y desempeño de consultas de alta velocidad con almacenamiento en columnas

Optimizado para operaciones de escritura de alto rendimiento a un único bloque físico orientado a filas

Acceso a los datos

Optimizado para minimizar las operaciones de entrada y salida (E/S) y para maximizar el rendimiento de datos

Grandes volúmenes de pequeñas operaciones de lectura

¿Cómo se comparan un data mart con un almacenamiento de datos?

Un data mart es un almacenamiento de datos útil para las necesidades de un equipo o unidad de negocios específico, como finanzas, marketing o ventas. Es de menor tamaño, más especializado y puede incluir resúmenes de datos más útiles para la comunidad de usuarios. Un data mart también puede ser una parte de un almacenamiento de datos.

Diferencias entre un almacenamiento de datos y un data mart

Características Almacenamiento de datos Data Mart
Ámbito

Centralizado con varias áreas de asuntos integradas juntas

Descentralizado, área de asunto específica

Usuarios

En toda la organización

Un único departamento o comunidad

Origen de datos

Muchos orígenes

Un único origen o unos pocos, o bien una porción de datos ya recopilados en un almacenamiento de datos

Tamaño

Grande, puede ser de cientos de gigabytes a petabytes

Pequeño, generalmente de hasta decenas de gigabytes

Diseño

Ascendente

Descendente

Nivel de detalle de los datos

Datos completos y detallados

Puede incluir datos resumidos

¿Cómo se puede implementar un almacenamiento de datos en AWS?

AWS permite aprovechar los principales beneficios asociados con la informática bajo demanda: el acceso sin problemas a un almacenamiento y una capacidad informática prácticamente ilimitados, la posibilidad de ajustar la escala del sistema en función del crecimiento de los datos recopilados, almacenados y consultados, y pagar solo por los recursos que aprovisiona. AWS ofrece un amplio conjunto de servicios administrados que se integran a la perfección entre sí, de manera que pueda implementar con rapidez una solución de análisis y almacenamiento de datos integral.

La siguiente ilustración muestra los pasos clave de un proceso de análisis integral, que también se conoce como una pila. AWS ofrece una variedad de servicios administrados para cada paso.

AWS ofrece una variedad de servicios y productos para cada paso del proceso de análisis

Imagen (arriba): AWS ofrece una variedad de productos y servicios para cada paso del proceso de análisis.

Amazon Redshift es nuestro servicio de almacenamiento de datos rápido, completamente administrado y rentable. Proporciona un almacenamiento de datos a escala de petabytes y un análisis de lago de datos a escala de exabytes combinados en un servicio, por el que se paga solo por lo que se usa.

Pasos siguientes