Conceptos relacionados con el almacenamiento de datos
¿Qué es un almacenamiento de datos?
Un almacenamiento de datos es un repositorio central de información que se puede analizar para tomar decisiones mejor informadas. Los datos fluyen hacia un almacenamiento de datos desde sistemas transaccionales, bases de datos relacionales y otros orígenes, normalmente a una cadencia regular. Los analistas empresariales, los ingenieros de datos, los científicos de datos y los responsables de la toma de decisiones obtienen acceso a los datos mediante herramientas de inteligencia empresarial (BI), clientes SQL y otras aplicaciones de análisis.
Los datos y el análisis se han vuelto fundamentales para que las empresas mantengan la competitividad. Las empresas utilizan informes, paneles y herramientas de análisis para extraer información de los datos, monitorear el desempeño de la empresa y respaldar la toma de decisiones. Los almacenamientos de datos son fundamentales para estos informes, paneles y herramientas de análisis. Guardan los datos de manera eficaz para reducir las operaciones de entrada y salida (E/S) de datos y entregar resultados de consultas rápidamente a cientos y miles de usuarios de manera simultánea.
¿Cómo se diseña la arquitectura de los almacenamientos de datos?
La arquitectura de un almacenamiento de datos está compuesta por capas. El nivel superior es el cliente frontend que presenta los resultados mediante informes, análisis y herramientas de minería de datos. El nivel intermedio contiene el motor de análisis que se utiliza para obtener acceso a los datos y para analizarlos. El nivel inferior de la arquitectura es el servidor de la base de datos, donde los datos se cargan y almacenan. Los datos se almacenan de dos diferentes maneras: 1) los datos a los que se obtiene acceso de forma frecuente se almacenan en almacenamiento muy rápido (como unidades SSD); y, 2) los datos a los que se obtiene acceso de forma poco frecuente se almacenan en un almacenamiento de objetos rentable, como Amazon S3. El almacenamiento de datos se encarga automáticamente de que los datos a los que se obtiene acceso de forma poco frecuente se trasladen al almacenamiento “rápido” a fin de optimizar la velocidad de consulta.
¿Cómo funciona el almacenamiento de datos?
El almacenamiento de datos puede contener varias bases de datos. Dentro de cada base de datos, los datos se organizan en tablas y en columnas. Dentro de cada columna, se puede definir una descripción de los datos, como un número entero, un campo de datos o una cadena. Las tablas se pueden organizar dentro de esquemas, que se pueden concebir como carpetas. Cuando los datos se incorporan, se almacenan en varias tablas descritas por el esquema. Las herramientas de consulta usan el esquema para determinar a qué tablas de datos obtendrán acceso y cuáles de ellas analizarán.
¿Cuáles son los beneficios de utilizar un almacenamiento de datos?
Dentro de los beneficios de un almacenamiento de datos se incluyen los siguientes:
- Toma de decisiones fundamentadas
- Datos consolidados provenientes de muchos orígenes
- Análisis de datos históricos
- Calidad, coherencia y precisión de los datos
- Separación del procesamiento de análisis de las bases de datos transaccionales, lo que mejora el rendimiento de ambos sistemas
¿Cómo trabajan en conjunto el almacenamiento de datos, las bases de datos y los lagos de datos?
Generalmente, las empresas utilizan una combinación de una base de datos, un lago de datos y un almacenamiento de datos para almacenar y analizar los datos. La arquitectura de la casa del lago de Amazon Redshift facilita esa integración.
A medida que el volumen y la variedad de los datos aumenta, resulta conveniente seguir uno o más patrones conocidos para trabajar con los datos en la base de datos, el lago de datos y el almacenamiento de datos:

Imagen (arriba): Incorpore datos en una base de datos o en un lago de datos, prepare los datos, traslade los datos seleccionados a un almacenamiento de datos y, a continuación, genere el informe.

Imagen (arriba): Incorpore los datos en un almacenamiento de datos, analice los datos y, a continuación, comparta los datos para su uso con otros servicios de análisis y aprendizaje automático.
Un almacenamiento de datos está diseñado especialmente para el análisis de datos, que incluye la lectura de grandes volúmenes de datos para comprender las relaciones y las tendencias entre los datos. Una base de datos se usa para capturar y almacenar datos, como el registro de los detalles de una transacción.
A diferencia de un almacenamiento de datos, un lago de datos es un repositorio centralizado para todos los datos, incluidos los estructurados, los semiestructurados y los no estructurados. Un almacenamiento de datos requiere que los datos se organicen en un formato tabular, para lo que el esquema adquiere relevancia. El formato tabular se necesita para poder utilizar SQL para consultar los datos. Pero no todas las aplicaciones requieren que los datos estén en formatos tabulares. Algunas aplicaciones, como el análisis de big data, la búsqueda de texto completo y el aprendizaje automático pueden acceder a los datos, incluso cuando estos son semiestructurados o no estructurados.
Diferencias entre el almacenamiento de datos y el lago de datos
Características | Almacenamiento de datos | Lago de datos |
---|---|---|
Datos | Datos relacionales provenientes de sistemas transaccionales, bases de datos operativas y aplicaciones de línea de negocio |
Todos los datos, incluidos los estructurados, los semiestructurados y los no estructurados |
Esquema | Con frecuencia se diseña antes de la implementación del almacenamiento de datos, pero también se puede escribir al momento del análisis (esquema de escritura o esquema de lectura) |
Escrito al momento del análisis (esquema de lectura) |
Precio / rendimiento |
Resultados de búsqueda más rápidos con almacenamiento local |
Resultados de búsqueda más rápidos con almacenamiento de bajo costo y desacoplamiento de la informática y el almacenamiento |
Calidad de los datos |
Datos seleccionados detalladamente que funcionan como fuente certera |
Cualquier dato que pueda estar seleccionado o no (es decir, datos no procesados) |
Usuarios | Analistas empresariales, científicos de datos y desarrolladores de datos |
Analistas empresariales (que usan datos seleccionados), científicos de datos, desarrolladores de datos, ingenieros de datos y arquitectos de datos |
Análisis | Generación de informes en lotes, inteligencia empresarial y visualizaciones |
Aprendizaje automático, análisis de exploración, descubrimiento de datos, streaming, análisis de operaciones, big data y generación de perfiles |
Diferencias entre un almacenamiento de datos y una base de datos
Características | Almacenamiento de datos | Base de datos transaccional |
---|---|---|
Cargas de trabajo admitidas |
Análisis, generación de informes, big data |
Procesamiento de transacciones |
Origen de datos | Datos recopilados y normalizados de muchos orígenes | Datos capturados sin modificar desde un único origen, como un sistema transaccional |
Captura de datos |
Operaciones de escritura masivas normalmente basadas en un cronograma por lotes predeterminado |
Optimizado para operaciones de escritura continua a medida que datos nuevos se encuentran disponibles para maximizar el rendimiento de las transacciones |
Normalización de datos |
Esquemas no normalizados, como los esquemas Star o Snowflake |
Esquemas estáticos con alto nivel de normalización |
Almacenamiento de datos | Optimizado para acceso simple y desempeño de consultas de alta velocidad con almacenamiento en columnas |
Optimizado para operaciones de escritura de alto rendimiento a un único bloque físico orientado a filas |
Acceso a los datos | Optimizado para minimizar las operaciones de entrada y salida (E/S) y para maximizar el rendimiento de datos |
Grandes volúmenes de pequeñas operaciones de lectura |
¿Cómo se comparan un data mart con un almacenamiento de datos?
Un data mart es un almacenamiento de datos útil para las necesidades de un equipo o unidad de negocios específico, como finanzas, marketing o ventas. Es de menor tamaño, más especializado y puede incluir resúmenes de datos más útiles para la comunidad de usuarios. Un data mart también puede ser una parte de un almacenamiento de datos.
Diferencias entre un almacenamiento de datos y un data mart
Características | Almacenamiento de datos | Data Mart |
---|---|---|
Ámbito | Centralizado con varias áreas de asuntos integradas juntas |
Descentralizado, área de asunto específica |
Usuarios | En toda la organización |
Un único departamento o comunidad |
Origen de datos |
Muchos orígenes |
Un único origen o unos pocos, o bien una porción de datos ya recopilados en un almacenamiento de datos |
Tamaño |
Grande, puede ser de cientos de gigabytes a petabytes |
Pequeño, generalmente de hasta decenas de gigabytes |
Diseño | Ascendente |
Descendente |
Nivel de detalle de los datos | Datos completos y detallados |
Puede incluir datos resumidos |
¿Cómo se puede implementar un almacenamiento de datos en AWS?
AWS permite aprovechar los principales beneficios asociados con la informática bajo demanda: el acceso sin problemas a un almacenamiento y una capacidad informática prácticamente ilimitados, la posibilidad de ajustar la escala del sistema en función del crecimiento de los datos recopilados, almacenados y consultados, y pagar solo por los recursos que aprovisiona. AWS ofrece un amplio conjunto de servicios administrados que se integran a la perfección entre sí, de manera que pueda implementar con rapidez una solución de análisis y almacenamiento de datos integral.
La siguiente ilustración muestra los pasos clave de un proceso de análisis integral, que también se conoce como una pila. AWS ofrece una variedad de servicios administrados para cada paso.

Imagen (arriba): AWS ofrece una variedad de productos y servicios para cada paso del proceso de análisis.
Amazon Redshift es nuestro servicio de almacenamiento de datos rápido, completamente administrado y rentable. Proporciona un almacenamiento de datos a escala de petabytes y un análisis de lago de datos a escala de exabytes combinados en un servicio, por el que se paga solo por lo que se usa.
Pasos siguientes
- Siga esta guía paso a paso e implemente un almacenamiento de datos de Amazon Redshift »
- Comience con nuestra prueba gratuita de 2 meses »