La nube de AWS
Introducción a Amazon Redshift

Un data warehouse es un repositorio central de información que se puede analizar para tomar decisiones mejor informadas. Los datos fluyen hacia un data warehouse a partir de sistemas transaccionales, bases de datos relacionales y otros orígenes, normalmente a un ritmo regular. Los analistas empresariales, los científicos de datos y los responsables de la toma de decisiones obtienen acceso a los datos mediante herramientas de inteligencia empresarial (BI), clientes SQL y otras aplicaciones analíticas.

Para que las empresas se mantengan competitivas, los datos y el análisis se han vuelto fundamentales. Las empresas utilizan informes, paneles de control y herramientas analíticas para extraer información de los datos, monitorizar el desempeño de la empresa y respaldar la toma de decisiones. Estos informes, paneles y herramientas de análisis cuentan con almacenes de datos que almacenan los datos de manera eficaz para reducir la entrada y la salida y suministrar resultados de consultas a gran velocidad a cientos y miles de usuarios de manera simultánea.

Descargue el documento técnico: Enterprise Data Warehousing on AWS

La arquitectura de un data warehouse está conformada por tres niveles. El nivel inferior de la arquitectura es el servidor de la base de datos, donde los datos se cargan y almacenan. El nivel intermedio contiene el motor de análisis que se utiliza para obtener acceso a los datos y para analizarlos. El nivel superior es el cliente front-end que presenta los resultados mediante informes, análisis y herramientas de minería de datos.

Un data warehouse funciona organizando datos en un esquema que describe el diseño y el tipo de los datos, como entero, campo de datos o cadena. Cuando los datos se incorporan, se almacenan en varias tablas descritas por el esquema. Las herramientas de consulta usan el esquema para determinar a qué tablas de datos obtendrán acceso y analizarán.

Los beneficios de un data warehouse son:

  • Mejora en la toma de decisiones
  • Consolidación de los datos provenientes de varios orígenes
  • Calidad, coherencia y precisión de los datos
  • Inteligencia histórica
  • Separación del procesamiento de análisis de las bases de datos transaccionales, lo que mejora el desempeño de ambos sistemas

 

Normalmente, un data warehouse está diseñado para el análisis de datos, que incluye la lectura de grandes volúmenes de datos para comprender las relaciones y las tendencias internas. Una base de datos se usa para registrar y almacenar datos, como la grabación de detalles de una transacción.

Características Data warehouse Base de datos transaccional
Cargas de trabajo admitidas Análisis, generación de informes, big data Procesamiento de transacciones
Origen de datos Datos recopilados y normalizados desde muchos orígenes Datos registrados tal cual desde un único origen, como un sistema transaccional
Registro de datos Operaciones de escritura masivas normalmente en un cronograma en lotes predeterminado

Optimizado para operaciones de escritura continua a medida que datos nuevos se encuentran disponibles para maximizar el procesamiento de transacciones

Normalización de datos Esquemas no normalizados, como los esquemas Star o Snowflake Esquemas estáticos con alto nivel de normalización
Almacenamiento de datos Optimizado para acceso simple y desempeño de consultas de alta velocidad con almacenamiento en columnas Optimizado para operaciones de escritura de alto procesamiento a un único bloque físico orientado a filas
Acceso a los datos Optimizado para minimizar la E/S y maximizar el procesamiento de datos Grandes volúmenes de pequeñas operaciones de lectura

A diferencia de un data warehouse, un lago de datos es un repositorio centralizado para todos los datos, incluidos los estructurados y los no estructurados. Un data warehouse usa un esquema predefinido optimizado para realizar análisis. En un lago de datos, el esquema no está definido, lo que permite añadir tipos adicionales de análisis, como análisis de big data, búsqueda de texto completo, análisis en tiempo real y aprendizaje automático.

Características Data warehouse Lago de datos
Datos Datos relacionales provenientes de sistemas transaccionales, bases de datos operativas y aplicaciones de línea de negocio Datos no relacionales y relacionales provenientes de dispositivos con IoT, sitios web, aplicaciones móviles, redes sociales y aplicaciones corporativas
Esquema Diseñado con anterioridad a la implementación del data warehouse (esquema de escritura) Escrito al momento del análisis (esquema de lectura)
Precio/desempeño Resultados de búsqueda más rápidos con almacenamiento de mayor costo Resultados de consultas que se tornan más rápidos con almacenamiento de bajo costo
Calidad de los datos Datos muy mantenidos que funcionan como versión central de la verdad Cualquier dato que pueda estar mantenido o no (es decir, datos no procesados)
Usuarios Analistas empresariales, científicos de datos y desarrolladores de datos Científicos de datos, desarrolladores de datos y analistas empresariales (con datos mantenidos)
Análisis Generación de informes en lotes, BI y visualizaciones Aprendizaje automático, análisis predictivo, detección de datos y creación de perfiles

Un data mart es un data warehouse que atiende las necesidades de un equipo o unidad de negocios específico, como finanzas, marketing o ventas. Es de menor tamaño, más enfocado y puede incluir resúmenes de datos que atiendan mejor a su comunidad de usuarios.

Características Data warehouse Data Mart
Ámbito Centralizado, varias áreas de asuntos integradas juntas Descentralizado, área de asunto específica
Usuarios Toda la organización Un único departamento o comunidad
Origen de datos Muchos orígenes Un único origen o unos pocos, o bien una porción de datos ya recopilados en un data warehouse
Tamaño Grande, puede ser de cientos de gigabytes a petabytes Pequeño, generalmente de hasta decenas de gigabytes
Diseño De arriba hacia abajo De abajo hacia arriba
Nivel de detalle de los datos Datos completos y detallados Puede incluir datos resumidos

AWS le permite aprovechar todos los principales beneficios asociados con la informática bajo demanda, como el acceso a almacenamiento y capacidad informática que parecen ilimitados, y la capacidad de escalar el sistema en función del crecimiento de los datos recopilados, almacenados y consultados, pagando solo por los recursos que aprovisiona. Además, AWS ofrece un amplio conjunto de servicios administrados que se integran a la perfección entre sí, de manera que pueda implementar con rapidez una solución de análisis y almacenamiento de datos completa.

La siguiente ilustración muestra los pasos clave de una cadena de procesamiento de análisis completa y los servicios administrados disponibles en AWS para cada paso:

Canalización de análisis en AWS

Amazon Redshift es un data warehouse rápido, completamente administrado y rentable que le ofrece en un único servicio almacenamiento de datos a escala de petabytes y análisis de lago de datos a escala de exabytes.

Amazon Redshift es hasta diez veces más rápido que los data warehouses locales tradicionales. Obtenga información única mediante consultas en petabytes de datos en Redshift y exabytes de datos estructurados o formatos de archivo abiertos en Amazon S3, sin necesidad de migrar ni transformar datos.

Redshift cuesta una décima parte del costo de las soluciones de data warehouse locales tradicionales. Puede comenzar con tan solo 0,25 USD por hora sin compromisos, aumentar la escala a petabytes de datos por 250 USD a 333 USD por terabyte no comprimido al año, y ampliar el análisis a su lago de datos de Amazon S3 por tan solo 0,05 USD cada 10 gigabytes de datos analizados. Más información