P. ¿Qué es el almacenamiento de datos?

La tarea de realizar análisis está muy extendida. Todos utilizamos informes y paneles para administrar nuestro trabajo, notificar nuestro progreso a los accionistas y realizar análisis ad-hoc para respaldar la toma de decisiones. Detrás de estos informes, paneles y herramientas de BI, existen almacenes que permiten su funcionamiento a través del almacenamiento eficiente de datos para reducir la entrada y la salida y suministrar resultados de consultas a gran velocidad a cientos y miles de usuarios de manera simultánea. A diferencia de las bases de datos transaccionales, los almacenes de datos utilizan arquitecturas y almacenamiento especializados para un rendimiento ágil de carga de datos y consultas. Los almacenes de datos también necesitan un alto nivel de escalabilidad para poder agregar más orígenes de datos de manera continua a fin de mejorar el análisis y la información. Por último, los almacenes de datos deben poder integrarse sin problemas con clientes SQL y herramientas de inteligencia empresarial de terceros, además de ser compatibles con SQL estándar para que los clientes puedan utilizar los recursos que ya poseen.

P. ¿Por qué debería ejecutar el almacenamiento de datos en AWS?

Amazon Redshift, nuestra solución de almacenamiento de datos, es ágil, fácil de usar y completamente administrada. Automatiza el aprovisionamiento de infraestructura y las tareas administrativas como las copias de seguridad, la replicación y los parches. Se integra sin problemas con herramientas de ETL y BI de terceros, para que pueda obtener su primer informe en minutos. Además, no existen límites para el volumen de datos que se puede cargar y analizar. A medida que el volumen de datos aumente, no tendrá que preocuparse por actualizaciones de sistema costosas o bajo rendimiento. Amazon Redshift es rápido en cualquier escala porque utiliza columnar storage y varias técnicas de optimización. Amazon Redshift también es rentable y solo se paga por lo que se usa. En resumen, puede tener un número ilimitado de usuarios realizando análisis ilimitados en todos sus datos por tan solo 1000 USD por terabyte al año. 

P. ¿Qué es Amazon Redshift?

Amazon Redshift es un almacén de datos rápido y completamente administrado a escala de petabytes que permite analizar todos los datos empleando de forma sencilla y rentable las herramientas de inteligencia empresarial existentes. Comience con poca capacidad por 0,25 USD por hora sin asumir ningún compromiso y escale hasta varios petabytes por 1000 USD por terabyte al año, menos de la décima parte del costo de las soluciones tradicionales. Por lo general, los clientes se benefician del triple de compresión, lo que reduce sus costos a 333 USD por terabyte sin comprimir al año.

P. ¿Cuál es el rendimiento de Amazon Redshift en comparación con las bases de datos más tradicionales de almacenamiento y análisis de datos?

Amazon Redshift utiliza una serie de innovaciones para conseguir un rendimiento hasta diez veces superior al de las bases de datos tradicionales para las cargas de trabajo de almacenamiento y análisis de datos:

  • Procesamiento en paralelo de forma masiva: Amazon Redshift ofrece un rendimiento de consulta rápido en conjuntos de datos que oscilan desde gigabytes a exabytes en cuanto a tamaño. Redshift utiliza columnar storage, compresión de datos y asignaciones de zona para reducir la cantidad de operaciones de E/S necesarias para realizar consultas. Usa una arquitectura de almacén de datos de procesamiento en paralelo de forma masiva (MPP) para hacer procesar en paralelo y distribuir operaciones SQL con el fin de aprovechar todos los recursos disponibles. El hardware subyacente se diseñó para lograr un procesamiento de datos de alto rendimiento. Utiliza un almacenamiento local asociado para maximizar el rendimiento entre las unidades y las CPU, y una red en malla de alto ancho de banda para maximizar el rendimiento entre los nodos.
  • Aprendizaje automático: Amazon Redshift utiliza el aprendizaje automático para ofrecer alto rendimiento, independientemente de las cargas de trabajo o el uso en simultáneo. Redshift utiliza sofisticados algoritmos para predecir los tiempos de ejecución de las consultas entrantes y las asigna a la cola óptima para lograr el procesamiento más rápido. Por ejemplo, las consultas tales como paneles e informes con altos requisitos de uso simultáneo se dirigen a una cola exprés para su procesamiento inmediato. A medida que aumenta la simultaneidad, Amazon Redshift predice cuándo puede comenzar el direccionamiento a las colas y se implementan automáticamente los recursos transitorios con la característica de Escalado de simultaneidad con el fin de garantizar un rendimiento rápido y constante, independientemente de la variabilidad de la demanda en el clúster.
  • Almacenamiento de resultados en caché: Amazon Redshift utiliza el almacenamiento en caché de resultados a fin de ofrecer tiempos de respuesta menores a un segundo para las consultas repetidas. Las herramientas de panel, visualización e inteligencia empresarial que ejecutan consultas repetidas experimentan un importante aumento del rendimiento. Cuando se ejecuta una consulta, Redshift busca en la caché para verificar si hay un resultado almacenado de una consulta anterior. Si encuentra un resultado almacenado en caché y los datos no han cambiado, devuelve inmediatamente dicho resultado en lugar de volver a ejecutar la consulta. 

P. ¿Cómo puedo obtener acceso a un clúster de almacén de datos en ejecución?

Cuando el clúster de almacén de datos esté disponible, puede recuperar su punto de enlace y la cadena de conexión a JDBC y ODBC desde la consola de administración de AWS o con las API de Redshift. A continuación, puede utilizar esta cadena de conexión según sus preferencias en cuanto a la herramienta de base de datos, el lenguaje de programación o la herramienta de inteligencia empresarial. Debe autorizar las solicitudes de red en el clúster de almacén de datos en ejecución. Para obtener una explicación detallada, consulte la Guía de introducción.

P. ¿Es compatible Amazon Redshift con el paquete de software de inteligencia empresarial y las herramientas ETL de mi preferencia?

Amazon Redshift utiliza el estándar del sector SQL y se obtiene acceso a través de los controladores estándar JDBC y ODBC. Puede descargar los controladores JDBC y ODBC personalizados de Amazon Redshift desde la pestaña Cliente de conexión de nuestra consola. Disponemos de integraciones validadas con proveedores conocidos de inteligencia empresarial y de procesos de extracción, transformación y carga (ETL), y algunos de ellos ofrecen actualmente pruebas gratuitas para ayudarlo a comenzar a cargar y analizar los datos. También puede visitar AWS Marketplace con el fin de implementar y configurar soluciones diseñadas para funcionar con Amazon Redshift en cuestión de minutos.

P. ¿Cómo puedo comenzar a utilizar Amazon Redshift?

Puede probar Amazon Redshift de manera gratuita. Si nunca creó un clúster de Amazon Redshift, tiene derecho a disfrutar de una prueba gratuita del nodo DC1.Large durante un periodo de 2 meses. La prueba incluye 750 horas gratis al mes, la cantidad suficiente para ejecutar un nodo DC1.Large ininterrumpidamente con 160 GB de almacenamiento SSD comprimido. También puede crear clústeres con varios nodos para poner a prueba conjuntos de datos de mayor tamaño, pero esto consume las horas gratuitas con mayor rapidez. Cuando concluya la prueba gratuita al cabo de dos meses o su uso exceda las 750 horas al mes, puede cerrar el clúster para evitar cargos o seguir ejecutándolo, en cuyo caso se aplicaría nuestra tarifa bajo demanda estándar.