Comenzar con el proyecto

7 pasos  |  60 minutos

P: ¿Qué es el almacenamiento de datos?

La tarea de analizar es amplia. Todos utilizamos informes y paneles para administrar nuestro trabajo, informar nuestro progreso a los accionistas y realizar análisis ad-hoc para respaldar la toma de decisiones. Detrás de estos informes, paneles y herramientas de BI, existen almacenes que permiten su funcionamiento a través del almacenamiento eficiente de datos para reducir la entrada y la salida y suministrar resultados de consultas a gran velocidad a cientos y miles de usuarios de manera simultánea. A diferencia de las bases de datos transaccionales, los almacenes de datos utilizan arquitecturas y almacenamiento especializados para un ágil desempeño de carga de datos y consultas. Los almacenes de datos también necesitan un alto nivel de escalado para que usted pueda añadir más orígenes de datos de manera continua para mejorar el análisis y la información. Por último, los almacenes de datos deben poder integrarse sin problemas con herramientas de inteligencia empresarial de terceros y clientes SQL, además de ser compatibles con SQL estándar para que los clientes puedan utilizar los recursos que ya poseen.

P: ¿Por qué debería ejecutar el almacenamiento de datos en AWS?

Amazon Redshift, nuestra solución de almacenamiento de datos es ágil, fácil de usar y completamente administrada. Automatiza el aprovisionamiento de infraestructura y las tareas administrativas como los backups, la replicación y los parches. Se integra sin problemas con herramientas de ETL y BI de terceros, para que pueda obtener su primer informe en minutos. Además, no existen límites del volumen de datos que puede cargar y analizar. A medida que el volumen aumente, no tendrá que preocuparse por actualizaciones de sistema costosas o bajo desempeño. Amazon Redshift es rápido en cualquier escala porque utiliza almacenamiento en columnas y varias técnicas de optimización. Amazon Redshift también es rentable y usted solo paga por lo que usa. En resumen, puede tener un número ilimitado de usuarios realizando análisis ilimitados en todos sus datos por tan solo 1 000 USD por terabyte al año. 

P: ¿Qué es Amazon Redshift?

Amazon Redshift es un almacén de datos rápido y totalmente administrado a escala de petabytes que permite analizar todos los datos empleando de forma sencilla y rentable las herramientas de inteligencia empresarial existentes. Comience con poca capacidad por 0,25 USD por hora sin asumir ningún compromiso y escale hasta varios petabytes por 1 000 USD por terabyte al año, menos de la décima parte del costo de las soluciones tradicionales. Por lo general, los clientes se benefician del triple de compresión, lo que reduce sus costos a 333 USD por terabyte sin comprimir al año.

P: ¿Cuál es el desempeño de Amazon Redshift en comparación con las bases de datos más tradicionales de almacenamiento y análisis de datos?

Amazon Redshift utiliza una serie innovaciones para conseguir un desempeño hasta diez veces superior al de las bases de datos tradicionales para las cargas de trabajo de almacenamiento y análisis de datos:

  • Almacenamiento de datos en columnas: en lugar de almacenar los datos como una serie de filas, Amazon Redshift los organiza en columnas. A diferencia de los sistemas basados en filas, que resultan ideales para procesar transacciones, los sistemas basados en columnas son ideales para el almacenamiento y el análisis de datos, donde las consultas suelen implicar operaciones agregadas con grandes conjuntos de datos. Dado que solo se procesan las columnas implicadas en las consultas y que los datos organizados en columnas se almacenan de manera secuencial en los medios de almacenamiento, los sistemas basados en columnas requieren muchas menos operaciones de E/S, lo que conlleva un aumento significativo del desempeño.
  • Compresión avanzada: los almacenes de datos organizados en columnas se pueden comprimir mucho más que los que están organizados en filas, ya que los datos similares se almacenan en el disco de manera secuencial. Amazon Redshift utiliza varias técnicas de compresión y, a menudo, puede alcanzar un alto nivel de compresión en comparación con los almacenes de datos relacionales tradicionales. Asimismo, Amazon Redshift no requiere índices ni vistas materializadas y, por ello, consume menos espacio que los tradicionales sistemas de bases de datos relacionales. Al cargar datos en una tabla vacía, Amazon Redshift analiza los datos automáticamente y selecciona el esquema de compresión más apropiado.
  • Procesamiento paralelo de forma masiva (MPP): Amazon Redshift distribuye automáticamente los datos y la carga de consultas entre todos los nodos. Amazon Redshift facilita la incorporación de nodos al almacén de datos y le permite mantener un desempeño rápido de las consultas a medida que el almacén crece.

P: ¿Cómo puedo obtener acceso a un clúster de almacén de datos en ejecución?

Cuando el clúster de almacén de datos esté disponible, puede recuperar su punto de enlace y la cadena de conexión a JDBC y ODBC desde la consola de administración de AWS o con las API de Redshift. A continuación, puede utilizar esta cadena de conexión según sus preferencias en cuanto a la herramienta de base de datos, el lenguaje de programación o la herramienta de inteligencia empresarial. Debe autorizar las solicitudes de red en el clúster de almacén de datos en ejecución. Para obtener una explicación detallada, consulte la Guía de introducción.

P: ¿Es compatible Amazon Redshift con el paquete de software de inteligencia empresarial y las herramientas ETL de los que dispongo?

Amazon Redshift utiliza el SQL estándar del sector y se obtiene acceso a él a través de los controladores estándar JDBC y ODBC. Puede descargar los controladores JDBC y ODBC personalizados de Amazon Redshift desde la pestaña Connect Client de nuestra consola. Disponemos de integraciones validadas con proveedores conocidos de BI y ETL y actualmente algunos de ellos ofrecen pruebas gratuitas para ayudarlo a cargar y analizar los datos. También puede visitar AWS Marketplace para implementar y configurar las soluciones diseñadas para funcionar con Amazon Redshift en cuestión de minutos.

P: ¿Cómo puedo comenzar a utilizar Amazon Redshift?

Puede probar Amazon Redshift de manera gratuita. Si nunca creó un clúster de Amazon Redshift, tiene derecho a disfrutar de una prueba gratuita del nodo DC1.Large durante un periodo de 2 meses. La prueba incluye 750 horas gratis al mes, la cantidad suficiente para ejecutar un nodo DC1.Large ininterrumpidamente con 160 GB de almacenamiento SSD comprimido. Además, puede crear clústeres con varios nodos para poner a prueba conjuntos de datos de mayor tamaño, pero esto consume las horas gratuitas con mayor rapidez. Una vez que concluya la prueba gratuita al cabo de dos meses, o su uso exceda las 750 horas al mes, puede cerrar el clúster para evitar cargos o seguir ejecutándolo, en cuyo caso se aplicaría nuestra tarifa bajo demanda estándar.

Comenzar con el proyecto