Pruebe Amazon Redshift de forma gratuita

Comenzar prueba gratuita
Más información

Obtenga 750 horas gratis de DC2.Large al mes durante un periodo de dos meses. Para comenzar la prueba:

1. Cree una cuenta de AWS e inicie sesión en la consola de Amazon Redshift.

2. Lance un clúster de Amazon Redshift y seleccione DC2.Large como tipo de nodo.

Además, descubra cómo incorporar datos y generar informes de manera gratuita en nuestra página de pruebas gratuitas para socios.


P: ¿Qué es Amazon Redshift?

Amazon Redshift es un almacén de datos rápido y completamente administrado que permite analizar todos los datos empleando de forma sencilla y rentable SQL estándar y las herramientas de inteligencia empresarial (BI) existentes. Permite ejecutar consultas analíticas complejas en petabytes de datos estructurados, utilizando una sofisticada optimización de consultas, almacenamiento en columnas en discos locales de alto desempeño y ejecución masiva de consultas paralelas. La mayoría de los resultados se producen en segundos. Con Redshift, puede comenzar con poca capacidad por tan solo 0,25 USD por hora sin asumir ningún compromiso y escalar hasta varios petabytes de datos por 1 000 USD por terabyte al año, menos de la décima parte del costo de las soluciones tradicionales. Amazon Redshift también incluye Amazon Redshift Spectrum, que permite ejecutar directamente consultas SQL sobre exabytes de datos no estructurados en Amazon S3. Ya no se necesitan cargas ni transformaciones, y puede utilizar los siguientes formatos de datos abiertos, entre otros: Avro, CSV, Grok, ORC, Parquet, RCFile, RegexSerDe, SequenceFile, TextFile y TSV. Redshift Spectrum escala automáticamente la capacidad de cómputo de consulta en función de los datos que se recuperan, por lo que las consultas sobre Amazon S3 se ejecutan rápidamente, independientemente del tamaño del conjunto de datos.

La administración de almacenes de datos tradicionales requiere bastante tiempo y recursos, en particular cuando se trata de grandes conjuntos de datos. Además, el costo económico asociado con la compilación, el mantenimiento y el crecimiento de almacenes de datos on-premise y administrados automáticamente también es muy alto. A medida que aumente el volumen de los datos, debe compensar constantemente qué datos cargar en el almacén de datos y qué datos archivar en almacenamiento para poder administrar costos, conservar el nivel de complejidad de ETL bajo y ofrecer un buen rendimiento. Amazon Redshift no solo reduce de manera significativa el costo y la carga operativa de un almacén datos, sino que con Redshift Spectrum, también facilita el análisis de grandes volúmenes de datos en su formato nativo sin la necesidad de cargarlos.

Amazon Redshift le ofrece la posibilidad de realizar consultas con rapidez sobre datos estructurados mediante la utilización de herramientas de inteligencia empresarial y clientes basados en SQL conocidos que utilizan las conexiones estándar a ODBC y JDBC. Las consultas se distribuyen y paralelizan entre varios recursos físicos. Puede aumentar o reducir el escalado de un almacén de datos de Amazon Redshift con facilidad con tan solo unos clics en la consola de administración de AWS, o bien, con una única llamada al API. Amazon Redshift crea parches y backups automáticas del almacén de datos, y almacena las backups durante un periodo de retención definido por el usuario. Amazon Redshift utiliza la replicación y las backups constantes para aumentar la disponibilidad y mejorar la durabilidad de los datos, y puede realizar recuperaciones automáticamente tras el fallo de componentes y nodos. Además, Amazon Redshift soporta Amazon Virtual Private Cloud (Amazon VPC), SSL, el cifrado AES-256 y los módulos de seguridad de hardware (HSM) para proteger los datos activos e inactivos.

De la misma forma que con Amazon Web Services, no se requiere ningún tipo de inversión inicial y únicamente tendrá que pagar los recursos que utilice. Amazon Redshift le permite pagar en función del uso. Puede probar incluso Amazon Redshift de manera gratuita.

P: ¿Qué es Amazon Redshift Spectrum?

Amazon Redshift Spectrum es una característica de Amazon Redshift que le permite ejecutar consultas en exabytes de datos no estructurados en Amazon S3, sin la necesidad de cargarlos ni de recurrir a extracción, transformación y carga (ETL). Cuando emite una consulta, va al punto de enlace de Amazon Redshift SQL, que genera y optimiza un plan de consulta. Amazon Redshift determina qué datos son locales y cuáles se encuentran en Amazon S3, genera un plan para minimizar el volumen de datos de Amazon S3 que necesita leerse, solicita a los empleados de Redshift Spectrum un grupo de recursos compartidos para leer y procesar datos de Amazon S3.

Redshift Spectrum escala a miles de instancias de ser necesario, por lo que las consultas se ejecutan rápidamente independientemente del volumen de los datos. Además, puede usar exactamente los mismos datos de SQL for Amazon S3 que utiliza hoy para sus consultas en Amazon Redshift y conectarse al mismo punto de enlace de Amazon Redshift con sus herramientas de BI. Redshift Spectrum permite separar el almacenamiento de la capacidad de cómputo, por lo que puede escalar cada función de forma independiente. Puede configurar tantos clústeres de Amazon Redshift como necesite para realizar consultas en su lago de datos de Amazon S3, lo que brinda alta disponibilidad y simultaneidad ilimitada. Redshift Spectrum ofrece la libertad de almacenar los datos donde desee, en el formato que quiera y de una forma que se encuentren disponibles para procesarlos cuando los necesite.

P: ¿Qué administra Amazon Redshift por mí?

Amazon Redshift administra las tareas necesarias para configurar, utilizar y escalar un almacén de datos, desde el aprovisionamiento de la capacidad de la infraestructura hasta la automatización de las tareas administrativas en curso, como las backups y la aplicación de parches. Amazon Redshift monitoriza los nodos y las unidades automáticamente para facilitarle la recuperación de errores. Para Redshift Spectrum, Amazon Redshift administra toda la infraestructura informática, el equilibrio de cargas, la planificación, el cronograma y la ejecución de sus consultas en datos almacenados en Amazon S3.

P: ¿Cuál es el desempeño de Amazon Redshift en comparación con las bases de datos más tradicionales de almacenamiento y análisis de datos?

Amazon Redshift utiliza una serie innovaciones para conseguir un desempeño hasta diez veces superior al de las bases de datos tradicionales para las cargas de trabajo de almacenamiento y análisis de datos:

  • Almacenamiento de datos en columnas: en lugar de almacenar los datos como una serie de filas, Amazon Redshift los organiza en columnas. A diferencia de los sistemas basados en filas, que resultan ideales para procesar transacciones, los sistemas basados en columnas son ideales para el almacenamiento y el análisis de datos, donde las consultas suelen implicar operaciones agregadas con grandes conjuntos de datos. Dado que solo se procesan las columnas implicadas en las consultas y que los datos organizados en columnas se almacenan de manera secuencial en los medios de almacenamiento, los sistemas basados en columnas requieren muchas menos operaciones de E/S, lo que conlleva un aumento significativo del desempeño.
  • Compresión avanzada: los almacenes de datos organizados en columnas se pueden comprimir mucho más que los que están organizados en filas, ya que los datos similares se almacenan en el disco de manera secuencial. Amazon Redshift utiliza varias técnicas de compresión y, a menudo, puede alcanzar un alto nivel de compresión en comparación con los almacenes de datos relacionales tradicionales. Asimismo, Amazon Redshift no requiere índices ni vistas materializadas y, por ello, consume menos espacio que los tradicionales sistemas de bases de datos relacionales. Al cargar datos en una tabla vacía, Amazon Redshift analiza los datos automáticamente y selecciona el esquema de compresión más apropiado.
  • Procesamiento paralelo de forma masiva (MPP): Amazon Redshift distribuye automáticamente los datos y la carga de consultas entre todos los nodos. Amazon Redshift facilita la incorporación de nodos al almacén de datos y le permite mantener un desempeño rápido de las consultas a medida que crece el almacén de datos.
  • Redshift Spectrum: Redshift Spectrum le permite ejecutar consultas en exabytes de datos en Amazon S3. No es necesario realizar cargas ni ETL. Aunque no almacene ningún dato en Amazon Redshift, aún así puede usar Redshift Spectrum para realizar consultas en conjuntos de datos de hasta un exabyte en Amazon S3. Cuando emite una consulta, va al punto de enlace de Amazon Redshift SQL, que genera un plan de consulta. Amazon Redshift determina qué datos son locales y cuáles se encuentran en Amazon S3, genera un plan para minimizar el volumen de datos de Amazon S3 que necesita leerse, solicita a los empleados de Amazon Redshift Spectrum un grupo de recursos compartidos para leer y procesar datos de Amazon S3, y obtiene los resultados de nuevo en el clúster de Amazon Redshift de cualquier procesamiento restante.

P: ¿Cómo puedo comenzar a utilizar Amazon Redshift?

Puede inscribirse y comenzar a utilizar la solución en cuestión de minutos desde la página de detalles de Amazon Redshift o a través de la consola de administración de AWS. Si aún no tiene una cuenta de AWS, se le pedirá que cree una.

Para usar Redshift Spectrum, primero debe almacenar sus datos en Amazon S3. A continuación, puede definir los metadatos sobre esos datos en su clúster de Amazon Redshift o registrar los metadatos que ya podría tener en su tienda de metadatos Hive con su clúster. Puede emitir un comando CREATE EXTERNAL SCHEMA SQL en su clúster de Amazon Redshift para definir o registrar una base de datos en su catálogo como un esquema externo dentro de Amazon Redshift. Luego, puede emitir consultas en Amazon S3 con el mismo SQL que usa para tablas locales y cualquier herramienta de BI compatible con Amazon Redshift actualmente. La definición de la base de datos externa que crea con Amazon Redshift SQL está registrada en el mismo catálogo de datos que utiliza Amazon Athena. Opcionalmente, también puede administrar la definición de la base de datos externa desde el catálogo de Athena Catalog. 

Visite la página de introducción para consultar cómo probar de forma gratuita Amazon Redshift.

P: ¿En qué regiones de AWS se encuentra disponible Amazon Redshift?

Para obtener información sobre la disponibilidad regional de Amazon Redshift, consulte la tabla de regiones en la página de infraestructura global de AWS.

P: ¿En qué regiones de AWS se encuentra disponible Redshift Spectrum?

Amazon Redshift Spectrum se encuentra disponible en las siguientes regiones de AWS: EE.UU. Este (Norte de Virginia), EE.UU. Este (Ohio), EE.UU. Oeste (Oregón), UE (Fráncfort), UE (Irlanda), Asia Pacífico (Seúl), Asia Pacífico (Singapur), Asia Pacífico (Sídney) y Asia Pacífico (Tokio).

P: ¿Cómo puedo crear un clúster de almacén de datos de Amazon Redshift?

Con la consola de administración de AWS o las API de Amazon Redshift puede crear un clúster de almacén de datos de Amazon Redshift fácilmente. Puede comenzar con un almacén de datos de 160 GB y un único nodo y, posteriormente, escalar a un petabyte o más con tan solo unos clics en la consola de AWS o con una única llamada a la API.

La configuración de un solo nodo le permite comenzar a utilizar Amazon Redshift con rapidez y rentabilidad, además de escalar a una configuración de varios nodos a medida que aumenten sus necesidades. La configuración de varios nodos requiere un nodo principal que administre las conexiones cliente y reciba consultas, así como dos nodos de ejecución que almacenen datos y realicen consultas y cálculos. El nodo principal se le aprovisiona automáticamente y, además, no se le aplica ningún cargo por ello.

Solo tiene que especificar la zona de disponibilidad preferida (opcional), el número de nodos, los tipos de nodos, un nombre y una contraseña principales, los grupos de seguridad, las preferencias personales de retención de backups y otra configuración del sistema. Cuando haya elegido la configuración deseada, Amazon Redshift aprovisionará los recursos necesarios y configurará el clúster de almacén de datos.

P: ¿Qué función cumplen los nodos principales? ¿Qué función cumplen los nodos de ejecución?

Un nodo principal recibe consultas de aplicaciones cliente, las analiza y desarrolla planes de ejecución, que constituyen un conjunto ordenado de pasos para procesar las consultas. A continuación, el nodo principal coordina la ejecución paralela de estos planes con los nodos de ejecución, agrega los resultados intermedios de tales nodos y, por último, devuelve los resultados a las aplicaciones cliente.

Los nodos de ejecución ejecutan los pasos especificados en los planes de ejecución y transmite los datos entre ellos para administrar tales consultas. Los resultados intermedios se vuelven a enviar al nodo principal para su agregación antes de que se vuelvan a remitir a las aplicaciones cliente.

P: ¿Cuál es la capacidad de almacenamiento máxima por cada nodo de ejecución? ¿Cuál es la cantidad de datos por nodo de ejecución recomendada para obtener un desempeño óptimo?

Puede crear un clúster mediante el uso de tipos de nodo de almacenamiento denso (DS) o de informática densa (DC). Los tipos de nodo de almacenamiento denso le permiten crear almacenes de datos muy grandes mediante el uso de unidades de disco duro (HDD) por un precio muy bajo. Los tipos de nodo de informática densa le permiten crear almacenes de datos de rendimiento muy elevado con CPU rápidas, grandes volúmenes de RAM y discos de estado sólido (SSD).

Los tipos de nodo de almacenamiento denso (DS) se encuentran disponibles en dos tamaños, extragrande o extragrande óctuple. El tamaño extragrande (XL) incorpora 3 HDD con un total de 2 TB de almacenamiento magnético, mientras que el extragrande óctuple (8XL) cuenta con 24 HDD con un total de 16 TB de almacenamiento magnético. DS2.8XLarge dispone de 36 núcleos virtuales Intel Xeon E5-2676 v3 (Haswell) y 244 GiB de RAM, mientras que DS2.XL incorpora 4 núcleos virtuales Intel Xeon E5-2676 v3 (Haswell) y 31 GiB de RAM. Consulte nuestra página de precios para obtener más detalles. Puede comenzar con un almacén de datos de 2 TB y con un único nodo extragrande por 0,85 USD por hora y, posteriormente, escalar hasta un petabyte o más. Puede pagar por hora o utilizar los precios de instancias reservadas para reducir el precio a menos de 1 000 USD por TB al año.

Los tipos de nodo de informática densa (DC) también están disponibles en dos tamaños. El grande tiene 160 GB de almacenamiento SSD, 2 núcleos virtuales Intel Xeon E5-2670v2 (Ivy Bridge) y 15 GiB de RAM. El extragrande óctuple es dieciséis veces más grande, con 2,56 TB de almacenamiento SSD, 32 núcleos virtuales Intel Xeon E5-2670v2 y 244 GiB de RAM. Puede comenzar con un único nodo DC2.Large por 0,25 USD por hora y escalar hasta 128 nodos extragrandes óctuples con 326 TB de almacenamiento SSD, 3 200 núcleos virtuales y 24 TiB de RAM.

La arquitectura MPP de Amazon Redshift le permite aumentar el desempeño gracias a que también aumenta el número de nodos del clúster de almacén de datos. El volumen óptimo de datos por nodo de ejecución depende de las características de la aplicación y de las necesidades que tenga en relación con el desempeño de las consultas.

P: ¿Cuántos nodos puedo definir para cada clúster de almacenamiento de datos de Amazon Redshift?

Un clúster de almacén de datos de Amazon Redshift puede contener desde 1 hasta 128 nodos informáticos, en función del tipo de nodo de que se trate. Para obtener más detalles, consulte nuestra documentación.

P: ¿Cómo puedo obtener acceso a un clúster de almacén de datos en ejecución?

Cuando el clúster de almacén de datos esté disponible, puede recuperar su punto de enlace y la cadena de conexión a JDBC y ODBC desde la consola de administración de AWS o con las API de Redshift. A continuación, puede utilizar esta cadena de conexión según sus preferencias en cuanto a la herramienta de base de datos, el lenguaje de programación o la herramienta de inteligencia empresarial. Debe autorizar las solicitudes de red en el clúster de almacén de datos en ejecución. Para obtener una explicación detallada, consulte la Guía de introducción.

P: ¿Qué diferencia de uso existe entre Amazon Redshift y Amazon RDS?

Tanto Amazon Redshift como Amazon RDS permiten ejecutar bases de datos relacionales tradicionales en la nube. Así logramos reducir los procesos administrativos de base de datos. Los clientes utilizan las bases de datos de Amazon RDS para el procesamiento de transacciones online (OLTP) y para los informes y los análisis. Amazon Redshift utiliza la escala y los recursos de varios nodos, además de una serie de optimizaciones, para ofrecer mejoras sustanciales de las bases de datos tradicionales para cargas de trabajo de análisis y generación de informes con conjuntos de datos muy grandes. Amazon Redshift ofrece una opción excelente de escalado a medida que aumenta la complejidad de los datos y las consultas, o bien, si quiere prevenir que el procesamiento de informes y análisis interfiera en el desempeño de la carga de trabajo de OLTP.

P: ¿Qué diferencia de uso existe entre Amazon Redshift y Amazon EMR?

Debería utilizar Amazon EMR si usa código personalizado para procesar y analizar conjuntos de datos extremadamente grandes con marcos de procesamiento de big data como Spark, Hadoop, Presto o Hbase. Amazon EMR le brinda el control total de la configuración de los clústeres y del software que instale en ellos.

Los almacenes de datos como Amazon Redshift están diseñados para un tipo diferente de análisis en general. Los almacenes de datos están diseñados para reunir datos a partir de muchas fuentes diferentes, como sistemas de inventario, financieros y ventas minoristas. Para garantizar que la generación de informes sea precisa continuamente en toda la compañía, los almacenes de datos guardan los datos de una manera muy estructurada. Esta estructura crea reglas de coherencia de datos directamente en las tablas de la base de datos.

Amazon Redshift es el mejor servicio cuando necesita realizar consultas complejas en colecciones masivas de datos estructurados y obtener un rendimiento extremadamente alto.

P: ¿Redshift Spectrum puede reemplazar a Amazon EMR?

No. Si bien Redshift Spectrum es excelente para ejecutar consultas en datos en Amazon Redshift y S3, no funciona para los tipos de casos de uso que las empresas normalmente solicitan a marcos de procesamiento como Amazon EMR.
Amazon EMR va mucho más allá que la ejecución de consultas SQL. Amazon EMR es un servicio administrado que le permite procesar y analizar conjuntos de datos extremadamente grandes con las versiones más recientes de marcos de procesamiento de big data conocidos, como Spark, Hadoop y Presto, en clústeres completamente personalizables. Con Amazon EMR, puede ejecutar una gran variedad de tareas de procesamiento de datos de escalado para aplicaciones como el aprendizaje automático, el análisis de gráficos, la transformación de datos, los datos de streaming y prácticamente cualquier cosa que pueda codificar. También puede utilizar Redshift Spectrum junto con EMR. Amazon Redshift Spectrum usa la misma estrategia de almacenamiento de definiciones de tablas que Amazon EMR. Por lo tanto, si ya utiliza EMR para procesar un almacén de datos grande, puede usar Redshift Spectrum para realizar consultas en esos datos al mismo tiempo sin interrumpir sus trabajos de Amazon EMR.

Todos los servicios de consultas, los almacenes de datos y los marcos de procesamiento de datos complejos tienen su lugar y se utilizan para diferentes fines. Simplemente tiene que elegir la herramienta adecuada para el trabajo.

P: ¿Cuándo debo utilizar Amazon Athena en vez de Redshift Spectrum?

Amazon Athena es la manera más simple de brindarle a cualquier empleado la capacidad para ejecutar consultas ad-hoc en Amazon S3. Athena no tiene servidor, por lo que no es necesario configurar ni administrar infraestructura, y puede comenzar a analizar los datos al instante.

Si tiene datos de acceso frecuente, estos deben almacenarse en un formato muy estructurado y estable, y luego utilizar un almacén de datos como Amazon Redshift. Esto le brinda la flexibilidad para almacenar sus datos estructurados de acceso frecuente en Amazon Redshift y utilizar Redshift Spectrum para ampliar sus consultas de Amazon Redshift al conjunto completo de datos de su lago de datos de Amazon S3. Esto le ofrece la libertad de almacenar los datos donde desee, en el formato que quiera y de forma que se encuentren disponibles para procesarlos cuando lo necesite.

P: ¿Puedo utilizar Redshift Spectrum para realizar consultas en los datos que proceso con Amazon EMR?

Sí, Redshift Spectrum es compatible con el mismo Apache Hive Metastore que utiliza Amazon EMR para encontrar datos y definiciones de tablas. Si utiliza Amazon EMR y ya tiene un almacén de metadatos Hive, tan solo debe configurar su clúster de Amazon Redshift para usarlo. A continuación, puede empezar a realizar consultas de inmediato junto con sus trabajos de Amazon EMR.

P: ¿Por qué debo utilizar Amazon Redshift en lugar de ejecutar mi propio clúster de almacén de datos MPP en Amazon EC2?

Amazon Redshift administra automáticamente muchas de las tareas que requieren mucho tiempo y que están asociadas con la administración de su propio almacén de datos, entre otras:

  • Configuración: con Amazon Redshift, solo tiene que crear un clúster de almacén de datos, definir su esquema y comenzar a cargar y consultar datos. La provisión, configuración y aplicación de revisiones las administra usted.
  • Durabilidad de los datos: Amazon Redshift replica los datos en el clúster de almacén de datos y realiza copias de seguridad constantes de los datos en Amazon S3, que está diseñado para ofrecer un 99,999999999% de durabilidad. Amazon Redshift refleja cada dato de la unidad en otros nodos dentro del clúster. Si una unidad falla, las consultas continuarán con un ligero aumento de la latencia mientras Redshift recompila la unidad a partir de las réplicas. En caso de que falle algún nodo, Amazon Redshift aprovisiona automáticamente los nuevos nodos y comienza a restablecer los datos desde otras unidades del clúster o desde Amazon S3. Da prioridad al restablecimiento de los datos consultados con mayor frecuencia, de manera que las consultas ejecutadas con mayor frecuencia comiencen a ofrecer desempeño con rapidez.
  • Escalado: puede añadir o eliminar nodos del clúster del almacén de datos de Amazon Redshift con una única llamada a la API o con unos clics en la consola de administración de AWS a medida que cambian las necesidades de capacidad y desempeño.
  • Actualizaciones y aplicaciones de parches automáticos: Amazon Redshift aplica actualizaciones y parches automáticamente al almacén de datos para que usted pueda centrarse en la aplicación y no en su administración.
  • Capacidad para realizar consultas a escala de exabytes: Redshift Spectrum le permite ejecutar consultas en exabytes de datos en Amazon S3. No es necesario realizar cargas ni ETL. Aunque no almacene ningún dato en Amazon Redshift, aún así puede usar Redshift Spectrum para realizar consultas en conjuntos de datos de hasta un exabyte en Amazon S3.

Volver arriba »

P: ¿Qué cargos y facturación se me aplicarán por utilizar Amazon Redshift?

Solo tiene que pagar por lo que utilice y no hay ni costes mínimos ni de configuración. Su facturación se calcula según lo siguiente:

  • Horas de nodos de ejecución – Las horas de nodos de ejecución constituyen el número total de horas durante las cuales se ejecutan todos los nodos de ejecución en un periodo de facturación. Cada hora se le carga 1 unidad por nodo, por lo que un clúster de almacén de datos de 3 nodos que se ejecute durante un mes entero incurriría en 2 160 horas de instancia. No se le aplicará ningún cargo por las horas de nodos principales. Solo se cobrarán los nodos de ejecución.
  • Almacenamiento de backup – Este tipo de almacenamiento es el asociado con los snapshots automatizados y manuales de un almacén de datos. Al aumentar el periodo de retención de copia de seguridad o realizar snapshots adicionales, aumenta el almacenamiento de backup que consume el almacén de datos. No se aplica ningún cargo adicional para el almacenamiento de backups de hasta el 100% del almacenamiento aprovisionado para un clúster de almacén de datos activo. Por ejemplo, si dispone de un clúster de almacén de datos XL de un solo nodo con 2 TB de almacenamiento de instancia local, le ofreceremos hasta 2 TB mensuales de almacenamiento de backups sin ningún costo adicional. El almacenamiento de backups que supere el tamaño del almacenamiento provisionado y las backups almacenadas después de terminar el clúster se facturan conforme a las tarifas estándar de Amazon S3.
  • Transferencia de datos – No existen cargos por transferencia de datos desde o hacia Amazon Redshift y Amazon S3 dentro de la misma región de AWS. Para las demás transferencias de datos de entrada y salida de Amazon Redshift, se le facturará de acuerdo con las tarifas de transferencia de datos de AWS estándar.
  • Datos analizados – Con Redshift Spectrum, se le cobra el volumen de datos de Amazon S3 analizados para ejecutar su consulta. No se aplican cargos por Redshift Spectrum cuando no se ejecutan consultas. Si almacena datos en un formato de columna, como Parquet o RC, el costo será menor, ya que Redshift Spectrum solo analizará las columnas necesarias para la consulta, en lugar de procesar filas completas. Del mismo modo, si comprime los datos con uno de los formatos compatibles con Redshift Spectrum, los costos también se reducirán. Pagará las tarifas estándar de Amazon S3 por el almacenamiento de datos y las tasas de instancia de Amazon Redshift para el clúster utilizado.

Para obtener acceso a la información sobre los precios de Amazon Redshift, visite la página de precios de Amazon Redshift.

P: ¿Cuál es el período de facturación para los clústeres de almacén de datos de Amazon Redshift?

La facturación del clúster de almacén de datos comienza en cuanto este se encuentra disponible. La facturación continúa hasta que termina el clúster de almacén de datos, situación que se produciría al eliminarlo o en caso de producirse un error en la instancia.

P: ¿Qué factores se tienen en cuenta para facturar las horas de instancia de Amazon Redshift?

Las horas de uso de nodos se facturan por cada hora durante la cual se ejecuta el clúster de almacén de datos en un estado de disponibilidad. Si ya no desea que se le apliquen cargos por su clúster de almacén de datos, debe terminarlo para que no se le facturen horas de nodo adicionales. Las horas de nodo parciales consumidas se facturan como horas completas.

P: ¿Los precios incluyen impuestos?

Si no se especifica lo contrario, nuestros precios no incluyen los impuestos ni gravámenes correspondientes, como el IVA y cualquier otro impuesto sobre las ventas. En el caso de los clientes con una dirección de facturación de Japón, el uso de los servicios de AWS está sujeto al impuesto de consumo nipón. Más información.

Volver arriba »


P: ¿Cómo puedo cargar datos en el almacén de datos de Amazon Redshift?

Puede cargar datos en Amazon Redshift desde una amplia variedad de fuentes, entre otras, Amazon S3, Amazon DynamoDB, Amazon EMRAWS Data Pipeline o cualquier almacén con SSH habilitado on-premise o en Amazon EC2. Amazon Redshift intenta cargar los datos en paralelo en cada nodo de ejecución para maximizar la velocidad a la que puede incorporar datos en el clúster de almacén de datos. Para obtener más detalles sobre la carga de datos en Amazon Redshift, consulte la guía de introducción.

P: ¿Puedo cargar datos con instrucciones “INSERT” de SQL?

Sí, los clientes pueden conectarse a Amazon Redshift mediante ODBC o JDBC y enviar comandos "insert" de SQL para insertar los datos. Tenga en cuenta que esto es más lento que utilizar S3 o DynamoDB porque dichos métodos cargan datos en paralelo en cada nodo de ejecución, mientras que las instrucciones “insert” de SQL se cargan a través del único nodo principal.

P: ¿Cómo puedo cargar datos en Amazon Redshift desde mis fuentes de datos existentes en Amazon RDS, Amazon EMR, Amazon DynamoDB y Amazon EC2?

Puede usar el comando COPY para cargar datos en paralelo directamente a Amazon Redshift desde Amazon EMR, Amazon DynamoDB o cualquier host con SSH habilitado. Redshift Spectrum también le permite cargar datos desde Amazon S3 a su clúster con un comando INSERT INTO simple. Esto podría permitirle cargar datos de diferentes formatos, como Parquet y RC, a su clúster. Tenga en cuenta que si utiliza esta estrategia, incurrirá en cargos de Redshift Spectrum por los datos analizados de Amazon S3.

Además, muchas empresas de ETL han certificado Amazon Redshift para usarlo con sus herramientas y varias de ellas ofrecen pruebas gratuitas para ayudarle a cargar los datos. AWS Data Pipeline ofrece una solución tolerante a fallos, fiable y de alto rendimiento para cargar datos desde varios orígenes de datos de AWS. Puede utilizar AWS Data Pipeline para especificar el origen de datos, las transformaciones deseadas de los datos y, a continuación, ejecutar un script de importación pregrabado para cargar los datos en Amazon Redshift. Además, AWS Glue es un servicio de extracción, transformación y carga (ETL) completamente administrado que facilita la preparación y carga de datos para su análisis. Puede crear y ejecutar un trabajo de ETL de AWS Glue con tan solo unos clics en la consola de administración de AWS.

P: Tengo muchos datos para hacer la primera carga en Amazon Redshift. Transferirlos por Internet llevaría mucho tiempo. ¿Cómo puedo cargar estos datos?

Puede utilizar AWS Import/Export para transferir los datos a Amazon S3 mediante el uso de dispositivos portátiles de almacenamiento. Además, puede utilizar AWS Direct Connect para establecer una conexión de red privada entre la red o el centro de datos y AWS. Puede elegir puertos de conexión de 1 Gbit/s o de 10 Gbit/s para transferir los datos.

Volver arriba »


P: ¿De qué manera protege los datos Amazon Redshift?

Amazon Redshift cifra los datos y los mantiene protegidos, tanto en tránsito como en reposo, mediante la utilización de técnicas de cifrado estándar del sector. Para mantener los datos protegidos mientras están activos, Amazon Redshift soporta las conexiones con SSL habilitado entre la aplicación cliente y el clúster de almacén de datos de Redshift. Para mantener los datos protegidos mientras están inactivos, Amazon Redshift cifra cada bloque con AES-256 acelerado por hardware a medida que se graba en el disco. Esto tiene lugar en un bajo nivel del subsistema de E/S, que cifra todo lo que se graba en el disco, incluidos los resultados de consulta intermedios. Las backups de los bloques se realizan con los bloques tal cual, lo que significa que las backups también se cifran. De forma predeterminada, Amazon Redshift se encarga de administrar las claves, pero puede optar por administrarlas con módulos de seguridad de hardware (HSM) propios o mediante AWS Key Management Service.

Redshift Spectrum es compatible con el cifrado del lado del servidor (SSE) de Amazon S3 mediante el uso de la clave predeterminada de su cuenta que utiliza AWS Key Management Service (KMS).

P: ¿Puedo utilizar Amazon Redshift en Amazon Virtual Private Cloud (Amazon VPC)?

Sí, puede utilizar Amazon Redshift como parte de la configuración de VPC. Con Amazon VPC, podrá definir una topología de red virtual que sea prácticamente idéntica a la red tradicional que tenga instaurada en su centro de datos. Esto le permite ejercer un control total sobre quién puede obtener acceso al clúster de almacén de datos de Amazon Redshift.

Puede usar Redshift Spectrum con un clúster de Amazon Redshift que forme parte de su VPC. Tenga en cuenta que, actualmente, Redshift Spectrum no es compatible con direccionamiento de VPC mejorado.

P: ¿Puedo obtener acceso directamente a los nodos de ejecución de Amazon Redshift?

No. Los nodos de ejecución de Amazon Redshift se encuentran en un espacio de red privado y solo se puede obtener acceso a ellos desde el nodo principal del clúster del almacén de datos. Esto ofrece a los datos una capa adicional de seguridad.

Volver arriba »


P: ¿Qué sucede con la disponibilidad y la durabilidad de los datos en un clúster de almacén de datos si falla una unidad en alguno de los nodos?

El clúster de almacén de datos de Amazon Redshift continuará disponible en el caso de que una unidad falle. No obstante, se puede observar una ligera disminución del desempeño de determinadas consultas. En caso de que falle una unidad, Amazon Redshift utiliza una réplica de los datos de manera transparente en una unidad que se almacena en otras unidades dentro de dicho nodo. Además, Amazon Redshift tratará de mover los datos a una unidad en buen estado o, si no es posible, reemplazará el nodo. Los clústeres de un solo nodo no soportan la replicación de datos. Si se da el caso de un error en la unidad, necesitará restablecer el clúster desde un snapshot de Amazon S3. Le recomendamos que utilice al menos dos nodos para la producción.

P: ¿Qué sucede con la disponibilidad y la durabilidad de los datos en un clúster de almacén de datos si hay un error en un único nodo?

Amazon Redshift detecta y reemplaza automáticamente el nodo defectuoso en el clúster de almacén de datos. El clúster de almacén de datos no estará disponible para consultas y actualizaciones hasta que se aprovisione un nodo de sustitución y se añada a la base de datos. Amazon Redshift habilita el nodo de sustitución de inmediato y carga los datos a los que se tiene acceso con más frecuencia desde S3 primero para permitirle reanudar las consultas de los datos lo más rápido posible. Los clústeres de un solo nodo no soportan la replicación de datos. Si se da el caso de un error en la unidad, necesitará restablecer el clúster desde un snapshot de Amazon S3. Le recomendamos que utilice al menos dos nodos para la producción.

P: ¿Qué sucede con la disponibilidad y durabilidad de los datos en un clúster de almacén de datos si se produce una interrupción en la zona de disponibilidad del clúster?

Si la zona de disponibilidad del clúster de almacén de datos de Amazon Redshift deja de estar disponible, no podrá utilizar el clúster hasta que se restablezca la potencia y el acceso a la red de la zona de disponibilidad. Los datos del clúster de almacén de datos se conservan para que pueda comenzar a utilizar el almacén de datos de Amazon Redshift tan pronto como la zona de disponibilidad vuelva a estar disponible. Además, puede elegir entre restablecer los snapshots existentes a una nueva zona de disponibilidad de la misma región. Amazon Redshift restablece primero los datos a los que se obtiene acceso con mayor frecuencia para que pueda reanudar las consultas lo más rápido posible.

P: ¿Amazon Redshift soporta despliegues Multi-AZ?

Actualmente, Amazon Redshift solo soporta las implementaciones Single-AZ. Puede ejecutar clústeres de almacén de datos en zonas de disponibilidad múltiples (Multi-AZ). Para ello, debe cargar datos en dos clústeres de almacén de datos de Amazon Redshift de zonas de disponibilidad independientes desde el mismo conjunto de archivos de entrada de Amazon S3. Con Redshift Spectrum, puede acelerar varios clústeres en zonas de disponibilidad y acceder a datos en Amazon S3 sin la necesidad de cargarlos en su clúster. Además, puede restablecer un clúster de almacén de datos en una zona de disponibilidad diferente desde las snapshots del clúster de almacén de datos.

Volver arriba »


P: ¿Cómo hace Amazon Redshift las backups de los datos?

Amazon Redshift replica todos los datos del clúster de almacén de datos cuando estos se cargan y, además, realiza backups de los datos constantemente en S3. Amazon Redshift siempre trata de mantener al menos tres copias de los datos (los originales y la réplica en los nodos de ejecución, y una backup en Amazon S3). Redshift también puede replicar de forma asíncrona las snapshots en S3 en otra región para casos de recuperación de desastres.

P: ¿Durante cuánto tiempo conserva Amazon Redshift los backups? ¿Se puede configurar este parámetro?

De forma predeterminada, Amazon Redshift conserva los backups durante un día. Puede configurar este parámetro para un máximo de 35 días.

P: ¿Cómo puedo restablecer un clúster de almacén de datos de Amazon Redshift a partir de una backup?

Puede tener acceso a todas las backups automatizadas dentro de la ventana de retención de backups. Después de haber elegido una backup para restablecerlo, aprovisionaremos un nuevo clúster de almacén de datos y restableceremos los datos en él.

P: ¿Tengo que habilitar las backups para el clúster de almacén de datos o se realizan automáticamente?

De forma predeterminada, Amazon Redshift permite los backups automatizados del clúster de almacén de datos con un periodo de retención de 1 día. El límite del almacenamiento gratuito de backup se corresponde con el tamaño total del almacenamiento de los nodos del clúster de almacén de datos y sólo se aplica a los clústeres de almacén de datos activos. Por ejemplo, si el almacén de datos tiene una capacidad total de almacenamiento de 8 TB, aprovisionaremos como máximo 8 TB de almacenamiento de backup sin ningún cargo adicional. Si desea ampliar el periodo de retención de backup a más de 1 día, puede hacerlo a través de la consola de administración de AWS o con las API de Amazon Redshift. Para obtener más información sobre las snapshots automatizadas, consulte la guía Amazon Redshift Management Guide. Amazon Redshift solo realiza backups de los datos que han cambiado para que la mayoría de las snapshots solo utilicen un pequeño volumen del almacenamiento gratuito de backup.

P: ¿Cómo puedo administrar la retención de las backups automatizadas y de las snapshots?

Puede utilizar la consola de administración de AWS o el API ModifyCluster para administrar el periodo de tiempo durante el que sus backups automatizadas se conservan mediante la modificación del parámetro RetentionPeriod. Si desea desactivar de forma conjunta las backups automatizadas, puede hacerlo estableciendo el periodo de retención en 0 (aunque no se recomienda).

P: ¿Qué sucede con mis backups si elimino el clúster de almacén de datos?

Cuando elimina un clúster de almacén de datos, tiene la posibilidad de especificar si se creará una snapshot final tras la eliminación, lo que permitirá restablecer el clúster eliminado en una fase posterior. Todos los snapshots del clúster de almacén de datos creados manualmente y con anterioridad se conservarán y se facturarán conforme a las tarifas estándar de Amazon S3, a menos que decida eliminarlos.

Volver arriba »


P: ¿Cómo puedo escalar el tamaño y el desempeño del clúster de almacén de datos de Amazon Redshift?

Si desea aumentar el desempeño de las consultas o responder a la sobreutilización de la CPU, la memoria o las operaciones de E/S, puede aumentar el número de nodos del clúster de almacén de datos a través de la consola de administración de AWS o con la API ModifyCluster. Si modifica el clúster de almacén de datos, los cambios solicitados se aplicarán de forma inmediata. Las métricas de utilización informática, utilización de almacenamiento y tráfico de lectura/escritura del clúster de almacén de datos de Amazon Redshift están disponibles de forma gratuita a través de la consola de administración de AWS o de las API de Amazon CloudWatch. También puede añadir métricas adicionales definidas por el usuario a través de la funcionalidad de métricas personalizadas de Amazon CloudWatch.

Con Redshift Spectrum, puede ejecutar varios clústeres de Amazon Redshift y acceder a los mismos datos en Amazon S3. Puede usar clústeres diferentes para casos de uso diferentes. Por ejemplo, puede usar un clúster para generación de informes estándar y otro para consultas científicas en datos. Su equipo de marketing puede usar sus propios clústeres, que son diferentes a los de su equipo de operaciones. Según el tipo y el número de nodos de su clúster local, y el número de archivos que necesitan procesarse para su consulta, Redshift Spectrum distribuye automáticamente la ejecución de su consulta a varios trabajadores de Redshift Spectrum a partir de un grupo de recursos compartidos para leer y procesar datos desde Amazon S3, y obtiene resultados de vuelta en su clúster de Amazon Redshift para cualquier procesamiento pendiente.

P: ¿El clúster de almacén de datos seguirá disponible durante el escalado?

El clúster de almacén de datos existente sigue disponible durante las operaciones de lectura mientras se crea un nuevo clúster de almacén de datos durante las operaciones de escalado. Cuando está listo el nuevo clúster de almacén de datos, el clúster de almacén de datos existente no estará disponible temporalmente mientras el registro de nombre canónico del clúster de almacén de datos existente cambia para remitir al nuevo clúster de almacén de datos. Este periodo de indisponibilidad suele durar tan solo unos minutos y tendrá lugar durante la ventana de mantenimiento de su clúster de almacén de datos, a menos que especifique que la modificación debe aplicarse inmediatamente. Amazon Redshift mueve los datos en paralelo desde los nodos de ejecución del clúster de almacén de datos existentes hasta los nodos de ejecución del nuevo clúster. Esto permite que la operación se complete lo más rápido posible.

Volver arriba »


P: ¿Es compatible Amazon Redshift con el paquete de software de inteligencia empresarial y las herramientas ETL de los que dispongo?

Amazon Redshift utiliza el SQL estándar del sector y se obtiene acceso a él a través de los controladores estándar JDBC y ODBC. Puede descargar los controladores JDBC y ODBC personalizados de Amazon Redshift desde la pestaña Connect Client de nuestra consola. Disponemos de integraciones validadas con proveedores conocidos de BI y ETL y algunos de ellos ofrecen actualmente pruebas gratuitas para ayudarle a cargar y analizar los datos. También puede visitar AWS Marketplace para implementar y configurar las soluciones diseñadas para funcionar con Amazon Redshift en cuestión de minutos.

P: ¿Qué tipos de consultas admite Redshift Spectrum?

Utiliza exactamente la misma sintaxis de consultas y tienen las mismas capacidades de consultas para acceder a tablas en Redshift Spectrum que usted tiene para las tablas en el almacenamiento local de su clúster. Se hace referencia a las tablas con el nombre de esquema definido en el comando CREATE EXTERNAL SCHEMA en el que se registraron.

P: ¿Qué sucede si una tabla de mi almacenamiento local tiene el mismo nombre que una tabla externa?

De la misma manera que con las tablas locales, puede usar el nombre del esquema para escoger exactamente la que desea si incluye schema_name.table_name en su consulta.

P: ¿Qué herramientas de BI y clientes SQL admite Redshift Spectrum?

Redshift Spectrum admite todas las herramientas cliente de Amazon Redshift. Las herramientas cliente pueden continuar conectadas al punto de enlace del clúster de Amazon Redshift con conexiones ODBC o JDBC. No deben realizarse modificaciones.

P: ¿Qué formatos de datos admite Redshift Spectrum?

Redshift Spectrum admite numerosos formatos de datos de origen abiertos, entre otros, Avro, CSV, Grok, ORC, Parquet, RCFile, RegexSerDe, SequenceFile, TextFile y TSV.

P: ¿Qué formatos de compresión admite Redshift Spectrum?

Actualmente, Redshift Spectrum admite compresión con Gzip y Snappy.

P: Utilizo un almacén de metadatos Hive para almacenar mis metadatos sobre mi lago de datos de S3. ¿Puedo usar Redshift Spectrum?

Sí. El comando CREATE EXTERNAL SCHEMA admite las tiendas de metadatos Hive. Actualmente, no se admite DDL contra tiendas de metadatos Hive.

P: ¿Cómo obtengo una lista de todas las tablas de bases de datos externas creadas en mi clúster?

Puede realizar una consulta en la tabla de sistema SVV_EXTERNAL_TABLES para obtener esa información.


P: ¿Cómo puedo monitorizar el desempeño del clúster de almacén de datos de Amazon Redshift?

Las métricas de utilización informática, utilización de almacenamiento y tráfico de lectura/escritura del clúster de almacén de datos de Amazon Redshift están disponibles de forma gratuita a través de la consola de administración de AWS o de las API de Amazon CloudWatch. También puede añadir métricas adicionales definidas por el usuario a través de la funcionalidad de métricas personalizadas de Amazon Cloudwatch. Además de las métricas de CloudWatch, Amazon Redshift también ofrece información sobre el desempeño de las consultas y el clúster a través de la consola de administración de AWS. Esta situación le permite ver qué usuarios y consultas consumen la mayoría de los recursos del sistema y diagnosticar los problemas de desempeño. Además, puede ver la utilización de recursos de cada nodo de ejecución para garantizar que dispone de datos y consultas equilibrados entre todos los nodos.

P: Noto que algunas consultas que acceden a los datos de mi clúster se ejecutan más lento que mis consultas de Redshift Spectrum. ¿A qué se debe?

Las consultas de Amazon Redshift se ejecutan en sus recursos de clúster en el disco local. Las consultas de Redshift Spectrum se ejecutan con recursos de escalado por consulta en datos de S3. Para la mayoría de las consultas, el disco local será más rápido, pero para consultas que analizan un gran volumen de datos y realizan un procesamiento informático mínimo, podemos aplicar una gran cantidad de trabajadores de Redshift Spectrum y finalizarlas rápidamente.


P: ¿Cuál es el plazo de mantenimiento? ¿El clúster de almacén de datos estará disponible durante el mantenimiento del software?

Amazon Redshift realiza un mantenimiento periódico para aplicar correcciones, mejoras y nuevas características a su clúster. Puede cambiar los periodos de mantenimiento programados modificando el clúster, ya sea de forma planificada o mediante la consola de Amazon Redshift. Durante estos periodos de mantenimiento, el clúster de Amazon Redshift no estará disponible para realizar operaciones normales. Para obtener más información sobre los periodos y programaciones de mantenimiento por región, consulte Maintenance Windows en la Amazon Redshift Management Guide.

Volver arriba »