Aspectos generales

P: ¿Qué es Amazon Redshift?

Amazon Redshift es un almacén de datos rápido y completamente administrado que permite analizar todos los datos mediante el uso de SQL estándar y las herramientas de inteligencia empresarial (BI) existentes de forma sencilla y rentable. Permite ejecutar consultas analíticas complejas en petabytes de datos estructurados con una sofisticada optimización de consultas, almacenamiento en columnas en discos locales de alto rendimiento y ejecución masiva de consultas paralelas. La mayoría de los resultados se producen en segundos. Con Redshift, puede comenzar con poca capacidad por tan solo 0,25 USD por hora sin asumir ningún compromiso y escalar hasta varios petabytes de datos por 1000 USD por terabyte al año, menos de la décima parte del costo de las soluciones tradicionales. Amazon Redshift también incluye Amazon Redshift Spectrum, que permite ejecutar consultas SQL directamente sobre exabytes de datos no estructurados en Amazon S3. Ya no se necesitan cargas ni transformaciones, y puede utilizar los siguientes formatos de datos abiertos, entre otros: Avro, CSV, Grok, Ion, JSON, ORC, Parquet, RCFile, RegexSerDe, SequenceFile, TextFile y TSV. Redshift Spectrum escala automáticamente la capacidad informática de consulta en función de los datos que se recuperan, por lo que las consultas en Amazon S3 se ejecutan rápidamente, independientemente del tamaño del conjunto de datos.

La administración de almacenes de datos tradicionales requiere bastante tiempo y recursos, en particular cuando se trata de grandes conjuntos de datos. Además, el costo económico asociado con la compilación, el mantenimiento y el crecimiento de almacenes de datos locales y administrados automáticamente también es muy alto. A medida que aumente el volumen de los datos, debe compensar constantemente qué datos cargar en el almacén de datos y qué datos archivar en almacenamiento para poder administrar costos, conservar el nivel de complejidad de ETL bajo y ofrecer un buen rendimiento. Amazon Redshift no solo reduce de manera significativa el costo y la carga operativa de un almacén datos, sino que con Redshift Spectrum, también se facilita el análisis de grandes volúmenes de datos en su formato nativo sin la necesidad de cargarlos.

Amazon Redshift le ofrece la posibilidad de realizar consultas con rapidez sobre datos estructurados mediante la utilización de herramientas de inteligencia empresarial y clientes basados en SQL conocidos que utilizan las conexiones estándar ODBC y JDBC. Las consultas se distribuyen y paralelizan entre varios recursos físicos. Puede aumentar o reducir la escala de un almacenamiento de datos de Amazon Redshift con facilidad con tan solo unos clics en la consola de administración de AWS, o bien, con una única llamada a la API. Amazon Redshift crea parches y copias de seguridad del almacén de datos de manera automática, y almacena las copias durante un período de retención definido por el usuario. Amazon Redshift utiliza la replicación y las copias de seguridad constantes para aumentar la disponibilidad y mejorar la durabilidad de los datos, y puede realizar recuperaciones automáticamente tras el fallo de componentes y nodos. Además, Amazon Redshift es compatible con Amazon Virtual Private Cloud (Amazon VPC), SSL, el cifrado AES-256 y los módulos de seguridad de hardware (HSM) para proteger los datos en tránsito y en reposo.

Al igual que con Amazon Web Services, no se requiere ninguna inversión inicial y solo tendrá que pagar por los recursos que utilice. Amazon Redshift le permite pagar en función del uso. Inclusive puede probar Amazon Redshift de manera gratuita.

Para obtener más información acerca de la disponibilidad regional de Amazon Redshift, consulte la Tabla de regiones de AWS.

P: ¿Qué es Redshift Spectrum?

Redshift Spectrum es una característica de Amazon Redshift que le permite ejecutar consultas en exabytes de datos no estructurados en Amazon S3, sin la necesidad de cargarlos ni de recurrir a extracción, transformación y carga (ETL). Cuando emite una consulta, va al punto de enlace de Amazon Redshift SQL, lo que genera y optimiza un plan de consulta. Amazon Redshift determina qué datos son locales y cuáles se encuentran en Amazon S3, genera un plan para minimizar el volumen de datos de Amazon S3 que necesita leerse, solicita a los empleados de Redshift Spectrum un grupo de recursos compartidos para leer y procesar datos de Amazon S3.

Redshift Spectrum escala a miles de instancias de ser necesario, por lo que las consultas se ejecutan rápidamente independientemente del volumen de los datos. Además, puede usar exactamente los mismos datos de SQL for Amazon S3 que utiliza en la actualidad para sus consultas en Amazon Redshift y conectarse al mismo punto de enlace de Amazon Redshift con sus herramientas de BI. Redshift Spectrum permite separar el almacenamiento de la capacidad informática, por lo que puede escalar cada función de forma independiente. Puede configurar tantos clústeres de Amazon Redshift como necesite para realizar consultas en su lago de datos de Amazon S3, lo que brinda alta disponibilidad y simultaneidad ilimitada. Redshift Spectrum ofrece la libertad de almacenar los datos donde desee, en el formato que quiera y de una forma que se encuentren disponibles para procesarlos cuando los necesite.

Para obtener más información acerca de la disponibilidad regional de Redshift Spectrum, visite la página de precios de Amazon Redshift.

P: ¿Qué administra Amazon Redshift por mí?

Amazon Redshift administra las tareas necesarias para configurar, utilizar y escalar un almacenamiento de datos, desde el aprovisionamiento de la capacidad de la infraestructura hasta la automatización de las tareas administrativas en curso, como las copias de seguridad y la aplicación de parches. Amazon Redshift monitorea los nodos y las unidades automáticamente para facilitar la recuperación de errores. Para Redshift Spectrum, Amazon Redshift administra toda la infraestructura informática, el equilibrio de cargas, la planificación, el cronograma y la ejecución de sus consultas en datos almacenados en Amazon S3.

P: ¿Cuál es el rendimiento de Amazon Redshift en comparación con las bases de datos más tradicionales de almacenamiento y análisis de datos?

Amazon Redshift utiliza una serie de innovaciones para conseguir un rendimiento hasta diez veces superior al de las bases de datos tradicionales para las cargas de trabajo de almacenamiento y análisis de datos:

  • Almacenamiento de datos en columnas: en lugar de almacenar los datos como una serie de filas, Amazon Redshift los organiza en columnas. A diferencia de los sistemas basados en filas, que resultan ideales para procesar transacciones, los sistemas basados en columnas son ideales para el almacenamiento y el análisis de datos, donde las consultas suelen implicar operaciones agregadas con grandes conjuntos de datos. Dado que solo se procesan las columnas implicadas en las consultas y que los datos organizados en columnas se almacenan de manera secuencial en los medios de almacenamiento, los sistemas basados en columnas requieren muchas menos operaciones de E/S, lo que conlleva un aumento significativo del rendimiento de las consultas.
  • Compresión avanzada: los almacenes de datos organizados en columnas se pueden comprimir mucho más que los que están organizados en filas, ya que los datos similares se almacenan en el disco de manera secuencial. Amazon Redshift utiliza varias técnicas de compresión y, a menudo, puede alcanzar un alto nivel de compresión en comparación con los almacenes de datos relacionales tradicionales. Asimismo, Amazon Redshift no requiere índices ni vistas materializadas y, por ello, consume menos espacio que los tradicionales sistemas de bases de datos relacionales. Al cargar datos en una tabla vacía, Amazon Redshift los analiza automáticamente y selecciona el esquema de compresión más apropiado.
  • Procesamiento paralelo de forma masiva (MPP): Amazon Redshift distribuye automáticamente los datos y la carga de consultas entre todos los nodos. Amazon Redshift facilita la incorporación de nodos al almacén de datos y le permite mantener un rendimiento rápido de las consultas a medida que crece el almacén de datos.
  • Redshift Spectrum: Redshift Spectrum le permite ejecutar consultas en exabytes de datos en Amazon S3. No es necesario realizar cargas ni ETL. Aunque no almacene ningún dato en Amazon Redshift, aún así puede usar Redshift Spectrum para realizar consultas en conjuntos de datos de hasta un exabyte en Amazon S3. Cuando emite una consulta, va al punto de enlace de Amazon Redshift SQL, lo que genera un plan de consulta. Amazon Redshift determina qué datos son locales y cuáles se encuentran en Amazon S3, genera un plan para minimizar el volumen de datos de Amazon S3 que necesita leerse, solicita a los nodos de trabajo de Amazon Redshift Spectrum de un grupo de recursos compartidos que lean y procesen datos de Amazon S3, y obtiene los resultados de nuevo en el clúster de Amazon Redshift de cualquier procesamiento restante.

P: ¿Cómo puedo comenzar a utilizar Amazon Redshift?

Puede inscribirse y comenzar a utilizar la solución en cuestión de minutos desde la página de detalles de Amazon Redshift o a través de la consola de administración de AWS. Si aún no tiene una cuenta de AWS, se le pedirá que cree una.

Para usar Redshift Spectrum, primero debe almacenar sus datos en Amazon S3. A continuación, puede definir los metadatos correspondientes a dichos datos en su clúster de Amazon Redshift o registrar los metadatos que ya podría tener en Hive Metastore con su clúster. Puede emitir un comando CREATE EXTERNAL SCHEMA SQL en su clúster de Amazon Redshift para definir o registrar una base de datos en su catálogo como un esquema externo dentro de Amazon Redshift. Luego, puede emitir consultas en Amazon S3 con el mismo SQL que usa para tablas locales y cualquier herramienta de BI compatible actualmente con Amazon Redshift. La definición de la base de datos externa que crea con Amazon Redshift SQL está registrada en el mismo catálogo de datos que utiliza Amazon Athena. Opcionalmente, también puede administrar la definición de la base de datos externa desde el catálogo de Amazon Athena Catalog.

Visite la página de introducción para averiguar de qué forma puede probar Amazon Redshift sin cargo.

P: ¿Cómo puedo crear un clúster de almacén de datos de Amazon Redshift y luego obtener acceso a él?

Con la consola de administración de AWS o las API de Amazon Redshift puede crear fácilmente un clúster de almacén de datos de Amazon Redshift. Puede comenzar con un almacenamiento de datos de 160 GB y un único nodo y, posteriormente, escalar a un petabyte o más con tan solo unos clics en la consola de AWS o con una única llamada a la API.

La configuración de un solo nodo le permite comenzar a utilizar Amazon Redshift con rapidez y rentabilidad, además de escalar a una configuración de varios nodos a medida que aumenten sus necesidades. Un clúster de almacén de datos de Redshift puede contener desde 1 hasta 128 nodos de ejecución, en función del tipo de nodo de que se trate. Para obtener más detalles, consulte nuestra documentación.

La configuración de varios nodos requiere un nodo principal que administre las conexiones cliente y reciba consultas, así como dos nodos de ejecución que almacenen datos y realicen consultas y cálculos. El nodo principal se aprovisiona automáticamente y, además, no se aplica ningún cargo.

Solo tiene que especificar la zona de disponibilidad preferida (opcional), el número de nodos, los tipos de nodos, un nombre y una contraseña principales, los grupos de seguridad, las preferencias personales de retención de copias de seguridad y otra configuración del sistema. Cuando haya elegido la configuración deseada, Amazon Redshift aprovisionará los recursos necesarios y configurará el clúster de almacén de datos.

Cuando el clúster de almacén de datos esté disponible, podrá recuperar su punto de enlace y la cadena de conexión JDBC y ODBC desde la consola de administración de AWS o con las API de Redshift. A continuación, puede utilizar esta cadena de conexión según sus preferencias en cuanto a la herramienta de base de datos, el lenguaje de programación o la herramienta de inteligencia empresarial. Debe autorizar las solicitudes de red en el clúster de almacén de datos en ejecución. Para obtener una explicación detallada, consulte la Guía de introducción.

P: ¿Cuál es la función de un nodo principal? ¿Cuál es la función de un nodo de ejecución?

Un nodo principal recibe consultas de aplicaciones cliente, las analiza y desarrolla planes de ejecución, que constituyen un conjunto ordenado de pasos para procesar las consultas. A continuación, el nodo principal coordina la ejecución paralela de estos planes con los nodos de ejecución, agrega los resultados intermedios de tales nodos y, por último, devuelve los resultados a las aplicaciones cliente.

Los nodos de ejecución ejecutan los pasos especificados en los planes de ejecución y transmite los datos entre ellos para administrar tales consultas. Los resultados intermedios se vuelven a enviar al nodo principal para su agregación antes de que se vuelvan a remitir a las aplicaciones cliente.

P: ¿Qué capacidad de almacenamiento máxima tiene cada nodo de ejecución? ¿Cuál es el volumen de datos por nodo de ejecución recomendado para obtener un rendimiento óptimo?

Puede crear un clúster mediante el uso de tipos de nodo de almacenamiento denso (DS) o de informática densa (DC). Los tipos de nodo de almacenamiento denso le permiten crear almacenes de datos muy grandes mediante el uso de unidades de disco duro (HDD) por un precio muy bajo. Los tipos de nodo de informática densa le permiten crear almacenes de datos de rendimiento muy elevado con CPU rápidas, grandes volúmenes de RAM y discos de estado sólido (SSD).

Los tipos de nodo de almacenamiento denso (DS) se encuentran disponibles en dos tamaños, extragrande o extragrande óctuple. El tamaño extragrande (XL) incorpora 3 HDD con un total de 2 TB de almacenamiento magnético, mientras que el extragrande óctuple (8XL) cuenta con 24 HDD con un total de 16 TB de almacenamiento magnético. DS2.8XLarge dispone de 36 núcleos virtuales Intel Xeon E5-2676 v3 (Haswell) y 244 GiB de RAM, mientras que DS2.XL incorpora 4 núcleos virtuales Intel Xeon E5-2676 v3 (Haswell) y 31 GiB de RAM. Consulte nuestra página de precios para obtener más detalles. Puede comenzar con un almacén de datos de 2 TB y con un único nodo extragrande por 0,85 USD por hora y, posteriormente, escalar hasta un petabyte o más. Puede pagar por hora o utilizar los precios de instancias reservadas para reducir el precio a menos de 1000 USD por TB al año.

Los tipos de nodo de informática densa (DC) también están disponibles en dos tamaños. El grande tiene 160 GB de almacenamiento SSD, 2 núcleos virtuales Intel Xeon E5-2670v2 (Ivy Bridge) y 15 GiB de RAM. El extragrande óctuple es dieciséis veces más grande, con 2,56 TB de almacenamiento SSD, 32 núcleos virtuales Intel Xeon E5-2670v2 y 244 GiB de RAM. Puede comenzar con un único nodo DC2.Large por 0,25 USD por hora y escalar hasta 128 nodos extragrandes óctuples con 326 TB de almacenamiento SSD, 3200 núcleos virtuales y 24 TiB de RAM.

La arquitectura MPP de Amazon Redshift le permite aumentar el rendimiento mediante el incremento del número de nodos del clúster del almacenamiento de datos. El volumen óptimo de datos por nodo de ejecución depende de las características de la aplicación y de las necesidades que tenga en relación con el rendimiento de las consultas. Un clúster de almacén de datos de Amazon Redshift puede contener desde 1 hasta 128 nodos de ejecución, en función del tipo de nodo de que se trate. Para obtener más detalles, consulte nuestra documentación.

P: ¿Qué diferencia de uso existe entre Amazon Redshift y Amazon RDS?

Tanto Amazon Redshift como Amazon RDS permiten ejecutar bases de datos relacionales tradicionales en la nube. Así logramos reducir los procesos administrativos de base de datos. Los clientes utilizan las bases de datos de Amazon RDS para el procesamiento de transacciones online (OLTP) y para los informes y los análisis. Amazon Redshift utiliza la escala y los recursos de varios nodos, además de una serie de optimizaciones, para ofrecer mejoras sustanciales en relación con las bases de datos tradicionales para cargas de trabajo de análisis y generación de informes con conjuntos de datos muy grandes. Amazon Redshift ofrece una opción excelente de escalado a medida que aumenta la complejidad de los datos y las consultas, o bien, si quiere prevenir que el procesamiento de informes y análisis interfiera en el rendimiento de la carga de trabajo de OLTP.

P: ¿Qué diferencia de uso existe entre Amazon Redshift o Redshift Spectrum y Amazon EMR?

Debería utilizar Amazon EMR si usa código personalizado para procesar y analizar conjuntos de datos extremadamente grandes con marcos de procesamiento de big data como Spark, Hadoop, Presto o Hbase. Amazon EMR le brinda el control total de la configuración de los clústeres y del software que instale en ellos.

Los almacenes de datos como Amazon Redshift están diseñados para un tipo diferente de análisis en general. Los almacenes de datos están diseñados para reunir datos a partir de muchas fuentes diferentes, como sistemas de inventario, financieros y ventas minoristas. Para garantizar que la generación de informes sea precisa continuamente en toda la compañía, los almacenes de datos guardan los datos de una manera muy estructurada. Esta estructura crea reglas de coherencia de datos directamente en las tablas de la base de datos. Amazon Redshift es el mejor servicio cuando necesita realizar consultas complejas en colecciones masivas de datos estructurados y obtener un rendimiento extremadamente alto.

Si bien Redshift Spectrum es excelente para ejecutar consultas en datos en Amazon Redshift y S3, no funciona para los tipos de casos de uso que las empresas normalmente solicitan a marcos de procesamiento como Amazon EMR. Amazon EMR no se limita a la ejecución de consultas SQL. Amazon EMR es un servicio administrado que le permite procesar y analizar conjuntos de datos extremadamente grandes con las versiones más recientes de marcos de procesamiento de big data conocidos, como Spark, Hadoop y Presto, en clústeres completamente personalizables. Con Amazon EMR, puede ejecutar una gran variedad de tareas de procesamiento de datos de escalado para aplicaciones como el aprendizaje automático, el análisis de gráficos, la transformación de datos, los datos de streaming y prácticamente cualquier cosa que pueda codificar.

Puede utilizar Redshift Spectrum junto con EMR. Redshift Spectrum usa la misma estrategia de almacenamiento de definiciones de tablas que Amazon EMR. Redshift Spectrum es compatible con el mismo Apache Hive Metastore que utiliza Amazon EMR para encontrar datos y definiciones de tablas. Si utiliza Amazon EMR y ya tiene Hive Metastore, tan solo debe configurar su clúster de Amazon Redshift para usarlo. A continuación, puede empezar a realizar consultas de inmediato junto con sus trabajos de Amazon EMR. Por lo tanto, si ya utiliza EMR para procesar un almacén de datos grande, puede usar Redshift Spectrum para realizar consultas en esos datos al mismo tiempo sin interrumpir sus trabajos de Amazon EMR.

Todos los servicios de consultas, los almacenes de datos y los marcos de procesamiento de datos complejos tienen su lugar y se utilizan para diferentes fines. Simplemente tiene que elegir la herramienta adecuada para el trabajo.

 

P: ¿Cuándo debería utilizar Amazon Athena en lugar de Redshift Spectrum?

Amazon Athena es la manera más simple de brindarle a cualquier empleado la capacidad para ejecutar consultas ad-hoc en Amazon S3. Athena no tiene servidor, por lo que no es necesario configurar ni administrar infraestructura, y puede comenzar a analizar los datos al instante.

Si tiene datos de acceso frecuente, estos deben almacenarse en un formato muy estructurado y estable, y luego utilizar un almacén de datos como Amazon Redshift. Esto le brinda la flexibilidad para almacenar sus datos estructurados de acceso frecuente en Amazon Redshift y utilizar Redshift Spectrum para ampliar sus consultas de Amazon Redshift al conjunto completo de datos de su lago de datos de Amazon S3. Esto le ofrece la libertad de almacenar los datos donde desee, en el formato que quiera y de forma que se encuentren disponibles para procesarlos cuando lo necesite.

P: ¿Por qué debo utilizar Amazon Redshift en lugar de ejecutar mi propio clúster de almacén de datos MPP en Amazon EC2?

Amazon Redshift administra automáticamente muchas de las tareas que requieren bastante tiempo y que están asociadas con la administración de su propio almacén de datos, entre otras:

  • Configuración: con Amazon Redshift, solo tiene que crear un clúster de almacén de datos, definir su esquema y comenzar a cargar y consultar datos. Usted es el encargado de administrar las tareas de provisión, configuración y aplicación de parches.
  • Durabilidad de los datos: Amazon Redshift replica los datos en el clúster de almacén de datos y realiza copias de seguridad de los datos continuamente en Amazon S3, que está diseñado para ofrecer un 99,999999999% de durabilidad. Amazon Redshift refleja cada dato de la unidad en otros nodos dentro del clúster. Si una unidad falla, las consultas continuarán con un ligero aumento de la latencia mientras Redshift recompila la unidad a partir de las réplicas. En caso de que falle algún nodo, Amazon Redshift aprovisiona automáticamente los nuevos nodos y comienza a restablecer los datos desde otras unidades del clúster o desde Amazon S3. Da prioridad al restablecimiento de los datos consultados con mayor frecuencia, de manera que las consultas ejecutadas con mayor frecuencia comiencen a ofrecer rendimiento con rapidez.
  • Escalado: puede añadir o eliminar nodos del clúster del almacenamiento de datos de Amazon Redshift con una única llamada a la API o con unos clics en la consola de administración de AWS a medida que cambien las necesidades de capacidad y rendimiento.
  • Actualizaciones y aplicaciones de parches automáticos: Amazon Redshift aplica actualizaciones y parches automáticamente al almacén de datos para que usted pueda centrarse en la aplicación y no en su administración.
  • Capacidad para realizar consultas a escala de exabytes: Redshift Spectrum le permite ejecutar consultas en exabytes de datos en Amazon S3. No es necesario realizar cargas ni ETL. Aunque no almacene ningún dato en Amazon Redshift, aún así puede usar Redshift Spectrum para realizar consultas en conjuntos de datos de hasta un exabyte en Amazon S3.

Facturación

P: ¿Qué cargos y facturación se me aplicarán por utilizar Amazon Redshift?

Solo tiene que pagar por lo que utilice y no hay ni costos mínimos ni de configuración. La facturación del clúster de almacén de datos comienza en cuanto este se encuentra disponible. La facturación continúa hasta que termina el clúster de almacén de datos, situación que se produciría al eliminarlo o en caso de producirse un error en la instancia. Su facturación se calcula de la siguiente manera:

  • Horas de nodos de ejecución: las horas de nodos de ejecución constituyen el número total de horas durante las cuales se ejecutan todos los nodos de ejecución en un período de facturación. Las horas de uso de nodos se facturan por cada hora durante la cual se ejecuta el clúster de almacén de datos en un estado de disponibilidad. Si ya no desea que se le apliquen cargos por su clúster de almacén de datos, debe terminarlo para que no se le facturen horas de nodo adicionales. Las horas de nodo parciales consumidas se facturan como horas completas. Se factura 1 unidad por nodo por hora, por lo que un clúster de almacén de datos de 3 nodos que se ejecute durante un mes entero incurriría en 2160 horas de instancia. No se le aplicará ningún cargo por las horas de nodos principales. Solo se cobrarán los nodos de ejecución.
  • Almacenamiento de copias de seguridad: este tipo de almacenamiento es el asociado con las instantáneas automatizadas y manuales de un almacenamiento de datos. Al aumentar el período de retención de copias de seguridad o realizar instantáneas adicionales, aumenta el almacenamiento de copias de seguridad que consume el almacén de datos. No se aplica ningún cargo adicional para el almacenamiento de copias de seguridad de hasta el 100% del almacenamiento aprovisionado para un clúster de almacén de datos activo. Por ejemplo, si dispone de un clúster de almacén de datos XL de un solo nodo con 2 TB de almacenamiento de instancia local, le ofreceremos hasta 2 TB mensuales de almacenamiento de copias de seguridad sin ningún costo adicional. El almacenamiento de copias de seguridad que supere el tamaño del almacenamiento aprovisionado y las copias de seguridad almacenadas después de terminar el clúster se facturan conforme a las tarifas estándar de Amazon S3.
  • Transferencia de datos: no existen cargos por transferencia de datos desde o hacia Amazon Redshift y Amazon S3 dentro de la misma región de AWS. Las demás transferencias de datos de entrada y salida de Amazon Redshift se facturarán de acuerdo con las tarifas de transferencia de datos de AWS estándar.
  • Datos analizados: con Redshift Spectrum, se le cobra el volumen de datos de Amazon S3 analizados para ejecutar su consulta. No hay cargos por Redshift Spectrum cuando no se ejecutan consultas. Si almacena datos en un formato de columna, como Parquet o RC, el costo será menor, ya que Redshift Spectrum solo analizará las columnas necesarias para la consulta, en lugar de procesar filas completas. Del mismo modo, si comprime los datos con uno de los formatos compatibles con Redshift Spectrum, los costos también se reducirán. Pagará las tarifas estándar de Amazon S3 por el almacenamiento de datos y las tarifas de instancia de Amazon Redshift para el clúster utilizado.

Si no se especifica lo contrario, nuestros precios no incluyen los impuestos ni gravámenes correspondientes, como el IVA y cualquier otro impuesto sobre las ventas. En el caso de los clientes con una dirección de facturación de Japón, el uso de los servicios de AWS está sujeto al impuesto de consumo nipón. Más información

Para obtener acceso a la información sobre los precios de Amazon Redshift, visite la página de precios de Amazon Redshift.

Integración y carga de datos

P: ¿Cómo puedo cargar datos en el almacén de datos de Amazon Redshift?

Puede cargar datos en Amazon Redshift desde una amplia variedad de orígenes de datos, entre otros, Amazon S3, Amazon DynamoDB, Amazon EMRAWS Glue, AWS Data Pipeline o cualquier host con SSH habilitado en Amazon EC2 o en las instalaciones. Amazon Redshift intenta cargar los datos en paralelo en cada nodo de ejecución para maximizar la velocidad a la que puede incorporar datos en el clúster de almacén de datos. Para obtener más detalles sobre la carga de datos en Amazon Redshift, consulte la guía de introducción.

Sí, los clientes pueden conectarse a Amazon Redshift mediante ODBC o JDBC y enviar comandos "insert" de SQL para insertar los datos. Tenga en cuenta que esto es más lento que utilizar S3 o DynamoDB porque dichos métodos cargan datos en paralelo en cada nodo de ejecución, mientras que las instrucciones “insert” de SQL se cargan a través del único nodo principal.

P: ¿Cómo puedo cargar datos en Amazon Redshift desde mis orígenes de datos existentes en Amazon RDS, Amazon EMR, Amazon DynamoDB y Amazon EC2?

Puede usar el comando COPY para cargar datos en paralelo directamente a Amazon Redshift desde Amazon EMR, Amazon DynamoDB o cualquier host con SSH habilitado. Redshift Spectrum también le permite cargar datos desde Amazon S3 a su clúster con un comando INSERT INTO simple. Esto podría permitirle cargar datos de diferentes formatos, como Parquet y RC, a su clúster. Tenga en cuenta que si utiliza esta estrategia, incurrirá en cargos de Redshift Spectrum por los datos analizados de Amazon S3.

Además, muchas empresas de ETL han certificado Amazon Redshift para usarlo con sus herramientas y varias de ellas ofrecen pruebas gratuitas para ayudarlo a cargar los datos. AWS Data Pipeline ofrece una solución tolerante a fallos, fiable y de alto rendimiento para cargar datos desde varios orígenes de datos de AWS. Puede utilizar AWS Data Pipeline para especificar el origen de datos, las transformaciones deseadas de los datos y, a continuación, ejecutar una secuencia de comandos de importación pregrabada para cargar los datos en Amazon Redshift. Además, AWS Glue es un servicio de extracción, transformación y carga (ETL) completamente administrado que facilita la preparación y carga de datos para su análisis. Puede crear y ejecutar un trabajo de ETL de AWS Glue con tan solo unos clics en la consola de administración de AWS.

P: Tengo muchos datos para hacer la primera carga en Amazon Redshift. Transferirlos por Internet llevaría mucho tiempo. ¿Cómo puedo cargarlos?

Puede utilizar AWS Import/Export para transferir los datos a Amazon S3 mediante el uso de dispositivos portátiles de almacenamiento. Además, puede utilizar AWS Direct Connect para establecer una conexión de red privada entre la red o el centro de datos y AWS. Puede elegir puertos de conexión de 1 Gbit/s o de 10 Gbit/s para transferir los datos.

Seguridad

P: ¿De qué manera protege los datos Amazon Redshift?

Amazon Redshift cifra los datos y los mantiene protegidos, tanto en tránsito como en reposo, mediante la utilización de técnicas de cifrado estándar del sector. Para mantener los datos protegidos mientras están en tránsito, Amazon Redshift admite las conexiones con SSL habilitado entre la aplicación cliente y el clúster de almacén de datos de Redshift. Para mantener los datos protegidos mientras están en reposo, Amazon Redshift cifra cada bloque con AES-256 acelerado por hardware a medida que se graba en el disco. Esto tiene lugar en un nivel bajo del subsistema de E/S, que cifra todo lo que se graba en el disco, incluidos los resultados de consulta intermedios. Las copias de seguridad de los bloques se realizan con los bloques tal cual, lo que significa que las copias también se cifran. De forma predeterminada, Amazon Redshift se encarga de administrar las claves, pero puede optar por administrarlas con módulos de seguridad de hardware (HSM) propios o mediante AWS Key Management Service.

Redshift Spectrum es compatible con el cifrado del lado del servidor (SSE) de Amazon S3 mediante el uso de la clave predeterminada de su cuenta que utiliza AWS Key Management Service (KMS).

P: ¿Puedo utilizar Amazon Redshift en Amazon Virtual Private Cloud (Amazon VPC)?

Sí, puede utilizar Amazon Redshift como parte de la configuración de VPC. Con Amazon VPC, podrá definir una topología de red virtual que sea prácticamente idéntica a la red tradicional que tenga instaurada en su centro de datos. Esto le permite ejercer un control total sobre quién puede obtener acceso al clúster de almacén de datos de Amazon Redshift.

Puede usar Redshift Spectrum con un clúster de Amazon Redshift que forme parte de su VPC. Tenga en cuenta que, actualmente, Redshift Spectrum no es compatible con direccionamiento de VPC mejorado.

P: ¿Puedo obtener acceso directamente a los nodos de ejecución de Amazon Redshift?

No. Los nodos de ejecución de Amazon Redshift se encuentran en un espacio de red privado y solo se puede obtener acceso a ellos desde el nodo principal del clúster del almacén de datos. Esto ofrece a los datos una capa adicional de seguridad.

Disponibilidad y durabilidad

P: ¿Qué sucede con la durabilidad de los datos y la disponibilidad del clúster de almacén de datos si falla una unidad en alguno de los nodos?

El clúster de almacén de datos de Amazon Redshift continuará disponible en el caso de que una unidad falle. No obstante, se puede observar una ligera disminución en el rendimiento de determinadas consultas. En caso de que falle una unidad, Amazon Redshift utilizará una réplica de los datos de manera transparente en dicha una unidad que esté almacenada en otras unidades dentro de dicho nodo. Además, Amazon Redshift tratará de mover los datos a una unidad en buen estado o, si no es posible, reemplazará el nodo. Los clústeres de un solo nodo no admiten la replicación de datos. Si se da el caso de un error en la unidad, necesitará restablecer el clúster desde una instantánea de Amazon S3. Le recomendamos que utilice al menos dos nodos para la producción.

P: ¿Qué sucede con la durabilidad de los datos y la disponibilidad de un clúster de almacén de datos si se genera un error en un único nodo?

Amazon Redshift detecta y reemplaza automáticamente el nodo defectuoso en el clúster de almacén de datos. El clúster de almacén de datos no estará disponible para consultas y actualizaciones hasta que se aprovisione un nodo de sustitución y se añada a la base de datos. Amazon Redshift habilita el nodo de sustitución de inmediato y carga los datos a los que se tiene acceso con más frecuencia desde S3 primero para permitirle reanudar las consultas de los datos lo más rápido posible. Los clústeres de un solo nodo no admiten la replicación de datos. Si se da el caso de un error en la unidad, necesitará restablecer el clúster desde una instantánea de Amazon S3. Le recomendamos que utilice al menos dos nodos para la producción.

P: ¿Qué sucede con la durabilidad de los datos y la disponibilidad de un clúster de almacén de datos si se produce un corte de energía en la zona de disponibilidad del clúster?

Si la zona de disponibilidad del clúster de almacén de datos de Amazon Redshift deja de estar disponible, no podrá utilizar el clúster hasta que se restablezca la energía y el acceso a la red de la zona de disponibilidad. Los datos del clúster de almacén de datos se conservan para que pueda comenzar a utilizar el almacén de datos de Amazon Redshift tan pronto como la zona de disponibilidad vuelva a estar disponible. Además, puede optar por restablecer las instantáneas existentes a una nueva zona de disponibilidad de la misma región. Amazon Redshift restablece primero los datos a los que se obtiene acceso con mayor frecuencia para que pueda reanudar las consultas lo más rápido posible.

P: ¿Amazon Redshift admite implementaciones Multi-AZ?

Actualmente, Amazon Redshift solo admite las implementaciones Single-AZ. Puede ejecutar clústeres de almacén de datos en varias zonas de disponibilidad (Multi-AZ). Para ello, debe cargar datos en dos clústeres de almacén de datos de Amazon Redshift de zonas de disponibilidad independientes desde el mismo conjunto de archivos de entrada de Amazon S3. Con Redshift Spectrum, puede configurar varios clústeres en zonas de disponibilidad y acceder a datos en Amazon S3 sin la necesidad de cargarlos en su clúster. Además, puede restablecer un clúster de almacén de datos en una zona de disponibilidad diferente desde las instantáneas del clúster de almacén de datos.

Copias de seguridad y restauración

P: ¿Cómo respalda Amazon Redshift los datos en copias de seguridad? ¿Cómo recupero un clúster a partir de una copia de seguridad?

Amazon Redshift replica todos los datos del clúster de almacén de datos cuando estos se cargan y, además, realiza copias de seguridad de los datos constantemente en S3. Amazon Redshift siempre trata de mantener al menos tres copias de los datos (el original y la réplica en los nodos de ejecución, y una copia de seguridad en Amazon S3). Redshift también puede replicar de forma asíncrona las instantáneas en S3 en otra región para casos de recuperación de desastres.

De forma predeterminada, Amazon Redshift activa las copias de seguridad automatizadas del clúster de almacén de datos con un período de retención de 1 día. Puede configurar este parámetro para un máximo de 35 días.

El límite del almacenamiento gratuito de copias de seguridad corresponde al tamaño total del almacenamiento de los nodos del clúster de almacén de datos y sólo se aplica a los clústeres de almacén de datos activos. Por ejemplo, si el almacén de datos tiene una capacidad total de almacenamiento de 8 TB, aprovisionaremos como máximo 8 TB de almacenamiento de copias de seguridad sin ningún cargo adicional. Si desea ampliar el período de retención de copias de seguridad a más de 1 día, puede hacerlo a través de la consola de administración de AWS o con las API de Amazon Redshift. Para obtener más información sobre las instantáneas automatizadas, consulte la guía de administración de Amazon Redshift. Amazon Redshift solo realiza copias de seguridad de los datos que han cambiado para que la mayoría de las instantáneas solo utilice un pequeño volumen del almacenamiento gratuito para copias de seguridad.

Cuando necesite recuperar una copia de seguridad, tendrá acceso a todas las copias de seguridad automatizadas que se hayan realizado dentro del período de retención que haya especificado. Después de haber elegido la copia de seguridad que desea recuperar, aprovisionaremos un nuevo clúster de almacén de datos y restableceremos los datos en él.

P: ¿Cómo puedo administrar la retención de las copias de seguridad y las instantáneas automatizadas?

Puede utilizar la consola de administración de AWS o la API ModifyCluster para administrar el período de conservación de las copias de seguridad automatizadas mediante la modificación del parámetro RetentionPeriod. Si desea desactivar de forma conjunta las copias de seguridad automatizadas, puede definir el período de retención en 0 (no se recomienda).

P: ¿Qué sucede con mis copias de seguridad si elimino el clúster de almacén de datos?

Cuando elimina un clúster de almacén de datos, puede optar por crear una instantánea final tras la eliminación, lo que permitirá restablecer el clúster eliminado en una fase posterior. Todas las instantáneas del clúster de almacén de datos creadas manualmente y con anterioridad se conservarán y se facturarán conforme a las tarifas estándar de Amazon S3, a menos que decida eliminarlas.

Escalabilidad

P: ¿Cómo puedo ajustar el tamaño y el rendimiento del clúster de almacén de datos de Amazon Redshift?

Si desea aumentar el rendimiento de las consultas o resolver el uso excesivo de la CPU, la memoria o las operaciones de E/S, puede aumentar el número de nodos del clúster de almacén de datos a través de la consola de administración de AWS o con la API ModifyCluster. Si modifica el clúster de almacén de datos, los cambios solicitados se aplicarán de forma inmediata. Las métricas de utilización informática, utilización de almacenamiento y tráfico de lectura/escritura del clúster de almacén de datos de Amazon Redshift están disponibles de forma gratuita a través de la consola de administración de AWS o de las API de Amazon CloudWatch. También puede añadir métricas adicionales definidas por el usuario a través de la funcionalidad de métricas personalizadas de Amazon CloudWatch.

Con Redshift Spectrum, puede ejecutar varios clústeres de Amazon Redshift y acceder a los mismos datos en Amazon S3. Puede usar clústeres diferentes para casos de uso diferentes. Por ejemplo, puede usar un clúster para generación de informes estándar y otro para consultas de ciencia de datos. Su equipo de marketing puede usar sus propios clústeres, que son diferentes a los de su equipo de operaciones. En función del tipo y el número de nodos de su clúster local, y del número de archivos que deban procesarse para su consulta, Redshift Spectrum distribuye automáticamente la ejecución de su consulta a varios nodos de trabajo de Redshift Spectrum a partir de un grupo de recursos compartidos para leer y procesar datos desde Amazon S3, y obtiene resultados de vuelta en su clúster de Amazon Redshift para cualquier procesamiento pendiente.

P: ¿El clúster de almacén de datos seguirá disponible durante el ajuste de la escala?

El clúster de almacén de datos existente sigue disponible durante las operaciones de lectura mientras se crea un nuevo clúster de almacén de datos durante las operaciones de escalado. Cuando el nuevo clúster de almacén de datos esté listo, el clúster de almacén de datos existente no estará disponible temporalmente mientras el registro de nombre canónico del clúster de almacén de datos existente se cambia para remitir al nuevo clúster de almacén de datos. Este período de falta de disponibilidad suele durar tan solo unos minutos y tendrá lugar durante el período de mantenimiento de su clúster de almacén de datos, a menos que especifique que la modificación deba aplicarse inmediatamente. Amazon Redshift mueve los datos en paralelo desde los nodos de ejecución del clúster de almacén de datos existentes hasta los nodos de ejecución del nuevo clúster. Esto permite que la operación se complete lo más rápido posible.

Consultas y análisis

P: ¿Amazon Redshift y Redshift Spectrum son compatibles con el paquete de software de inteligencia empresarial y las herramientas ETL existentes?

Amazon Redshift utiliza el SQL estándar del sector y se obtiene acceso a él a través de los controladores estándar JDBC y ODBC. Puede descargar los controladores JDBC y ODBC personalizados de Amazon Redshift desde la pestaña Connect Client de la consola de Redshift. Disponemos de integraciones validadas con proveedores conocidos de BI y ETL y algunos de ellos ofrecen actualmente pruebas gratuitas para ayudarlo a cargar y analizar los datos. También puede visitar AWS Marketplace para implementar y configurar soluciones diseñadas para funcionar con Amazon Redshift en cuestión de minutos.

Redshift Spectrum admite todas las herramientas cliente de Amazon Redshift. Las herramientas cliente pueden continuar conectadas al punto de enlace del clúster de Amazon Redshift con conexiones ODBC o JDBC. No deben realizarse modificaciones.

Puede utilizar exactamente la misma sintaxis de consultas y tiene las mismas capacidades de consultas para obtener acceso a las tablas en Redshift Spectrum que ya tiene para las tablas en el almacenamiento local de su clúster de Redshift. Se hace referencia a las tablas con el nombre de esquema definido en el comando CREATE EXTERNAL SCHEMA en el que se registraron.

P: ¿Qué formatos de datos y de compresión admite Redshift Spectrum?

Actualmente, Redshift Spectrum admite numerosos formatos de datos de código abierto, entre otros, Avro, CSV, Grok, Ion, JSON, ORC, Parquet, RCFile, RegexSerDe, SequenceFile, TextFile y TSV.

Actualmente, Redshift Spectrum admite compresión con Gzip y Snappy.

P: ¿Qué sucede si una tabla de mi almacenamiento local tiene el mismo nombre que una tabla externa?

De la misma manera que con las tablas locales, puede usar el nombre del esquema para escoger exactamente la que desea si incluye schema_name.table_name en su consulta.

P: Utilizo Hive Metastore para almacenar metadatos de mi lago de datos de S3. ¿Puedo usar Redshift Spectrum?

Sí. El comando CREATE EXTERNAL SCHEMA es compatible con Hive Metastore. Actualmente, no se admite DDL en Hive Metastore.

P: ¿Cómo obtengo una lista de todas las tablas de bases de datos externas creadas en mi clúster?

Puede realizar una consulta en la tabla de sistema SVV_EXTERNAL_TABLES para obtener esa información.

Monitoreo

P: ¿Cómo puedo monitorear el rendimiento del clúster de almacén de datos de Amazon Redshift?

Las métricas de utilización informática, utilización de almacenamiento y tráfico de lectura/escritura del clúster de almacén de datos de Amazon Redshift están disponibles de forma gratuita a través de la consola de administración de AWS o de las API de Amazon CloudWatch. También puede añadir métricas adicionales definidas por el usuario a través de la funcionalidad de métricas personalizadas de Amazon CloudWatch. Además de las métricas de CloudWatch, Amazon Redshift también ofrece información sobre el rendimiento de las consultas y el clúster a través de la consola de administración de AWS. Esta situación le permite ver qué usuarios y consultas consumen la mayoría de los recursos del sistema y diagnosticar problemas de rendimiento. Además, puede ver la utilización de recursos de cada nodo de ejecución para garantizar que dispone de datos y consultas equilibrados entre todos los nodos.

P: Noto que algunas consultas que obtienen acceso a los datos de mi clúster se ejecutan más lento que las consultas de Redshift Spectrum. ¿A qué se debe?

Las consultas de Amazon Redshift se ejecutan en sus recursos de clúster en el disco local. Las consultas de Redshift Spectrum se ejecutan con recursos de escalado por consulta en datos de S3. Para la mayoría de las consultas, el disco local será más rápido, pero para consultas que analizan un gran volumen de datos y realizan un procesamiento informático mínimo, podemos aplicar una gran cantidad de nodos de trabajo de Redshift Spectrum y finalizarlas rápidamente.

Mantenimiento

P: ¿Qué es un período de mantenimiento? ¿El clúster de almacén de datos estará disponible durante el mantenimiento del software?

Amazon Redshift realiza un mantenimiento periódico para aplicar correcciones, mejoras y nuevas características a su clúster. Puede cambiar los períodos de mantenimiento programados a través de la modificación del clúster, ya sea mediante programación o de la consola de Redshift. Durante estos períodos de mantenimiento, el clúster de Amazon Redshift no estará disponible para realizar operaciones normales. Para obtener más información sobre los períodos y programaciones de mantenimiento por región, consulte Maintenance Windows (Períodos de mantenimiento) en la guía de administración de Amazon Redshift.

Más información sobre los precios de Amazon Redshift

Visite la página de precios
¿Listo para crear?
Introducción a Amazon Redshift
¿Tiene más preguntas?
Contacte con nosotros