Aspectos generales

Descubra lo nuevo de Amazon Redshift en la página de novedades.
Para obtener información más detallada y asesoramiento sobre el uso, consulte la documentación.

P. ¿Qué es Amazon Redshift?

Amazon Redshift es un almacén de datos rápido y completamente administrado en la nube que permite analizar todos los datos mediante el uso de SQL estándar y las herramientas de inteligencia empresarial existentes de forma sencilla y rentable. Permite ejecutar consultas analíticas complejas sobre terabytes y petabytes de datos estructurados con una sofisticada optimización de consultas, almacenamiento en columnas en almacenamiento de alto rendimiento y ejecución masiva de consultas paralelas. La mayoría de los resultados se producen en segundos. Con Redshift, puede comenzar con poca capacidad por tan solo 0,25 USD por hora sin asumir ningún compromiso y aumentar la escala a varios petabytes de datos por 1000 USD por terabyte al año, menos de la décima parte del costo de las soluciones en las instalaciones tradicionales. Amazon Redshift también incluye Amazon Redshift Spectrum, que permite ejecutar consultas SQL directamente sobre exabytes de datos no estructurados en lagos de datos de Amazon S3. Ya no se necesitan cargas ni transformaciones, y puede utilizar los siguientes formatos de datos abiertos, entre otros: Avro, CSV, Grok, Amazon Ion, JSON, ORC, Parquet, RCFile, RegexSerDe, Sequence, Text y TSV. Redshift Spectrum ajusta la escala de la capacidad informática de consulta de forma automática en función de los datos recuperados, por lo que las consultas en Amazon S3 se ejecutan con rapidez, independientemente del tamaño del conjunto de datos.

Amazon Redshift le ofrece la posibilidad de realizar consultas con rapidez en datos estructurados mediante la utilización de herramientas de inteligencia empresarial y clientes basados en SQL conocidos que utilizan las conexiones estándar ODBC y JDBC. Las consultas se distribuyen y paralelizan entre varios recursos físicos. Puede aumentar o reducir la escala de un almacenamiento de datos de Amazon Redshift con facilidad con tan solo unos clics en la consola de administración de AWS, o bien, con una única llamada a la API. Amazon Redshift crea parches y copias de seguridad del almacén de datos de manera automática, y almacena las copias durante un período de retención definido por el usuario. Amazon Redshift utiliza la replicación y las copias de seguridad continuas para aumentar la disponibilidad y mejorar la durabilidad de los datos, y puede realizar recuperaciones automáticamente tras el fallo de componentes y nodos. Además, Amazon Redshift admite características de seguridad líderes gracias a la integración con AWS IAM, identidad federada, control de acceso a nivel de columnas, Amazon Virtual Private Cloud (Amazon VPC), SSL, cifrado AES-256 e integración con AWS KMS de serie, para proteger sus datos en tránsito y en reposo. Todas las funciones de seguridad de Amazon Redshift se incluyen sin costo adicional.

Amazon Redshift se integra con AWS CloudTrail para que pueda auditar todas las llamadas a las API de Redshift. Redshift registra todas las operaciones SQL, como los intentos de conexión, las consultas y los cambios realizados en el almacén de datos. Puede obtener acceso a estos registros mediante la realización de consultas SQL en las tablas del sistema u optar por guardarlos en una ubicación segura de Amazon S3. Amazon Redshift cumple los requisitos de SOC 1, SOC 2, SOC 3 y PCI DSS de nivel 1.

Al igual que con los demás servicios de Amazon Web Services, no se requiere ninguna inversión inicial y solo tendrá que pagar por los recursos que utilice. Amazon Redshift le permite pagar en función del uso. Inclusive puede probar Amazon Redshift de manera gratuita.

Para obtener más información acerca de las regiones en las que Amazon Redshift está disponible, consulte la Tabla de regiones de AWS.

P: ¿Por qué debería usar Amazon Redshift en vez de un almacén de datos local?

La administración de almacenes de datos locales requiere bastante tiempo y recursos, en particular cuando se trata de conjuntos de datos grandes. Además, los costos económicos asociados con la compilación, el mantenimiento y el crecimiento de almacenes de datos locales y administrados automáticamente también son muy altos. A medida que aumente el volumen de los datos, debe compensar constantemente qué datos cargar en el almacén de datos y qué datos archivar en almacenamiento para poder administrar costos, conservar el nivel de complejidad de los procesos de extracción, transformación y carga (ETL) bajo y ofrecer un buen rendimiento. Amazon Redshift no solo reduce de manera significativa el costo y la carga operativa de un almacén datos, sino que con Redshift Spectrum también se facilita el análisis de grandes volúmenes de datos en su formato nativo sin la necesidad de cargarlos.

P: ¿Qué es AQUA (acelerador de consultas avanzado) para Amazon Redshift?

AQUA es una caché distribuida y acelerada por hardware nueva que permite a Redshift ejecutarse con una velocidad hasta 10 veces superior en comparación con cualquier otro almacén de datos en la nube. Las arquitecturas de almacenamiento de datos existentes con almacenamiento centralizado requieren que los datos puedan transferirse a clústeres informáticos para ser procesados. Puesto que los almacenes de datos continuarán creciendo durante los próximos años, el ancho de banda necesario para mover todos estos datos supone un cuello de botella para el rendimiento de las consultas.

AQUA ofrece un nuevo enfoque para el almacenamiento de datos en la nube. AQUA incorpora la informática al almacenamiento al hacer que una parte sustancial de los datos se procese in situ en la innovadora caché. Además, utiliza procesadores diseñados por AWS y una arquitectura escalable para acelerar el procesamiento de datos más de lo que podría hacerlo cualquier CPU tradicional actual. Obtenga más información e inscríbase como candidato para la versión preliminar.

P: ¿Qué es Redshift Spectrum?

Redshift Spectrum es una característica de Amazon Redshift que le permite ejecutar consultas en exabytes de datos no estructurados en Amazon S3, sin la necesidad de cargarlos ni de recurrir a procesos de extracción, transformación y carga (ETL). Cuando emite una consulta, va al punto de enlace de Amazon Redshift SQL, lo que genera y optimiza un plan de consulta. Amazon Redshift determina qué datos son locales y cuáles se encuentran en Amazon S3, genera un plan para minimizar el volumen de datos de Amazon S3 que necesita leerse, solicita a los empleados de Redshift Spectrum un grupo de recursos compartidos para leer y procesar datos de Amazon S3.

Redshift Spectrum aumenta la escala a miles de instancias de ser necesario, por lo que las consultas se ejecutan de forma rápida independientemente del volumen de los datos. Además, puede usar exactamente los mismos datos de SQL for Amazon S3 que utiliza para sus consultas en Amazon Redshift y conectarse al mismo punto de enlace de Amazon Redshift con sus herramientas de inteligencia empresarial. Redshift Spectrum permite separar el almacenamiento de la capacidad informática, por lo que puede ajustar la escala de cada uno de forma independiente. Puede configurar tantos clústeres de Amazon Redshift como necesite para realizar consultas en su lago de datos de Amazon S3, lo que brinda alta disponibilidad y simultaneidad ilimitada. Redshift Spectrum ofrece la posibilidad de almacenar los datos donde desee, en el formato que quiera y de una forma que se encuentren disponibles para procesarlos cuando los necesite. Para obtener más información acerca de las regiones en las que Redshift Spectrum se encuentra disponible, visite la página de precios de Amazon Redshift.

P: ¿En qué consiste el almacenamiento administrado de Amazon Redshift?

El almacenamiento administrado de Amazon Redshift está disponible con los tipos de nodo RA3 y le permite escalar y pagar por recursos informáticos y almacenamiento de forma independiente, de modo que puede decidir el tamaño del clúster según sus necesidades informáticas. Este servicio utiliza almacenamiento local basado en SSD de alto rendimiento, como caché de nivel 1, y saca partido de optimizaciones como la temperatura de bloqueo de datos, la edad de bloqueo de datos y patrones de carga de trabajo para brindar un alto rendimiento a la vez que se escala de forma automática el almacenamiento a Amazon S3 cuando es necesario, sin tener que realizar ninguna acción.

P: ¿Cómo utilizo el almacenamiento administrado de Amazon Redshift?

Si ya utiliza los tipos de nodo DC o DS de Amazon Redshift, puede actualizar sus clústeres existentes a la nueva instancia informática RA3 para utilizar el almacenamiento administrado. También puede crear un nuevo clúster basado en la instancia RA3 y, de este modo, el almacenamiento administrado se incluirá de forma automática. No se requiere ninguna otra acción para usar esta capacidad.

P: ¿Cómo simplifica Amazon Redshift la administración del almacenamiento de datos?

Amazon Redshift administra el trabajo necesario para configurar, operar y escalar un almacén de datos. Por ejemplo, aprovisiona la capacidad de infraestructura, automatiza tareas administrativas continuas como copias de seguridad, aplicación de parches y monitorización de nodos y unidades para recuperarse de errores. Para Redshift Spectrum, Amazon Redshift administra toda la infraestructura informática, el equilibrio de cargas, la planificación, el cronograma y la ejecución de sus consultas en datos almacenados en Amazon S3.

P. ¿Cuál es el rendimiento de Amazon Redshift en comparación con las bases de datos en las instalaciones respecto a almacenamiento y análisis de datos?

Amazon Redshift utiliza una serie de innovaciones para conseguir un rendimiento hasta diez veces superior al de las bases de datos tradicionales para las cargas de trabajo de almacenamiento y análisis de datos. Estas innovaciones incluyen:

  • Almacenamiento de datos en columnas: en lugar de almacenar los datos como una serie de filas, Amazon Redshift los organiza en columnas. A diferencia de los sistemas basados en filas, que resultan ideales para procesar transacciones, los sistemas basados en columnas son ideales para el almacenamiento y el análisis de datos, donde las consultas suelen implicar operaciones agregadas con grandes conjuntos de datos. Dado que solo se procesan las columnas implicadas en las consultas y que los datos organizados en columnas se almacenan de manera secuencial en los medios de almacenamiento, los sistemas basados en columnas requieren muchas menos operaciones de E/S, lo que conlleva un aumento significativo del rendimiento de las consultas.
  • Compresión avanzada: los almacenes de datos organizados en columnas se pueden comprimir mucho más que los que están organizados en filas, ya que los datos similares se almacenan en el disco de manera secuencial. Amazon Redshift utiliza varias técnicas de compresión y, a menudo, puede alcanzar un alto nivel de compresión en comparación con los almacenes de datos relacionales tradicionales. Al cargar datos en una tabla vacía, Amazon Redshift los analiza automáticamente y selecciona el esquema de compresión más apropiado.
  • Procesamiento paralelo de forma masiva (MPP): Amazon Redshift distribuye automáticamente los datos y la carga de consultas entre todos los nodos. Amazon Redshift facilita la incorporación de nodos al almacén de datos y le permite mantener un rendimiento rápido de las consultas a medida que crece el almacén de datos.
  • Redshift Spectrum: Redshift Spectrum le permite ejecutar consultas en exabytes de datos en Amazon S3. No es necesario realizar cargas ni ETL. Aunque no almacene ningún dato en Amazon Redshift, aún así puede usar Redshift Spectrum para realizar consultas en conjuntos de datos de hasta un exabyte en Amazon S3. Cuando emite una consulta, va al punto de enlace de Amazon Redshift SQL, lo que genera un plan de consulta. Amazon Redshift determina qué datos son locales y cuáles se encuentran en Amazon S3, genera un plan para minimizar el volumen de datos de Amazon S3 que necesita leerse, solicita a los nodos de trabajo de Amazon Redshift Spectrum de un grupo de recursos compartidos que lean y procesen datos de Amazon S3, y obtiene los resultados de nuevo en el clúster de Amazon Redshift de cualquier procesamiento restante.
  • Vistas materializadas: las vistas materializadas brindan un rendimiento de consultas mucho más rápido para las cargas de trabajo analíticas repetidas y predecibles, como paneles, consultas de herramientas de inteligencia empresarial (BI) y procesamiento de datos ETL (extracción, transformación y carga). Las vistas materializadas le permiten almacenar los resultados de consultas computados previamente y mantenerlos con eficiencia mediante el procesamiento gradual de los cambios más recientes en las tablas de origen. Las consultas posteriores que aludan a las vistas materializadas utilizarán los resultados computados previamente para ejecutarse mucho más rápido. Las vistas materializadas pueden crearse según una o más tablas de origen mediante filtros, proyecciones, combinaciones internas, agregaciones, agrupaciones, funciones y otros constructos de SQL.
  • Escalabilidad: la capacidad informática y de almacenamiento de los almacenes de datos en las instalaciones está limitada por las restricciones del hardware que utiliza. Redshift le ofrece la posibilidad de escalar los recursos informáticos y el almacenamiento según sea necesario para adaptarse a cargas de trabajo cambiantes.

P. ¿Cómo puedo comenzar a utilizar Amazon Redshift?

Puede inscribirse y comenzar a utilizar la solución en cuestión de minutos desde la página de detalles de Amazon Redshift o a través de la consola de administración de AWS. Si aún no tiene una cuenta de AWS, se le pedirá que cree una. Visite la página de introducción para averiguar de qué forma puede probar Amazon Redshift sin cargo.

P: ¿Cómo puedo crear un clúster de almacén de datos de Amazon Redshift y luego obtener acceso a él?

Con la consola de administración de AWS o las API de Amazon Redshift puede crear fácilmente un clúster de almacén de datos de Amazon Redshift. Puede comenzar con un almacenamiento de datos de 160 GB y un único nodo y, posteriormente, aumentar la escala a un petabyte o más con tan solo unos clics en la consola de AWS o con una única llamada a la API.

La configuración de un solo nodo (la más adecuada para la evaluación, el desarrollo o prueba de cargas de trabajo) le permite comenzar a utilizar Amazon Redshift de forma rápida y rentable, además de ajustar la escala a una configuración de varios nodos a medida que aumenten sus necesidades. Un clúster de almacén de datos de Redshift puede contener desde 1 hasta 128 nodos de cómputo, en función del tipo de nodo de que se trate. Para obtener más detalles, consulte nuestra documentación.

La configuración de varios nodos requiere un nodo principal que administre las conexiones de cliente y reciba consultas, así como dos nodos de cómputo que almacenen datos y realicen consultas y cálculos. El nodo principal, que tiene el mismo tamaño que el nodo informático, se aprovisiona automáticamente y, además, no se aplica ningún cargo.

Solo tiene que especificar la zona de disponibilidad preferida (opcional), el número de nodos, los tipos de nodos, un nombre y una contraseña principales, los grupos de seguridad, las preferencias personales de retención de copias de seguridad y otra configuración del sistema. Cuando haya elegido la configuración deseada, Amazon Redshift aprovisionará los recursos necesarios y configurará el clúster de almacén de datos.

Cuando el clúster de almacén de datos esté disponible, puede recuperar su punto de enlace y la cadena de conexión a JDBC y ODBC desde la consola de administración de AWS o con las API de Redshift. A continuación, puede utilizar esta cadena de conexión según sus preferencias en cuanto a la herramienta de base de datos, el lenguaje de programación o la herramienta de inteligencia empresarial. Debe autorizar las solicitudes de red en el clúster de almacén de datos en ejecución. Para obtener una explicación detallada, consulte la Guía de introducción.

P: ¿Qué capacidad de almacenamiento máxima tiene cada nodo de cómputo? ¿Cuál es el volumen de datos por nodo de cómputo recomendado para obtener un rendimiento óptimo?

Puede crear un clúster con los tipos de nodos RA3, DC o DS. Los tipos de nodos RA3 le permiten ajustar la escala de las capacidades de cómputo y almacenamiento y pagar por ellas de forma independiente. Selecciona la cantidad de instancias que necesita en función de requisitos de rendimiento y solo paga por el almacenamiento administrado que utilice.

Los tipos de nodo RA3 están disponibles en dos tamaños, RA3.16XL y RA3.4XL. Cada nodo RA3.16XL tiene 48 vCPU, 384 GiB de memoria y admite 8 GB/s IO. Ambos clústeres RA3.16XL y RA3.4XL se ejecutan con un mínimo de dos nodos, y el clúster de dos nodos de tamaño mínimo RA3.16XL o RA3.4XL ofrece 128 TB de almacenamiento administrado. La cuota de almacenamiento administrado por nodo, tanto para RA3.16XL como para RA3.4XL, es de 64 TB. Los clústeres RA3.16XL pueden escalar hasta 128 nodos, lo que le permite crear un clúster con hasta 8 petabytes en almacenamiento administrado. Un nodo RA3.4XL tiene 12 vCPU, 96 GiB de memoria y admite 2 GB/s IO. Los clústeres RA3.4XL pueden escalar hasta 64 nodos, lo que le permite crear un clúster con hasta 4 petabytes en almacenamiento administrado. Nota: Todos los tamaños de almacenamiento administrado que se mencionan aquí son para datos comprimidos. Redshift comprime los datos hasta una tercera o cuarta parte de su tamaño, de modo que los datos sin comprimir pueden tener un valor 3 o 4 veces superior al que aquí se menciona.

Los tipos de nodo DC también están disponibles en dos tamaños. El grande tiene 160 GB de almacenamiento SSD, dos núcleos virtuales Intel Xeon E5-2670v2 (Ivy Bridge) y 15 GiB de RAM. El extragrande óctuple es dieciséis veces más grande, con 2,56 TB de almacenamiento SSD, 16 núcleos virtuales Intel Xeon E5-2670v2 y 244 GiB de RAM. Puede comenzar con un único nodo DC2.Large por 0,25 USD por hora y aumentar la escala a 128 nodos extragrandes óctuples con 326 TB de almacenamiento SSD, 3200 núcleos virtuales y 24 TiB de RAM.

Los tipos de nodo DS se encuentran disponibles en dos tamaños, extragrande o extragrande óctuple. El tamaño extragrande (XL) incorpora tres HDD con un total de 2 TB de almacenamiento magnético, mientras que el extragrande óctuple (8XL) cuenta con 24 HDD con un total de 16 TB de almacenamiento magnético. DS2.8XLarge dispone de 36 núcleos virtuales Intel Xeon E5-2676 v3 (Haswell) y 244 GiB de RAM, mientras que DS2.XL incorpora cuatro núcleos virtuales Intel Xeon E5-2676 v3 (Haswell) y 31 GiB de RAM.

Consulte nuestra página de precios para obtener más detalles.

P: ¿Qué diferencia de uso existe entre Amazon Redshift y Amazon RDS?

Tanto Amazon Redshift como Amazon RDS permiten ejecutar bases de datos relacionales tradicionales en la nube. Así logramos reducir los procesos administrativos de base de datos. Los clientes utilizan bases de datos de Amazon RDS principalmente para cargas de trabajo de procesamiento de transacciones online (OLTP), mientras que Redshift se usa en mayor medida para generación de informes y análisis. Las cargas de trabajo OLTP requieren información específica de consulta con rapidez, y Amazon RDS administra mejor transacciones como introducción, actualización y eliminación. Amazon Redshift utiliza la escala y los recursos de varios nodos, además de una serie de optimizaciones, para ofrecer mejoras sustanciales en relación con las bases de datos tradicionales para cargas de trabajo de análisis y generación de informes con conjuntos de datos muy grandes. Amazon Redshift ofrece una opción excelente de escalado a medida que aumenta la complejidad de los datos y las consultas si quiere prevenir que el procesamiento de informes y análisis interfiera en el rendimiento de la carga de trabajo de OLTP. Ahora, con la nueva característica de consulta federada, puede realizar consultas en datos con facilidad en servicios de bases de datos de Amazon RDS o Aurora con Amazon Redshift.

P: ¿Qué diferencia de uso existe entre Amazon Redshift o Redshift Spectrum y Amazon EMR?

Debería utilizar Amazon EMR si usa código personalizado para procesar y analizar conjuntos de datos extremadamente grandes con marcos de procesamiento de big data como Spark, Hadoop, Presto o Hbase. Amazon EMR le brinda el control total de la configuración de los clústeres y del software que instale en ellos.

Los almacenes de datos como Amazon Redshift están diseñados para un tipo diferente de análisis en general. Los almacenes de datos están diseñados para reunir datos a partir de muchas fuentes diferentes, como sistemas de inventario, financieros y ventas minoristas. Para garantizar que la generación de informes sea precisa continuamente en toda la compañía, los almacenes de datos guardan los datos de una manera muy estructurada. Esta estructura crea reglas de coherencia de datos directamente en las tablas de la base de datos. Amazon Redshift es el mejor servicio cuando necesita realizar consultas complejas en colecciones masivas de datos estructurados y semiestructurados y obtener un rendimiento extremadamente alto.

Si bien la característica Redshift Spectrum es excelente para ejecutar consultas en datos en Amazon Redshift y S3, no funciona para los tipos de casos de uso que las empresas normalmente solicitan a marcos de procesamiento como Amazon EMR. Amazon EMR no se limita a la ejecución de consultas SQL. Amazon EMR es un servicio administrado que le permite procesar y analizar conjuntos de datos extremadamente grandes con las versiones más recientes de marcos de procesamiento de big data conocidos, como Spark, Hadoop y Presto, en clústeres completamente personalizables. Con Amazon EMR, puede ejecutar una gran variedad de tareas de procesamiento de datos de escalado para aplicaciones como el aprendizaje automático, el análisis de gráficos, la transformación de datos, el streaming de datos y prácticamente cualquier cosa que pueda codificar.

Puede utilizar Redshift Spectrum con EMR. Redshift Spectrum usa la misma estrategia de almacenamiento de definiciones de tablas que Amazon EMR. Redshift Spectrum es compatible con el mismo Apache Hive Metastore que utiliza Amazon EMR para encontrar datos y definiciones de tablas. Si utiliza Amazon EMR y ya tiene Hive Metastore, tan solo debe configurar su clúster de Amazon Redshift para usarlo. A continuación, puede empezar a realizar consultas de inmediato junto con sus trabajos de Amazon EMR. Por lo tanto, si ya utiliza EMR para procesar un almacén de datos grande, puede usar Redshift Spectrum para realizar consultas en esos datos al mismo tiempo sin interrumpir sus trabajos de Amazon EMR.

Todos los servicios de consultas, los almacenes de datos y los marcos de procesamiento de datos complejos tienen su lugar y se utilizan para diferentes fines. Simplemente tiene que elegir la herramienta adecuada para el trabajo.

P: ¿Cuándo debería utilizar Amazon Athena en lugar de Redshift Spectrum?

Amazon Athena es la manera más simple de brindarle a cualquier empleado la capacidad para ejecutar consultas ad-hoc en Amazon S3. Athena no tiene servidor, por lo que no es necesario configurar ni administrar infraestructura, y puede comenzar a analizar los datos al instante.

Si tiene datos de acceso frecuente, estos deben almacenarse en un formato muy estructurado y estable, y luego utilizar un almacén de datos como Amazon Redshift. Esto le brinda la flexibilidad para almacenar sus datos estructurados de acceso frecuente en Amazon Redshift y utilizar Redshift Spectrum para ampliar sus consultas de Amazon Redshift a los datos de su lago de datos de Amazon S3. Esto le ofrece la libertad de almacenar los datos donde desee, en el formato que quiera y de forma que se encuentren disponibles para procesarlos cuando lo necesite.

P: ¿Por qué debo utilizar Amazon Redshift en lugar de ejecutar mi propio clúster de almacén de datos MPP en Amazon EC2?

Amazon Redshift administra automáticamente muchas de las tareas que requieren bastante tiempo y que están asociadas con la administración de su propio almacén de datos, entre otras:
  • Configuración: con Amazon Redshift, solo tiene que crear un clúster de almacén de datos, definir su esquema y comenzar a cargar y consultar datos. No tiene que encargarse de administrar el aprovisionamiento, la configuración o la aplicación de parches.
  • Durabilidad de los datos: Amazon Redshift replica los datos en el clúster de almacén de datos y realiza copias de seguridad de los datos continuamente en Amazon S3, que está diseñado para ofrecer un 99,999999999 % de durabilidad. Amazon Redshift refleja cada dato de la unidad en otros nodos dentro del clúster. Si una unidad falla, las consultas continuarán con un ligero aumento de la latencia mientras Redshift recompila la unidad a partir de las réplicas. En caso de que falle algún nodo, Amazon Redshift aprovisiona automáticamente los nuevos nodos y comienza a restablecer los datos desde otras unidades del clúster o desde Amazon S3. Da prioridad al restablecimiento de los datos consultados con mayor frecuencia, de manera que las consultas ejecutadas con mayor frecuencia comiencen a ofrecer rendimiento con rapidez.
  • Ajuste de escala: puede añadir o eliminar nodos del clúster del almacenamiento de datos de Amazon Redshift con una única llamada a la API o con unos clics en la consola de administración de AWS a medida que cambien las necesidades de capacidad y rendimiento. También puede programar las operaciones de ajuste de escala y tamaño mediante el uso de la capacidad de programador de Redshift.
  • Actualizaciones e implementaciones de parches automáticas: Amazon Redshift aplica actualizaciones y parches automáticamente al almacén de datos para que usted pueda enfocarse en la aplicación y no en su administración.
  • Capacidad para realizar consultas a escala de exabytes: Redshift Spectrum le permite ejecutar consultas en exabytes de datos en Amazon S3. No es necesario realizar cargas ni ETL. Aunque no almacene ningún dato en Amazon Redshift, aún así puede usar Redshift Spectrum para realizar consultas en conjuntos de datos de hasta un exabyte en Amazon S3.

Facturación

P: ¿Qué cargos y facturación se me aplicarán por utilizar Amazon Redshift?

Solo tiene que pagar por lo que utilice y no hay costos mínimos ni de configuración. Amazon Redshift admite la capacidad de pausar y reanudar un clúster, lo que le permite suspender fácilmente la facturación bajo demanda cuando el clúster no se está utilizando. Por ejemplo, puede suspender la computación de la facturación de un clúster utilizado para el desarrollo cuando no está en uso. Cuando se pausa el clúster, solo se factura por el almacenamiento del clúster. Para cargas de trabajo de producción de estado, puede beneficiarse de descuentos significativos respecto a los precios de instancias bajo demanda al cambiar a instancias reservadas.

La facturación del clúster de almacén de datos comienza en cuanto este se encuentra disponible. La facturación continúa hasta que termina el clúster de almacén de datos, situación que se produciría al eliminarlo o en caso de producirse un error en la instancia. Su facturación se realiza según los siguientes aspectos:

  • Horas de nodos de ejecución: las horas de nodos de ejecución constituyen el número total de horas durante las cuales se ejecutan todos los nodos de ejecución en un período de facturación. Las horas de uso de nodos se facturan por cada hora durante la cual se ejecuta el clúster de almacén de datos en un estado de disponibilidad. Si ya no desea que se le apliquen cargos por su clúster de almacén de datos, debe terminarlo para que no se le facturen horas de nodo adicionales. Las horas de nodo parciales consumidas se facturan como horas completas. Se factura 1 unidad por nodo por hora, por lo que un clúster de almacén de datos de 3 nodos que se ejecute durante un mes entero incurriría en 2160 horas de instancia. No se le aplicará ningún cargo por las horas de nodos principales. Solo se cobrarán los nodos de ejecución.
  • Almacenamiento administrado: se utiliza la tarifa mensual por GB fija de su región para cobrar los datos almacenados en almacenamiento administrado. El almacenamiento administrado viene incluido exclusivamente en los tipos de nodos RA3 y paga la misma tarifa baja para el almacenamiento administrado de Redshift independientemente del tamaño de los datos. El uso del almacenamiento administrado se calcula por hora en base al total de datos presente en el almacenamiento administrado. Puede controlar el volumen de datos en el clúster de RA3 mediante Amazon CloudWatch o la consola de administración de AWS. No deberá pagar cargos de transferencia de datos entre nodos RA3 y el almacenamiento administrado. Los cargos de almacenamiento administrado no incluyen cargos de almacenamiento de copias de seguridad debido a la generación de instantáneas manuales o automatizadas. Se continúa cobrando la retención de copias de seguridad manuales aunque se apague el clúster.
  • Almacenamiento de copias de seguridad: este tipo de almacenamiento es el asociado con las instantáneas automatizadas y manuales de un almacenamiento de datos. La extensión del periodo de retención de las copias de seguridad o realización de instantáneas adicionales, aumenta el almacenamiento de copias de seguridad que el almacén de datos consume. No se aplica ningún cargo adicional para el almacenamiento de copias de seguridad hasta el 100 % del almacenamiento aprovisionado para un clúster de almacén de datos activo. Por ejemplo, si dispone de un clúster de almacén de datos XL de un solo nodo con 2 TB de almacenamiento de instancia local, le ofreceremos hasta 2 TB mensuales de almacenamiento de copias de seguridad sin ningún costo adicional. El almacenamiento de copias de seguridad que supere el tamaño del almacenamiento aprovisionado y las copias de seguridad almacenadas después de terminar el clúster se facturan conforme a las tarifas estándar de Amazon S3.
  • Transferencia de datos: no existen cargos por transferencia de datos desde o hacia Amazon Redshift y Amazon S3 dentro de la misma región de AWS. Las demás transferencias de datos de entrada y salida de Amazon Redshift se facturarán de acuerdo con las tarifas de transferencia de datos de AWS estándar.
  • Datos analizados: con Redshift Spectrum, se le cobra el volumen de datos de Amazon S3 analizados para ejecutar su consulta. No hay cargos por Redshift Spectrum cuando no se ejecutan consultas. Si almacena datos en un formato de columna, como Parquet o RC, el costo será menor, ya que Redshift Spectrum solo analizará las columnas necesarias para la consulta, en lugar de procesar filas completas. Del mismo modo, si comprime los datos con uno de los formatos compatibles con Redshift Spectrum, los costos también se reducirán. Pagará las tarifas estándar de Amazon S3 por el almacenamiento de datos y las tarifas de instancia de Amazon Redshift para el clúster utilizado.

Si no se especifica lo contrario, nuestros precios no incluyen los impuestos ni gravámenes correspondientes, como el IVA y cualquier otro impuesto sobre las ventas. En el caso de los clientes con una dirección de facturación de Japón, el uso de los servicios de AWS está sujeto al impuesto de consumo nipón. Más información

Para obtener acceso a la información sobre los precios de Amazon Redshift, visite la página de precios de Amazon Redshift.

Integración y carga de datos

P: ¿Cómo puedo cargar datos en el almacén de datos de Amazon Redshift?

Puede cargar datos en Amazon Redshift desde una amplia variedad de orígenes de datos, entre otros, Amazon S3, Amazon RDS, Amazon DynamoDBAmazon EMR, AWS Glue, AWS Data Pipeline o cualquier host con SSH habilitado en Amazon EC2 o en las instalaciones. Amazon Redshift intenta cargar los datos en paralelo en cada nodo de ejecución para maximizar la velocidad a la que puede incorporar datos en el clúster de almacén de datos. Los clientes pueden conectarse a Amazon Redshift mediante ODBC o JDBC y enviar comandos "insert" de SQL para insertar los datos. Tenga en cuenta que este procedimiento es más lento que utilizar S3 o DynamoDB porque dichos métodos cargan datos en paralelo en cada nodo de cómputo, mientras que las instrucciones “insert” de SQL se cargan a través del único nodo principal. Para obtener más detalles sobre la carga de datos en Amazon Redshift, consulte la guía de introducción.

P: ¿Cómo puedo cargar datos en Amazon Redshift desde mis orígenes de datos existentes en Amazon RDS, Amazon EMR, Amazon DynamoDB y Amazon EC2?

Puede usar el comando COPY para cargar datos en paralelo directamente a Amazon Redshift desde Amazon EMR, Amazon DynamoDB o cualquier host con SSH habilitado. Redshift Spectrum también le permite cargar datos desde Amazon S3 a su clúster con un comando INSERT INTO simple. Esto podría permitirle cargar datos de diferentes formatos, como Parquet y RC, a su clúster. Tenga en cuenta que si utiliza esta estrategia, incurrirá en cargos de Redshift Spectrum por los datos analizados de Amazon S3. 

Además, muchas empresas dedicadas a los procesos de extracción, transformación y carga (ETL) han certificado Amazon Redshift para usarlo con sus herramientas y varias de ellas ofrecen pruebas gratuitas para ayudarlo a cargar los datos. AWS Data Pipeline ofrece una solución tolerante a errores, de confianza y de alto desempeño para cargar datos desde varias fuentes de datos de AWS, por ejemplo, desde Amazon RDS a Redshift. Puede utilizar AWS Data Pipeline para especificar el origen de datos, las transformaciones deseadas de los datos y, a continuación, ejecutar una secuencia de comandos de importación pregrabada para cargar los datos en Amazon Redshift. Además, AWS Glue es un servicio de extracción, transformación y carga (ETL) completamente administrado que facilita la preparación y carga de datos para su análisis. Puede crear y ejecutar un trabajo de ETL de AWS Glue con tan solo unos clics en la consola de administración de AWS.

P: Tengo muchos datos para hacer la primera carga en Amazon Redshift. Transferirlos por Internet llevaría mucho tiempo. ¿Cómo puedo cargarlos?

Puede utilizar AWS Import/Export para transferir los datos a Amazon S3 mediante el uso de dispositivos portátiles de almacenamiento. Además, puede utilizar AWS Direct Connect para establecer una conexión de red privada entre la red o el centro de datos y AWS. Puede elegir puertos de conexión de 1 Gbit/s o de 10 Gbit/s para transferir los datos.

Seguridad

P: ¿De qué manera protege los datos Amazon Redshift?

Amazon Redshift admite características de seguridad líderes gracias a la integración con AWS IAM de serie, identidad federada para inicio de sesión único (SSO), autenticación multifactor, control de acceso a nivel de columnas, Amazon Virtual Private Cloud (Amazon VPC) e integración con AWS KMS de serie para proteger sus datos en tránsito y en reposo. Amazon Redshift cifra los datos y los mantiene protegidos, tanto en tránsito como en reposo, mediante la utilización de técnicas de cifrado estándar del sector. Para mantener los datos protegidos mientras están en tránsito, Amazon Redshift admite las conexiones con SSL habilitado entre la aplicación cliente y el clúster de almacén de datos de Redshift. Para mantener los datos protegidos mientras están en reposo, Amazon Redshift cifra cada bloque con AES-256 acelerado por hardware a medida que se graba en el disco. Esto tiene lugar en un nivel bajo del subsistema de E/S, que cifra todo lo que se graba en el disco, incluidos los resultados de consulta intermedios. Las copias de seguridad de los bloques se realizan con los bloques tal cual, lo que significa que las copias también se cifran. De forma predeterminada, Amazon Redshift se encarga de administrar las claves, pero puede optar por administrarlas mediante AWS Key Management Service. Todas las funciones de seguridad de Amazon Redshift se ofrecen sin costo adicional. Redshift Spectrum es compatible con el cifrado del lado del servidor (SSE) de Amazon S3 mediante el uso de la clave predeterminada de su cuenta que utiliza AWS Key Management Service (KMS).

P: ¿Redshift es compatible con controles de acceso pormenorizado como seguridad a nivel de columnas?

Sí. Los controles de seguridad a nivel de columnas garantizan que los usuarios solo vean los datos a los cuales tienen acceso. Amazon Redshift es compatible con control de acceso a nivel de columnas para tablas locales, de modo que puede controlar el acceso a las columnas individuales de una tabla o visualización al conceder o revocar privilegios a nivel de columnas a un usuario o a un grupo de usuarios. Redshift se integra con AWS Lake Formation, lo que garantiza que los controles de acceso a nivel de columnas de Lake Formation también se apliquen a consultas de Redshift en los datos del lago de datos.

P: ¿Redshift es compatible con inicio de sesión único?

Sí. Los clientes que quieran utilizar sus proveedores de identidad corporativa como Active Directory de Microsoft Azure, los servicios federados de Active Directory, Okta, Ping Federate u otros proveedores de identidad en compatible con SAML que puedan configurar Amazon Redshift para ofrecer inicio de sesión único.

P: ¿Redshift admite inicio de sesión único con Microsoft Azure Active Directory?

Puede iniciar sesión mediante inicio de sesión único en el clúster de Amazon Redshift con identidades de Microsoft Azure Active Directory (AD). Esto le permite utilizar iniciar sesión en Redshift sin que estas identidades de Azure Active Directory se dupliquen en Redshift.

P: ¿Amazon Redshift es compatible con la autenticación multifactor (MFA)?

Sí. Puede utilizar la autenticación multifactor (MFA) para contar con seguridad adicional cuando se autentique en su clúster de Amazon Redshift.

P: ¿Puedo utilizar Amazon Redshift en Amazon Virtual Private Cloud (Amazon VPC)?

Sí, puede utilizar Amazon Redshift como parte de la configuración de VPC. Con Amazon VPC, podrá definir una topología de red virtual que refleje detalladamente una red tradicional que tenga instaurada en su propio centro de datos. Esto le permite ejercer un control total sobre quién puede obtener acceso al clúster de almacén de datos de Amazon Redshift. Puede usar Redshift Spectrum con un clúster de Amazon Redshift que forme parte de su VPC.

P: ¿Puedo obtener acceso directamente a los nodos de ejecución de Amazon Redshift?

No. Los nodos de ejecución de Amazon Redshift se encuentran en un espacio de red privado y solo se puede obtener acceso a ellos desde el nodo principal del clúster del almacén de datos. Esto ofrece a los datos una capa adicional de seguridad.

Disponibilidad y durabilidad

P: ¿Qué sucede con la durabilidad de los datos y la disponibilidad del clúster de almacén de datos si falla una unidad en alguno de los nodos?

Amazon Redshift detecta y reemplaza automáticamente el nodo defectuoso en el clúster de almacén de datos. El clúster de almacén de datos no estará disponible para consultas y actualizaciones hasta que se aprovisione un nodo de sustitución y se añada a la base de datos. Amazon Redshift habilita el nodo de sustitución de inmediato y carga los datos a los que se tiene acceso con más frecuencia desde S3 primero para permitirle reanudar las consultas de los datos lo más rápido posible. Los clústeres de un solo nodo no admiten la replicación de datos. Si ocurre un error en la unidad, deberá restablecer el clúster a partir de una instantánea de S3. Le recomendamos que utilice al menos dos nodos para la producción.

P: ¿Qué sucede con la durabilidad de los datos y la disponibilidad de un clúster de almacén de datos si se genera un error en un único nodo?

Amazon Redshift detecta y reemplaza automáticamente el nodo defectuoso en el clúster de almacén de datos. El clúster de almacén de datos no estará disponible para consultas y actualizaciones hasta que se aprovisione un nodo de sustitución y se añada a la base de datos. Amazon Redshift habilita el nodo de sustitución de inmediato y carga los datos a los que se tiene acceso con más frecuencia desde S3 primero para permitirle reanudar las consultas de los datos lo más rápido posible. Los clústeres de un solo nodo no admiten la replicación de datos. Si ocurre un error en la unidad, deberá restablecer el clúster a partir de una instantánea de S3. Le recomendamos que utilice al menos dos nodos para la producción.

P: ¿Qué sucede con la durabilidad de los datos y la disponibilidad de un clúster de almacén de datos si se produce un corte de energía en la zona de disponibilidad del clúster?

Si la zona de disponibilidad del clúster de almacén de datos de Amazon Redshift deja de estar disponible, no podrá utilizar el clúster hasta que se restablezca la energía y el acceso a la red de la zona de disponibilidad. Los datos del clúster de almacén de datos se conservan para que pueda comenzar a utilizar el almacén de datos de Amazon Redshift tan pronto como la zona de disponibilidad vuelva a estar disponible. Además, puede optar por restablecer las instantáneas existentes a una nueva zona de disponibilidad de la misma región. Amazon Redshift restablece primero los datos a los que se obtiene acceso con mayor frecuencia para que pueda reanudar las consultas lo más rápido posible.

P: ¿Amazon Redshift admite implementaciones Multi-AZ?

Actualmente, Amazon Redshift solo admite las implementaciones Single-AZ. Puede ejecutar clústeres de almacén de datos en varias zonas de disponibilidad (Multi-AZ). Para ello, debe cargar datos en dos clústeres de almacén de datos de Amazon Redshift de zonas de disponibilidad independientes desde el mismo conjunto de archivos de entrada de Amazon S3. Con Redshift Spectrum, puede configurar varios clústeres en zonas de disponibilidad y acceder a datos en Amazon S3 sin la necesidad de cargarlos en su clúster. Además, puede restablecer un clúster de almacén de datos en una zona de disponibilidad diferente desde las instantáneas del clúster de almacén de datos.

Copia de seguridad y restauración

P: ¿Cómo respalda Amazon Redshift los datos en copias de seguridad? ¿Cómo recupero un clúster a partir de una copia de seguridad?

Amazon Redshift replica todos los datos del clúster de almacén de datos cuando estos se cargan y, además, realiza copias de seguridad de los datos constantemente en Amazon S3. Amazon Redshift siempre trata de mantener al menos tres copias de los datos (el original y la réplica en los nodos de ejecución, y una copia de seguridad en Amazon S3). Redshift también puede replicar de forma asíncrona las instantáneas en S3 en otra región para casos de recuperación de desastres.

De forma predeterminada, Amazon Redshift activa las copias de seguridad automatizadas del clúster de almacén de datos con un período de retención de 1 día. Puede configurar este parámetro para un máximo de 35 días.

El límite del almacenamiento gratuito de copias de seguridad corresponde al tamaño total del almacenamiento de los nodos del clúster de almacén de datos y sólo se aplica a los clústeres de almacén de datos activos. Por ejemplo, si el almacén de datos tiene una capacidad total de almacenamiento de 8 TB, aprovisionaremos como máximo 8 TB de almacenamiento de copias de seguridad sin ningún cargo adicional. Si desea ampliar el período de retención de copias de seguridad a más de 1 día, puede hacerlo a través de la consola de administración de AWS o con las API de Amazon Redshift. Para obtener más información sobre las instantáneas automatizadas, consulte la guía de administración de Amazon Redshift. Amazon Redshift solo realiza copias de seguridad de los datos que han cambiado para que la mayoría de las instantáneas solo utilice un pequeño volumen del almacenamiento gratuito para copias de seguridad.

Cuando necesite recuperar una copia de seguridad, tendrá acceso a todas las copias de seguridad automatizadas que se hayan realizado dentro del período de retención que haya especificado. Después de haber elegido la copia de seguridad que desea recuperar, aprovisionaremos un nuevo clúster de almacén de datos y restableceremos los datos en él.

P: ¿Cómo puedo administrar la retención de las copias de seguridad y las instantáneas automatizadas?

Puede utilizar la consola de administración de AWS o la API ModifyCluster para administrar el período de conservación de las copias de seguridad automatizadas mediante la modificación del parámetro RetentionPeriod. Si desea desactivar de forma conjunta las copias de seguridad automatizadas, puede configurar el período de retención en 0 (no se recomienda).

P: ¿Qué sucede con mis copias de seguridad si elimino el clúster de almacén de datos?

Cuando elimina un clúster de almacén de datos, puede optar por crear una instantánea final tras la eliminación, lo que permitirá restablecer el clúster eliminado en una fecha posterior. Todas las instantáneas del clúster de almacén de datos creadas manualmente y con anterioridad se conservarán y se facturarán conforme a las tarifas estándar de Amazon S3, a menos que decida eliminarlas.

Escalabilidad

P: ¿Cómo puedo ajustar el tamaño y el rendimiento del clúster de almacén de datos de Amazon Redshift?

Si desea aumentar el rendimiento de las consultas o resolver el uso excesivo de la CPU, la memoria o las operaciones de E/S, puede aumentar el número de nodos del clúster de almacén de datos con el ajuste de tamaño elástico a través de la consola de administración de AWS o con la API ModifyCluster. Si modifica el clúster de almacén de datos, los cambios solicitados se aplicarán de forma inmediata. Las métricas de uso de cómputo, uso de almacenamiento y tráfico de lectura/escritura del clúster de almacén de datos de Amazon Redshift están disponibles de forma gratuita a través de la consola de administración de AWS o de las API de Amazon CloudWatch. También puede añadir métricas adicionales definidas por el usuario a través de la funcionalidad de métricas personalizadas de Amazon CloudWatch.

Con la característica de ajuste de escala de simultaneidad, puede admitir consultas y usuarios simultáneos prácticamente ilimitados, con un rendimiento de consulta ágil constante. Cuando el ajuste de escala de simultaneidad está activado, Amazon Redshift agrega automáticamente capacidad de clúster adicional cuando la necesita para procesar un aumento de consultas de lectura simultáneas.

Con Redshift Spectrum, puede ejecutar varios clústeres de Amazon Redshift y acceder a los mismos datos en Amazon S3. Puede usar clústeres diferentes para casos de uso diferentes. Por ejemplo, puede usar un clúster para generación de informes estándar y otro para consultas de ciencia de datos. Su equipo de marketing puede usar sus propios clústeres, que son diferentes a los de su equipo de operaciones. Redshift Spectrum distribuye automáticamente la ejecución de su consulta a varios nodos de trabajo de Redshift Spectrum a partir de un grupo de recursos compartidos para leer y procesar datos desde Amazon S3, y obtiene resultados de vuelta en su clúster de Amazon Redshift para cualquier procesamiento pendiente.

P: ¿El clúster de almacén de datos seguirá disponible durante el ajuste de la escala?

Depende. Cuando utiliza la característica de ajuste de escala de simultaneidad, el clúster se encuentra plenamente disponible para operaciones de lectura y escritura. Con el ajuste de tamaño elástico, el clúster no podrá utilizarse durante los cuatro a ocho minutos que dura el período de ajuste de tamaño. Con la elasticidad del almacenamiento de RA3 de Redshift en almacenamiento administrado, el clúster se encuentra plenamente disponible y los datos se migran automáticamente entre el almacenamiento administrado y los nodos de cómputo.

Simultaneidad

P: ¿Cómo administro los recursos para garantizar que mi clúster de Redshift pueda ofrecer un rendimiento rápido y constante durante los períodos de alta simultaneidad?

Un almacén de datos típico tiene una variación significativa en el uso de consultas simultáneas durante el transcurso de un día. Es más rentable agregar recursos solo en el período durante el cual se requieren, en lugar de aprovisionarlos para la demanda máxima. Amazon Redshift maneja esto automáticamente por usted.

El ajuste de escala de simultaneidad es una nueva característica de Amazon Redshift que ofrece un rápido rendimiento de consultas de forma continua, incluso cuando se ejecutan miles en simultáneo. Con esta función, Amazon Redshift agrega automáticamente capacidad transitoria cuando es necesario manejar una alta demanda. Amazon Redshift direcciona automáticamente las consultas a clústeres de escalado, que se aprovisionan en segundos y comienzan a procesar las consultas de inmediato.

Esta característica es gratuita para la mayoría de los clientes. Cada clúster de Amazon Redshift obtiene hasta una hora de créditos gratis de ajuste de escala de simultaneidad por día. Esto le da previsibilidad en el costo mensual, incluso durante los períodos de fluctuación de la demanda analítica.

P: ¿Qué es el ajuste de tamaño elástico y en qué se diferencia del ajuste de escala de simultaneidad?

Elastic Resize agrega o elimina nodos de un solo clúster de Redshift en minutos para administrar el rendimiento de las consultas. Por ejemplo, una carga de trabajo de ETL durante ciertas horas en un informe de fin de mes o de día puede necesitar recursos adicionales de Redshift para completarse a tiempo. El ajuste de escala de simultaneidad agrega recursos de clústeres adicionales para aumentar la simultaneidad general de las consultas.

P: ¿Puedo acceder directamente a los clústeres de ajuste de escala de simultaneidad?

No. El ajuste de la escala de simultaneidad es un conjunto de recursos de Redshift que se pueden ampliar a gran nivel y los clientes no tienen acceso directo a ellos.

Consultas y análisis

P: ¿Amazon Redshift y Redshift Spectrum son compatibles con el paquete de software de inteligencia empresarial y las herramientas ETL existentes?

Amazon Redshift utiliza el SQL estándar del sector y se obtiene acceso a él a través de los controladores estándar JDBC y ODBC. Puede descargar los controladores JDBC y ODBC personalizados de Amazon Redshift en la pestaña Connect Client de la consola de Redshift. Disponemos de integraciones validadas con proveedores conocidos de inteligencia empresarial y de procesos de extracción, transformación y carga (ETL) y algunos de ellos ofrecen actualmente pruebas gratuitas para ayudarlo a cargar y analizar los datos. También puede visitar AWS Marketplace para implementar y configurar soluciones diseñadas para funcionar con Amazon Redshift en cuestión de minutos.

Redshift Spectrum admite todas las herramientas cliente de Amazon Redshift. Las herramientas cliente pueden continuar conectadas al punto de enlace del clúster de Amazon Redshift con conexiones ODBC o JDBC. No deben realizarse modificaciones.

Puede utilizar exactamente la misma sintaxis de consultas y tiene las mismas capacidades de consultas para obtener acceso a las tablas en Redshift Spectrum que ya tiene para las tablas en el almacenamiento local de su clúster de Redshift. Se hace referencia a las tablas con el nombre de esquema definido en el comando CREATE EXTERNAL SCHEMA en el que se registraron.

P: ¿Qué formatos de datos y de compresión admite Redshift Spectrum?

Actualmente, Redshift Spectrum admite numerosos formatos de datos de código abierto, entre otros, Avro, CSV, Grok, Amazon Ion, JSON, ORC, Parquet, RCFile, RegexSerDe, Sequence, Text y TSV.

Actualmente, Redshift Spectrum admite compresión con Gzip y Snappy.

P: ¿Qué sucede si una tabla de mi almacenamiento local tiene el mismo nombre que una tabla externa?

De la misma manera que con las tablas locales, puede usar el nombre del esquema para escoger exactamente la que desea si incluye schema_name.table_name en su consulta.

P: Utilizo Hive Metastore para almacenar metadatos de mi lago de datos de S3. ¿Puedo usar Redshift Spectrum?

Sí. El comando CREATE EXTERNAL SCHEMA es compatible con Hive Metastore. Actualmente, no se admite DDL en Hive Metastore.

P: ¿Cómo obtengo una lista de todas las tablas de bases de datos externas creadas en mi clúster?

Puede realizar una consulta en la tabla de sistema SVV_EXTERNAL_TABLES para obtener esa información.

Monitoreo

P: ¿Cómo puedo monitorear el rendimiento del clúster de almacén de datos de Amazon Redshift?

Las métricas de uso de cómputo, uso de almacenamiento y tráfico de lectura y escritura del clúster de almacén de datos de Amazon Redshift están disponibles de forma gratuita a través de la consola de administración de AWS o de las API de Amazon CloudWatch. También puede añadir métricas adicionales definidas por el usuario a través de la funcionalidad de métricas personalizadas de Amazon CloudWatch. La consola de administración de AWS ofrece un panel de monitorización que lo ayuda a controlar el estado y el rendimiento de todos los clústeres. Amazon Redshift ofrece información sobre el rendimiento de las consultas y el clúster a través de la consola de administración de AWS. Esta situación le permite ver qué usuarios y consultas consumen la mayoría de los recursos del sistema para diagnosticar problemas de rendimiento mediante la visualización de planes de consultas y estadísticas de ejecuciones. Además, puede ver la utilización de recursos de cada nodo de cómputo para garantizar que dispone de datos y consultas equilibrados entre todos los nodos.

Mantenimiento

P: ¿Qué es un período de mantenimiento? ¿El clúster de almacén de datos estará disponible durante el mantenimiento del software?

Amazon Redshift realiza un mantenimiento periódico para aplicar correcciones, mejoras y nuevas características a su clúster. Puede cambiar los períodos de mantenimiento programados a través de la modificación del clúster, ya sea mediante programación o de la consola de Redshift. Durante estos períodos de mantenimiento, el clúster de Amazon Redshift no estará disponible para realizar operaciones normales. Para obtener más información sobre los períodos y programaciones de mantenimiento por región, consulte Períodos de mantenimiento en la guía de administración de Amazon Redshift.

Más información sobre los precios de Amazon Redshift

Visite la página de precios
¿Listo para crear?
Introducción a Amazon Redshift
¿Tiene más preguntas?
Contacte con nosotros