Aspectos generales

Descubra lo nuevo de Amazon Redshift en la página de novedades.
Para obtener información más detallada y asesoramiento sobre el uso, consulte la documentación.

P. ¿Qué es Amazon Redshift?

Amazon Redshift es el almacén de datos en la nube más utilizado. Permite, de manera rápida, simple y rentable, analizar sus datos mediante SQL estándar y herramientas de inteligencia empresarial existentes. Permite ejecutar consultas analíticas complejas en terabytes o petabytes de datos estructurados y semiestructurados con una sofisticada optimización de consultas, almacenamiento de alto rendimiento en columnas y ejecución masiva de consultas paralelas. La mayoría de los resultados se producen en segundos. Con Redshift, puede comenzar con poca capacidad por tan solo 0,25 USD por hora sin asumir ningún compromiso y aumentar la escala a varios petabytes de datos por 1000 USD por terabyte al año, menos de la décima parte del costo de las soluciones en las instalaciones tradicionales. Amazon Redshift también incluye Amazon Redshift Spectrum, que permite ejecutar consultas SQL directamente en exabytes de datos no estructurados en lagos de datos de Amazon S3. Ya no se necesitan cargas ni transformaciones y puede utilizar los siguientes formatos de datos abiertos: Avro, CSV, Grok, Amazon Ion, JSON, ORC, Parquet, RCFile, RegexSerDe, Sequence, Text, Hudi, Delta y TSV. Redshift Spectrum ajusta automáticamente la escala de la capacidad informática de consulta en función de los datos recuperados, por lo que las consultas en Amazon S3 se ejecutan con rapidez, independientemente del tamaño del conjunto de datos.

Amazon Redshift le ofrece la posibilidad de realizar consultas con rapidez en datos estructurados mediante la utilización de herramientas de inteligencia empresarial y clientes basados en SQL conocidos que utilizan las conexiones estándar ODBC y JDBC. Las consultas se distribuyen y paralelizan entre varios recursos físicos. Puede aumentar o reducir la escala de un almacenamiento de datos de Amazon Redshift con facilidad con tan solo unos clics en la consola de administración de AWS, o bien, con una única llamada a la API. Amazon Redshift crea parches y copias de seguridad del almacén de datos de manera automática, y almacena las copias durante un período de retención definido por el usuario. Amazon Redshift utiliza la replicación y las copias de seguridad continuas para aumentar la disponibilidad y mejorar la durabilidad de los datos, y puede realizar recuperaciones automáticamente tras el fallo de componentes y nodos. Además, Amazon Redshift admite características de seguridad líderes gracias a la integración con AWS IAM, identidad federada, control de acceso a nivel de columnas, Amazon Virtual Private Cloud (Amazon VPC), SSL, cifrado AES-256 e integración con AWS KMS de serie, para proteger sus datos en tránsito y en reposo. Todas las funciones de seguridad de Amazon Redshift se incluyen sin costo adicional.

Amazon Redshift se integra con AWS CloudTrail para que pueda auditar todas las llamadas a las API de Redshift. Redshift registra todas las operaciones SQL, como los intentos de conexión, las consultas y los cambios realizados en el almacén de datos. Puede obtener acceso a estos registros mediante la realización de consultas SQL en las tablas del sistema u optar por guardarlos en una ubicación segura de Amazon S3. Amazon Redshift cumple los requisitos de SOC 1, SOC 2, SOC 3 y PCI DSS de nivel 1.

Al igual que con los demás servicios de Amazon Web Services, no se requiere ninguna inversión inicial y solo tendrá que pagar por los recursos que utilice. Amazon Redshift le permite pagar en función del uso. Inclusive puede probar Amazon Redshift de manera gratuita.

Para obtener más información acerca de las regiones en las que Amazon Redshift está disponible, consulte la Tabla de regiones de AWS.

P: ¿Por qué debería usar Amazon Redshift en vez de un almacén de datos local?

La administración de almacenes de datos locales requiere bastante tiempo y recursos, en particular cuando se trata de conjuntos de datos grandes. Además, los costos económicos asociados con la compilación, el mantenimiento y el crecimiento de almacenes de datos locales y administrados automáticamente también son muy altos. A medida que aumente el volumen de los datos, debe compensar constantemente qué datos cargar en el almacén de datos y qué datos archivar en almacenamiento para poder administrar costos, conservar el nivel de complejidad de los procesos de extracción, transformación y carga (ETL) bajo y ofrecer un buen rendimiento. Amazon Redshift no solo reduce de manera significativa el costo y la carga operativa de un almacén datos, sino que con Redshift Spectrum también se facilita el análisis de grandes volúmenes de datos en su formato nativo sin la necesidad de cargarlos.

P: ¿Qué es AQUA (Advanced Query Accelerator) para Amazon Redshift?

AQUA es una nueva caché distribuida y acelerada por hardware que permite a Redshift funcionar hasta 10 veces más rápido que cualquier otro almacén de datos en la nube para empresas. Las arquitecturas de almacenamiento de datos existentes con almacenamiento centralizado requieren que los datos puedan transferirse a clústeres informáticos para ser procesados. Puesto que los almacenes de datos continuarán creciendo durante los próximos años, el ancho de banda necesario para mover todos estos datos supone un cuello de botella para el rendimiento de las consultas.

AQUA ofrece un nuevo enfoque para el almacenamiento de datos en la nube. AQUA incorpora la informática al almacenamiento al hacer que una parte sustancial de los datos se procese in situ en la innovadora caché. Además, utiliza procesadores diseñados por AWS y una arquitectura escalable para acelerar el procesamiento de datos más de lo que podría hacerlo cualquier CPU tradicional actual. Más información.

P: ¿Qué tipos de nodos admite AQUA?

AQUA admite los tipos de nodo RA3 .16XL y RA3 .4XL. Si actualmente utiliza los tipos de nodo DS2 o DC2, primero debe actualizar a los tipos de nodo RA3 .16XL o RA3 .4XL para aprovechar la aceleración de consultas de AQUA.

P: ¿Cómo se me cobrará y facturará por el uso que haga de AQUA?

AQUA viene incluido con el tipo de instancias Redshift RA3 sin costo adicional. Los detalles sobre los precios del nodo RA3 están disponibles aquí.

P: ¿Cómo puedo activar o desactivar AQUA para mi almacén de datos Redshift?

Para los clústeres de Redshift que se ejecutan en nodos RA3, puede activar o desactivar AQUA a nivel de clúster mediante la consola, la CLI o la API de Redshift. Es necesario reiniciar el clúster para que la configuración surta efecto. En el caso de los clústeres de Redshift que se ejecutan en nodos DC, DS o de generaciones anteriores, debe actualizar primero a nodos RA3 y activar o desactivar AQUA. La configuración por defecto de AQUA es Automática, por lo que Redshift determina si AQUA está activado o desactivado. Esta configuración es una propiedad a nivel de clúster, por lo que una vez establecida se aplica a todas las bases de datos, esquemas y consultas del clúster.

P: ¿Qué tipo de consultas acelera AQUA?

AQUA acelera las consultas analíticas al ejecutar las tareas intensivas de datos, como los análisis, el filtrado y la adición, más cerca de la capa de almacenamiento, por medio de un hardware especialmente diseñado para ello. La mejora de rendimiento más notable se produce en las consultas que requieren grandes análisis, especialmente las que tienen predicados LIKE y SIMILAR_TO. Con el tiempo, los tipos de consultas que se aceleran con AQUA aumentarán.

P: ¿Cómo mantiene AQUA la seguridad de mis datos?

AQUA admite autenticación, cifrado, aislamiento y cumplimiento para mantener la seguridad de sus datos en reposo y en movimiento. La autenticación la gestiona Redshift mediante el servicio de autenticación de IAM de AWS. Para el cifrado, AQUA utiliza el canal cifrado TLS junto con las claves proporcionadas por el cliente para mantener seguros los datos en movimiento y en reposo en la caché.

P: ¿Cómo puedo saber qué consultas de mi clúster de Redshift están aceleradas por AQUA?

Puede consultar las tablas del sistema para ver las consultas aceleradas por AQUA.

P: ¿Qué es Redshift Spectrum?

Redshift Spectrum es una característica de Amazon Redshift que le permite ejecutar consultas en exabytes de datos no estructurados en Amazon S3, sin la necesidad de cargarlos ni de recurrir a procesos de extracción, transformación y carga (ETL). Cuando emite una consulta, va al punto de enlace de Amazon Redshift SQL, lo que genera y optimiza un plan de consulta. Amazon Redshift determina qué datos son locales y cuáles se encuentran en Amazon S3, genera un plan para minimizar el volumen de datos de Amazon S3 que necesita leerse, solicita a los empleados de Redshift Spectrum un grupo de recursos compartidos para leer y procesar datos de Amazon S3.

Redshift Spectrum aumenta la escala a miles de instancias de ser necesario, por lo que las consultas se ejecutan de forma rápida independientemente del volumen de los datos. Además, puede usar exactamente los mismos datos de SQL for Amazon S3 que utiliza para sus consultas en Amazon Redshift y conectarse al mismo punto de enlace de Amazon Redshift con sus herramientas de inteligencia empresarial. Redshift Spectrum permite separar el almacenamiento de la capacidad informática, por lo que puede ajustar la escala de cada uno de forma independiente. Puede configurar tantos clústeres de Amazon Redshift como necesite para realizar consultas en su lago de datos de Amazon S3, lo que brinda alta disponibilidad y simultaneidad ilimitada. Redshift Spectrum ofrece la posibilidad de almacenar los datos donde desee, en el formato que quiera y de una forma que se encuentren disponibles para procesarlos cuando los necesite. Para obtener más información acerca de las regiones en las que Redshift Spectrum se encuentra disponible, visite la página de precios de Amazon Redshift.

P: ¿En qué se diferencia AQUA del uso de Redshift Spectrum?

Redshift Spectrum está diseñado para permitir consultas sobre formatos abiertos almacenados en Amazon S3. Los formatos abiertos pueden ser consultados por varios motores, como Amazon EMR, que admite Apache Spark, o Amazon Athena, que admite una experiencia sin servidor. Redshift Spectrum no admite actualizaciones transaccionales y no es compatible con el formato nativo optimizado de Redshift que se usa para almacenar datos recibidos en Redshift. El uso de Redshift Spectrum requiere una definición explícita de una tabla externa, mientras que AQUA opera en tablas nativas de Redshift. Spectrum es ideal para ejecutar consultas poco frecuentes en datos inactivos de forma integrada desde su clúster de Redshift.

AQUA acelera la capacidad de Redshift para ESCANEAR y AGREGAR grandes volúmenes de datos que forman parte de su base de datos de Redshift. Incluso cuando se aprovecha AQUA, Redshift mantiene el soporte para las transacciones, y AQUA siempre operará con los datos más recientes.

P: ¿En qué consiste el almacenamiento administrado de Amazon Redshift?

El almacenamiento administrado de Amazon Redshift está disponible con los tipos de nodo RA3 y le permite escalar y pagar por recursos informáticos y almacenamiento de forma independiente, de modo que puede decidir el tamaño del clúster según sus necesidades informáticas. Este servicio utiliza almacenamiento local basado en SSD de alto rendimiento, como caché de nivel 1, y saca partido de optimizaciones como la temperatura de bloqueo de datos, la edad de bloqueo de datos y patrones de carga de trabajo para brindar un alto rendimiento a la vez que se escala de forma automática el almacenamiento a Amazon S3 cuando es necesario, sin tener que realizar ninguna acción.

P: ¿Cómo utilizo el almacenamiento administrado de Amazon Redshift?

Si ya utiliza los tipos de nodo DC o DS de Amazon Redshift, puede actualizar sus clústeres existentes a la nueva instancia informática RA3 para utilizar el almacenamiento administrado. También puede crear un nuevo clúster basado en la instancia RA3 y, de este modo, el almacenamiento administrado se incluirá de forma automática. No se requiere ninguna otra acción para usar esta capacidad.

P: ¿Cómo simplifica Amazon Redshift la administración del almacenamiento de datos?

Amazon Redshift administra el trabajo necesario para configurar, operar y escalar un almacén de datos. Por ejemplo, aprovisiona la capacidad de infraestructura, automatiza tareas administrativas continuas como copias de seguridad, aplicación de parches y monitoreo de nodos y unidades para recuperarse de errores. Redshift también tiene funciones de ajuste automático y recomendaciones de apariencia para administrar su almacén de datos en Redshift Advisor. Para Redshift Spectrum, Amazon Redshift administra toda la infraestructura informática, el equilibrio de cargas, la planificación, el cronograma y la ejecución de sus consultas en datos almacenados en Amazon S3.

P. ¿Cuál es el rendimiento de Amazon Redshift en comparación con las bases de datos en las instalaciones respecto a almacenamiento y análisis de datos?

Amazon Redshift utiliza una serie de innovaciones para conseguir un rendimiento hasta diez veces superior al de las bases de datos tradicionales para las cargas de trabajo de almacenamiento y análisis de datos. Estas innovaciones incluyen:

  • Almacenamiento de datos en columnas: en lugar de almacenar los datos como una serie de filas, Amazon Redshift los organiza en columnas. A diferencia de los sistemas basados en filas, que resultan ideales para procesar transacciones, los sistemas basados en columnas son ideales para el almacenamiento y el análisis de datos, donde las consultas suelen implicar operaciones agregadas con grandes conjuntos de datos. Dado que solo se procesan las columnas implicadas en las consultas y que los datos organizados en columnas se almacenan de manera secuencial en los medios de almacenamiento, los sistemas basados en columnas requieren muchas menos operaciones de E/S, lo que conlleva un aumento significativo del rendimiento de las consultas.
  • Compresión avanzada: los almacenes de datos organizados en columnas se pueden comprimir mucho más que los que están organizados en filas, ya que los datos similares se almacenan en el disco de manera secuencial. Amazon Redshift utiliza varias técnicas de compresión y, a menudo, puede alcanzar un alto nivel de compresión en comparación con los almacenes de datos relacionales tradicionales. Al cargar datos en una tabla vacía, Amazon Redshift los analiza automáticamente y selecciona el esquema de compresión más apropiado.
  • Procesamiento paralelo de forma masiva (MPP): Amazon Redshift distribuye automáticamente los datos y la carga de consultas entre todos los nodos. Amazon Redshift facilita la incorporación de nodos al almacén de datos y le permite mantener un rendimiento rápido de las consultas a medida que crece el almacén de datos.
  • Redshift Spectrum: Redshift Spectrum le permite ejecutar consultas en exabytes de datos en Amazon S3. No es necesario realizar cargas ni ETL. Aunque no almacene ningún dato en Amazon Redshift, aún así puede usar Redshift Spectrum para realizar consultas en conjuntos de datos de hasta un exabyte en Amazon S3. Cuando emite una consulta, va al punto de enlace de Amazon Redshift SQL, lo que genera un plan de consulta. Amazon Redshift determina qué datos son locales y cuáles se encuentran en Amazon S3, genera un plan para minimizar el volumen de datos de Amazon S3 que necesita leerse, solicita a los nodos de trabajo de Amazon Redshift Spectrum de un grupo de recursos compartidos que lean y procesen datos de Amazon S3 y obtiene los resultados de nuevo en el clúster de Amazon Redshift para cualquier procesamiento restante.
  • Vistas materializadas: las vistas materializadas brindan un rendimiento de consultas mucho más rápido para las cargas de trabajo analíticas repetidas y predecibles, como paneles, consultas de herramientas de inteligencia empresarial y procesamiento de datos ELT (extracción, transformación y carga). Las vistas materializadas le permiten almacenar los resultados de consultas computados previamente y mantenerlos con eficiencia mediante el procesamiento gradual de los cambios más recientes en las tablas de origen. Las consultas posteriores que citan las vistas materializadas usan los resultados computados previamente para funcionar más rápido y actualizaciones automáticas y capacidad de reescritura de consultas para simplificar y automatizar el uso de vistas materializadas. Las vistas materializadas pueden crearse según una o más tablas de origen mediante filtros, proyecciones, combinaciones internas, agregaciones, agrupaciones, funciones y otras construcciones de SQL.
  • Escalabilidad: la capacidad informática y de almacenamiento de los almacenes de datos en las instalaciones está limitada por las restricciones del hardware que utiliza. Redshift le ofrece la posibilidad de escalar los recursos informáticos y el almacenamiento según sea necesario para adaptarse a cargas de trabajo cambiantes.
  • La optimización automática de tablas (ATO) es una capacidad de autoajuste que lo ayuda a alcanzar beneficios de rendimiento de clasificación y distribución de claves sin esfuerzo manual. La ATO observa continuamente cómo interactúan las consultas con las tablas y utiliza el aprendizaje electrónico para seleccionar las mejores claves de clasificación y distribución con el fin de optimizar el rendimiento para la carga de trabajo del clúster. Si Redshift determina que la aplicación de una clave mejorará el rendimiento del clúster, las tablas se modificarán automáticamente en cuestión de horas sin necesidad de que el administrador intervenga. Las optimizaciones realizadas por la función de ATO demostraron aumentar el rendimiento de clústeres un 24 % y 34 % al usar el parámetro TPC-DS de 3TB y 30TB, respectivamente, en comparación con un clúster sin ATO. Las funciones adicionales como Automatic Vacuum Delete, Automatic Table Sort y Automatic Analyze eliminan la necesidad de realizar mantenimiento manual y de ajustar los clústeres de Redshift y así obtener el mejor rendimiento para nuevos clústeres y cargas de trabajo de producción.
  • Amazon Redshift Advisor desarrolla recomendaciones personalizadas para aumentar el rendimiento y optimizar costos al analizar la carga de trabajo y las métricas de uso para su clúster. Inicie sesión en la consola de Amazon Redshift para ver recomendaciones de Advisor. Para obtener más información, consulte Trabajar con recomendaciones de Amazon Redshift Advisor.

P. ¿Cómo puedo comenzar a utilizar Amazon Redshift?

Puede inscribirse y comenzar a utilizar la solución en cuestión de minutos desde la página de detalles de Amazon Redshift o a través de la consola de administración de AWS. Si aún no tiene una cuenta de AWS, se le pedirá que cree una. Visite la página de introducción para averiguar de qué forma puede probar Amazon Redshift sin cargo.

P: ¿Cómo puedo crear un clúster de almacén de datos de Amazon Redshift y luego obtener acceso a él?

Con la consola de administración de AWS o las API de Amazon Redshift puede crear fácilmente un clúster de almacén de datos de Amazon Redshift. Puede comenzar con un almacenamiento de datos de 160 GB y un único nodo y, posteriormente, aumentar la escala a un petabyte o más con tan solo unos clics en la consola de AWS o con una única llamada a la API.

La configuración de un solo nodo (la más adecuada para la evaluación, el desarrollo o prueba de cargas de trabajo) le permite comenzar a utilizar Amazon Redshift de forma rápida y rentable, además de ajustar la escala a una configuración de varios nodos a medida que aumenten sus necesidades. Un clúster de almacén de datos de Redshift puede contener desde 1 hasta 128 nodos de cómputo, en función del tipo de nodo de que se trate. Para el tipo de nodo de última generación, RA3, la cantidad mínima de nodos es dos. Para obtener más detalles, consulte nuestra documentación.

La configuración de varios nodos requiere un nodo principal que administre las conexiones de cliente y reciba consultas, así como dos nodos de cómputo que almacenen datos y realicen consultas y cálculos. El nodo principal, que tiene el mismo tamaño que el nodo informático, se aprovisiona automáticamente y, además, no se aplica ningún cargo.

Solo tiene que especificar la zona de disponibilidad preferida (opcional), el número de nodos, los tipos de nodos, un nombre y una contraseña principales, los grupos de seguridad, las preferencias personales de retención de copias de seguridad y otra configuración del sistema. Cuando haya elegido la configuración deseada, Amazon Redshift aprovisionará los recursos necesarios y configurará el clúster de almacén de datos.

Cuando el clúster de almacén de datos esté disponible, puede recuperar su punto de enlace y la cadena de conexión a JDBC y ODBC desde la consola de administración de AWS o con las API de Redshift. A continuación, puede utilizar esta cadena de conexión según sus preferencias en cuanto a la herramienta de base de datos, el lenguaje de programación o la herramienta de inteligencia empresarial. Debe autorizar las solicitudes de red en el clúster de almacén de datos en ejecución. Para obtener una explicación detallada, consulte la Guía de introducción.

P: ¿Qué capacidad de almacenamiento máxima tiene cada nodo de cómputo? ¿Cuál es el volumen de datos por nodo de cómputo recomendado para obtener un rendimiento óptimo?

Puede crear un clúster con los tipos de nodos RA3, DC o DS. Los tipos de nodos RA3 le permiten ajustar la escala de las capacidades de cómputo y almacenamiento y pagar por ellas de forma independiente. Seleccione la cantidad de instancias que necesita en función de los requisitos de rendimiento y solo pague por el almacenamiento administrado que utilice.

Los tipos de nodo RA3 están disponibles en tres tamaños, RA3.16XL, RA3.4XL y RA3.XLPLUS. Cada nodo RA3.16XL tiene 48 vCPU, 384 GiB de memoria y admite 8 GB/s IO. Ambos clústeres RA3.16XL y RA3.4XL se ejecutan con un mínimo de dos nodos, y el clúster de dos nodos de tamaño mínimo RA3.16XL o RA3.4XL ofrece 128 TB de almacenamiento administrado. La cuota de almacenamiento administrado por nodo, tanto para RA3.16XL como para RA3.4XL, es de 64 TB. Los clústeres RA3.16XL pueden escalar hasta 128 nodos, lo que le permite crear un clúster con hasta 8 petabytes en almacenamiento administrado. Un nodo RA3.4XL tiene 12 vCPU, 96 GiB de memoria y admite 2 GB/s IO. Los clústeres RA3.4XL pueden escalar hasta 64 nodos, lo que le permite crear un clúster con hasta 4 petabytes de almacenamiento administrado. Un nodo RA3.XLPLUS tiene 4vCPU, 32GiB de memoria y admite 650 MB IO. Los clústeres RA3.XLPLUS pueden escalar hasta 32 nodos, lo que le permite crear un clúster con hasta 5 petabytes en almacenamiento administrado. Nota: Todos los tamaños de almacenamiento administrado que se mencionan aquí son para datos comprimidos. Redshift comprime los datos hasta una tercera o cuarta parte de su tamaño, de modo que los datos sin comprimir pueden tener un valor 3 o 4 veces superior al que aquí se menciona.

Los tipos de nodo DC también están disponibles en dos tamaños. El grande tiene 160 GB de almacenamiento SSD, dos núcleos virtuales Intel Xeon E5-2670v2 (Ivy Bridge) y 15 GiB de RAM. El extragrande óctuple es dieciséis veces más grande, con 2,56 TB de almacenamiento SSD, 16 núcleos virtuales Intel Xeon E5-2670v2 y 244 GiB de RAM. Puede comenzar con un único nodo DC2.Large por 0,25 USD por hora y aumentar la escala a 128 nodos extragrandes óctuples con 326 TB de almacenamiento SSD, 3200 núcleos virtuales y 24 TiB de RAM.

Los tipos de nodo DS se encuentran disponibles en dos tamaños, extragrande o extragrande óctuple. El tamaño extragrande (XL) incorpora tres HDD con un total de 2 TB de almacenamiento magnético, mientras que el extragrande óctuple (8XL) cuenta con 24 HDD con un total de 16 TB de almacenamiento magnético. DS2.8XLarge dispone de 36 núcleos virtuales Intel Xeon E5-2676 v3 (Haswell) y 244 GiB de RAM, mientras que DS2.XL incorpora cuatro núcleos virtuales Intel Xeon E5-2676 v3 (Haswell) y 31 GiB de RAM.

Consulte nuestra página de precios para obtener más detalles.

P: ¿Qué diferencia de uso existe entre Amazon Redshift y Amazon RDS?

Tanto Amazon Redshift como Amazon RDS permiten ejecutar bases de datos relacionales tradicionales en la nube. Así logramos reducir los procesos administrativos de base de datos. Los clientes utilizan bases de datos de Amazon RDS principalmente para cargas de trabajo de procesamiento de transacciones online (OLTP), mientras que Redshift se usa en mayor medida para generación de informes y análisis. Las cargas de trabajo OLTP requieren información específica de consulta con rapidez, y Amazon RDS administra mejor transacciones como introducción, actualización y eliminación. Amazon Redshift utiliza la escala y los recursos de varios nodos, además de una serie de optimizaciones, para ofrecer mejoras sustanciales en relación con las bases de datos tradicionales para cargas de trabajo de análisis y generación de informes con conjuntos de datos muy grandes. Amazon Redshift ofrece una opción excelente de escalado a medida que aumenta la complejidad de los datos y las consultas si quiere prevenir que el procesamiento de informes y análisis interfiera en el rendimiento de la carga de trabajo de OLTP. Ahora, con la nueva característica de consulta federada, puede realizar consultas en datos con facilidad en servicios de bases de datos de Amazon RDS o Aurora con Amazon Redshift.

P: ¿Qué diferencia de uso existe entre Amazon Redshift o Redshift Spectrum y Amazon EMR?

Debería utilizar Amazon EMR si usa código personalizado para procesar y analizar conjuntos de datos extremadamente grandes con marcos de procesamiento de big data como Spark, Hadoop, Presto o Hbase. Amazon EMR le brinda el control total de la configuración de los clústeres y del software que instale en ellos.

Los almacenes de datos como Amazon Redshift están diseñados para un tipo diferente de análisis en general. Los almacenes de datos están diseñados para reunir datos a partir de muchas fuentes diferentes, como sistemas de inventario, financieros y ventas minoristas. Para garantizar que la generación de informes sea precisa continuamente en toda la compañía, los almacenes de datos guardan los datos de una manera muy estructurada. Esta estructura crea reglas de coherencia de datos directamente en las tablas de la base de datos. Amazon Redshift es el mejor servicio cuando necesita realizar consultas complejas en colecciones masivas de datos estructurados y semiestructurados y obtener un rendimiento extremadamente alto.

Si bien la característica Redshift Spectrum es excelente para ejecutar consultas en datos en Amazon Redshift y S3, no funciona para los tipos de casos de uso que las empresas normalmente solicitan a marcos de procesamiento como Amazon EMR. Amazon EMR no se limita a la ejecución de consultas SQL. Amazon EMR es un servicio administrado que le permite procesar y analizar conjuntos de datos extremadamente grandes con las versiones más recientes de marcos de procesamiento de big data conocidos, como Spark, Hadoop y Presto, en clústeres completamente personalizables. Con Amazon EMR, puede ejecutar una gran variedad de tareas de procesamiento de datos de escalado para aplicaciones como el aprendizaje automático, el análisis de gráficos, la transformación de datos, el streaming de datos y prácticamente cualquier cosa que pueda codificar.

Puede utilizar Redshift Spectrum con EMR. Redshift Spectrum usa la misma estrategia de almacenamiento de definiciones de tablas que Amazon EMR. Redshift Spectrum es compatible con el mismo Apache Hive Metastore que utiliza Amazon EMR para encontrar datos y definiciones de tablas. Si utiliza Amazon EMR y ya tiene Hive Metastore, tan solo debe configurar su clúster de Amazon Redshift para usarlo. A continuación, puede empezar a realizar consultas de inmediato junto con sus trabajos de Amazon EMR. Por lo tanto, si ya utiliza EMR para procesar un almacén de datos grande, puede usar Redshift Spectrum para realizar consultas en esos datos al mismo tiempo sin interrumpir sus trabajos de Amazon EMR.

Todos los servicios de consultas, los almacenes de datos y los marcos de procesamiento de datos complejos tienen su lugar y se utilizan para diferentes fines. Simplemente tiene que elegir la herramienta adecuada para el trabajo.

P: ¿Cuándo debería utilizar Amazon Athena en lugar de Redshift Spectrum?

Amazon Athena es la manera más simple de brindarle a cualquier empleado la capacidad para ejecutar consultas ad-hoc en Amazon S3. Athena no tiene servidor, por lo que no es necesario configurar ni administrar infraestructura, y puede comenzar a analizar los datos al instante.

Si tiene datos de acceso frecuente, estos deben almacenarse en un formato muy estructurado y estable, y luego utilizar un almacén de datos como Amazon Redshift. Esto le brinda la flexibilidad para almacenar sus datos estructurados de acceso frecuente en Amazon Redshift y utilizar Redshift Spectrum para ampliar sus consultas de Amazon Redshift a los datos de su lago de datos de Amazon S3. Esto le ofrece la libertad de almacenar los datos donde desee, en el formato que quiera y de forma que se encuentren disponibles para procesarlos cuando lo necesite.

P: ¿Por qué debo utilizar Amazon Redshift en lugar de ejecutar mi propio clúster de almacén de datos MPP en Amazon EC2?

Amazon Redshift administra automáticamente muchas de las tareas que requieren bastante tiempo y que están asociadas con la administración de su propio almacén de datos, entre otras:
  • Configuración: con Amazon Redshift, solo tiene que crear un clúster de almacén de datos, definir su esquema y comenzar a cargar y consultar datos. No tiene que encargarse de administrar el aprovisionamiento, la configuración o la aplicación de parches.
  • Durabilidad de los datos: Amazon Redshift replica los datos en el clúster de almacén de datos y realiza copias de seguridad de los datos continuamente en Amazon S3, que está diseñado para ofrecer un 99,999999999 % de durabilidad. Amazon Redshift refleja cada dato de la unidad en otros nodos dentro del clúster. Si una unidad falla, las consultas continuarán con un ligero aumento de la latencia mientras Redshift recompila la unidad a partir de las réplicas. En caso de que falle algún nodo, Amazon Redshift aprovisiona automáticamente los nuevos nodos y comienza a restablecer los datos desde otras unidades del clúster o desde Amazon S3. Da prioridad al restablecimiento de los datos consultados con mayor frecuencia, de manera que las consultas ejecutadas con mayor frecuencia comiencen a ofrecer rendimiento con rapidez.
  • Ajuste de escala: puede añadir o eliminar nodos del clúster del almacenamiento de datos de Amazon Redshift con una única llamada a la API o con unos clics en la consola de administración de AWS a medida que cambien las necesidades de capacidad y rendimiento. También puede programar las operaciones de ajuste de escala y tamaño mediante el uso de la capacidad de programador de Redshift.
  • Actualizaciones e implementaciones de parches automáticas: Amazon Redshift aplica actualizaciones y parches automáticamente al almacén de datos para que usted pueda enfocarse en la aplicación y no en su administración.
  • Capacidad para realizar consultas a escala de exabytes: Redshift Spectrum le permite ejecutar consultas en exabytes de datos en Amazon S3. No es necesario realizar cargas ni ETL. Aunque no almacene ningún dato en Amazon Redshift, aún así puede usar Redshift Spectrum para realizar consultas en conjuntos de datos de hasta un exabyte en Amazon S3.

Facturación

P: ¿Qué cargos y facturación se me aplicarán por utilizar Amazon Redshift?

Solo tiene que pagar por lo que utilice y no hay costos mínimos ni de configuración. Amazon Redshift admite la capacidad de pausar y reanudar un clúster, lo que le permite suspender fácilmente la facturación bajo demanda cuando el clúster no se está utilizando. Por ejemplo, puede suspender la computación de la facturación de un clúster utilizado para el desarrollo cuando no está en uso. Cuando se pausa el clúster, solo se factura por el almacenamiento del clúster. Para cargas de trabajo de producción de estado, puede beneficiarse de descuentos significativos respecto a los precios de instancias bajo demanda al cambiar a instancias reservadas.

La facturación del clúster de almacén de datos comienza en cuanto este se encuentra disponible. La facturación continúa hasta que termina el clúster de almacén de datos, situación que se produciría al eliminarlo o en caso de producirse un error en la instancia. Su facturación se realiza según los siguientes aspectos:

  • Horas de nodos de ejecución: las horas de nodos de ejecución constituyen el número total de horas durante las cuales se ejecutan todos los nodos de ejecución en un período de facturación. Las horas de uso de nodos se facturan por cada hora durante la cual se ejecuta el clúster de almacén de datos en un estado de disponibilidad. Si ya no desea que se le apliquen cargos por su clúster de almacén de datos, debe terminarlo para que no se le facturen horas de nodo adicionales. Las horas de nodo parciales consumidas se facturan como horas completas. Se factura 1 unidad por nodo por hora, por lo que un clúster de almacén de datos de 3 nodos que se ejecute durante un mes entero incurriría en 2160 horas de instancia. No se le aplicará ningún cargo por las horas de nodos principales. Solo se cobrarán los nodos de ejecución.
  • Almacenamiento administrado: se utiliza la tarifa mensual por GB fija de su región para cobrar los datos almacenados en almacenamiento administrado. El almacenamiento administrado viene incluido exclusivamente en los tipos de nodos RA3 y paga la misma tarifa baja para el almacenamiento administrado de Redshift independientemente del tamaño de los datos. El uso del almacenamiento administrado se calcula por hora en base al total de datos presente en el almacenamiento administrado. Puede controlar el volumen de datos en el clúster de RA3 mediante Amazon CloudWatch o la consola de administración de AWS. No deberá pagar cargos de transferencia de datos entre nodos RA3 y el almacenamiento administrado. Los cargos de almacenamiento administrado no incluyen cargos de almacenamiento de copias de seguridad debido a la generación de instantáneas manuales o automatizadas. Se continúa cobrando la retención de copias de seguridad manuales aunque se apague el clúster.
  • Almacenamiento de copias de seguridad: El almacenamiento de copias de seguridad es el tipo de almacenamiento asociado con las instantáneas sacadas de su almacén de datos. La extensión del periodo de retención de las copias de seguridad o realización de instantáneas adicionales, aumenta el almacenamiento de copias de seguridad que el almacén de datos consume. Redshift cobra por las instantáneas manuales que toman con la consola, la API o la CLI. Las instantáneas automatizadas de Redshift, que se crean utilizando la función de programación de instantáneas de Redshift, no se cobran. Los datos almacenados en clústeres RA3 son parte del almacenamiento administrado de Redshift (RMS) y se facturan a tarifas de RMS, pero las instantáneas manuales tomadas para clústeres RA3 se facturan como almacenamiento de copias de seguridad según las tarifas estándar de Amazon S3 descritas en esta página. Por ejemplo, si su clúster RA3 tiene 10 TB de datos y 30 TB de instantáneas manuales, se le facturarán 10 TB de RMS y 30 TB de almacenamiento de respaldo. Con los clústeres de computación de alta densidad (DC) y de almacenamiento de alta densidad (DS), el almacenamiento se incluye en el clúster y no se factura por separado, pero las copias de seguridad se almacenan externamente en S3. El almacenamiento de copias de seguridad que excede al almacenamiento aprovisionado en clústeres de DC y DS se factura como almacenamiento de copias de seguridad a las tarifas estándar de Amazon S3. Las instantáneas se facturan hasta que caducan o se eliminan y también cuando el clúster se pausa o elimina.
  • Transferencia de datos: no existen cargos por transferencia de datos desde o hacia Amazon Redshift y Amazon S3 dentro de la misma región de AWS. Las demás transferencias de datos de entrada y salida de Amazon Redshift se facturarán de acuerdo con las tarifas de transferencia de datos de AWS estándar.
  • Datos analizados: con Redshift Spectrum, se le cobra el volumen de datos de Amazon S3 analizados para ejecutar su consulta. No hay cargos por Redshift Spectrum cuando no se ejecutan consultas. Si almacena datos en un formato de columna, como Parquet o RC, el costo será menor, ya que Redshift Spectrum solo analizará las columnas necesarias para la consulta, en lugar de procesar filas completas. Del mismo modo, si comprime los datos con uno de los formatos compatibles con Redshift Spectrum, los costos también se reducirán. Pagará las tarifas estándar de Amazon S3 por el almacenamiento de datos y las tarifas de instancia de Amazon Redshift por el clúster utilizado.
  • Escalada de simultaneidad: con el escalado de simultaneidad, Amazon Redshift agrega automáticamente capacidad transitoria para ofrecer un rendimiento constante y rápido, incluso con miles de usuarios y consultas en simultáneo. No tiene que administrar recursos, no hay costos iniciales y no se cobra el tiempo de arranque o apagado de los clústeres transitorios. Puede acumular una hora de créditos para clústeres destinados al ajuste de escala de simultaneidad cada 24 horas mientras el clúster principal se encuentre en ejecución. Se le cobrará la tarifa bajo demanda por segundo de un clúster de ajuste de escala simultáneo que se utilice cuando se superen los créditos gratuitos (solo cuando atiendan sus consultas) con un cargo mínimo de un minuto cada vez que se active un clúster de ajuste de escala de simultaneidad. La tarifa bajo demanda por segundo se basa en el tipo y la cantidad de nodos en su clúster de Amazon Redshift.

Si no se especifica lo contrario, nuestros precios no incluyen los impuestos ni los gravámenes correspondientes, como el IVA y cualquier otro impuesto sobre las ventas aplicable. En el caso de los clientes con una dirección de facturación de Japón, el uso de los servicios de AWS está sujeto al impuesto de consumo nipón. Más información.

Para obtener acceso a la información sobre los precios de Amazon Redshift, visite la página de precios de Amazon Redshift.

Integración y carga de datos

P: ¿Cómo puedo cargar datos en el almacén de datos de Amazon Redshift?

Puede cargar datos en Amazon Redshift desde una amplia variedad de orígenes de datos, entre otros, Amazon S3, Amazon RDS, Amazon DynamoDBAmazon EMR, AWS Glue, AWS Data Pipeline o cualquier host con SSH habilitado en Amazon EC2 o en las instalaciones. Amazon Redshift intenta cargar los datos en paralelo en cada nodo de ejecución para maximizar la velocidad a la que puede incorporar datos en el clúster de almacén de datos. Los clientes pueden conectarse a Amazon Redshift mediante ODBC o JDBC y enviar comandos "insert" de SQL para insertar los datos. Tenga en cuenta que este procedimiento es más lento que utilizar S3 o DynamoDB porque dichos métodos cargan datos en paralelo en cada nodo de cómputo, mientras que las instrucciones “insert” de SQL se cargan a través del único nodo principal. Para obtener más detalles sobre la carga de datos en Amazon Redshift, consulte la guía de introducción.

P: ¿Cómo puedo cargar datos en Amazon Redshift desde mis orígenes de datos existentes en Amazon RDS, Amazon EMR, Amazon DynamoDB y Amazon EC2?

Puede usar el comando COPY para cargar datos en paralelo directamente a Amazon Redshift desde Amazon EMR, Amazon DynamoDB o cualquier host con SSH habilitado. Redshift Spectrum también le permite cargar datos desde Amazon S3 a su clúster con un comando INSERT INTO simple. Esto podría permitirle cargar datos de diferentes formatos, como Parquet y RC, a su clúster. Tenga en cuenta que si utiliza esta estrategia, incurrirá en cargos de Redshift Spectrum por los datos analizados de Amazon S3. 

Además, muchas empresas dedicadas a los procesos de extracción, transformación y carga (ETL) han certificado Amazon Redshift para usarlo con sus herramientas y varias de ellas ofrecen pruebas gratuitas para ayudarlo a cargar los datos. AWS Data Pipeline ofrece una solución tolerante a errores, de confianza y de alto desempeño para cargar datos desde varias fuentes de datos de AWS, por ejemplo, desde Amazon RDS a Redshift. Puede utilizar AWS Data Pipeline para especificar el origen de datos, las transformaciones deseadas de los datos y, a continuación, ejecutar una secuencia de comandos de importación pregrabada para cargar los datos en Amazon Redshift. Además, AWS Glue es un servicio de extracción, transformación y carga (ETL) completamente administrado que facilita la preparación y carga de datos para su análisis. Puede crear y ejecutar un trabajo de ETL de AWS Glue con tan solo unos clics en la consola de administración de AWS.

P: Tengo muchos datos para hacer la primera carga en Amazon Redshift. Transferirlos por Internet llevaría mucho tiempo. ¿Cómo puedo cargarlos?

Puede utilizar AWS Snowball para transferir los datos a Amazon S3 mediante el uso de dispositivos portátiles de almacenamiento. Además, puede utilizar AWS Direct Connect para establecer una conexión de red privada entre la red o el centro de datos y AWS. Puede elegir puertos de conexión de 1 Gbit/s o de 10 Gbit/s para transferir los datos.

Seguridad

P: ¿De qué manera protege los datos Amazon Redshift?

Amazon Redshift admite características de seguridad líderes gracias a la integración con AWS IAM de serie, identidad federada para inicio de sesión único (SSO), autenticación multifactor, control de acceso a nivel de columnas, Amazon Virtual Private Cloud (Amazon VPC) e integración con AWS KMS de serie para proteger sus datos en tránsito y en reposo. Amazon Redshift cifra los datos y los mantiene protegidos, tanto en tránsito como en reposo, mediante la utilización de técnicas de cifrado estándar del sector. Para mantener los datos protegidos mientras están en tránsito, Amazon Redshift admite las conexiones con SSL habilitado entre la aplicación cliente y el clúster de almacén de datos de Redshift. Para mantener los datos protegidos mientras están en reposo, Amazon Redshift cifra cada bloque con AES-256 acelerado por hardware a medida que se graba en el disco. Esto tiene lugar en un nivel bajo del subsistema de E/S, que cifra todo lo que se graba en el disco, incluidos los resultados de consulta intermedios. Las copias de seguridad de los bloques se realizan con los bloques tal cual, lo que significa que las copias también se cifran. De forma predeterminada, Amazon Redshift se encarga de administrar las claves, pero puede optar por administrarlas mediante AWS Key Management Service. Todas las funciones de seguridad de Amazon Redshift se ofrecen sin costo adicional. Redshift Spectrum es compatible con el cifrado del lado del servidor (SSE) de Amazon S3 mediante el uso de la clave predeterminada de su cuenta que utiliza AWS Key Management Service (KMS).

P: ¿Redshift es compatible con controles de acceso pormenorizado como seguridad a nivel de columnas?

Sí. Los controles de seguridad a nivel de columnas garantizan que los usuarios solo vean los datos a los cuales tienen acceso. Amazon Redshift es compatible con control de acceso a nivel de columnas para tablas locales, de modo que puede controlar el acceso a las columnas individuales de una tabla o visualización al conceder o revocar privilegios a nivel de columnas a un usuario o a un grupo de usuarios. Redshift se integra con AWS Lake Formation, lo que garantiza que los controles de acceso a nivel de columnas de Lake Formation también se apliquen a consultas de Redshift en los datos del lago de datos.

P: ¿Amazon Redshift es compatible con el enmascaramiento de datos o la tokenización de datos?

Las funciones definidas por el usuario (UDF) de Amazon Lambda permiten utilizar una función de AWS Lambda como una UDF en Amazon Redshift e invocarla en las consultas SQL de Redshift. Esta funcionalidad le permite escribir extensiones personalizadas para su consulta de SQL y lograr una mejor integración con otros servicios o productos de terceros. Puede escribir las UDF para habilitar la tokenización externa, el enmascaramiento de datos, la identificación o desidentificación de datos al integrarse con proveedores como Protegrity y proteger o desproteger datos confidenciales basados en los permisos y grupos del usuario, en momentos de consultas.

P: ¿Redshift admite el inicio de sesión único?

Sí. Los clientes que quieran utilizar sus proveedores de identidad corporativa como Active Directory de Microsoft Azure, los servicios federados de Active Directory, Okta, Ping Federate u otros proveedores de identidad en compatible con SAML que puedan configurar Amazon Redshift para ofrecer inicio de sesión único.

P: ¿Redshift admite inicio de sesión único con Microsoft Azure Active Directory?

Puede iniciar sesión mediante inicio de sesión único en el clúster de Amazon Redshift con identidades de Microsoft Azure Active Directory (AD). Esto le permite utilizar iniciar sesión en Redshift sin que estas identidades de Azure Active Directory se dupliquen en Redshift.

P: ¿Amazon Redshift es compatible con la autenticación multifactor (MFA)?

Sí. Puede utilizar la autenticación multifactor (MFA) para contar con seguridad adicional cuando se autentique en su clúster de Amazon Redshift.

P: ¿Puedo utilizar Amazon Redshift en Amazon Virtual Private Cloud (Amazon VPC)?

Sí, puede utilizar Amazon Redshift como parte de la configuración de VPC. Con Amazon VPC, podrá definir una topología de red virtual que refleje detalladamente una red tradicional que tenga instaurada en su propio centro de datos. Esto le permite ejercer un control total sobre quién puede obtener acceso al clúster de almacén de datos de Amazon Redshift. Puede usar Redshift Spectrum con un clúster de Amazon Redshift que forme parte de su VPC.

P: ¿Puedo obtener acceso directamente a los nodos de ejecución de Amazon Redshift?

No. Los nodos de ejecución de Amazon Redshift se encuentran en un espacio de red privado y solo se puede obtener acceso a ellos desde el nodo principal del clúster del almacén de datos. Esto ofrece a los datos una capa adicional de seguridad.

Disponibilidad y durabilidad

P: ¿Qué sucede con la durabilidad de los datos y la disponibilidad del clúster de almacén de datos si falla una unidad en alguno de los nodos?

Amazon Redshift detecta y reemplaza automáticamente el nodo defectuoso en el clúster de almacén de datos. El clúster de almacén de datos no estará disponible para consultas y actualizaciones hasta que se aprovisione un nodo de sustitución y se añada a la base de datos. Amazon Redshift habilita el nodo de sustitución de inmediato y carga los datos a los que se tiene acceso con más frecuencia desde S3 primero para permitirle reanudar las consultas de los datos lo más rápido posible. Los clústeres de un solo nodo no admiten la replicación de datos. Si ocurre un error en la unidad, deberá restablecer el clúster a partir de una instantánea de S3. Le recomendamos que utilice al menos dos nodos para la producción.

P: ¿Qué sucede con la durabilidad de los datos y la disponibilidad de un clúster de almacén de datos si se genera un error en un único nodo?

Amazon Redshift detecta y reemplaza automáticamente el nodo defectuoso en el clúster de almacén de datos. El clúster de almacén de datos no estará disponible para consultas y actualizaciones hasta que se aprovisione un nodo de sustitución y se añada a la base de datos. Amazon Redshift habilita el nodo de sustitución de inmediato y carga los datos a los que se tiene acceso con más frecuencia desde S3 primero para permitirle reanudar las consultas de los datos lo más rápido posible. Los clústeres de un solo nodo no admiten la replicación de datos. Si ocurre un error en la unidad, deberá restablecer el clúster a partir de una instantánea de S3. Le recomendamos que utilice al menos dos nodos para la producción.

P: ¿Qué sucede con la durabilidad de los datos y la disponibilidad de un clúster de almacén de datos si se produce un corte de energía en la zona de disponibilidad del clúster?

Si la zona de disponibilidad del clúster de almacén de datos de Amazon Redshift deja de estar disponible, Amazon Redshift moverá automáticamente el clúster a otra zona de disponibilidad de AWS sin que se pierdan datos o se produzcan cambios en la aplicación. Para activar esto, habilite la capacidad de reubicación en el ajuste de configuración del clúster.

P: ¿Amazon Redshift admite implementaciones Multi-AZ?

Actualmente, Amazon Redshift solo admite las implementaciones Single-AZ. Puede ejecutar clústeres de almacén de datos en varias zonas de disponibilidad (Multi-AZ). Para ello, debe cargar datos en dos clústeres de almacén de datos de Amazon Redshift de zonas de disponibilidad independientes desde el mismo conjunto de archivos de entrada de Amazon S3. Con Redshift Spectrum, puede configurar varios clústeres en zonas de disponibilidad y acceder a datos en Amazon S3 sin la necesidad de cargarlos en su clúster. Además, puede restablecer un clúster de almacén de datos en una zona de disponibilidad diferente desde las instantáneas del clúster de almacén de datos.

Copia de seguridad y restauración

P: ¿Cómo respalda Amazon Redshift los datos en copias de seguridad? ¿Cómo recupero un clúster a partir de una copia de seguridad?

Amazon Redshift replica todos los datos del clúster de almacén de datos cuando estos se cargan y, además, realiza copias de seguridad de los datos constantemente en Amazon S3. Amazon Redshift siempre trata de mantener al menos tres copias de los datos (el original y la réplica en los nodos de ejecución, y una copia de seguridad en Amazon S3). Redshift también puede replicar de forma asíncrona las instantáneas en S3 en otra región para casos de recuperación de desastres.

De forma predeterminada, Amazon Redshift activa las copias de seguridad automatizadas del clúster de almacén de datos con un período de retención de 1 día. Puede configurar este parámetro para un máximo de 35 días.

El límite del almacenamiento gratuito de copias de seguridad corresponde al tamaño total del almacenamiento de los nodos del clúster de almacén de datos y sólo se aplica a los clústeres de almacén de datos activos. Por ejemplo, si el almacén de datos tiene una capacidad total de almacenamiento de 8 TB, aprovisionaremos como máximo 8 TB de almacenamiento de copias de seguridad sin ningún cargo adicional. Si desea ampliar el período de retención de copias de seguridad a más de 1 día, puede hacerlo a través de la consola de administración de AWS o con las API de Amazon Redshift. Para obtener más información sobre las instantáneas automatizadas, consulte la guía de administración de Amazon Redshift. Amazon Redshift solo realiza copias de seguridad de los datos que han cambiado para que la mayoría de las instantáneas solo utilice un pequeño volumen del almacenamiento gratuito para copias de seguridad.

Cuando necesite recuperar una copia de seguridad, tendrá acceso a todas las copias de seguridad automatizadas que se hayan realizado dentro del período de retención que haya especificado. Después de haber elegido la copia de seguridad que desea recuperar, aprovisionaremos un nuevo clúster de almacén de datos y restableceremos los datos en él.

P: ¿Cómo puedo administrar la retención de las copias de seguridad y las instantáneas automatizadas?

Puede utilizar la consola de administración de AWS o la API ModifyCluster para administrar el período de conservación de las copias de seguridad automatizadas mediante la modificación del parámetro RetentionPeriod. Si desea desactivar de forma conjunta las copias de seguridad automatizadas, puede configurar el período de retención en 0 (no se recomienda).

P: ¿Qué sucede con mis copias de seguridad si elimino el clúster de almacén de datos?

Cuando elimina un clúster de almacén de datos, puede optar por crear una instantánea final tras la eliminación, lo que permitirá restablecer el clúster eliminado en una fecha posterior. Todas las instantáneas del clúster de almacén de datos creadas manualmente y con anterioridad se conservarán y se facturarán conforme a las tarifas estándar de Amazon S3, a menos que decida eliminarlas.

Escalabilidad

P: ¿Cómo puedo ajustar el tamaño y el rendimiento del clúster de almacén de datos de Amazon Redshift?

Si desea aumentar el rendimiento de las consultas o resolver el uso excesivo de la CPU, la memoria o las operaciones de E/S, puede aumentar el número de nodos del clúster de almacén de datos con el ajuste de tamaño elástico a través de la consola de administración de AWS o con la API ModifyCluster. Si modifica el clúster de almacén de datos, los cambios solicitados se aplicarán de forma inmediata. Las métricas de uso de cómputo, uso de almacenamiento y tráfico de lectura/escritura del clúster de almacén de datos de Amazon Redshift están disponibles de forma gratuita en la consola de administración de AWS o en las API de Amazon CloudWatch. También puede agregar métricas adicionales definidas por el usuario mediante la funcionalidad de métricas personalizadas de Amazon CloudWatch.

Con la característica de ajuste de escala de simultaneidad, puede admitir consultas y usuarios simultáneos prácticamente ilimitados, con un rendimiento de consulta ágil constante. Cuando el ajuste de escala de simultaneidad está activado, Amazon Redshift agrega automáticamente capacidad de clúster adicional cuando la necesita para procesar un aumento de consultas de lectura simultáneas.

Con Redshift Spectrum, puede ejecutar varios clústeres de Amazon Redshift y acceder a los mismos datos en Amazon S3. Puede usar clústeres diferentes para casos de uso diferentes. Por ejemplo, puede usar un clúster para generación de informes estándar y otro para consultas de ciencia de datos. Su equipo de marketing puede usar sus propios clústeres, que son diferentes a los de su equipo de operaciones. Redshift Spectrum distribuye automáticamente la ejecución de su consulta a varios nodos de trabajo de Redshift Spectrum a partir de un grupo de recursos compartidos para leer y procesar datos desde Amazon S3, y obtiene resultados de vuelta en su clúster de Amazon Redshift para cualquier procesamiento pendiente.

P: ¿El clúster de almacén de datos seguirá disponible durante el ajuste de la escala?

Depende. Cuando utiliza la característica de ajuste de escala de simultaneidad, el clúster se encuentra plenamente disponible para operaciones de lectura y escritura. Con el ajuste de tamaño elástico, el clúster no podrá utilizarse durante los cuatro a ocho minutos que dura el período de ajuste de tamaño. Con la elasticidad del almacenamiento de RA3 de Redshift en almacenamiento administrado, el clúster se encuentra plenamente disponible y los datos se migran automáticamente entre el almacenamiento administrado y los nodos de cómputo.

P: ¿Qué es el uso compartido de datos de Amazon Redshift?

El uso compartido de datos de Amazon Redshift permite una manera segura y fácil de compartir datos en tiempo real en Redshift. El uso compartido de datos mejora la agilidad de las organizaciones al darles acceso instantáneo, minucioso y de alto rendimiento a datos dentro de cualquier clúster de Redshift sin la necesidad de copiarlo o moverlo. También provee acceso directo a los datos para que los usuarios puedan ver la información más actualizada y coherente mientras se actualiza en el clúster. Con el uso compartido de datos, puede incorporar rápidamente nuevas cargas de trabajo de análisis y dotarlas de recursos informáticos flexibles que cumplan los SLA de rendimiento específico de la carga de trabajo, a la vez que les permite acceder a conjuntos de datos comunes. Además de compartir los datos dentro de organizaciones, el uso compartido de estos también posibilita colaboraciones seguras y administradas entre organizaciones y con terceras partes. Los casos de uso comunes del uso compartido de datos incluyen la configuración de un clúster ETL central para compartir datos con numerosos clústeres de inteligencia empresarial a fin de proporcionar aislamiento de las cargas de trabajo de lectura y contracargos. Esto ofrece datos como servicio y permite compartir datos con clientes externos, numerosos grupos empresariales dentro de una organización que comparten datos y colaboran con ellos a fin de obtener diferentes visiones y comparte datos entre entornos de desarrollo, pruebas y producción. Para obtener más información y comenzar, visite la página de documentación de Redshift.  

P: ¿Qué son consultas entre bases de datos en Redshift?

Con las consultas entre bases de datos puede consultar datos, y combinarlos, de cualquier base de datos de Redshift a la que tenga acceso, independientemente de la base de datos a la que esté conectado. Esto puede incluir bases de datos locales en el clúster y también conjunto de datos compartidos que estén disponibles en clústeres remotos. Las consultas entre bases de datos le dan flexibilidad para organizar los datos como bases de datos separadas y admitir configuraciones de múltiples usuarios.

P: ¿Cuándo los clientes deberían usar el escalado en simultaneidad y cuándo el uso compartido de datos?

El uso compartido de datos y el escalado en simultaneidad son características complementarias. Con el escalado en simultaneidad, Redshift permite escalar una o más cargas de trabajo en un solo clúster para gestionar alta simultaneidad y picos de consultas. Redshift pone en marcha en segundos y de manera elástica y automática la capacidad para lidiar con las ráfagas de actividad de los usuarios y la reduce cuando la actividad disminuye. Las aplicaciones continúan interactuando con Redshift con un solo punto de enlace de aplicación. El uso compartido de datos le permite escalar a diversas cargas de trabajo con despliegues multiclúster y multicuenta. Esto permitió el aislamiento y la capacidad de carga de la carga de trabajo, colaboración entre grupos en entornos descentralizados y la capacidad para ofrecer datos como servicio a partes interesadas internas y externas. Puede habilitar el escalado en simultaneidad tanto en los clústeres de producción de datos de uso compartido como de consumo.

Simultaneidad

P: ¿Cómo administro los recursos para garantizar que mi clúster de Redshift pueda ofrecer un rendimiento rápido y constante durante los períodos de alta simultaneidad?

Un almacén de datos típico tiene una variación significativa en el uso de consultas simultáneas durante el transcurso de un día. Es más rentable agregar recursos solo en el período durante el cual se requieren, en lugar de aprovisionarlos para la demanda máxima. Amazon Redshift maneja esto automáticamente por usted.

El ajuste de escala de simultaneidad es una nueva característica de Amazon Redshift que ofrece un rápido rendimiento de consultas de forma continua, incluso cuando se ejecutan miles en simultáneo. Con esta función, Amazon Redshift agrega automáticamente capacidad transitoria cuando es necesario manejar una alta demanda. Amazon Redshift direcciona automáticamente las consultas a clústeres de escalado, que se aprovisionan en segundos y comienzan a procesar las consultas de inmediato.

Esta característica es gratuita para la mayoría de los clientes. Cada clúster de Amazon Redshift obtiene hasta una hora de créditos gratis de ajuste de escala de simultaneidad por día. Esto le da previsibilidad en el costo mensual, incluso durante los períodos de fluctuación de la demanda analítica.

P: ¿Qué es el ajuste de tamaño elástico y en qué se diferencia del ajuste de escala de simultaneidad?

Elastic Resize agrega o elimina nodos de un solo clúster de Redshift en minutos para administrar el rendimiento de las consultas. Por ejemplo, una carga de trabajo de ETL durante ciertas horas en un informe de fin de mes o de día puede necesitar recursos adicionales de Redshift para completarse a tiempo. El ajuste de escala de simultaneidad agrega recursos de clústeres adicionales para aumentar la simultaneidad general de las consultas.

P: ¿Puedo acceder directamente a los clústeres de ajuste de escala de simultaneidad?

No. El ajuste de la escala de simultaneidad es un conjunto de recursos de Redshift que se pueden ampliar a gran nivel y los clientes no tienen acceso directo a ellos.

Consultas y análisis

P: ¿Amazon Redshift y Redshift Spectrum son compatibles con el paquete de software de inteligencia empresarial y las herramientas ETL existentes?

Sí, Amazon Redshift utiliza el estándar del sector SQL y se obtiene acceso a través de los controladores estándar JDBC y ODBC. Puede descargar los controladores JDBC y ODBC personalizados de Amazon Redshift en la pestaña Connect Client de la consola de Redshift. Disponemos de integraciones validadas con proveedores conocidos de inteligencia empresarial y de procesos de extracción, transformación y carga (ETL), algunos de los cuales ofrecen actualmente pruebas gratuitas para ayudarlo a comenzar a cargar los datos y analizarlos. También puede visitar AWS Marketplace para implementar y configurar soluciones diseñadas para funcionar con Amazon Redshift en cuestión de minutos.

Redshift Spectrum admite todas las herramientas cliente de Amazon Redshift. Las herramientas cliente pueden continuar conectadas al punto de enlace del clúster de Amazon Redshift con conexiones ODBC o JDBC. No deben realizarse modificaciones.

Puede utilizar exactamente la misma sintaxis de consultas y tiene las mismas capacidades de consultas para obtener acceso a las tablas en Redshift Spectrum que ya tiene para las tablas en el almacenamiento local de su clúster de Redshift. Se hace referencia a las tablas con el nombre de esquema definido en el comando CREATE EXTERNAL SCHEMA en el que se registraron.

P: ¿Qué formatos de datos y de compresión admite Redshift Spectrum?

Actualmente, Redshift Spectrum admite numerosos formatos de datos de código abierto, entre otros, Avro, CSV, Grok, Amazon Ion, JSON, ORC, Parquet, RCFile, RegexSerDe, Sequence, Text y TSV.

Actualmente, Redshift Spectrum admite compresión con Gzip y Snappy.

P: ¿Qué sucede si una tabla de mi almacenamiento local tiene el mismo nombre que una tabla externa?

De la misma manera que con las tablas locales, puede usar el nombre del esquema para escoger exactamente la que desea si incluye schema_name.table_name en su consulta.

P: Utilizo Hive Metastore para almacenar metadatos de mi lago de datos de S3. ¿Puedo usar Redshift Spectrum?

Sí. El comando CREATE EXTERNAL SCHEMA es compatible con Hive Metastore. Actualmente, no se admite DDL en Hive Metastore.

P: ¿Cómo obtengo una lista de todas las tablas de bases de datos externas creadas en mi clúster?

Puede realizar una consulta en la tabla de sistema SVV_EXTERNAL_TABLES para obtener esa información.

P: ¿Redshift admite el uso de Machine Learning con SQL?

Sí, la característica de Amazon Redshift ML (versión preliminar) facilita a los usuarios de SQL crear, entrenar e implementar modelos de aprendizaje automático con comandos SQL conocidos. Amazon Redshift ML permite a los clientes potenciar sus datos en Amazon Redshift con Amazon SageMaker, un servicio de aprendizaje electrónico totalmente administrado.

P: ¿Amazon Redshift proporciona una API para consultar datos?

Amazon Redshift proporciona una API Datos que le permite acceder fácilmente a los datos desde Amazon Redshift con todos los tipos de aplicaciones web sin servidor basadas en servicios tradicionales, nativas en la nube y en contenedores y aplicaciones basadas en eventos. La API Datos simplifica el acceso a Amazon Redshift al eliminar la necesidad de configurar controladores y administrar conexiones de bases de datos. En cambio, puede ejecutar comandos SQL en un clúster de Amazon Redshift simplemente al llamar a un punto de enlace de API asegurado, proporcionado por la API Datos. La API Datos se encarga de administrar las conexiones de la base de datos y de almacenar los datos en búfer. La API Datos es asincrónica, por lo que puede recuperar sus resultados luego. Los resultados de la consulta se guardan por 24 horas.

P: ¿Qué tipos de credenciales puedo usar con la API Datos de Amazon Redshift?

La API Datos admite credenciales IAM y el uso de una clave secreta de AWS Secrets Manager. La API Datos une credenciales de AWS Identity and Access Management (IAM) para que pueda usar proveedores de identidad como Okta o Azure Active Directory o credenciales de bases de datos guardadas en Secrets Manager sin pasar credenciales de bases de datos en llamadas a la API.

P: ¿Puedo usar la API Datos de Amazon Redshift desde la CLI de AWS?

Sí, puede usar la API Datos de la CLI de AWS al usar la opción de línea de comando de datos de AWS Redshift.

P: ¿La API Datos de Redshift está integrada con otros servicios de AWS?

Puede usar la API Datos de otros servicios como AWS Lambda, AWS Cloud9, AWS AppSync y Amazon EventBridge.

P: ¿Tengo que pagar por separado por usar la API Datos de Amazon Redshift?

No, no se efectúan cargos separados por usar la API Datos.

Monitoreo

P: ¿Cómo puedo monitorear el rendimiento del clúster de almacén de datos de Amazon Redshift?

Las métricas de uso de cómputo, uso de almacenamiento y tráfico de lectura/escritura del clúster de almacén de datos de Amazon Redshift están disponibles de forma gratuita en la consola de administración de AWS o en las API de Amazon CloudWatch. También puede agregar métricas adicionales definidas por el usuario a través de la funcionalidad de métricas personalizadas de Amazon CloudWatch. La consola de administración de AWS ofrece un panel de monitoreo que lo ayuda a controlar el estado y el rendimiento de todos los clústeres. Amazon Redshift ofrece información sobre el rendimiento de las consultas y el clúster a través de la consola de administración de AWS. Esta situación le permite ver qué usuarios y consultas consumen la mayoría de los recursos del sistema para diagnosticar problemas de rendimiento mediante la visualización de planes de consultas y estadísticas de ejecuciones. Además, puede ver la utilización de recursos de cada nodo de cómputo para garantizar que dispone de datos y consultas equilibrados entre todos los nodos.

Mantenimiento

P: ¿Qué es un período de mantenimiento? ¿El clúster de almacén de datos estará disponible durante el mantenimiento del software?

Amazon Redshift realiza un mantenimiento periódico para aplicar correcciones, mejoras y nuevas características a su clúster. Puede cambiar los períodos de mantenimiento programados a través de la modificación del clúster, ya sea mediante programación o de la consola de Redshift. Durante estos períodos de mantenimiento, el clúster de Amazon Redshift no estará disponible para realizar operaciones normales. Para obtener más información sobre los períodos y programaciones de mantenimiento por región, consulte Períodos de mantenimiento en la guía de administración de Amazon Redshift.

Más información sobre los precios de Amazon Redshift

Visite la página de precios
¿Listo para crear?
Introducción a Amazon Redshift
¿Tiene más preguntas?
Contacte con nosotros