Aspectos generales

Descubra lo nuevo de Amazon Redshift en la página de novedades.
Para obtener información más detallada y asesoramiento sobre el uso, consulte la documentación.

P. ¿Qué es Amazon Redshift?

Amazon Redshift es un almacenamiento de datos en la nube escalable y completamente administrado que acorta el tiempo que se requiere para obtener información con análisis rápidos, fáciles, seguros y a escala. Miles de clientes confían en Amazon Redshift para que analice de terabytes a petabytes de datos y ejecute consultas analíticas complejas. Puede obtener observaciones en tiempo real y análisis predictivos sobre todos los datos que se encuentran en sus bases de datos operativas, lagos de datos, almacenamientos de datos y conjuntos de datos de terceros. Amazon Redshift proporciona todo esto a un rendimiento de precios que es hasta tres veces mejor que el que ofrecen otros almacenamientos de datos en la nube listos para usar, lo que lo ayuda a mantener sus costos predecibles.

Amazon Redshift Serverless facilita la ejecución de análisis a escala de petabytes en segundos para obtener información rápida sin tener que configurar ni administrar los clústeres de almacenamiento de datos. Amazon Redshift Serverless aprovisiona y escala de forma automática la capacidad de almacenamiento de datos para brindar un alto rendimiento para las cargas de trabajo exigentes e impredecibles, y usted solo debe pagar los recursos que utiliza.

P: ¿Cuáles son las razones principales por las que los clientes eligen Amazon Redshift?

Miles de clientes eligen Amazon Redshift para acortar el tiempo que necesitan para obtener información debido a que es fácil de utilizar, ofrece rendimiento a cualquier escala y le permite analizar todos sus datos. Amazon Redshift es un servicio completamente administrado que ofrece tanto opciones aprovisionadas como sin servidor, lo que facilita la ejecución y el escalado de análisis sin tener que administrar el almacenamiento de datos. Puede elegir la opción aprovisionada para las cargas de trabajo predecibles o la opción de Amazon Redshift Serverless para aprovisionar y escalar de forma automática la capacidad de almacenamiento de datos para entregar un alto rendimiento para las cargas de trabajo exigentes e impredecibles. Este servicio proporciona rendimiento a cualquier escala, con un rendimiento de precios que es hasta tres veces mejor que el que ofrecen otros almacenamientos de datos en la nube listos para usar, lo que lo ayuda a mantener sus costos predecibles. Amazon Redshift le permite obtener información gracias a la ejecución de análisis predictivos y en tiempo real sobre todos los datos de sus bases de datos operativas, lagos de datos, almacenamientos de datos y miles de conjuntos de datos de terceros. Amazon Redshift mantiene seguros sus datos en reposo y en tránsito, y cumple los requisitos de conformidad internos y externos. Admite la seguridad líder del sector para proteger sus datos en tránsito y en reposo y cumple los requisitos de SOC 1, SOC 2, SOC 3 y PCI DSS nivel 1. Todas las características de seguridad y conformidad de Redshift se incluyen sin costo adicional.

P: ¿Cómo simplifica Amazon Redshift la administración del almacenamiento de datos?

Amazon Redshift es un servicio completamente administrado por AWS, por lo que usted no debe preocuparse más por las tareas de administración del almacenamiento de datos, como el aprovisionamiento de hardware, la aplicación de parches al software, la instalación, la configuración, el monitoreo de nodos y unidades para recuperarse de errores o la creación de copias de seguridad. AWS administra el trabajo que se necesita para configurar, operar y escalar un almacenamiento de datos por usted, lo que lo libera de estas tareas y le permite dedicarse a crear sus aplicaciones. Amazon Redshift también tiene capacidades de ajuste automático y recomendaciones de apariencia para administrar su almacenamiento de datos en Redshift Advisor. Para Redshift Spectrum, Amazon Redshift administra toda la infraestructura informática, el balanceador de carga, la planificación, la programación y la ejecución de sus consultas en datos almacenados en Amazon S3. La opción sin servidor aprovisiona y escala de forma automática la capacidad de almacenamiento de datos para brindar un alto rendimiento para las cargas de trabajo exigentes e impredecibles, y usted solo debe pagar los recursos que utiliza.

P: ¿Cómo se compara el rendimiento de Amazon Redshift con el de otros almacenamientos de datos?

Los resultados comparativos de referencia de TPC-DS muestran que Amazon Redshift proporciona el mejor rendimiento de precios listo para usar, incluso para un conjunto de datos comparativamente pequeño de 3 TB. Amazon Redshift ofrece un rendimiento de precios hasta tres veces mejor que otros almacenamientos de datos en la nube. Esto significa que puede beneficiarse del rendimiento de precios líder de Amazon Redshift desde el principio, sin tener que efectuar ajustes manuales. Get up to 3x better price performance with Amazon Redshift than with other cloud data warehouses | Blog de AWS Big Data.

Amazon Redshift utiliza una variedad de innovaciones para lograr un rendimiento hasta diez veces mejor que el que ofrecen las bases de datos tradicionales para el almacenamiento de datos y las cargas de trabajo analíticas, incluido el almacenamiento eficiente de datos en columnas comprimidos y optimizados para la lectura con clústeres de computación para procesamiento paralelo de forma masiva (MPP) que escalan de forma lineal a cientos de nodos. En lugar de almacenar los datos como una serie de filas, Amazon Redshift los organiza en columnas. Cuando se cargan datos en una tabla vacía, Amazon Redshift los analiza automáticamente y selecciona el esquema de compresión más apropiado.

Redshift Spectrum le permite ejecutar consultas en exabytes de datos de Amazon S3. No es necesario cargar ni el servicio ETL (extracción, transformación y carga). Aunque no almacene ningún dato en Amazon Redshift, aun así, puede utilizar Redshift Spectrum para realizar consultas en conjuntos de datos de hasta un exabyte en Amazon S3. Las vistas materializadas proporcionan un rendimiento de consultas mucho más rápido para las cargas de trabajo analíticas repetidas y predecibles, como la preparación de paneles, la realización de consultas desde herramientas de inteligencia empresarial (BI) y el procesamiento de datos del servicio ETL (extracción, transformación y carga). El uso de vistas materializadas le permite almacenar los resultados precalculados de las consultas y mantenerlos con eficiencia mediante el procesamiento progresivo de los cambios más recientes efectuados en las tablas fuente. Las consultas posteriores que hacen referencia a las vistas materializadas utilizan los resultados precalculados para funcionar mucho más rápido y actualizaciones automáticas y capacidades de reescritura de consultas para simplificar y automatizar el uso de las vistas materializadas. Amazon Redshift también crea vistas materializadas automáticamente, lo que proporciona los mismos beneficios de las vistas materializadas que cree el usuario.

La capacidad informática y de almacenamiento de los almacenamientos de datos en las instalaciones está limitada por las restricciones del hardware en las instalaciones que se utiliza. Amazon Redshift le ofrece la posibilidad de escalar los recursos informáticos y el almacenamiento por separado, según sea necesario para adaptarse a las cargas de trabajo cambiantes. Con el almacenamiento administrado de Redshift (RMS), ahora tiene la posibilidad de escalar su almacenamiento a petabytes mediante el almacenamiento de Amazon S3.

La optimización automática de tablas (ATO) es una capacidad de autoajuste que lo ayuda a lograr los beneficios de rendimiento de la creación de claves de clasificación y distribución óptimas sin esfuerzo manual. La ATO observa cómo interactúan las consultas con las tablas y utiliza el machine learning (ML) para seleccionar las mejores claves de clasificación y distribución con el fin de optimizar el rendimiento para la carga de trabajo del clúster. Las optimizaciones de la ATO demostraron aumentar el rendimiento de los clústeres un 24 % y un 34 % mediante el uso de las referencias de TPC-DS de 3 TB y 30 TB respectivamente, en comparación con un clúster sin ATO. Las características adicionales como la eliminación automática de limpieza, la clasificación automática de tablas y el análisis automático eliminan la necesidad de realizar mantenimiento manual y de efectuar ajustes en los clústeres de Redshift para obtener el mejor rendimiento para los nuevos clústeres y las cargas de trabajo de producción.

La administración de cargas de trabajo le permite dirigir las consultas hacia un conjunto de colas definidas para administrar la simultaneidad y la utilización de recursos del clúster. Ahora, Amazon Redshift cuenta tanto con el tipo de configuración automática como con el manual. Con las configuraciones manuales de administración de cargas de trabajo (WLM), usted es responsable de definir la cantidad de memoria asignada a cada cola y la cantidad máxima de consultas (cada una de las cuales obtiene una fracción de esa memoria) que se puede ejecutar en cada cola. Las configuraciones manuales de WLM no se adaptan a los cambios efectuados en la carga de trabajo y requieren tener un conocimiento profundo de la utilización de recursos de las consultas para que sean correctas. La administración de cargas de trabajo (WLM) automática de Amazon Redshift no requiere que usted defina la utilización de memoria ni la simultaneidad para las colas. En cambio, ajusta la simultaneidad de forma dinámica para optimizar el rendimiento. De forma opcional, puede definir prioridades de consulta para proporcionar asignación de recursos preferenciales de consultas en función de su prioridad empresarial. La administración de cargas de trabajo (WLM) automática proporciona herramientas poderosas para permitirle administrar sus cargas de trabajo. Las prioridades de consultas le permiten definir prioridades para las cargas de trabajo, de manera que puedan obtener tratamiento preferencial en Amazon Redshift, incluso más recursos durante los periodos de mucha actividad para lograr el rendimiento constante de las consultas. Por su parte, las reglas de monitoreo de consultas ofrecen maneras de administrar situaciones inesperadas, como la detección de consultas costosas o fuera de control y evitar que consuman recursos del sistema. Las siguientes son áreas clave de la WLM automática con mejoras de rendimiento de simultaneidad adaptable: la asignación apropiada de la memoria, la eliminación de la partición estática de la memoria entre colas y la mejora del rendimiento.

Amazon Redshift Advisor desarrolla recomendaciones personalizadas para aumentar el rendimiento y optimizar los costos mediante el análisis de la carga de trabajo y las métricas de uso para su clúster. Inicie sesión en la consola de Amazon Redshift para ver recomendaciones de Advisor. Para obtener más información, consulte Uso de las recomendaciones de Amazon Redshift Advisor.

P. ¿Cómo puedo comenzar a utilizar Amazon Redshift?

Con tan solo unos pocos clics en la consola de administración de AWS, puede comenzar a consultar los datos. Puede beneficiarse de los conjuntos de datos de muestra precargados, incluidos los conjuntos de datos de referencia de TPC-H, TPC-DS, y de otras consultas de muestra para comenzar a efectuar análisis de inmediato. Puede crear bases de datos, esquemas, tablas y cargar datos desde Amazon S3, datos compartidos de Amazon Redshift o restaurar datos desde una instantánea existente de clúster aprovisionada de Amazon Redshift. También puede consultar datos directamente en formatos abiertos, como Parquet u ORC, en lagos de datos de Amazon S3 o consultar los datos de las bases de datos operativas, como Amazon Aurora, Amazon RDS PostgreSQL y MySQL.

Para comenzar a utilizar Amazon Redshift Serverless, elija “Try Amazon Redshift Serverless” (Probar Amazon Redshift Serverless) y comience a consultar los datos. Amazon Redshift Serverless escala automáticamente para satisfacer cualquier aumento en las cargas de trabajo.

P: ¿Alguien me podría facilitar más información sobre Amazon Redshift y enseñarme a utilizarlo?

R: Sí, hay especialistas en Amazon Redshift disponibles para responder preguntas y ofrecer asistencia. Contacte con nosotros y recibirá nuestra respuesta en el plazo de un día hábil para que analicemos cómo AWS puede ayudar a su organización.

P: ¿Qué es Advanced Query Accelerator (AQUA) para Amazon Redshift?

Advanced Query Accelerator (AQUA) es una nueva memoria caché distribuida y acelerada por hardware que permite que Amazon Redshift funcione hasta diez veces más rápido que otros almacenamientos de datos empresariales en la nube mediante la potenciación automática de ciertos tipos de consultas. AQUA está disponible con los nodos RA3.16xlarge, RA3.4xlarge y RA3.xlplus sin cargo adicional y sin tener que efectuar cambios en el código.

P: ¿Cómo puedo activar o desactivar AQUA para mi almacenamiento de datos Redshift?

Para los clústeres de Redshift que se ejecutan en nodos RA3, puede habilitar o desactivar AQUA a nivel del clúster mediante la consola de Redshift, la interfaz de línea de comandos (CLI) de AWS o la API. En el caso de los clústeres de Redshift que se ejecutan en nodos de DC, DS o generaciones anteriores, debe actualizarlos primero a nodos RA3 y, luego, habilitar o desactivar AQUA.

P: ¿Qué tipo de consultas acelera AQUA?

AQUA acelera las consultas analíticas mediante la ejecución de las tareas intensivas de datos, como los análisis, el filtrado y la adición más cerca de la capa de almacenamiento. La mejora de rendimiento más notable se produce en las consultas que requieren grandes análisis, especialmente las que tienen predicados LIKE y SIMILAR_TO. Con el tiempo, los tipos de consultas que se aceleran con AQUA aumentarán.

P: ¿Cómo puedo saber qué consultas de mi clúster de Redshift están aceleradas por AQUA?

Puede consultar las tablas del sistema para ver las consultas aceleradas por AQUA.

P: ¿En qué consiste el almacenamiento administrado de Amazon Redshift?

El almacenamiento administrado de Amazon Redshift está disponible con los tipos de nodo sin servidor y RA3 y le permite escalar y pagar los recursos informáticos y el almacenamiento de forma independiente, de modo que puede decidir el tamaño del clúster solo en función de sus necesidades informáticas. Este servicio utiliza de forma automática el almacenamiento local basado en SSD de alto rendimiento como caché de nivel 1 y saca partido de optimizaciones como la temperatura de bloqueo de datos, la antigüedad de bloqueo de datos y los patrones de carga de trabajo para brindar un alto rendimiento, a la vez que escala de forma automática el almacenamiento a Amazon S3 cuando es necesario, sin tener que realizar ninguna acción.

P: ¿Cómo utilizo el almacenamiento administrado de Amazon Redshift?

Si ya utiliza los nodos de almacenamiento denso (DS) o de informática densa (DC) de Amazon Redshift, puede usar el redimensionamiento elástico para actualizar sus clústeres existentes a la nueva instancia informática RA3. Amazon Redshift Serverless y los clústeres que usan la instancia RA3 utilizan de forma automática el almacenamiento administrado por Redshift para guardar los datos. No se requiere ninguna otra acción fuera del uso de Amazon Redshift Serverless o las instancias RA3 para utilizar esta capacidad.

P: ¿Qué es Amazon Redshift Spectrum?

Amazon Redshift Spectrum es una característica de Amazon Redshift que le permite ejecutar consultas en su lago de datos de Amazon S3, sin la necesidad de cargar datos ni de su procesamiento ETL (extracción, transformación y carga). Cuando emite una consulta SQL, esta va al punto de enlace de Amazon Redshift, lo que genera y optimiza un plan de consulta. Amazon Redshift determina qué datos son locales y cuáles se encuentran en Amazon S3, genera un plan para minimizar el volumen de datos de S3 que necesitan leerse y solicita a los nodos de trabajo de Amazon Redshift Spectrum de un grupo de recursos compartidos que lean y procesen datos de S3.

P: ¿Cuándo debería considerar utilizar instancias RA3?

Considere elegir los tipos de nodo RA3 en los casos siguientes:

  • Necesita la flexibilidad para escalar y pagar los recursos informáticos de forma separada del almacenamiento.
  • Consulta una fracción de su volumen total de datos.
  • El volumen de datos crece con rapidez o se espera que crezca rápidamente.
  • Desea contar con la flexibilidad para decidir el tamaño del clúster solo en función de sus necesidades de rendimiento.

A medida que la escala de los datos continúa creciendo y alcanza volúmenes de petabytes, la cantidad de datos que se captura en el almacenamiento de datos de Amazon Redshift también aumenta. Es posible que busque formas de analizar todos sus datos de manera rentable.

Con las nuevas instancias RA3 de Amazon Redshift con almacenamiento administrado, puede elegir la cantidad de nodos en función de los requisitos de rendimiento y pagar solo el almacenamiento administrado que utilice. Esto le brinda la flexibilidad para determinar el tamaño del clúster RA3 en función de la cantidad de datos que procesa diariamente, sin que aumenten sus costos de almacenamiento. Creadas en AWS Nitro System, las instancias RA3 con almacenamiento administrado utilizan SSD de alto rendimiento para los datos a los que se accede con frecuencia y Amazon S3 para aquellos a los que se accede con poca frecuencia, lo que proporciona facilidad de uso, almacenamiento rentable y rendimiento rápido de consultas.

P: ¿Qué diferencia de uso existe entre Amazon Redshift y Amazon RDS?

Tanto Amazon Redshift como Amazon Relational Database Service (RDS) le permiten ejecutar bases de datos relacionales tradicionales en la nube, mientras se reducen las tareas de administración de bases de datos. Los clientes utilizan las bases de datos de Amazon RDS principalmente para las cargas de trabajo de procesamiento de transacciones en línea (OLTP), mientras que Amazon Redshift se usa en mayor medida para la generación de informes y el análisis. Las cargas de trabajo de OLTP requieren información específica de consulta con rapidez, y Amazon RDS administra mejor las transacciones, como la incorporación, la actualización y la eliminación. Amazon Redshift utiliza la escala y los recursos de varios nodos, además de una serie de optimizaciones, para proporcionar mejoras de orden de magnitud en relación con las bases de datos tradicionales para las cargas de trabajo de análisis y generación de informes en conjuntos de datos muy grandes. Amazon Redshift ofrece una opción excelente de escalado a medida que aumenta la complejidad de los datos y las consultas si quiere prevenir que el procesamiento de generación de informes y análisis interfiera en el rendimiento de la carga de trabajo de OLTP. Ahora, con la nueva característica de consulta federada, puede realizar consultas en datos con facilidad en servicios de bases de datos de Amazon RDS o Aurora con Amazon Redshift.

P: ¿Qué diferencia de uso existe entre Amazon Redshift o Redshift Spectrum y Amazon EMR?

Debería utilizar Amazon EMR si usa código personalizado para procesar y analizar conjuntos de datos extremadamente grandes con marcos de procesamiento de big data como Spark, Hadoop, Presto o Hbase. Amazon EMR le brinda el control total de la configuración de los clústeres y del software que instale en ellos.

Los almacenes de datos como Amazon Redshift están diseñados para un tipo diferente de análisis en general. Los almacenes de datos están diseñados para reunir datos a partir de muchas fuentes diferentes, como sistemas de inventario, financieros y ventas minoristas. Para garantizar que la generación de informes sea precisa continuamente en toda la compañía, los almacenes de datos guardan los datos de una manera muy estructurada. Esta estructura crea reglas de coherencia de datos directamente en las tablas de la base de datos. Amazon Redshift es el mejor servicio cuando necesita realizar consultas complejas en colecciones masivas de datos estructurados y semiestructurados y obtener un rendimiento extremadamente alto.

Si bien la característica Redshift Spectrum es excelente para ejecutar consultas en datos en Amazon Redshift y S3, no funciona para los tipos de casos de uso que las empresas normalmente solicitan a marcos de procesamiento como Amazon EMR. Amazon EMR no se limita a la ejecución de consultas SQL. Amazon EMR es un servicio administrado que le permite procesar y analizar conjuntos de datos extremadamente grandes con las versiones más recientes de marcos de procesamiento de big data conocidos, como Spark, Hadoop y Presto, en clústeres completamente personalizables. Con Amazon EMR, puede ejecutar una gran variedad de tareas de procesamiento de datos de escalado para aplicaciones como machine learning, el análisis de gráficos, la transformación de datos, el streaming de datos y prácticamente cualquier cosa que pueda codificar.

Puede utilizar Redshift Spectrum con EMR. Redshift Spectrum usa la misma estrategia de almacenamiento de definiciones de tablas que Amazon EMR. Redshift Spectrum es compatible con el mismo Apache Hive Metastore que utiliza Amazon EMR para encontrar datos y definiciones de tablas. Si utiliza Amazon EMR y ya tiene Hive Metastore, tan solo debe configurar su clúster de Amazon Redshift para usarlo. A continuación, puede empezar a realizar consultas de inmediato junto con sus trabajos de Amazon EMR. Por lo tanto, si ya utiliza EMR para procesar un almacén de datos grande, puede usar Redshift Spectrum para realizar consultas en esos datos al mismo tiempo sin interrumpir sus trabajos de Amazon EMR.

Todos los servicios de consultas, los almacenes de datos y los marcos de procesamiento de datos complejos tienen su lugar y se utilizan para diferentes fines. Simplemente tiene que elegir la herramienta adecuada para el trabajo.

P: ¿Cuándo debería utilizar Amazon Athena en lugar de Amazon Redshift Spectrum?

Amazon Athena es un servicio de consultas interactivo que facilita el análisis de datos en Amazon S3 con SQL estándar. Athena es sencillo de utilizar. Simplemente señale los datos en S3, defina el esquema y comience a realizar consultas con SQL estándar.

Redshift Spectrum es una característica de Amazon Redshift. Si necesita analizar datos a los que se accede con frecuencia con un acuerdo de nivel de servicios (SLA) estricto del más alto rendimiento, debe utilizar Amazon Redshift. Puede utilizar Redshift Spectrum para extender las consultas de Amazon Redshift a los datos a los que se accede con menos frecuencia que se encuentran en el lago de datos de Amazon S3. Esto le brinda la libertad de almacenar sus datos donde desee, en el formato que quiera y de modo que se encuentren disponibles para procesarlos cuando lo necesite.

P: ¿Por qué debo utilizar Amazon Redshift en lugar de ejecutar mi propio clúster de almacenamiento de datos MPP en Amazon EC2?

Amazon Redshift administra automáticamente muchas de las tareas que requieren bastante tiempo y que están asociadas con la administración de su propio almacén de datos, entre otras:
  • Configuración: con Amazon Redshift, solo tiene que crear un clúster de almacén de datos, definir su esquema y comenzar a cargar y consultar datos. No tiene que encargarse de administrar el aprovisionamiento, la configuración o la aplicación de parches.
  • Durabilidad de los datos: Amazon Redshift replica los datos en el clúster de almacén de datos y realiza copias de seguridad de los datos continuamente en Amazon S3, que está diseñado para ofrecer un 99,999999999 % de durabilidad. Amazon Redshift refleja cada dato de la unidad en otros nodos dentro del clúster. Si una unidad falla, las consultas continuarán con un ligero aumento de la latencia mientras Redshift recompila la unidad a partir de las réplicas. En caso de que falle algún nodo, Amazon Redshift aprovisiona automáticamente los nuevos nodos y comienza a restablecer los datos desde otras unidades del clúster o desde Amazon S3. Da prioridad al restablecimiento de los datos consultados con mayor frecuencia, de manera que las consultas ejecutadas con mayor frecuencia comiencen a ofrecer rendimiento con rapidez.
  • Escalado: puede agregar o eliminar nodos del clúster de almacenamiento de datos de Amazon Redshift con una única llamada a la API o con unos clics en la consola de administración de AWS a medida que cambien las necesidades de capacidad y rendimiento. También puede programar las operaciones de escalado y redimensionamiento mediante el uso de la capacidad de programador de Amazon Redshift.
  • Actualizaciones y aplicaciones de parches automáticas: Amazon Redshift aplica actualizaciones y parches automáticamente al almacenamiento de datos para que usted pueda enfocarse en la aplicación y no en su administración.
  • Capacidad para realizar consultas a escala de exabytes: Amazon Redshift Spectrum le permite ejecutar consultas en exabytes de datos ubicados en Amazon S3. No es necesario realizar cargas ni ETL. Aunque no almacene ningún dato en Amazon Redshift, aun así, puede utilizar Redshift Spectrum para realizar consultas en conjuntos de datos de hasta un exabyte en Amazon S3.

P: ¿Cómo puedo crear un clúster de almacenamiento de datos de Amazon Redshift y luego obtener acceso a él?

Puede crear fácilmente un clúster de almacenamiento de datos de Amazon Redshift con la consola de administración de AWS o las API de Amazon Redshift. Puede comenzar con un almacenamiento de datos de 160 GB y un único nodo y, posteriormente, aumentar la escala a un petabyte o más con tan solo unos clics en la consola de AWS o con una única llamada a la API.

La configuración de un solo nodo, que es la más adecuada para las cargas de trabajo de evaluación, desarrollo o pruebas, le permite comenzar a utilizar Amazon Redshift de forma rápida y rentable, además de escalar verticalmente a una configuración de varios nodos a medida que aumentan sus necesidades. Un clúster de almacenamiento de datos de Redshift puede contener desde 1 hasta 128 nodos informáticos, en función del tipo de nodo que se trate. Para el tipo de nodo de última generación, RA3, la cantidad mínima de nodos es dos. Para obtener más información, consulte la documentación.

La configuración de varios nodos requiere un nodo principal que administre las conexiones de cliente y reciba consultas, así como dos nodos informáticos que almacenen datos y realicen consultas y cálculos. El nodo principal, que tiene el mismo tamaño que el nodo de computación, se aprovisiona automáticamente y, además, no se aplica ningún cargo.

Solo tiene que especificar la zona de disponibilidad preferida (opcional), el número de nodos, los tipos de nodos, un nombre y una contraseña principales, los grupos de seguridad, las preferencias personales de retención de copias de seguridad y otra configuración del sistema. Cuando haya elegido la configuración deseada, Amazon Redshift aprovisionará los recursos necesarios y configurará el clúster de almacenamiento de datos.

Cuando el clúster de almacenamiento de datos esté disponible, podrá recuperar su punto de enlace y la cadena de conexión a JDBC y ODBC desde la consola de administración de AWS o mediante las API de Redshift. A continuación, puede utilizar esta cadena de conexión según sus preferencias en cuanto a la herramienta de base de datos, el lenguaje de programación o la herramienta de inteligencia empresarial. Debe autorizar las solicitudes de red en el clúster de almacén de datos en ejecución. Para obtener una explicación detallada, consulte la Guía de introducción.

P: ¿Por qué debería utilizar Amazon Redshift espacial?

Amazon Redshift espacial proporciona análisis basados en la ubicación para obtener información valiosa de sus datos. Integra los datos espaciales y empresariales sin problemas para proporcionar análisis que sirvan para la toma de decisiones. Amazon Redshift lanzó el soporte nativo de procesamiento de datos espaciales en noviembre de 2019, con un tipo de datos polimórfico, GEOMETRY, y varias funciones espaciales clave de SQL. Ahora admite el tipo de datos GEOGRAPHY, y nuestra biblioteca de funciones espaciales de SQL ha crecido a 80 unidades. Admitimos todos los tipos de datos espaciales comunes y los estándares, incluidos Shapefiles, GeoJSON, WKT, WKB, eWKT y eWKB. Para obtener más información, visite la página de documentación o la página del tutorial de Amazon Redshift espacial.

P: ¿Qué es la mejora del rendimiento de consultas en frío y qué hace Amazon Redshift para mejorar este rendimiento?

Amazon Redshift puede procesar consultas hasta dos veces más rápido cuando estas se deben compilar. Esta mejora brinda un mejor rendimiento de consultas cuando se crea un nuevo clúster de Redshift, integra una carga de trabajo nueva en un clúster existente o después de actualizar el software de un clúster existente. Estas mejoras del rendimiento de consultas están disponibles sin coste adicional. Además, no es necesario realizar ninguna acción para habilitarlas en los clústeres.

Gracias a la mejora del rendimiento de consultas en frío, las compilaciones de consultas se escalan a un servicio de compilación sin servidor más allá de los recursos informáticos del nodo principal del clúster. Amazon Redshift admite una caché ilimitada para almacenar objetos compilados y aumentar los aciertos de caché, de un 99,60 % a un 99,95 %, cuando las consultas esenciales se envían a Amazon Redshift.

Cuando se envían consultas a Amazon Redshift, el motor de ejecución de consultas compila las consultas en código de máquina y las distribuye en los nodos del clúster. El código compilado se ejecuta más rápido porque elimina la sobrecarga que conlleva el uso de un intérprete. En el caso de un clúster nuevo sin caché de código o después de que un clúster existente se actualice a la última versión, la caché de código se vacía, y las consultas deben someterse a una compilación de consultas. Como resultado, la latencia de una consulta puede variar, lo que puede hacer que no se cumplan los requisitos de algunas cargas de trabajo. Gracias a esta actualización, la caché ilimitada minimiza la necesidad de compilar código y, cuando es necesario compilar, una granja de compilación escalable lo compila de forma paralela para acelerar sus cargas de trabajo. La magnitud del aumento de la velocidad depende de la complejidad y la simultaneidad de la carga de trabajo. Para obtener más información acerca de la compilación de código, consulte Procesamiento de consultas en la Guía para desarrolladores de bases de datos.

Sin servidor

P: ¿Qué es Amazon Redshift Serverless (versión preliminar)?

Amazon Redshift Serverless (versión preliminar) es una opción sin servidor de Amazon Redshift que facilita la ejecución y el escalado de análisis en segundos sin la necesidad de configurar ni administrar una infraestructura de almacenamiento de datos. Con Redshift Serverless, cualquier usuario, incluidos los analistas de datos, los desarrolladores, los profesionales de negocios y los científicos de datos, puede obtener información de los datos con solo cargar y consultar los datos que se encuentran en el almacenamiento.

P. ¿Cómo puedo comenzar a utilizar Amazon Redshift Serverless (versión preliminar)?

Con tan solo unos pocos clics en la consola de administración de AWS, puede elegir “Configure Amazon Redshift Serverless” (Configurar Amazon Redshift Serverless) y comenzar a consultar datos. Puede beneficiarse de los conjuntos de datos de muestra precargados, como los datos del clima, los datos de censo y los conjuntos de datos de referencia, junto con las consultas de muestra para comenzar a realizar análisis de inmediato. Puede crear bases de datos, esquemas, tablas y cargar datos desde Amazon S3, datos compartidos de Amazon Redshift o restaurar datos desde una instantánea existente de clúster aprovisionada de Redshift. También puede consultar datos directamente en formatos abiertos, como Parquet u ORC, en los lagos de datos de Amazon S3 o consultar los datos de las bases de datos operativas, como Amazon Aurora, Amazon RDS PostgreSQL y MySQL.

P: ¿Qué capacidades proporciona Amazon Redshift Serverless (versión preliminar)?

Amazon Redshift Serverless ofrece numerosos beneficios, entre los que se incluyen los siguientes:

  • la capacidad de obtener información rápidamente sin tener que aprovisionar ni administrar clústeres
  • el escalado automático e inteligente basado en las demandas de las cargas de trabajo sin tener que sobreaprovisionar los recursos
  • la disponibilidad continua de servicio para el escalado y las actualizaciones de versión
  • el rendimiento de consultas rápido y listo para usar para los datos cargados en el almacenamiento de datos, los formatos abiertos en los lagos de datos de Amazon S3 y los datos de las bases de datos operativas, sin necesidad de realizar ajustes en las bases de datos
  • el análisis profundo de SQL, la durabilidad y las garantías transaccionales de Amazon Redshift
  • la eficiencia de costos mediante el pago solo de la capacidad utilizada y la baja complejidad del almacenamiento de datos

P: ¿Cuáles son los beneficios de utilizar Amazon Redshift Serverless (versión preliminar)?

Si no cuenta con experiencia en la administración del almacenamiento de datos, no debe preocuparse por instalar, configurar, administrar clústeres ni ajustar el almacenamiento. Puede enfocarse en obtener información importante de sus datos o en cumplir los resultados empresariales principales a través de los datos. Solo pagará lo que utilice y mantendrá los costos administrables. Continuará beneficiándose de todo el rendimiento de excelencia, las características completas de SQL, la integración constante con los lagos de datos y los almacenamientos de datos operativos, los análisis predictivos integrados y las capacidades de uso compartido de datos de Amazon Redshift. Si necesita tener un control pormenorizado de su almacenamiento de datos, puede aprovisionar clústeres de Redshift.

P: ¿Cómo funciona Amazon Redshift Serverless (versión preliminar) con otros servicios de AWS?

Puede continuar usando todas las funcionalidades completas de análisis de Amazon Redshift, como las combinaciones complejas, las consultas directas a los datos de los lagos de datos y las bases de datos operativas de Amazon S3, las vistas materializadas, los procedimientos almacenados, el soporte de datos semiestructurados y el ML, así como también el alto rendimiento a escala. Todos los servicios relacionados a los que se integra Amazon Redshift (como Amazon Kinesis, AWS Lambda, Amazon QuickSight, Amazon SageMaker, Amazon EMR, AWS Lake Formation y AWS Glue) continúan en funcionamiento con Amazon Redshift Serverless.

P: ¿Qué casos de uso puedo administrar con Amazon Redshift Serverless (versión preliminar)?

Puede continuar ejecutando todos los casos de uso de análisis. Con un simple flujo de trabajo de introducción, el escalado automático y la capacidad de pago por uso, la experiencia de Amazon Redshift Serverless ahora hace aún más fácil y rentable la ejecución de entornos de desarrollo y prueba que deben iniciarse rápido, análisis empresariales a medida, cargas de trabajo con necesidades informáticas variables e impredecibles y cargas de trabajo intermitentes o esporádicas.

P: ¿En qué se diferencia Amazon Athena de Amazon Redshift Serverless?

Amazon Athena y Amazon Redshift abordan diferentes necesidades y casos de uso, aun cuando ambos servicios son sin servidor. Un almacenamiento de datos como Amazon Redshift es la mejor opción si necesita el mejor rendimiento de precios para cargas de trabajo complejas de inteligencia empresarial y análisis que requieren alto rendimiento a cualquier escala. Amazon Redshift también proporciona la capacidad de consultar los datos almacenados en Amazon S3 y combinarlos con los datos almacenados en el almacenamiento de datos. En comparación, Athena es más adecuado para los análisis interactivos de cualquier almacén de datos, sin tener que preocuparse por capturar ni formatear datos. El análisis de Athena está desconectado del almacenamiento, por lo que brinda la flexibilidad de usar otras herramientas y servicios, como Spark, Flink y Kafka, para enriquecer aún más el análisis y el procesamiento de los mismos datos analizados por Athena.

Compartir datos

P: ¿Qué es el uso compartido de datos de Amazon Redshift?

El uso compartido de datos de Amazon Redshift le permite compartir los datos activos que se encuentran en Amazon Redshift y, así, compartirlos de forma segura y fácil para fines de lectura con otros clústeres de Redshift dentro y en todas las cuentas de AWS y con servicios de análisis de AWS con el lago de datos. Con el uso compartido de datos, puede consultar instantáneamente datos activos desde cualquier clúster de Redshift, siempre que tengan permisos de acceso, sin la complejidad ni las demoras asociadas a las copias y los traslados de datos. Amazon Redshift le permite compartir y consultar los datos activos en la organización, las cuentas e, incluso, las regiones.

P: ¿Cuáles son los casos de uso para el uso compartido de datos?

Entre los casos de uso principales se incluyen los siguientes:

  • un clúster central de ETL que comparte datos con muchos clústeres de inteligencia empresarial y análisis para proporcionar aislamiento de las cargas de trabajo de lectura y capacidad opcional de carga
  • un proveedor de datos que los comparte con consumidores externos
  • el uso compartido de conjuntos de datos comunes, como clientes, productos en diferentes grupos empresariales y colaboración en el análisis amplio y la ciencia de datos
  • la descentralización del almacenamiento de datos para simplificar su administración
  • el uso compartido de datos entre los entornos de desarrollo, prueba y producción
  • el acceso a los datos de Redshift desde otros servicios de análisis de AWS

P: ¿Qué son las consultas entre bases de datos en Amazon Redshift?

Con las consultas entre bases de datos, puede consultar datos y combinarlos sin problemas de cualquier base de datos de Redshift a la que tenga acceso, independientemente de la base de datos a la que esté conectado. Esto puede incluir bases de datos locales en el clúster y también conjunto de datos compartidos que estén disponibles en clústeres remotos. Las consultas entre bases de datos le dan flexibilidad para organizar los datos como bases de datos separadas para admitir configuraciones multiinquilino.

P: ¿Qué es AWS Data Exchange para Amazon Redshift?

AWS Data Exchange para Amazon Redshift le permite encontrar datos de terceros en AWS Data Exchange que puede consultar en un almacenamiento de datos de Redshift en minutos, y suscribirse a ellos. También puede otorgar acceso a sus datos en Amazon Redshift fácilmente a través de AWS Data Exchange. El acceso se otorga de forma automática cuando un cliente se suscribe a sus datos y se revoca también automáticamente cuando su suscripción termina. Las facturas se generan de igual forma, así como los pagos se cobran y entregan a través de AWS. Esta característica le permite consultar, analizar y crear aplicaciones con rapidez con datos de terceros.

P: ¿Cuáles son los usuarios principales de AWS Data Exchange?

AWS Data Exchange facilita a los clientes de AWS el intercambio y el uso seguros de los datos de terceros en AWS. Los analistas de datos, los administradores de productos, los administradores de carteras, los científicos de datos, los vendedores analistas cuantitativos, los técnicos en ensayos clínicos y los desarrolladores en casi todos los sectores quisieran tener acceso a más datos para impulsar el análisis, formar modelos de ML y tomar decisiones basadas en los datos. Pero no existe ningún lugar único para buscar datos de varios proveedores ni consistencia en la forma en que los proveedores entregan sus datos, lo que los lleva a tener que lidiar con una combinación de medios físicos enviados, credenciales de FTP y llamadas a la API hechas a medida. Por el contrario, muchas organizaciones quisieran poner sus datos a disposición para fines comerciales o de investigación, pero es demasiado difícil y costoso crear y mantener la entrega de datos, el otorgamiento de derechos y la tecnología de facturación, lo que deprime aún más el suministro de datos valiosos.

P: ¿En qué regiones de AWS está disponible AWS Data Exchange?

AWS Data Exchange tiene un único catálogo de productos disponible a nivel global que ofrecen los proveedores. Puede consultar el mismo catálogo independientemente de qué región esté utilizando. Los recursos subyacentes al producto (conjuntos de datos, revisiones y activos) son recursos regionales que puede administrar mediante programación o a través de la consola de AWS Data Exchange en regiones de AWS específicas. Consulte la tabla de disponibilidad por región de AWS para obtener una lista de las regiones de AWS en las que AWS Data Exchange se encuentra disponible actualmente.

P: ¿Cuál es la diferencia entre AWS Data Exchange y el registro de datos abiertos en AWS?

Existen cinco diferencias principales entre AWS Data Exchange y el registro de datos abiertos en AWS:

  • En primer lugar, AWS Data Exchange admite tanto los productos de datos gratuitos como los comerciales, con cualquier tarifa comercial aplicable a su factura de AWS. El registro de datos abiertos en AWS le brinda acceso a una lista seleccionada de conjuntos de datos gratuitos y abiertos. 
  • En segundo lugar, AWS Data Exchange requiere que usted acepte de forma explícita el acuerdo de suscripción de datos que describe los términos que estableció el proveedor de datos cuando publicó su producto. Los datos del registro de datos abiertos en AWS no tienen términos de uso. 
  • En tercer lugar, debe usar la API de AWS Data Exchange para copiar datos desde dicho servicio hacia la ubicación de Amazon S3 deseada. A los conjuntos de datos del registro de datos abiertos en AWS se accede a través de las API de S3. 
  • En cuarto lugar, AWS Data Exchange brinda a los proveedores de datos acceso a informes diarios, semanales y mensuales que detallan la actividad de suscripción. Con el registro de datos abiertos en AWS, los proveedores de datos deben analizar sus propios registros para realizar un seguimiento del uso de los datos. 
  • Por último, para convertirse en un proveedor de datos de AWS Data Exchange, los clientes que califican deben registrarse como proveedores de datos en AWS Marketplace para poder incluir productos comerciales y gratuitos. Sin embargo, cualquier cliente puede agregar datos gratuitos al registro de datos abiertos en AWS a través de GitHub y puede solicitar participar del Programa de conjuntos de datos públicos de AWS para patrocinar lo costos de almacenamiento y de ancho de banda para conjuntos de datos abiertos selectos.

P: ¿Qué es Amazon Redshift Query Editor V2?

Amazon Redshift Query Editor v2 es una aplicación de cliente SQL basada en la Web que puede utilizar para crear y ejecutar consultas en su almacenamiento de datos de Redshift. Puede visualizar los resultados de las consultas con gráficos y colaborar compartiendo consultas con los miembros de su equipo. Query Editor v2 proporciona varias capacidades, como la capacidad de buscar y explorar varias bases de datos, tablas externas, vistas, procedimientos almacenados y funciones definidas por el usuario. Proporciona asistentes para crear esquemas, tablas y funciones definidas por el usuario. También puede cargar datos en Amazon Redshift desde Amazon S3 con un asistente visual. Simplifica la administración y la colaboración de las consultas guardadas. También puede obtener información más rápido visualizando los resultados con un solo clic. Con el último lanzamiento de versión preliminar, los analistas de datos pueden compartir sus consultas y colaborar a través de una interfaz común llamada Query Doc que les permite incorporar consultas code/SQL, anotaciones, resultados y visualizaciones.

P: ¿Por qué debería utilizar Query Editor V2?

Si es un analista, un científico o un ingeniero de datos, ahora puede usar Query Editor V2 para explorar recursos, crear esquemas y tablas, cargar datos y crear consultas SQL, procedimientos almacenados y UDF a través de una interfaz basada en la web. También puede llevar a cabo un análisis visual de los datos en el lugar sin tener que salir de la herramienta. Además, puede programar las consultas de ejecución larga o las consultas que tienen como fin la simple generación de informes, como los informes diarios.

P: ¿Cuáles son las características que incluye Query Editor v2?

Query Editor v2 le permite realizar lo siguiente:

  • crear visualmente esquemas, tablas y cargar datos desde Amazon S3.
  • crear consultas y obtener información más rápido con un editor intuitivo para la creación de consultas SQL.
  • llevar a cabo análisis de los resultados y descargarlos en formatos JSON/CSV de su computadora de escritorio
  • administrar de forma automática diferentes versiones de consultas
  • colaborar con otros usuarios para compartir consultas, análisis y resultados
  • ejecutar consultas en los antecedentes, incluso si el navegador está cerrado

Escalabilidad y simultaneidad

P: ¿Cómo puedo ajustar el tamaño y el rendimiento del clúster de almacenamiento de datos de Amazon Redshift?

Si desea aumentar el rendimiento de las consultas o resolver el uso excesivo de la CPU, la memoria o las operaciones de E/S, puede aumentar el número de nodos del clúster de almacenamiento de datos con el redimensionamiento elástico a través de la consola de administración de AWS o con la API ModifyCluster. Si modifica el clúster de almacenamiento de datos, los cambios solicitados se aplicarán de forma inmediata. Las métricas de uso de computación, uso de almacenamiento y tráfico de lectura/escritura del clúster de almacenamiento de datos de Redshift están disponibles de forma gratuita en la consola de administración de AWS o en las API de Amazon CloudWatch. También puede agregar métricas definidas por el usuario mediante la funcionalidad de métricas personalizadas de Amazon CloudWatch.

Con la característica de ajuste de escalado de simultaneidad, puede admitir consultas y usuarios simultáneos prácticamente ilimitados, con un rendimiento de consulta ágil constante. Cuando el escalado de simultaneidad está habilitado, Amazon Redshift agrega automáticamente capacidad de clúster cuando las experiencias del clúster aumentan en la cola de consultas.

Con Amazon Redshift Spectrum, puede ejecutar varios clústeres de Redshift y acceder a los mismos datos en Amazon S3. Puede utilizar clústeres diferentes para casos de uso diferentes. Por ejemplo, puede usar un clúster para generación de informes estándar y otro para consultas de ciencia de datos. Su equipo de marketing puede usar sus propios clústeres, que son diferentes a los de su equipo de operaciones. Redshift Spectrum distribuye automáticamente la ejecución de su consulta a varios nodos de trabajo de Redshift Spectrum a partir de un grupo de recursos compartidos para leer y procesar datos desde Amazon S3, y obtiene resultados de vuelta en su clúster de Redshift para cualquier procesamiento pendiente.

P: ¿El clúster de almacenamiento de datos seguirá disponible durante el escalado?

Depende. Cuando utiliza la característica de ajuste de escala de simultaneidad, el clúster se encuentra plenamente disponible para operaciones de lectura y escritura. Con el ajuste de tamaño elástico, el clúster no podrá utilizarse durante los cuatro a ocho minutos que dura el período de ajuste de tamaño. Con la elasticidad del almacenamiento de RA3 de Redshift en almacenamiento administrado, el clúster se encuentra completamente disponible y los datos se trasladan de forma automática entre el almacenamiento administrado y los nodos informáticos.

P: ¿Cuándo debería usar el escalado de simultaneidad y cuándo el uso compartido de datos?

El uso compartido de datos y el escalado de simultaneidad son características complementarias. Con el escalado de simultaneidad, Amazon Redshift permite escalar una o más cargas de trabajo de forma automática en un solo clúster para gestionar la alta simultaneidad y los picos de consultas. De forma elástica y automática, Amazon Redshift aumenta en segundos la capacidad para lidiar con las ráfagas de actividad de los usuarios y la reduce cuando la actividad disminuye. Las aplicaciones continúan interactuando con Amazon Redshift usando un solo punto de enlace de la aplicación. El uso compartido de datos le permite escalar a diversas cargas de trabajo con implementaciones de varios clústeres y cuentas. Esto permite el aislamiento y la capacidad de carga de la carga de trabajo, la colaboración entre grupos en entornos descentralizados y la capacidad de ofrecer datos como servicio a las partes interesadas internas y externas. Puede habilitar el escalado de simultaneidad tanto en los clústeres de producción de datos de uso compartido como de consumo.

P: ¿Cómo administro los recursos para garantizar que mi clúster de Amazon Redshift pueda ofrecer un rendimiento rápido y constante durante los periodos de alta simultaneidad?

Un almacén de datos típico tiene una variación significativa en el uso de consultas simultáneas durante el transcurso de un día. Es más rentable agregar recursos solo en el período durante el cual se requieren, en lugar de aprovisionarlos para la demanda máxima. Amazon Redshift maneja esto automáticamente por usted.

El ajuste de escala de simultaneidad es una nueva característica de Amazon Redshift que ofrece un rápido rendimiento de consultas de forma continua, incluso cuando se ejecutan miles en simultáneo. Con esta función, Amazon Redshift agrega automáticamente capacidad transitoria cuando es necesario manejar una alta demanda. Amazon Redshift direcciona automáticamente las consultas a clústeres de escalado, que se aprovisionan en segundos y comienzan a procesar las consultas de inmediato.

Esta característica es gratuita para la mayoría de los clientes. Cada clúster de Amazon Redshift obtiene hasta una hora de créditos gratis de ajuste de escala de simultaneidad por día. Esto le da previsibilidad en el costo mensual, incluso durante los períodos de fluctuación de la demanda analítica.

P: ¿Qué es el ajuste de tamaño elástico y en qué se diferencia del ajuste de escala de simultaneidad?

El redimensionamiento elástico agrega o elimina nodos de un solo clúster de Redshift en minutos para administrar el rendimiento de las consultas. Por ejemplo, una carga de trabajo de ETL durante ciertas horas en un informe diario o de fin de mes puede necesitar recursos adicionales de Amazon Redshift para completarse a tiempo. El escalado de simultaneidad agrega recursos de clústeres adicionales para aumentar la simultaneidad general de las consultas.

P: ¿Puedo acceder directamente a los clústeres de ajuste de escala de simultaneidad?

No. El escalado de simultaneidad es un grupo masivamente escalable de recursos de Amazon Redshift a los que los clientes no tienen acceso directo.

Integración y carga de datos

P: ¿Cómo puedo cargar datos en el almacén de datos de Amazon Redshift?

Puede cargar datos en Amazon Redshift desde una amplia variedad de orígenes de datos, entre otros, Amazon S3, Amazon RDS, Amazon DynamoDBAmazon EMR, AWS Glue, AWS Data Pipeline o cualquier host con SSH habilitado en Amazon EC2 o en las instalaciones. Amazon Redshift intenta cargar los datos en paralelo en cada nodo de ejecución para maximizar la velocidad a la que puede incorporar datos en el clúster de almacén de datos. Los clientes pueden conectarse a Amazon Redshift mediante ODBC o JDBC y enviar comandos "insert" de SQL para insertar los datos. Tenga en cuenta que este procedimiento es más lento que utilizar S3 o DynamoDB porque dichos métodos cargan datos en paralelo en cada nodo de cómputo, mientras que las instrucciones “insert” de SQL se cargan a través del único nodo principal. Para obtener más detalles sobre la carga de datos en Amazon Redshift, consulte la guía de introducción.

P: ¿Cómo puedo cargar datos en Amazon Redshift desde mis orígenes de datos existentes en Amazon RDS, Amazon EMR, Amazon DynamoDB y Amazon EC2?

Puede usar el comando COPY para cargar datos en paralelo directamente en Amazon Redshift desde Amazon EMR, Amazon DynamoDB o cualquier alojamiento habilitado para SSH. Amazon Redshift Spectrum también le permite cargar datos desde Amazon S3 en su clúster con un comando INSERT INTO simple. Con esto, podría cargar datos de diferentes formatos, como Parquet y ORC, en su clúster. Tenga en cuenta que si utiliza esta estrategia, incurrirá en cargos de Redshift Spectrum por los datos analizados de Amazon S3. 

AWS Data Pipeline ofrece una solución tolerante a errores, de confianza y de alto rendimiento para cargar datos desde varios orígenes de datos de AWS, por ejemplo, desde Amazon RDS a Redshift. Puede utilizar AWS Data Pipeline para especificar el origen de datos y las transformaciones deseadas de los datos y, a continuación, ejecutar una secuencia de comandos de importación pregrabada para cargar los datos en Amazon Redshift. Además, AWS Glue es un servicio de extracción, transformación y carga (ETL) completamente administrado que facilita la preparación y la carga de datos para su análisis. Puede crear y ejecutar un trabajo de ETL de AWS Glue con unos pocos clics en la consola de administración de AWS. Además, muchas empresas de ETL han certificado Amazon Redshift para usarlo con sus herramientas y varias de ellas ofrecen pruebas gratuitas para ayudarlo a comenzar a cargar los datos. Algunas de estas características también han implementado una integración profunda en la consola de Redshift para poder detectar y monitorear más fácilmente las canalizaciones de datos en Amazon Redshift desde una gran variedad de fuentes de terceros.

P: Tengo muchos datos para hacer la primera carga en Amazon Redshift. Transferirlos por Internet llevaría mucho tiempo. ¿Cómo puedo cargarlos?

Puede utilizar AWS Snowball para transferir los datos a Amazon S3 mediante el uso de dispositivos portátiles de almacenamiento. Además, puede utilizar AWS Direct Connect para establecer una conexión de red privada entre la red o el centro de datos y AWS. Puede elegir puertos de conexión de 1 Gbit/s o de 10 Gbit/s para transferir los datos.

Seguridad

P: ¿De qué manera protege los datos Amazon Redshift?

Amazon Redshift admite características de seguridad líderes gracias a la integración con AWS IAM de serie, federación de identidades para inicio de sesión único (SSO), autenticación multifactor, control de acceso a nivel de columnas, seguridad a nivel de filas, Amazon Virtual Private Cloud (Amazon VPC) e integración con AWS KMS de serie para proteger sus datos en tránsito y en reposo. Amazon Redshift cifra los datos y los mantiene protegidos, tanto en tránsito como en reposo, mediante la utilización de técnicas de cifrado estándar del sector. Para mantener los datos protegidos mientras están en tránsito, Amazon Redshift admite las conexiones con SSL habilitado entre la aplicación cliente y el clúster de almacén de datos de Redshift. Para mantener los datos protegidos mientras están en reposo, Amazon Redshift cifra cada bloque con AES-256 acelerado por hardware a medida que se graba en el disco. Esto tiene lugar en un nivel bajo del subsistema de E/S, que cifra todo lo que se graba en el disco, incluidos los resultados de consulta intermedios. Las copias de seguridad de los bloques se realizan con los bloques tal cual, lo que significa que las copias también se cifran. De forma predeterminada, Amazon Redshift se encarga de administrar las claves, pero puede optar por administrarlas mediante AWS Key Management Service. Todas las funciones de seguridad de Amazon Redshift se ofrecen sin costo adicional. Redshift Spectrum es compatible con el cifrado del lado del servidor (SSE) de Amazon S3 mediante el uso de la clave predeterminada de su cuenta que utiliza AWS Key Management Service (KMS).

P: ¿Redshift es compatible con controles de acceso pormenorizado como seguridad a nivel de columnas?

Sí, Amazon Redshift ofrece compatibilidad con el control de acceso basado en roles. El control de acceso a nivel de filas permite asignar uno o más roles a un usuario y asignar privilegios de sistema y de objeto según el rol. Puede utilizar los roles del sistema predeterminados, como usuario raíz, dba, operador y administradores de seguridad, o crear sus propios roles.

P: ¿Amazon Redshift es compatible con el enmascaramiento de datos o la tokenización de datos?

Las funciones definidas por el usuario (UDF) de AWS Lambda le permiten utilizar una función de AWS Lambda como UDF en Amazon Redshift e invocarla desde las consultas SQL de Redshift. Esta funcionalidad le permite escribir extensiones personalizadas para su consulta SQL y lograr una mejor integración con otros servicios o productos de terceros. Puede escribir las UDF para habilitar la tokenización externa, el enmascaramiento de datos, la identificación o desidentificación de datos mediante la integración a proveedores como Protegrity y proteger o desproteger datos confidenciales basados en los permisos y grupos del usuario, en momentos de consultas.

P: ¿Amazon Redshift admite el inicio de sesión único?

Sí. Los clientes que quieran utilizar sus proveedores de identidad corporativa, como Microsoft Azure Active Directory, los servicios federados de Active Directory, Okta, Ping Federate, u otros proveedores de identidad compatibles con SAML, pueden configurar Amazon Redshift para proporcionar inicio de sesión único.

P: ¿De qué forma Amazon Redshift admite el inicio de sesión único con Microsoft Azure Active Directory?

Puede iniciar sesión mediante inicio de sesión único en el clúster de Amazon Redshift con identidades de Microsoft Azure Active Directory (AD). Esto le permite utilizar iniciar sesión en Redshift sin que estas identidades de Azure Active Directory se dupliquen en Redshift.

P: ¿Amazon Redshift es compatible con la autenticación multifactor (MFA)?

Sí. Puede utilizar la autenticación multifactor (MFA) para contar con seguridad adicional cuando se autentique en su clúster de Amazon Redshift.

P: ¿Puedo utilizar Amazon Redshift en Amazon Virtual Private Cloud (Amazon VPC)?

Sí. Puede utilizar Amazon Redshift como parte de la configuración de la VPC. Con Amazon VPC, podrá definir una topología de red virtual que refleje detalladamente una red tradicional que tenga instaurada en su propio centro de datos. Esto le brinda el control total de quién puede obtener acceso al clúster de almacenamiento de datos de Redshift. Puede usar Redshift Spectrum con un clúster de Redshift que forme parte de su Amazon VPC.

Amazon Redshift admite puntos de enlace de la VPC administrados (con tecnología de AWS PrivateLink) para conectarse al clúster de Redshift en una VPC. Con un punto de enlace administrado por Amazon Redshift, es posible acceder de forma privada al almacenamiento de datos de Redshift dentro de la VPC desde las aplicaciones cliente que se encuentran en otra VPC dentro de la misma u otra cuenta de AWS y que se ejecuten en las instalaciones sin utilizar IP públicas ni requerir que el tráfico pase a través de Internet.

P: ¿Puedo obtener acceso directamente a los nodos informáticos de Amazon Redshift?

No. Los nodos de ejecución de Amazon Redshift se encuentran en un espacio de red privado y solo se puede obtener acceso a ellos desde el nodo principal del clúster del almacén de datos. Esto ofrece a los datos una capa adicional de seguridad.

P: ¿Redshift admite el control de acceso basado en roles a las bases de datos? (anuncio previo)

Amazon Redshift pronto proporcionará soporte para el control de acceso basado en roles.

Disponibilidad y durabilidad

P: ¿Qué sucede con la durabilidad de los datos y la disponibilidad del clúster de almacenamiento de datos si falla una unidad en alguno de los nodos?

Amazon Redshift detectará un error de unidad o nodo en estos casos y reemplazará el nodo del clúster de forma automática. En los clústeres de informática densa (DC) y de almacenamiento denso (DS2), los datos se almacenan en los nodos informáticos para garantizar la alta durabilidad de los datos. Cuando se reemplaza un nodo, los datos se actualizan desde la copia de espejo que se encuentra en el otro nodo.

Los clústeres RA3 y Redshift sin servidor no se ven afectados de la misma manera debido a que los datos se almacenan en Amazon S3 y la unidad local solo se usa como una memoria caché de datos. En el caso de que se reemplace un nodo, los datos se recuperarán desde Amazon S3. Amazon S3 proporciona una garantía de durabilidad de los datos del 99,9999 %. En el caso de producirse un error de varios nodos o de un clúster completo, se encuentra disponible una copia actualizada de los datos en S3 y el clúster se puede recuperar en la misma zona de disponibilidad u otra de ellas sin que se produzca ninguna pérdida de datos.

El clúster de almacenamiento de datos no estará disponible para consultas y actualizaciones hasta que se aprovisione un nodo de sustitución y se agregue a la base de datos. Amazon Redshift pone a disposición el nodo de sustitución de inmediato y carga los datos a los que se accede con mayor frecuencia desde Amazon S3 en RA3 y sin servidor, y desde el espejo de los clústeres DS2 y de informática densa (DC2) de Amazon. Los clústeres DC2 y DS2 de un solo nodo no admiten la replicación de datos. Si se produce un error en la unidad, deberá restaurar el clúster a partir de una instantánea de S3. Los clústeres RA3.XLPLUS de un solo nodo se pueden volver a crear sin que se produzca ninguna pérdida de datos usando los datos almacenados en S3 con la asistencia de AWS Support. Le recomendamos utilizar al menos dos nodos para la producción con el fin de maximizar la disponibilidad.

P: ¿Qué sucede con la durabilidad de los datos y la disponibilidad del clúster de almacenamiento de datos si se genera un error en un único nodo?

Amazon Redshift detecta y reemplaza automáticamente el nodo defectuoso en el clúster de almacén de datos. El clúster de almacén de datos no estará disponible para consultas y actualizaciones hasta que se aprovisione un nodo de sustitución y se añada a la base de datos. Amazon Redshift habilita el nodo de sustitución de inmediato y carga los datos a los que se tiene acceso con más frecuencia desde S3 primero para permitirle reanudar las consultas de los datos lo más rápido posible. Los clústeres de un solo nodo no admiten la replicación de datos. Si ocurre un error en la unidad, deberá restablecer el clúster a partir de una instantánea de S3. Le recomendamos que utilice al menos dos nodos para la producción.

P: ¿Qué sucede con la durabilidad de los datos y la disponibilidad de un clúster de almacén de datos si se produce un corte de energía en la zona de disponibilidad del clúster?

Si la zona de disponibilidad del clúster de almacén de datos de Amazon Redshift deja de estar disponible, Amazon Redshift moverá automáticamente el clúster a otra zona de disponibilidad de AWS sin que se pierdan datos o se produzcan cambios en la aplicación. Para activar esto, habilite la capacidad de reubicación en el ajuste de configuración del clúster.

P: ¿Amazon Redshift admite implementaciones Multi-AZ?

Actualmente, Amazon Redshift solo admite las implementaciones en una sola región. Para establecer una configuración de recuperación de desastres (DR), puede habilitar la copia de instantáneas entre regiones en el clúster. Esto replicará todas las instantáneas del clúster en otra región de AWS. En el caso de producirse un evento de recuperación de desastres, las instantáneas en la región de réplica se pueden restaurar para crear un nuevo clúster. Amazon Redshift también admite el uso compartido de datos entre regiones, donde un clúster consumidor puede acceder a los datos activos que se encuentran en un clúster productor en otra región. Esto solo es compatible con Amazon Redshift Serverless y RA3.

Consultas y análisis

P: ¿Amazon Redshift y Redshift Spectrum son compatibles con el paquete de software de inteligencia empresarial y las herramientas ETL existentes?

Sí, Amazon Redshift utiliza el estándar del sector SQL y se obtiene acceso a través de los controladores estándar JDBC y ODBC. Puede descargar los controladores JDBC y ODBC personalizados de Amazon Redshift en la pestaña Connect Client de la consola de Redshift. Disponemos de integraciones validadas con proveedores conocidos de inteligencia empresarial y de procesos de extracción, transformación y carga (ETL), algunos de los cuales ofrecen actualmente pruebas gratuitas para ayudarlo a comenzar a cargar los datos y analizarlos. También puede visitar AWS Marketplace para implementar y configurar soluciones diseñadas para funcionar con Amazon Redshift en cuestión de minutos.

Amazon Redshift Spectrum admite todas las herramientas de cliente de Amazon Redshift. Las herramientas cliente pueden continuar conectadas al punto de enlace del clúster de Amazon Redshift con conexiones ODBC o JDBC. No deben realizarse modificaciones.

Puede utilizar exactamente la misma sintaxis de consultas y tiene las mismas capacidades de consultas para obtener acceso a las tablas en Redshift Spectrum que ya tiene para las tablas en el almacenamiento local de su clúster de Redshift. Se hace referencia a las tablas externas con el nombre de esquema definido en el comando CREATE EXTERNAL SCHEMA en el que se registraron.

P: ¿Qué formatos de datos y de compresión admite Amazon Redshift Spectrum?

Actualmente, Amazon Redshift Spectrum admite numerosos formatos de datos de código abierto, entre los que se incluyen Avro, CSV, Grok, Amazon Ion, JSON, ORC, Parquet, RCFile, RegexSerDe, Sequence, Text y TSV.

En la actualidad, Amazon Redshift Spectrum admite la compresión con Gzip y Snappy.

P: ¿Qué sucede si una tabla de mi almacenamiento local tiene el mismo nombre que una tabla externa?

De la misma manera que con las tablas locales, puede usar el nombre del esquema para escoger exactamente la que desea si incluye schema_name.table_name en su consulta.

P: Utilizo Hive Metastore para almacenar metadatos de mi lago de datos de S3. ¿Puedo usar Redshift Spectrum?

Sí. El comando CREATE EXTERNAL SCHEMA es compatible con Hive Metastore. Actualmente, no se admite DDL en Hive Metastore.

P: ¿Cómo obtengo una lista de todas las tablas de bases de datos externas creadas en mi clúster?

Puede realizar una consulta en la tabla de sistema SVV_EXTERNAL_TABLES para obtener esa información.

P: ¿Redshift admite el uso de Machine Learning con SQL?

Sí, la característica de Amazon Redshift ML facilita a los usuarios de SQL crear, entrenar e implementar modelos de machine learning (ML) con comandos SQL conocidos. El machine learning de Amazon Redshift le permite potenciar sus datos en Amazon Redshift con Amazon SageMaker, un servicio de machine learning completamente administrado. Amazon Redshift soporta tanto el aprendizaje sin supervisar (K-Means) como el aprendizaje supervisado (Autopilot, XGBoost, algoritmos MLP). También puede utilizar los servicios de AWS Language AI para traducir, redactar y analizar los campos de texto en las consultas SQL con funciones UDF de Lambda prefabricadas; consulte la publicación del blog.

P: ¿Amazon Redshift proporciona una API para consultar datos?

Amazon Redshift proporciona una API Datos que puede utilizar para acceder fácilmente a los datos desde Amazon Redshift con todos los tipos de aplicaciones tradicionales, en contenedores, sin servidor, basadas en servicios web, nativas en la nube y basadas en eventos. La API Datos simplifica el acceso a Amazon Redshift ya que no tiene la necesidad de configurar controladores y administrar conexiones de bases de datos. En cambio, puede ejecutar comandos SQL en un clúster de Amazon Redshift simplemente mediante una llamada a un punto de enlace de API asegurado, proporcionado por la API Datos. La API Datos se encarga de administrar las conexiones de la base de datos y de almacenar los datos en búfer. La API Datos es asincrónica, por lo que puede recuperar sus resultados luego. Los resultados de la consulta se guardan por 24 horas.

P: ¿Qué tipos de credenciales puedo usar con la API Datos de Amazon Redshift?

La API Datos admite credenciales IAM y el uso de una clave secreta de AWS Secrets Manager. La API Datos une credenciales de AWS Identity and Access Management (IAM) para que pueda usar proveedores de identidad como Okta o Azure Active Directory o credenciales de bases de datos guardadas en Secrets Manager sin pasar credenciales de bases de datos en llamadas a la API.

P: ¿Puedo usar la API Datos de Amazon Redshift desde la CLI de AWS?

Sí, puede usar la API Datos de la CLI de AWS al usar la opción de línea de comando de datos de AWS Redshift.

P: ¿La API Datos de Redshift está integrada con otros servicios de AWS?

Puede usar la API Datos de otros servicios como AWS Lambda, AWS Cloud9, AWS AppSync y Amazon EventBridge.

P: ¿Tengo que pagar por separado por usar la API Datos de Amazon Redshift?

No, no se efectúan cargos separados por usar la API Datos.

Copia de seguridad y restauración

P: ¿Cómo respalda Amazon Redshift los datos en copias de seguridad? ¿Cómo restauro un clúster a partir de una copia de seguridad?

Los clústeres RA3 de Amazon Redshift y Amazon Redshift Serverless utilizan el almacenamiento administrado de Redshift, que siempre tiene la copia más reciente disponible de los datos. Los clústeres DS2 y DC2 reflejan los datos en el clúster para garantizar que la copia más reciente esté disponible en el caso de producirse un error. Las copias de seguridad se crean automáticamente en todos los tipos de clústeres de Redshift y se retienen por 24 horas, y en los puntos de recuperación sin servidor se proporcionan por las últimas 24 horas.

También puede crear sus propias copias de seguridad que se pueden retener de forma indefinida. Estas copias de seguridad se pueden crear en cualquier momento y las copias de seguridad automatizadas de Amazon Redshift o los puntos de recuperación de Amazon Redshift Serverless se pueden convertir en copias de seguridad de usuarios para poder retenerlas por más tiempo.

Amazon Redshift también puede replicar de forma asíncrona las instantáneas o los puntos de recuperación en Amazon S3 en otra región para casos de recuperación de desastres.

En un clúster DS2 o DC2, el límite del almacenamiento gratuito de copias de seguridad corresponde al tamaño total del almacenamiento de los nodos del clúster de almacenamiento de datos y solo se aplica a los clústeres de almacenamiento de datos activos.

Por ejemplo, si el almacenamiento de datos tiene una capacidad total de almacenamiento de 8 TB, proporcionaremos, como máximo, 8 TB de almacenamiento de copias de seguridad sin ningún cargo adicional. Si desea ampliar el periodo de retención de copias de seguridad a más de un día, puede hacerlo a través de la consola de administración de AWS o con las API de Amazon Redshift. Para obtener más información acerca de las instantáneas automatizadas, consulte la Guía de administración de Amazon Redshift.

Amazon Redshift solo realiza copias de seguridad de los datos que han cambiado para que la mayoría de las instantáneas solo utilice un pequeño volumen del almacenamiento gratuito para copias de seguridad. Cuando necesite recuperar una copia de seguridad, tendrá acceso a todas las copias de seguridad automatizadas que se hayan realizado dentro del periodo de retención que haya especificado. Después de haber elegido la copia de seguridad que desea recuperar, aprovisionaremos un nuevo clúster de almacén de datos y restableceremos los datos en él.

P: ¿Cómo puedo administrar la retención de las copias de seguridad y las instantáneas automatizadas?

Puede utilizar la consola de administración de AWS o la API ModifyCluster para administrar el período de conservación de las copias de seguridad automatizadas mediante la modificación del parámetro RetentionPeriod. Si desea desactivar de forma conjunta las copias de seguridad automatizadas, puede configurar el período de retención en 0 (no se recomienda).

P: ¿Qué sucede con mis copias de seguridad si elimino el clúster de almacén de datos?

Cuando elimina un clúster de almacén de datos, puede optar por crear una instantánea final tras la eliminación, lo que permitirá restablecer el clúster eliminado en una fecha posterior. Todas las instantáneas del clúster de almacenamiento de datos creadas de forma manual y con anterioridad se conservarán y se facturarán conforme a las tarifas estándar de Amazon S3, a menos que decida eliminarlas.

Monitoreo y mantenimiento

P: ¿Cómo puedo monitorear el rendimiento del clúster de almacenamiento de datos de Amazon Redshift?

Las métricas de uso de cómputo, uso de almacenamiento y tráfico de lectura/escritura del clúster de almacén de datos de Amazon Redshift están disponibles de forma gratuita en la consola de administración de AWS o en las API de Amazon CloudWatch. También puede agregar métricas adicionales definidas por el usuario a través de la funcionalidad de métricas personalizadas de Amazon CloudWatch. La consola de administración de AWS ofrece un panel de monitoreo que lo ayuda a controlar el estado y el rendimiento de todos los clústeres. Amazon Redshift ofrece información sobre el rendimiento de las consultas y el clúster a través de la consola de administración de AWS. Esta situación le permite ver qué usuarios y consultas consumen la mayoría de los recursos del sistema para diagnosticar problemas de rendimiento mediante la visualización de planes de consultas y estadísticas de ejecuciones. Además, puede ver la utilización de recursos de cada nodo informático para garantizar que dispone de datos y consultas equilibrados entre todos los nodos.

P: ¿Qué es un periodo de mantenimiento? ¿El clúster de almacén de datos estará disponible durante el mantenimiento del software?

Amazon Redshift realiza un mantenimiento periódico para aplicar correcciones, mejoras y nuevas características a su clúster. Puede cambiar los períodos de mantenimiento programados a través de la modificación del clúster, ya sea mediante programación o de la consola de Redshift. Durante estos períodos de mantenimiento, el clúster de Amazon Redshift no estará disponible para realizar operaciones normales. Para obtener más información sobre los períodos y programaciones de mantenimiento por región, consulte Períodos de mantenimiento en la guía de administración de Amazon Redshift.

Más información sobre los precios de Amazon Redshift

Visite la página de precios
¿Listo para crear?
Introducción a Amazon Redshift
¿Tiene más preguntas?
Contáctenos