Preguntas frecuentes sobre Amazon Redshift

Aspectos generales

Decenas de miles de clientes utilizan Amazon Redshift a diario para ejecutar análisis SQL en la nube, y procesan exabytes de datos para obtener información empresarial. No importa si sus datos en crecimiento están almacenados en almacenes de datos operativos, lagos de datos, servicios de datos de streaming o conjuntos de datos de terceros, Amazon Redshift lo ayuda a acceder, combinar y compartir datos de manera segura con el mínimo movimiento o copia. Amazon Redshift está profundamente integrado con los servicios de base de datos, análisis y machine learning de AWS para emplear enfoques sin ETL o ayudarlo a acceder a datos in situ para realizar análisis en tiempo real, crear modelos de machine learning en SQL y habilitar el análisis de Apache Spark con datos de Redshift. Amazon Redshift sin servidor permite que sus ingenieros, desarrolladores, científicos de datos y analistas comiencen a realizar y escalar análisis, de forma fácil y rápida y en un entorno que no precisa administración. Con su motor de procesamiento masivo en paralelo (MPP) y una arquitectura que separa la computación y el almacenamiento para un escalado eficiente, además de innovaciones basadas en machine learning (por ejemplo, Vista materializada automática), Amazon Redshift está diseñado para escalar y entregar una relación entre precio y rendimiento hasta cinco veces superior a otros almacenamientos de datos en la nube.

Miles de clientes eligen Amazon Redshift para acelerar el tiempo que tardan en obtener información, puesto que se trata de un potente sistema de análisis que se integra bien con servicios de bases de datos y machine learning, está optimizado y puede convertirse en un servicio central para cubrir todas sus necesidades de análisis. Amazon Redshift sin servidor aprovisiona y escala de forma automática la capacidad de almacenamiento de datos para brindar un alto rendimiento para las cargas de trabajo exigentes e impredecibles. Amazon Redshift brinda una relación líder entre precio y rendimiento para diversas cargas de trabajo de análisis, sin importar si se trata de creación de paneles, desarrollo de aplicaciones, uso compartido de datos, trabajos de ETL (extracción, transformación, carga) y muchos otros tipos. Con decenas de miles de clientes que ejecutan análisis en terabytes y petabytes de datos, Amazon Redshift optimiza el rendimiento de cargas de trabajo de clientes del mundo real, con base en la telemetría de rendimiento de flota, y brinda un rendimiento capaz de escalar de manera lineal según la carga de trabajo, a la vez que mantiene los costos bajos. Las innovaciones de rendimiento están disponibles para los clientes sin costo adicional. Amazon Redshift le permite obtener información gracias a la ejecución de análisis predictivos y en tiempo real sobre todos los datos de sus bases de datos operativas, lagos de datos, almacenamientos de datos y conjuntos de datos de terceros. Amazon Redshift admite un nivel de seguridad líder en el sector mediante funciones integradas de administración y federación de identidades para el inicio de sesión único (SSO), la autenticación multifactor, el control de acceso a nivel columna, la seguridad a nivel de columna, el control de acceso basado en roles, Amazon Virtual Private Cloud (Amazon VPC) y la capacidad de ajustar el tamaño de los clústeres con mayor rapidez.

Amazon Redshift es un servicio completamente administrado por AWS, por lo que usted no debe preocuparse más por las tareas de administración del almacenamiento de datos, como el aprovisionamiento de hardware, la aplicación de parches al software, la instalación, la configuración, la supervisión de nodos y unidades para recuperarse de errores o la creación de copias de seguridad. AWS administra el trabajo que se necesita para configurar, operar y escalar un almacenamiento de datos por usted, lo que lo libera de estas tareas y le permite dedicarse a crear sus aplicaciones. Amazon Redshift sin servidor aprovisiona y escala de forma automática la capacidad de almacenamiento de datos para brindar un alto rendimiento para las cargas de trabajo exigentes e impredecibles, y usted solo debe pagar los recursos que utiliza. Amazon Redshift también tiene capacidades de ajuste automático y recomendaciones de apariencia para administrar su almacenamiento de datos en Redshift Advisor. Con Redshift Spectrum, Amazon Redshift administra toda la infraestructura de computación, el equilibrador de carga, la planificación, la programación y la ejecución de sus consultas en datos almacenados en Amazon S3. Amazon Redshift permite realizar análisis de todos sus datos con una integración profunda con servicios de datos y con características como Amazon Aurora sin ETL con Amazon Redshift y consultas federadas, de modo que puede acceder a datos en situ de bases de datos operativas, por ejemplo, Amazon RDS y su lago de datos de Amazon S3. Redshift admite la ingesta de datos optimizada sin código, canalizaciones de datos automatizadas que ingieren datos de streaming o archivos de Amazon S3 de manera automática. Redshift también está integrado con AWS Data Exchange, lo que permite a los usuarios encontrar, suscribirse y consultar conjuntos de datos de terceros y combinarlos con sus datos para obtener información exhaustiva. Gracias a la integración nativa con Amazon SageMaker, los clientes pueden permanecer dentro de su almacenamiento de datos y crear, entrenar y desarrollar modelos de machine learning en SQL. Amazon Redshift cubre todas las necesidades de análisis de SQL con una relación entre precio y rendimiento hasta cinco veces mejor que otros almacenamientos de datos en la nube.

Amazon Redshift es un servicio completamente administrado que ofrece tanto opciones aprovisionadas como sin servidor, lo que hace más eficiente la ejecución y el escalado de análisis y evitar tener que administrar el almacenamiento de datos. Puede poner en marcho un nuevo punto de conexión de Amazon Redshift sin servidor para aprovisionar de manera automática el almacenamiento de datos en cuestión de segundos o elegir la opción aprovisionada para cargas de trabajo predecibles.

Con tan solo unos pocos pasos en la consola de administración de AWS, puede comenzar a consultar los datos. Puede beneficiarse de los conjuntos de datos de muestra precargados, incluidos los conjuntos de datos de referencia de TPC-H, TPC-DS, y de otras consultas de muestra para comenzar a efectuar análisis de inmediato. Para comenzar a utilizar Amazon Redshift sin servidor, elija “Try Amazon Redshift Serverless” (Probar Amazon Redshift sin servidor) y comience a consultar los datos. Comience aquí.

Los resultados comparativos de referencia de TPC-DS muestran que Amazon Redshift proporciona el mejor rendimiento de precios listo para usar, incluso para un conjunto de datos comparativamente pequeño de 3 TB. Amazon Redshift ofrece un rendimiento de precios hasta cinco veces mejor que otros almacenamientos de datos en la nube. Esto significa que puede beneficiarse del rendimiento de precios líder de Amazon Redshift desde el principio, sin tener que efectuar ajustes manuales. Según nuestra telemetría de flota de rendimiento, también sabemos que la mayoría de cargas de trabajo son cargas de trabajo de consulta breves (cargas de trabajo que se ejecutan en menos de un segundo). Para dichas cargas de trabajo, las últimas comparaciones demuestran que Amazon Redshift brinda una relación entre precio y rendimiento hasta siete veces superior para cargas de trabajo de simultaneidad alta y baja latencia en comparación con otros almacenamientos de datos en la nube. Obtenga más información aquí.

Sí, hay especialistas en Amazon Redshift disponibles para responder preguntas y ofrecer asistencia. Contáctenos y recibirá nuestra respuesta en el plazo de un día hábil para que analicemos cómo AWS puede ayudar a su organización.

El almacenamiento administrado de Amazon Redshift está disponible con los tipos de nodo sin servidor y RA3 y le permite escalar y pagar los recursos informáticos y el almacenamiento de forma independiente, de modo que puede decidir el tamaño del clúster solo en función de sus necesidades informáticas. Este servicio utiliza de forma automática el almacenamiento local basado en SSD de alto rendimiento como caché de nivel 1 y saca partido de optimizaciones como la temperatura de bloqueo de datos, la antigüedad de bloqueo de datos y los patrones de carga de trabajo para brindar un alto rendimiento, a la vez que escala de forma automática el almacenamiento a Amazon S3 cuando es necesario, sin tener que realizar ninguna acción.

Si ya utiliza los nodos de almacenamiento denso (DS) o de informática densa (DC) de Amazon Redshift, puede usar el redimensionamiento elástico para actualizar sus clústeres existentes a la nueva instancia informática RA3. Amazon Redshift Serverless y los clústeres que usan la instancia RA3 utilizan de forma automática el almacenamiento administrado por Redshift para guardar los datos. No se requiere ninguna otra acción fuera del uso de Amazon Redshift sin servidor o las instancias RA3 para utilizar esta capacidad.

Amazon Redshift Spectrum es una característica de Amazon Redshift que le permite ejecutar consultas en su lago de datos de Amazon S3, sin la necesidad de cargar datos ni de su procesamiento ETL (extracción, transformación y carga). Cuando emite una consulta SQL, esta va al punto de conexión de Amazon Redshift, lo que genera y optimiza un plan de consulta. Amazon Redshift determina qué datos son locales y cuáles se encuentran en Amazon S3, genera un plan para minimizar el volumen de datos de S3 que deben leerse y solicita a los nodos de trabajo de Amazon Redshift Spectrum de un grupo de recursos compartidos que lean y procesen datos de Amazon S3.

Considere elegir los tipos de nodo RA3 en los casos siguientes:

  • Necesita la flexibilidad para escalar y pagar los recursos informáticos de forma separada del almacenamiento.
  • Consulta una fracción de su volumen total de datos.
  • El volumen de datos crece con rapidez o se espera que crezca rápidamente.
  • Desea contar con la flexibilidad para decidir el tamaño del clúster solo en función de sus necesidades de rendimiento.

A medida que la escala de los datos continúa creciendo y alcanza volúmenes de petabytes, la cantidad de datos que se captura en el almacenamiento de datos de Amazon Redshift también aumenta. Es posible que busque varias formas de analizar todos sus datos de manera rentable.

Con las nuevas instancias RA3 de Amazon Redshift con almacenamiento administrado, puede elegir la cantidad de nodos en función de los requisitos de rendimiento y pagar solo el almacenamiento administrado que utilice. Esto le brinda la flexibilidad para determinar el tamaño del clúster RA3 en función de la cantidad de datos que procesa diariamente, sin que aumenten sus costos de almacenamiento. Creadas en AWS Nitro System, las instancias RA3 con almacenamiento administrado utilizan SSD de alto rendimiento para los datos a los que se accede con frecuencia y Amazon S3 para aquellos a los que se accede con poca frecuencia, lo que proporciona facilidad de uso, almacenamiento rentable y rendimiento rápido de consultas.

Amazon Redshift espacial proporciona análisis basados en la ubicación para obtener información valiosa de sus datos. Integra los datos espaciales y empresariales sin problemas para proporcionar análisis que sirvan para la toma de decisiones. Amazon Redshift lanzó el soporte nativo de procesamiento de datos espaciales en noviembre de 2019, con un tipo de datos polimórfico, GEOMETRY, y varias funciones espaciales clave de SQL. Ahora admite el tipo de datos GEOGRAPHY, y nuestra biblioteca de funciones espaciales de SQL ha crecido a 80 unidades. Admitimos todos los tipos de datos espaciales comunes y los estándares, incluidos Shapefiles, GeoJSON, WKT, WKB, eWKT y eWKB. Para obtener más información, visite la página de documentación o la del tutorial espacial de Amazon Redshift.

Amazon Athena y Amazon Redshift sin servidor abordan diferentes necesidades y casos de uso, aun cuando ambos servicios son sin servidor y permiten usuarios SQL.

Con su arquitectura de procesamiento masivo en paralelo (MPP) que separa la computación y el almacenamiento y las capacidades de optimización automáticas impulsadas por el machine learning, un almacenamiento de datos como Amazon Redshift (sin importar si es sin servidor o aprovisionado) es una gran elección para clientes que necesitan la mejor relación entre precio y rendimiento a cualquier escala para cargas de trabajo complejas de inteligencia empresarial y de análisis. Los clientes pueden utilizar Amazon Redshift como un componente central de su arquitectura de datos con integraciones profundas disponibles para acceder a datos in situ o ingerir y transferir datos al almacenamiento para realizar análisis de alto rendimiento, mediante métodos sin ETL y sin código. Los clientes pueden acceder a datos almacenados en Amazon S3, en bases de datos operativas como Aurora y Amazon RDS o en almacenamiento de datos de terceros mediante la integración AWS Data Exchange y combinarlos con los datos almacenados en el almacenamiento de datos de Amazon Redshift para realizar análisis. Los clientes pueden iniciar con facilidad el almacenamiento de datos y utilizar machine learning con todos esos datos.

Amazon Athena es ideal para realizar análisis interactivos y explorar los datos que se encuentran en su lago de datos o en cualquier origen de datos, a través de un marco de conectores ampliable que incluye más de 30 conectores listos para usar destinados a aplicaciones y sistemas de análisis locales u otros sistemas analíticos en la nube, y todo ello sin necesidad de preocuparse por ingerir o procesar datos. Amazon Athena se basa en motores y marcos de código abierto, como Spark, Presto y Apache Iceberg, lo que le da a los clientes flexibilidad para utilizar Python o SQL o trabajar con formatos de datos abiertos. Si los clientes quieren realizar análisis interactivos con marcos y formatos de datos de código abierto, Amazon Athena es un lugar estupendo para ello.

Sin servidor

Amazon Redshift sin servidor es una opción sin servidor de Amazon Redshift que hace más eficiente la ejecución y el escalado de análisis en segundos, sin necesidad de configurar ni administrar una infraestructura de almacenamiento de datos. Con Redshift sin servidor, cualquier usuario, incluidos los analistas de datos, los desarrolladores, los profesionales de negocios y los científicos de datos, puede obtener información de los datos con solo cargar y consultar los datos que se encuentran en el almacenamiento de datos.

Con tan solo unos pocos pasos en la consola de administración de AWS, puede elegir “Configure Amazon Redshift Serverless” (Configurar Amazon Redshift sin servidor) y comenzar a consultar datos. Puede beneficiarse de los conjuntos de datos de muestra precargados, como los datos del clima, los datos de censo y los conjuntos de datos de referencia, junto con las consultas de muestra para comenzar a realizar análisis de inmediato. Puede crear bases de datos, esquemas, tablas y cargar datos desde Amazon S3, datos compartidos de Amazon Redshift o restaurar datos desde una instantánea existente de clúster aprovisionada de Redshift. También puede consultar datos directamente en formatos abiertos, como Parquet u ORC, en los lagos de datos de Amazon S3 o consultar los datos de las bases de datos operativas, como Amazon Aurora, Amazon RDS PostgreSQL y MySQL. Consulte la guía de introducción.

Si no cuenta con experiencia en la administración del almacenamiento de datos, no debe preocuparse por instalar, configurar, administrar clústeres ni ajustar el almacenamiento. Puede enfocarse en obtener información importante de sus datos o en cumplir los resultados empresariales principales a través de los datos. Solo pagará lo que utilice y mantendrá los costos administrables. Continuará beneficiándose de todo el rendimiento de excelencia, las características completas de SQL, la integración constante con los lagos de datos y los almacenamientos de datos operativos, los análisis predictivos integrados y las capacidades de uso compartido de datos de Amazon Redshift. Si necesita tener un control pormenorizado de su almacenamiento de datos, puede aprovisionar clústeres de Redshift.

Puede continuar usando todas las funcionalidades completas de análisis de Amazon Redshift, como las combinaciones complejas, las consultas directas a los datos de los lagos de datos y las bases de datos operativas de Amazon S3, las vistas materializadas, los procedimientos almacenados, el soporte de datos semiestructurados y el ML, así como también el alto rendimiento a escala. Todos los servicios relacionados a los que se integra Amazon Redshift (como Amazon Kinesis, AWS Lambda, Amazon QuickSight, Amazon SageMaker, Amazon EMR, AWS Lake Formation y AWS Glue) continúan en funcionamiento con Amazon Redshift sin servidor.

Puede continuar ejecutando todos los casos de uso de análisis. Con un simple flujo de trabajo de introducción, el escalado automático y la capacidad de pago por uso, la experiencia de Amazon Redshift sin servidor ahora hace aún más eficiente y rentable la ejecución de entornos de desarrollo y prueba que deben iniciarse rápido, análisis empresariales a medida, cargas de trabajo con necesidades de computación variables e impredecibles y cargas de trabajo intermitentes o esporádicas.

Ingesta y carga de datos

Puede cargar datos en Amazon Redshift desde varios orígenes de datos, entre otros, Amazon S3, Amazon RDS, Amazon DynamoDBAmazon EMR, AWS Glue, AWS Data Pipeline o cualquier host con SSH habilitado en Amazon EC2 o en equipos locales. Amazon Redshift intenta cargar los datos en paralelo en cada nodo de ejecución para maximizar la velocidad a la que puede incorporar datos en el clúster de almacenamiento de datos. Los clientes pueden conectarse a Amazon Redshift mediante ODBC o JDBC y enviar comandos “insert” de SQL para insertar los datos. Tenga en cuenta que este procedimiento es más lento que utilizar S3 o DynamoDB porque dichos métodos cargan datos en paralelo en cada nodo de cómputo, mientras que las instrucciones “insert” de SQL se cargan a través del único nodo principal. Para obtener más detalles sobre la carga de datos en Amazon Redshift, consulte la guía de introducción.

La copia automática de Redshift brinda la capacidad de automatizar las instrucciones de copia al rastrear las carpetas de Amazon S3 e ingerir nuevos archivos sin la intervención del cliente. Sin la copia automática, una instrucción de copia empieza de manera inmediata el proceso de ingesta para los archivos existentes. La copia automática amplia el comando de copia existente y brinda la capacidad de 1) automatizar el proceso de ingesta de archivos al supervisar rutas de Amazon S3 especificadas para archivos nuevos; 2) reutilizar configuraciones de copia (lo que reduce la necesidad de crear y ejecutar nuevas instrucciones de copia para tareas de ingesta repetitivas) y 3) mantener un seguimiento de archivos cargados para evitar la duplicación de datos.

Para comenzar a utilizarla, los clientes deben contar con una carpeta de Amazon S3, a la que se puede acceder mediante su punto de conexión sin clúster/sin servidor a través del uso de roles de IAM asociados y crear una tabla de Redshift que se utilizará como destino. Una vez que la ruta de Amazon S3 y la tabla de Redshift estén preparadas, los clientes pueden crear un trabajo de copia mediante el comando de copia. Tras la creación del trabajo de copia, Redshift comienza a rastrear la ruta de Amazon S3 especificada entre bambalinas e inicia las instrucciones de copia definidas por el usuario para copiar de manera automática nuevos archivos en la tabla de destino.

Los casos de uso incluyen: 1) clientes que utilizan Amazon EMR y AWS Glue para ejecutar trabajos de Apache Spark que acceden y cargan datos en Amazon Redshift como parte de las canalizaciones de ingesta de datos y transformación (lotes y streaming); 2) clientes que utilizan Amazon SageMaker para aplicar machine learning con Apache Spark y deben acceder a datos almacenados en Amazon Redshift para ingeniería y transformación de características. 3) Clientes de Amazon Athena que utilizan Apache Spark para realizar análisis interactivos sobre los datos de Amazon Redshift.

Baikal ofrece los siguientes beneficios:

  • Facilidad de uso para comenzar a ejecutar aplicaciones de Apache Spark en datos de Amazon Redshift sin tener que preocuparse por los pasos manuales necesarios para configurar y mantener versiones no certificadas de Spark
  • Comodidad de usar Apache Spark desde varios servicios de AWS, como Amazon EMR, AWS Glue, Amazon Athena y Amazon SageMaker con Amazon Redshift gracias a una configuración mínima
  • Rendimiento mejorado al ejecutar aplicaciones de Apache Spark en Amazon Redshift

Amazon Aurora sin ETL para Amazon Redshift permite a los clientes de Amazon Aurora y Amazon Redshift ejecutar análisis y machine learning casi en tiempo real sobre petabytes de datos transaccionales, ya que brinda una solución completamente administrada para hacer que los datos transaccionales de Amazon Aurora estén disponibles en Amazon Redshift en cuestión de segundos tras escribirse. Con Amazon Aurora sin ETL para Amazon Redshift, los clientes solo tienen que elegir tablas de Amazon Aurora que contengan los datos que desean analizar con Amazon Redshift, y esta característica replica de manera integral el esquema y los datos en Amazon Redshift. De este modo, reduce la necesidad de que los clientes tengan que crear y mantener canalizaciones de datos complejas, así que pueden centrarse en mejorar sus aplicaciones. Con Amazon Aurora sin ETL para Amazon Redshift, los clientes pueden replicar datos de diferentes clústeres de base de datos de Amazon Aurora en la misma instancia de Amazon Redshift para obtener información exhaustiva en un buen número de aplicaciones, a la vez que consolidan sus activos de análisis principales, de modo que obtienen importantes ahorros en costos y una mayor eficiencia operativa. Además, con Amazon Aurora sin ETL para Amazon Redshift, los clientes también pueden acceder a las capacidades de análisis principales y machine learning de Amazon Redshift, como vistas materializadas, uso compartido de datos y acceso federado a múltiples almacenamientos de datos y lagos de datos. Esto permite a los clientes combinar análisis principales casi en tiempo real para obtener de forma eficaz información sensible al tiempo que fundamente decisiones empresariales. Por otra parte, los clientes utilizan Amazon Aurora para transacciones y Amazon Redshift para análisis, así que no se comparten recursos de computación y se benefician de una solución eficaz y estable a nivel operativo.

La integración de Amazon Aurora sin ETL con Amazon Redshift ofrece una integración perfecta entre los dos servicios para el análisis transaccional.

Los datos de streaming son diferentes de las tablas de bases de datos tradicionales, puesto que al consultar una secuencia está capturando la evolución de una relación que varía en el tiempo. Las tablas, por otra parte, capturan una instantánea de un punto en el tiempo de esta relación que varía en el tiempo. Los clientes de Amazon Redshift están acostumbrados a trabajar con tablas regulares y realizar procesamientos descendentes de datos (como transformaciones) mediante un modelo por lotes tradicional, por ejemplo, “ELT”. Brindamos un método para utilizar vistas materializadas de Redshift, de modo que los clientes puedan materializar con facilidad una vista de un punto en el tiempo de la secuencia, tal como se acumuló en el momento de la consulta y lo más rápido posible para dar soporte a flujos de trabajo de ELT.

Uso compartido de datos

Entre los casos de uso principales se incluyen los siguientes:

  • un clúster central de ETL que comparte datos con muchos clústeres de inteligencia empresarial y análisis para proporcionar aislamiento de las cargas de trabajo de lectura y capacidad opcional de carga
  • un proveedor de datos que los comparte con consumidores externos
  • el uso compartido de conjuntos de datos comunes, como clientes, productos en diferentes grupos empresariales y colaboración en el análisis amplio y la ciencia de datos
  • la descentralización del almacenamiento de datos para simplificar su administración
  • el uso compartido de datos entre los entornos de desarrollo, prueba y producción
  • el acceso a los datos de Redshift desde otros servicios de análisis de AWS.

Con las consultas entre bases de datos, puede consultar datos y combinarlos sin problemas de cualquier base de datos de Redshift a la que tenga acceso, independientemente de la base de datos a la que esté conectado. Esto puede incluir bases de datos locales en el clúster y también conjunto de datos compartidos que estén disponibles en clústeres remotos. Las consultas entre bases de datos le dan flexibilidad para organizar los datos como bases de datos separadas para admitir configuraciones multiinquilino.

AWS Data Exchange hace que el intercambio y el uso seguros de los datos de terceros en AWS sea más eficiente para los clientes de AWS. Los analistas de datos, los administradores de productos, los administradores de carteras, los científicos de datos, los vendedores analistas cuantitativos, los técnicos en ensayos clínicos y los desarrolladores en casi todos los sectores quisieran tener acceso a más datos para impulsar el análisis, formar modelos de ML y tomar decisiones basadas en los datos. Pero no existe ningún lugar único para buscar datos de varios proveedores ni consistencia en la forma en que los proveedores entregan sus datos, lo que los lleva a tener que lidiar con una combinación de medios físicos enviados, credenciales de FTP y llamadas a la API hechas a medida. Por el contrario, muchas organizaciones quisieran poner sus datos a disposición para fines comerciales o de investigación, pero es demasiado difícil y costoso crear y mantener la entrega de datos, el otorgamiento de derechos y la tecnología de facturación, lo que deprime aún más el suministro de datos valiosos.

Escalabilidad y simultaneidad

Amazon Redshift sin servidor aprovisiona de manera automática capacidad de almacenamiento de datos con el objetivo de brindar un rendimiento excelente para todos sus análisis. Amazon Redshift sin servidor ajusta la capacidad en segundos, a fin de ofrecer de forma consistente operaciones de alto rendimiento y simplificadas para las cargas de trabajo más exigentes y volátiles. Con la característica de ajuste de escalado de simultaneidad, puede admitir consultas y usuarios simultáneos ilimitados, con un rendimiento de consulta ágil constante. Cuando el escalado de simultaneidad está habilitado, Amazon Redshift agrega automáticamente capacidad de clúster cuando las experiencias del clúster aumentan en la cola de consultas.

En el caso del escalamiento manual, si quiere aumentar el rendimiento de las consultas o resolver el uso excesivo de la CPU, la memoria o las operaciones de E/S, puede aumentar la cantidad de nodos del clúster de almacenamiento de datos con la adaptación elástica del tamaño a través de la Consola de administración de AWS o con la API de ModifyCluster. Si modifica el clúster de almacenamiento de datos, los cambios solicitados se aplicarán de forma inmediata. Las métricas de uso de computación, uso de almacenamiento y tráfico de lectura/escritura del clúster de almacenamiento de datos de Redshift están disponibles de forma gratuita en la consola de administración de AWS o en las API de Amazon CloudWatch. También puede agregar métricas definidas por el usuario mediante la funcionalidad de métricas personalizadas de Amazon CloudWatch.

Con Amazon Redshift Spectrum, puede ejecutar varios clústeres de Redshift y acceder a los mismos datos en Amazon S3. Puede utilizar clústeres diferentes para casos de uso diferentes. Por ejemplo, puede usar un clúster para generación de informes estándar y otro para consultas de ciencia de datos. Su equipo de marketing puede usar sus propios clústeres, que son diferentes a los de su equipo de operaciones. Redshift Spectrum distribuye automáticamente la ejecución de su consulta a varios nodos de trabajo de Redshift Spectrum a partir de un grupo de recursos compartidos para leer y procesar datos desde Amazon S3, y obtiene resultados de vuelta en su clúster de Redshift para cualquier procesamiento pendiente.

Depende. Cuando utiliza la característica de ajuste de escala de simultaneidad, el clúster se encuentra plenamente disponible para operaciones de lectura y escritura. Con el ajuste de tamaño elástico, el clúster no podrá utilizarse durante los cuatro a ocho minutos que dura el período de ajuste de tamaño. Con la elasticidad del almacenamiento de RA3 de Redshift en almacenamiento administrado, el clúster se encuentra completamente disponible y los datos se trasladan de forma automática entre el almacenamiento administrado y los nodos de computación.

El redimensionamiento elástico agrega o elimina nodos de un solo clúster de Redshift en minutos para administrar el rendimiento de las consultas. Por ejemplo, una carga de trabajo de ETL durante ciertas horas en un informe diario o de fin de mes podría necesitar recursos adicionales de Amazon Redshift para completarse a tiempo. El escalado de simultaneidad agrega recursos de clústeres adicionales para aumentar la simultaneidad general de las consultas.

No. El escalado de simultaneidad es un grupo masivamente escalable de recursos de Amazon Redshift a los que los clientes no tienen acceso directo.

Seguridad

Amazon Redshift admite un nivel de seguridad líder en el sector mediante funciones integradas de administración y federación de identidades para el inicio de sesión único (SSO), la autenticación multifactor, el control de acceso a nivel columna, la seguridad a nivel de columna, el control de acceso basado en roles y Amazon Virtual Private Cloud (Amazon VPC). Al utilizar Amazon Redshift, los datos se cifran en tránsito y en reposo. Todas las características de seguridad listas para usar de Amazon Redshift se ofrecen sin costo adicional a fin de satisfacer los requisitos de seguridad, privacidad y conformidad más exigentes. De este modo, se beneficia de que AWS admita más normas de seguridad y certificaciones de cumplimiento que cualquier otro proveedor, incluidas ISO 27001, SOC, HIPAA/HITECH y FedRAMP.

Sí, Amazon Redshift ofrece compatibilidad con el control de acceso basado en roles. El control de acceso a nivel de filas permite asignar uno o más roles a un usuario y asignar permisos de sistema y de objeto según el rol. Puede utilizar los roles del sistema predeterminados, como usuario raíz, dba, operador y administradores de seguridad, o crear sus propios roles.

Las funciones definidas por el usuario (UDF) de AWS Lambda le permiten utilizar una función de AWS Lambda como UDF en Amazon Redshift e invocarla desde las consultas SQL de Redshift. Esta funcionalidad le permite escribir extensiones personalizadas para su consulta SQL y lograr una mejor integración con otros servicios o productos de terceros. Puede escribir las UDF para habilitar la tokenización externa, el enmascaramiento de datos, la identificación o desidentificación de datos mediante la integración a proveedores como Protegrity y proteger o desproteger datos confidenciales basados en los permisos y grupos del usuario, en momentos de consultas.

Gracias a la compatibilidad con enmascaramiento de datos dinámicos, los clientes pueden proteger con facilidad sus datos confidenciales y controlar el acceso de manera pormenorizada mediante la administración de políticas de enmascaramiento de datos. Supongamos que sus aplicaciones tienen varios usuarios y objetos con datos confidenciales que no pueden estar expuestos a todos los usuarios. Su deber es brindar un nivel de seguridad pormenorizado diferente para cada grupo de usuarios. El enmascaramiento de datos dinámico de Redshift puede configurarse para permitir a los clientes definir valores de datos enmascarados consistentes, que preserven el formato y que sean irreversibles. Una vez que la característica esté disponible de manera general, podrá comenzar a utilizarla de inmediato. Los administradores de seguridad pueden crear y aplicar políticas utilizando tan solo unos pocos comandos.

Sí. Los clientes que quieran utilizar sus proveedores de identidad corporativa, como Microsoft Azure Active Directory, los servicios federados de Active Directory, Okta, Ping Federate, u otros proveedores de identidad compatibles con SAML, pueden configurar Amazon Redshift para proporcionar inicio de sesión único. Puede iniciar sesión mediante inicio de sesión único en el clúster de Amazon Redshift con identidades de Microsoft Azure Active Directory (AD). Esto le permite utilizar iniciar sesión en Redshift sin que estas identidades de Azure Active Directory se dupliquen en Redshift.

Sí. Puede utilizar la autenticación multifactor (MFA) para contar con seguridad adicional cuando se autentique en su clúster de Amazon Redshift.

Disponibilidad y durabilidad

Amazon Redshift detecta y reemplaza automáticamente el nodo defectuoso en el clúster de almacenamiento de datos. En los clústeres de computación densa (DC) y de almacenamiento denso (DS2), los datos se almacenan en los nodos de computación para garantizar la alta durabilidad de los datos. Cuando se reemplaza un nodo, los datos se actualizan desde la copia de espejo que se encuentra en el otro nodo. Los clústeres RA3 y Redshift sin servidor no se ven afectados de la misma manera debido a que los datos se almacenan en Amazon S3 y la unidad local solo se usa como una memoria caché de datos. El clúster de almacenamiento de datos no estará disponible para consultas y actualizaciones hasta que se aprovisione un nodo de sustitución y se agregue a la base de datos. Amazon Redshift habilita el nodo de sustitución de inmediato y carga los datos a los que se tiene acceso con más frecuencia desde Amazon S3 primero para permitirle reanudar las consultas de los datos lo más rápido posible. Los clústeres de un solo nodo no admiten la replicación de datos. Si ocurre un error en la unidad, deberá restablecer el clúster a partir de una instantánea de S3. Le recomendamos que utilice al menos dos nodos para la producción.

Si la zona de disponibilidad del clúster de almacenamiento de datos de Amazon Redshift es una implementación single-AZ y la zona de disponibilidad del clúster deja de estar disponible, Amazon Redshift moverá automáticamente el clúster a otra zona de disponibilidad (AZ) de AWS sin que se pierdan datos o se produzcan cambios en la aplicación. Para activar esto, habilite la capacidad de reubicación en el ajuste de configuración del clúster.

Al contrario que con las implementaciones single-AZ, ahora los clientes pueden mejorar la disponibilidad de Redshift al ejecutar su almacenamiento de datos en una implementación multi-AZ. Una implementación multi-AZ le permite ejecutar su almacenamiento de datos en múltiples zonas de disponibilidad (AZ) de AWS en simultáneo, y continuar operando en escenarios de fallas imprevistas. No se requieren cambios de aplicación para mantener la continuidad empresarial, dado que la implementación multi-AZ se administra como un único almacenamiento de datos con un punto de conexión. Las implementaciones multi-AZ reducen el tiempo de recuperación al garantizar la capacidad para recuperarse de manera automática y están destinadas a clientes con aplicaciones analíticas críticas para el negocio que requieren los niveles más altos de disponibilidad y resistencia a los errores de las zonas de disponibilidad. Esto también permite a los clientes implementar una solución con un cumplimiento más elevado respecto a las recomendaciones del pilar de fiabilidad de AWS Well-Architected Framework. Para obtener más información acerca de Amazon Redshift multi-AZ, consulte aquí.

RPO es un acrónimo para Recovery Point Objective (objetivo de punto de recuperación), un término que describe la garantía de antigüedad de los datos en caso de errores. RPO es el intervalo de tiempo máximo aceptable desde el último punto de recuperación de datos. De este modo, determina lo que se considera una pérdida de datos aceptable entre el último punto de recuperación y la interrupción del servicio. Redshift multi-AZ admite un RPO = 0, lo que significa que se garantiza que los datos están actualizados en caso de un error. Nuestras pruebas previas al lanzamiento descubrieron que el RTO con las implementaciones Multi-AZ de Amazon Redshift es inferior a 60 segundos o menos en el improbable caso de que se produzca un error en la zona de disponibilidad.

Reubicación de Redshift está habilitada de manera predeterminada en todos los clústeres y puntos de conexión sin servidor de RA3 nuevos, lo que permite que un almacenamiento de datos se reinicie en otra zona de disponibilidad en caso de una interrupción a gran escala, sin ninguna pérdida de datos ni costo adicional. Aunque utilizar Reubicación no tiene ningún costo, la característica tiene sus limitaciones, ya que es un enfoque de mejor esfuerzo sujeto a la disponibilidad de los recursos en la zona de disponibilidad para la recuperación y el objetivo de tiempo de recuperación (RTO) puede verse afectado por otros errores relacionados con el inicio de un nuevo clúster. Esto puede dar lugar a tiempos de recuperación de entre 10 y 60 minutos. Redshift multi-AZ es compatible con requisitos de disponibilidad alta, ya que brinda un RTO que puede medirse en decenas de segundos y garantiza una operación continuada, puesto que no está sujeta a limitaciones de capacidad ni otros errores potenciales que surgen al crear un nuevo clúster.

Consultas y análisis

Sí, Amazon Redshift utiliza el estándar del sector SQL y se obtiene acceso a través de los controladores estándar JDBC y ODBC. Puede descargar los controladores JDBC y ODBC personalizados de Amazon Redshift en la pestaña Connect Client de la consola de Redshift. Disponemos de integraciones validadas con proveedores conocidos de inteligencia empresarial (BI) y de ETL, algunos de los cuales actualmente ofrecen pruebas gratuitas para ayudarlo a comenzar a cargar los datos y analizarlos. También puede visitar AWS Marketplace para desplegar y configurar soluciones diseñadas para funcionar con Amazon Redshift en cuestión de minutos.

Amazon Redshift Spectrum admite todas las herramientas de cliente de Amazon Redshift. Las herramientas cliente pueden continuar conectadas al punto de enlace del clúster de Amazon Redshift con conexiones ODBC o JDBC. No deben realizarse modificaciones.

Puede utilizar exactamente la misma sintaxis de consultas y tiene las mismas capacidades de consultas para obtener acceso a las tablas en Redshift Spectrum que ya tiene para las tablas en el almacenamiento local de su clúster de Redshift. Se hace referencia a las tablas con el nombre de esquema definido en el comando CREATE EXTERNAL SCHEMA en el que se registraron.

Amazon Redshift Spectrum actualmente admite muchos formatos de datos de código abierto, incluidos Avro, CSV, Grok, Amazon Ion, JSON, ORC, Parquet, RCFile, RegexSerDe, Sequence, Text y TSV.<br>Amazon Redshift Spectrum actualmente admite la compresión Gzip y Snappy.

De la misma manera que con las tablas locales, puede usar el nombre del esquema para escoger exactamente la que desea si incluye schema_name.table_name en su consulta.

Sí. El comando CREATE EXTERNAL SCHEMA es compatible con Hive Metastore. Actualmente, no se admite DDL contra tiendas de metadatos Hive.

Puede realizar una consulta en la tabla de sistema SVV_EXTERNAL_TABLES para obtener esa información.

Sí, la característica de Amazon Redshift ML facilita a los usuarios de SQL crear, entrenar e implementar modelos de machine learning (ML) con comandos SQL conocidos. El machine learning de Amazon Redshift le permite potenciar sus datos en Amazon Redshift con Amazon SageMaker, un servicio de machine learning completamente administrado. Amazon Redshift soporta tanto el aprendizaje sin supervisar (K-Means) como el aprendizaje supervisado (Autopilot, XGBoost, algoritmos MLP). También puede utilizar los servicios de AWS Language AI para traducir, redactar y analizar los campos de texto en las consultas SQL con funciones UDF de Lambda prefabricadas; consulte la publicación del blog.

Amazon Redshift proporciona una API de datos que usted puede usar para acceder fácilmente a los datos desde Amazon Redshift con todos los tipos de aplicaciones tradicionales, en contenedores, sin servidor, basadas en servicios web, nativas en la nube y basadas en eventos. La API Datos simplifica el acceso a Amazon Redshift ya que no tiene la necesidad de configurar controladores y administrar conexiones de bases de datos. En cambio, puede ejecutar comandos SQL en un clúster de Amazon Redshift simplemente mediante una llamada a un punto de enlace de API asegurado, proporcionado por la API Datos. La API Datos se encarga de administrar las conexiones de la base de datos y de almacenar los datos en búfer. La API Datos es asincrónica, por lo que puede recuperar sus resultados luego. Los resultados de la consulta se conservan por 24 horas.

La API Datos admite credenciales IAM y el uso de una clave secreta de AWS Secrets Manager. La API Datos une credenciales de AWS Identity and Access Management (IAM) para que pueda usar proveedores de identidad como Okta o Azure Active Directory o credenciales de bases de datos guardadas en Secrets Manager sin pasar credenciales de bases de datos en llamadas a la API.

Sí, puede usar la API Datos de la CLI de AWS al usar la opción de línea de comando de datos de AWS Redshift.

Puede usar la API Datos de otros servicios como AWS Lambda, AWS Cloud9, AWS AppSync y Amazon EventBridge.

No, no se efectúan cargos separados por usar la API Datos.

Integraciones sin ETL

Debe usar la integración sin ETL de Aurora con Amazon Redshift cuando necesite acceso a los datos transaccionales casi en tiempo real. Esta integración le permite aprovechar Amazon Redshift ML con comandos SQL sencillos.

La integración sin ETL de Amazon Aurora con Amazon Redshift está disponible en la edición Aurora compatible con MySQL para Aurora MySQL 3.05 (compatible con MySQL 8.0.32) y versiones posteriores en las regiones Este de EE. UU. (Ohio), Este de EE. UU. (Norte de Virginia), Oeste de EE. UU. (Oregón), Asia-Pacífico (Singapur), Asia-Pacífico (Sídney), Asia-Pacífico (Tokio), Europa (Fráncfort), Europa (Irlanda) y Europa (Estocolmo). La integración sin ETL de Aurora con Amazon Redshift está disponible en la edición compatible con Aurora PostgreSQL para Aurora PostgreSQL 15.4, en la región Este de EE. UU. (Ohio).

La integración sin ETL de Aurora con Amazon Redshift elimina la necesidad de crear y mantener canalizaciones de datos complejas. Puede consolidar los datos de uno o varios clústeres de bases de datos de Aurora en un único clúster de base de datos de Amazon Redshift y ejecutar análisis y ML casi en tiempo real con Amazon Redshift en petabytes de datos transaccionales de Amazon Aurora.

La integración sin ETL de Aurora con Amazon Redshift es compatible con Amazon Redshift sin servidor y Amazon Aurora sin servidor v2. Al utilizar tanto Aurora sin servidor v2 como Amazon Redshift sin servidor, puede generar análisis casi en tiempo real de los datos transaccionales sin tener que administrar ninguna infraestructura para canalizaciones de datos.

Para empezar, utilice la consola de Amazon RDS para crear la integración sin ETL especificando el origen de Aurora y el destino de Amazon Redshift. Una vez creada la integración, la base de datos de Aurora se replicará en Amazon Redshift, y usted podrá empezar a consultar los datos una vez que se complete la fase inicial. Para obtener más información, lea la guía de introducción a las integraciones sin ETL de Aurora con Amazon Redshift.

La integración sin ETL entre Aurora y Amazon Redshift replica de forma atómica las transacciones para garantizar la coherencia de datos entre la base de datos Aurora de origen y el clúster de Amazon Redshift de destino.
Estos son algunos puntos clave sobre la atomicidad de las transacciones con esta integración:

  • Solo las transacciones confirmadas en Aurora se replican en Amazon Redshift. No se aplican las transacciones no comprometidas o revertidas.
  • La integración utiliza un proceso de confirmación en dos fases para aplicar de forma atómica cada transacción a Amazon Redshift. Se aplican todos los cambios de datos de la transacción o, si se produce un error, no se aplica ninguno.
  • Se mantiene la coherencia de las transacciones entre el origen y el destino. Tras la replicación, los datos de una transacción determinada serán coherentes tanto en Aurora como en Amazon Redshift.
  • Los cambios de esquema mediante el DDL o el DML también se aplican atómicamente para mantener la integridad.
  • La aplicación atómica de las transacciones garantiza que no se produzcan transacciones parciales ni estados de datos inconsistentes entre las bases de datos.
 

La integración sin ETL de Aurora con Amazon Redshift mantiene una coherencia transaccional total entre la base de datos de Aurora de origen y el clúster de Amazon Redshift de destino.

Estos son algunos puntos clave sobre cómo se administran los cambios de esquema:

  • Las instrucciones DDL como CREAR TABLA, ALTERAR TABLA, ELIMINAR TABLA, etc., se replican automáticamente de Aurora a Amazon Redshift.
  • La integración lleva a cabo las comprobaciones y ajustes necesarios en las tablas de Amazon Redshift para los cambios de esquema replicados. Por ejemplo, si agrega una columna en Aurora, se agregará la columna en Amazon Redshift.
  • La replicación y la sincronización del esquema se producen automáticamente en tiempo real con un retraso mínimo entre las bases de datos de origen y de destino.
  • La coherencia del esquema se mantiene incluso cuando los cambios en el DML se producen en paralelo a los cambios en el DDL.

Puede crear vistas materializadas en su base de datos local de Amazon Redshift para transformar los datos replicados mediante la integración sin ETL. Conéctese a la base de datos local y utilice consultas entre bases de datos para acceder a las bases de datos de destino. Puede utilizar nombres de objetos totalmente cualificados con notación en tres partes (destination-database-name.schema-name.table-name) o crear un esquema externo que haga referencia a la base de datos de destino y al par de esquemas y utilizar una notación en dos partes (external-schema-name.table-name).

La integración sin ETL y el procesamiento continuo de los cambios de datos se ofrecen sin cargos adicionales. Usted paga por los recursos existentes de Amazon RDS y Amazon Redshift que se utilizan para crear y procesar los datos de cambios creados como parte de una integración sin ETL. Estos recursos podrían incluir:

  • E/S y almacenamiento adicionales que se utilizan al habilitar un binlog mejorado
  • Costos de exportación de instantáneas para la exportación inicial de datos a fin de crear bases de datos de Amazon Redshift
  • Almacenamiento adicional en Amazon Redshift para almacenar datos replicados
  • Costos de transferencia de datos entre zonas de disponibilidad para mover datos del origen al destino

Para obtener más información, visite la página de precios de Aurora.

Copia de seguridad y restauración

Los clústeres RA3 de Amazon Redshift y Amazon Redshift sin servidor utilizan el almacenamiento administrado de Redshift, que siempre tiene la copia más reciente disponible de los datos. Los clústeres DS2 y DC2 reflejan los datos en el clúster para garantizar que la copia más reciente esté disponible en el caso de producirse un error. Las copias de seguridad se crean automáticamente en todos los tipos de clústeres de Redshift y se retienen por 24 horas; y en los puntos de recuperación sin servidor, se proporcionan por las últimas 24 horas.

También puede crear sus propias copias de seguridad que se pueden retener de forma indefinida. Estas copias de seguridad se pueden crear en cualquier momento y las copias de seguridad automatizadas de Amazon Redshift o los puntos de recuperación de Amazon Redshift sin servidor se pueden convertir en copias de seguridad de usuarios para poder retenerlas por más tiempo.

Amazon Redshift también puede replicar de forma asíncrona las instantáneas o los puntos de recuperación en Amazon S3 en otra región para casos de recuperación de desastres.

En un clúster DS2 o DC2, el límite del almacenamiento gratuito de copias de seguridad corresponde al tamaño total del almacenamiento de los nodos del clúster de almacenamiento de datos y solo se aplica a los clústeres de almacenamiento de datos activos.

Por ejemplo, si el almacenamiento de datos tiene una capacidad total de almacenamiento de 8 TB, proporcionaremos, como máximo, 8 TB de almacenamiento de copias de seguridad sin ningún cargo adicional. Si desea extender el periodo de retención de copias de seguridad por más de un día, puede hacerlo a través de la Consola de administración de AWS o con las API de Amazon Redshift. Para obtener más información acerca de las instantáneas automatizadas, consulte la Guía de administración de Amazon Redshift.

Amazon Redshift solo realiza copias de seguridad de los datos que han cambiado para que la mayoría de las instantáneas solo utilice un pequeño volumen del almacenamiento gratuito para copias de seguridad. Cuando necesite recuperar una copia de seguridad, tendrá acceso a todas las copias de seguridad automatizadas que se hayan realizado dentro del periodo de retención que haya especificado. Después de haber elegido la copia de seguridad que desea recuperar, aprovisionaremos un nuevo clúster de almacenamiento de datos y restableceremos los datos en él.

Puede usar la Consola de administración de AWS o la API de ModifyCluster para administrar el período de retención de las copias de seguridad automatizadas mediante la modificación del parámetro RetentionPeriod. Si desea desactivar de forma conjunta las copias de seguridad automatizadas, puede configurar el período de retención en 0 (no se recomienda).

Cuando elimina un clúster de almacenamiento de datos, puede optar por crear una instantánea final tras la eliminación, lo que permitirá restablecer el clúster eliminado en una fecha posterior. Todas las instantáneas del clúster de almacenamiento de datos que se crearon previamente de forma manual se retendrán y facturarán conforme a las tasas estándar de Amazon S3, a menos que usted decida eliminarlas.

Supervisión y mantenimiento

Las métricas de uso de computación y de almacenamiento, y tráfico de lectura/escritura del clúster de almacenamiento de datos de Amazon Redshift están disponibles de forma gratuita en la Consola de administración de AWS o en las API de Amazon CloudWatch. También puede agregar métricas adicionales definidas por el usuario a través de la funcionalidad de métricas personalizadas de Amazon CloudWatch. La consola de administración de AWS ofrece un panel de supervisión que lo ayuda a controlar el estado y el rendimiento de todos los clústeres. Amazon Redshift ofrece información sobre el rendimiento de las consultas y el clúster a través de la consola de administración de AWS. Esta situación le permite ver qué usuarios y consultas consumen la mayoría de los recursos del sistema para diagnosticar problemas de rendimiento mediante la visualización de planes de consultas y estadísticas de ejecuciones. Además, puede ver la utilización de recursos de cada nodo informático para garantizar que dispone de datos y consultas equilibrados entre todos los nodos.

Amazon Redshift realiza un mantenimiento periódico para aplicar correcciones, mejoras y nuevas características a su clúster. Puede cambiar los períodos de mantenimiento programados a través de la modificación del clúster, ya sea mediante programación o de la consola de Redshift. Durante estos períodos de mantenimiento, el clúster de Amazon Redshift no estará disponible para realizar operaciones normales. Para obtener más información sobre los períodos y las programaciones de mantenimiento por región, consulte Períodos de mantenimiento en la guía de administración de Amazon Redshift.