despliegue de referencia

Databricks en AWS

Un espacio de trabajo colaborativo para la ciencia de datos, machine learning y análisis

Esta solución de socio es para arquitectos de infraestructura de TI, administradores y profesionales de DevOps que desean usar la API de Databricks con el fin de crear espacios de trabajo de Databricks en la nube de Amazon Web Services (AWS). Esta solución de socio crea un nuevo espacio de trabajo en su cuenta de AWS y configura el entorno para implementar más espacios de trabajo.

Databricks es una plataforma unificada de análisis de datos para la ingeniería de datos, machine learning y ciencia de datos colaborativa. Un espacio de trabajo de Databricks es un entorno de software como servicio (SaaS) para acceder a todos los activos de Databricks. El espacio de trabajo organiza objetos (por ejemplo, cuadernos, bibliotecas y experimentos) en carpetas y brinda acceso a datos y recursos informáticos, como clústeres y trabajos.

Importante: Este despliegue de la solución del socio de AWS requiere que su cuenta de Databricks esté en la versión E2 de la plataforma. Para obtener más información, contacte con Databricks.
Vea el contenido relacionado

Databricks creó esta solución de socio en colaboración con AWS. Databricks es un socio de AWS.

  •  Lo que creará
  • La solución del socio configura lo siguiente, que constituye el espacio de trabajo de Databricks:

    • Una arquitectura con alta disponibilidad en la que se abarquen tres zonas de disponibilidad como mínimo.
    • Una nube privada virtual (VPC) administrada por Databricks o por el cliente en la cuenta de AWS del cliente. Esta VPC está configurada con subredes privadas y una subred pública, de acuerdo con las prácticas recomendadas de AWS, para proporcionarle su propia red virtual en AWS.
    • En las subredes privadas:
      • Clústeres de Databricks de instancias de Amazon Elastic Compute Cloud (Amazon EC2).
      • Un grupo de seguridad o más para habilitar la conectividad segura del clúster.
    • En la subred pública:
      • Una gateway de traducción de direcciones de red (NAT) a fin de permitir el acceso de salida a Internet.
    • Amazon CloudWatch para los registros de la instancia del espacio de trabajo de Databricks.
    • (Opcional) Una clave de AWS Key Management Service (AWS KMS) administrada por el cliente para cifrar los blocs de notas.
    • Un bucket de Amazon Simple Storage Service (Amazon S3) para almacenar objetos como registros de clústeres, revisiones de blocs de notas y resultados de trabajos.
    • AWS Security Token Service (AWS STS) para que el usuario pueda solicitar credenciales temporales con privilegios limitados para autenticarse.
    • Un punto de enlace de la VPC para acceder a los artefactos y registros de S3.
    • Un nuevo rol de AWS Identity and Access Management (IAM) entre cuentas para permitir que Databricks implemente clústeres en la VPC para el nuevo espacio de trabajo. En función de la opción de implementación que se elija, se crea este rol de IAM durante la implementación o se utiliza un rol de IAM existente.
  •  Cómo implementar
  • Para implementar Databricks, siga las instrucciones de la guía de implementación. Databricks necesita acceso a un rol de IAM entre cuentas en su cuenta de AWS para lanzar clústeres en la VPC del nuevo espacio de trabajo. El proceso de implementación, que tarda alrededor de 15 minutos e incluye los siguientes pasos:

    1. Si aún no tiene una cuenta de AWS, regístrese en https://aws.amazon.com e inicie sesión.
    2. Elija una de las siguientes opciones para lanzar la solución del socio:

    Amazon puede compartir la información de implementación de los usuarios con el socio de AWS que colaboró con AWS en esta solución.  

  •  Costos y licencias
  • Usted es responsable del costo de los servicios de AWS utilizados mientras ejecuta esta solución del socio. No hay costos adicionales por utilizar esta solución del socio.

    En la plantilla de AWS CloudFormation para esta solución de socio, se incluyen parámetros de configuración que puede personalizar. Algunas de las configuraciones, como el tipo de instancia, afectan al costo del despliegue. Para hacer estimaciones de costos, consulte las páginas de precios de cada servicio de AWS que utilice. Los precios están sujetos a cambios.

    Sugerencia: después de implementar la solución del socio, habilite el Informe de costo y uso de AWS para entregar métricas de facturación a un bucket de Amazon S3 en su cuenta. Se suministran estimaciones de costos en función del uso de cada mes y se agregan los datos a finales del mes. Para obtener más información, consulte ¿Qué son los informes de uso y costo de AWS?

    Para conocer las estimaciones de los costos de Databricks, consulte la página de precios de Databricks a fin de conocer los niveles y características de los productos.

Historia de éxito del socio
Databricks simplifica el despliegue mediante la solución de socio de AWS

Cuando Databricks se enfrentó al desafío de reducir los pasos de configuración complejos y el tiempo de despliegue de los espacios de trabajo de Databricks en la nube de AWS, trabajó con el equipo de integración y automatización de AWS para diseñar una solución de socio de AWS, una arquitectura de referencia automatizada basada en plantillas de AWS CloudFormation con prácticas recomendadas integradas. 

Lea la referencia completa del socio
Volver arriba