Quick Starts da AWS – Soluções prontas para o cliente

Informatica Data Lake Management na AWS

Crie um ambiente de data lake com as tecnologia da Informatica e os serviços da AWS

Este Quick Start cria um ambiente de data lake na nuvem da Amazon Web Services (AWS) implantando componentes da solução Informatica Data Lake Management e serviços da AWS como Amazon EMR, Amazon Redshift, Amazon Simple Storage Service (Amazon S3) e Amazon Relational Database Service (Amazon RDS).

Um data lake usa um único repositório de dados baseado em Hadoop que ajuda a gerenciar a oferta e a demanda de dados. A solução da Informatica na AWS integra, organiza, administra, controla e protege grandes volumes de dados estruturados e não estruturados. A solução fornece informações personalizadas, confiáveis e seguras para obtenção de insights empresariais.

O Quick Start configura a infraestrutura da AWS, implanta os componentes do Informatica Data Lake Management e incorpora automaticamente os clusters de Hadoop na Virtual Private Cloud (VPC) para armazenamento e processamento de metadados. Ele atribui a conexão ao cluster do Amazon EMR para o Hadoop Distributed File System (HDFS) e o Hive. Além disso, configura conexões para permitir a varredura de ambientes do Amazon S3 e do Amazon Redshift como parte do data lake.

datalake_icon_crs_informatica

Este Quick Start foi desenvolvido pela Informatica em colaboração com a AWS. A Informatica é um
parceiro do APN.

  •  O que você criará
  •  Como implantar
  •  Custo e licenças
  •  Recursos
  •  O que você criará
  • Se você optar por implantar o Quick Start em uma nova VPC, ele configurará a seguinte infraestrutura da AWS para o data lake:

    • Uma VPC configurada com sub-redes públicas e privadas em duas zonas de disponibilidade.
    • Um Internet Gateway para permitir o acesso à Internet.
    • Nas sub-redes públicas, gateways gerenciados de Network Address Translation (NAT – Conversão de endereço de rede) configurados com um endereço IP elástico para conectividade de saída à Internet.

    Este Quick Start também instala e configura os seguintes componentes da Informatica:

    • Domínio da Informatica, que é a unidade administrativa básica da plataforma da Informatica.
    • Model Repository Service, que é um banco de dados relacional que armazena todos os metadados para projetos criados utilizando ferramentas cliente da Informatica. O domínio da Informatica e os bancos de dados do Informatica Model Repository são hospedados no Amazon RDS usando Oracle, que executa tarefas de gerenciamento como backups, gerenciamento de patches e replicação.
    • Data Integration Service, que gerencia solicitações para enviar tarefas de integração de big data, qualidade de big data e criação de perfil para processamento pelo cluster do Hadoop.
    • Content Management Service, que gerencia dados de referência. Ele fornece informações de dados de referência para o Data Integration Service e o Informatica Developer.
    • Analyst Service, que executa a ferramenta Analyst no domínio da Informatica. O Analyst Service gerencia as conexões entre os componentes do serviço e os usuários que acessam a ferramenta Analyst.
    • Profiling, que ajuda a encontrar o conteúdo, a qualidade e a estrutura das fontes de dados de um aplicativo, um esquema ou uma empresa.
    • Business Glossary, que consiste em glossários online de termos e políticas empresariais que definem conceitos importantes dentro de uma organização.
    • Catalog Service, que executa o Enterprise Data Catalog e gerencia conexões entre componentes de serviço e aplicativos externos.
    • Um cluster do Hadoop incorporado que usa Hortonworks e executa HDFS, Hbase, Yarn e Solr.
    • Informatica Cluster Service, que executa e gerencia todos os serviços do Hadoop, o servidor Apache Ambari e os agentes do Apache Ambari no cluster Hadoop incorporado.
    • Metadata and Catalog, que incluem o armazenamento de persistência de metadados, o índice de pesquisa e banco de dados gráfico em um cluster Hadoop incorporado.
  •  Como implantar
  • Você pode criar um ambiente de data lake na AWS seguindo estas etapas:

    1. Caso ainda não tenha uma conta da AWS, cadastre-se em https://aws.amazon.com.
    2. Faça upload da sua licença da Informatica para um bucket do S3. Para se cadastrar para uma licença de demonstração, entre em contato com a Informatica.
    3. Inicie o Quick Start. Cada implantação leva cerca de duas horas. Você pode escolher entre duas opções:
    4. Monitore a criação da instância de cluster e do domínio da Informatica.
    5. Use os links de saída do Quick Start para fazer download do Informatica Developer e instalá-lo para as tarefas de integração de dados.

    O Quick Start inclui parâmetros personalizáveis. Por exemplo, você pode configurar uma rede ou personalizar as configurações dos serviços Amazon EMR, Amazon Redshift, Amazon RDS e do software da Informatica.

  •  Custo e licenças
  • Você é responsável pelo custo dos serviços da AWS usados durante essa implantação de referência do Quick Start. Não há custo adicional pelo uso do Quick Start.

    Os modelos do AWS CloudFormation para este Quick Start incluem parâmetros de configuração personalizáveis. Algumas dessas configurações, como o tipo de instância, afetarão o custo da implantação. Para obter estimativas de custo, visite as páginas de definição de preço para cada serviço da AWS que você usará.

    O Quick Start exige uma licença para implantar a solução Informatica Data Lake Management. Para se cadastrar para uma licença de demonstração, entre em contato com a Informatica.

  •  Recursos
  • A implantação de referência do Quick Start está relacionada a uma solução em destaque no Espaço de soluções que inclui um resumo da solução, ofertas de consultoria opcionais projetadas por Parceiros de competência da AWS e o investimento conjunto da AWS em projetos de prova do conceito (PoC). Para saber mais sobre esses recursos, acesse o Espaço de soluções. Além disso, veja as ofertas de início rápido da NGDATA, da Hitachi e da Cognizant.