O blog da AWS

Transfira seus dados com rapidez, facilidade e segurança para a AWS com o AWS DataSync

Por José Peñúñuri é Arquiteto de Soluções na AWS.

 

Como as organizações precisam migrar cargas de trabalho mais críticas para a nuvem, é necessário mover conjuntos de dados maiores, portanto, ferramentas são necessárias para mover dados de forma rápida e eficiente. Existem muitas ferramentas de código aberto disponíveis no mercado que são gratuitas ou baratas… a questão é: uma ferramenta de código aberto é a alternativa certa como uma solução de transferência de dados para você e sua necessidade?

Transferir alguns arquivos pode ser uma tarefa simples, mas grandes transferências de dados podem se tornar um grande desafio, e se você não usar a ferramenta certa, escalar a transferência de dados pode se tornar complexa e lenta. Inicialmente, muitas organizações podem optar por usar ferramentas de código aberto, e certamente o custo zero ou baixo dessas ferramentas sempre será um pouco atraente; no entanto, ferramentas que originalmente pareciam livres, podem realmente custar às organizações muito dinheiro e tempo quando aplicadas aos esforços de transferência de dados em escala em massa. Ao transferir os dados você mesmo, você é responsável pelo desempenho desta transferência, pela segurança dos dados em trânsito e pela validação da integridade dos dados uma vez transferidos. Da mesma forma, você também precisa implementar mecanismos para escalar e acelerar a transferência de dados, especialmente se você precisar atingir uma meta de tempo. Muitas vezes, as organizações precisam mover seus dados rapidamente e a última coisa de que precisam são ferramentas que retardam esse processo.

Com todos os itens acima em mente e com a intenção de ajudar nossos clientes com esses desafios e com o trabalho pesado que isso implica, foi criado o AWS DataSync, um serviço de transferência de dados on-line que simplifica, automatiza e acelera a cópia de dados de e para o armazenamento da AWS serviços. O AWS DataSync é um serviço que permite transferências rápidas de dados usando compactação on-line, transferências paralelas e outras otimizações para transferir seus dados com eficiência. O AWS DataSync é um serviço totalmente gerenciado que permite mover dados do seu data center para a região da AWS de sua escolha. Com o AWS DataSync, você pode pegar dados em compartilhamentos com protocolos padrão, como NFS e SMB, e movê-los para buckets do Amazon S3 e sistemas de arquivos do Amazon EFS e Amazon FSx for Windows File Server. Com o AWS DataSync, você pode simplificar a movimentação de grandes quantidades de dados de forma rápida e segura entre seu data center, locais remotos, AWS Snowcone, AWS Outposts e regiões da AWS. Você também pode usar o AWS DataSync para transferir dados entre os serviços de armazenamento da AWS.

A segurança é nossa prioridade na AWS, e é por isso que o AWS DataSync permite que você transfira seus dados de forma segura e confiável. O AWS DataSync criptografa dados em trânsito e também permite criptografar dados em repouso. Os dados são transferidos pela Internet e viajam criptografados usando o TLS, com a opção de usar uma conexão VPN ou um link do AWS Direct Connect entre o data center e a AWS. O AWS DataSync também oferece várias opções para verificar a integridade dos dados, garantindo que todos os dados tenham sido transferidos corretamente. Além disso, o AWS DataSync se integra às ferramentas de monitoramento e auditoria da AWS, como o Amazon CloudWatch e o AWS CloudTrail.

O AWS DataSync permite que nossos clientes agendem a execução de transferências de dados e regulem a largura de banda a ser usada. Com o AWS DataSync, você também pode configurar filtragem e diretórios e fazer transferências completas ou incrementais de arquivos ativos. O AWS DataSync é uma opção econômica porque você não incorre na compra de uma licença de software e só paga pela quantidade de dados transferidos sem um valor mínimo necessário para transferir.

 

Como funciona o AWS DataSync?

O AWS DataSync usa agentes implantados nas instalações do data center para se conectar ao armazenamento local. Um agente é uma máquina virtual usada para ler ou gravar dados em sistemas de armazenamento. O agente pode ser implantado em VMware ESXi, KVM, hipervisores Microsoft Hyper-V ou implantar como uma instância do Amazon EC2. Depois que o agente é instalado, o agente é ativado no Console da AWS, que associa o agente à sua conta da AWS.

Uma tarefa é então configurada, onde parâmetros como locais de dados são definidos e o agente a ser usado. Cada tarefa tem dois locais: um local de origem e um local de destino , e esses locais podem ser compartilhados usando protocolos NFS e SMB, armazenamento de objetos (compatível com Amazon S3), sistemas de arquivos do Amazon EFS e Amazon FSx para Windows Servidor de arquivos e buckets do Amazon S3. Os locais são salvos na seçãoLocais do menu de serviço e podem ser reutilizados posteriormente em outras tarefas. A tarefa também define outros parâmetros, como o modo de transferência (total ou incremental), permite o tipo de verificação de integridade de dados, regula a largura de banda para usar, definir filtros opcionais para excluir certos arquivos e diretórios e também define a freqüência com a qual a tarefa será realizada. Depois que a tarefa é executada, o AWS DataSync coordena a transferência de dados entre os locais definidos anteriormente.

 

Casos de uso

Nossos clientes usam o AWS DataSync para migrar dados de seus aplicativos para a nuvem. Mover dados em constante mudança em uma etapa pode ser uma tarefa complicada, portanto, o AWS DataSync permite que você faça transferências completas e incrementais enquanto os dados estão ativos, facilitando a migração.

Com o AWS DataSync, nossos clientes também podem arquivar seus dados históricos e frios de seus backups para a nuvem, que podem ser armazenados de forma durável e confiável usando classes de armazenamento do Amazon S3, como o Amazon S3 Glacier e o arquivamento Deep do Amazon S3 Glacier a custo que pode ser tão baixo quanto um dólar por TB por mês. Esse recurso permite que as organizações libertem armazenamento local de seus sistemas NAS e suas bibliotecas de backup e, eventualmente, aproveitem esses sistemas.

Muitas organizações também usam o AWS DataSync para replicar seus dados para a nuvem como parte de suas estratégias de recuperação de desastres. Esse processo de replicação de dados pode ser executado em um único evento ou ser realizado continuamente e em uma base de calendário.

Por fim, nossos clientes também usam o AWS DataSync para transferir dados e processá-los na nuvem, aproveitando a oferta de computação, análise e aprendizado de máquina da AWS. Usando o AWS DataSync, você pode aproveitar os benefícios da nuvem para expandir sua capacidade de processamento e análise de dados gerados no local.

 

Vamos ao trabalho!

Em seguida, explicarei como mover dados dentro de um compartilhamento usando o NFS para um bucket do Amazon S3. Esse compartilhamento será montado em uma instância do EC2 que atuará como o local de origem dos dados, e o bucket do Amazon S3 será o local de destino . As informações a serem migradas correspondem a um conjunto de dados históricos em diferentes formatos (CSV principalmente) com estatísticas de beisebol nos últimos 20 anos. No final deste exercício, você terá aprendido a:

  • Implante o AWS DataSync Agent como uma instância do Amazon EC2.
  • Configure uma tarefa com seus locais de origem e destino e parâmetros adicionais.

Para este exercício, você deve ter os seguintes pré-requisitos:

  • Tenha uma conta da AWS. Se você não tem uma, você pode gerá-lo aqui.
  • Crie uma instância do Amazon EC2 com o sistema operacional Amazon Linux 2 ( local de origem ).

 

wget https://awsimmersiondays.s3.amazonaws.com/nfs.sh

chmod 755 nfs.sh

./nfs.sh
    • Nota: O script acima é executado automaticamente durante a inicialização da instância e gera o recurso que será compartilhado via NFS, baixa os arquivos que serão migrados para o bucket do Amazon S3 e monta tudo no caminho local /mnt/nfs .
    • Copie o endereço IP privado desta instância e salve-o em um arquivo de texto como você o usará posteriormente.

 

Criação do agente

  1. No console da AWS, clique em Serviços e navegue até o serviço CloudShell.
  2. Execute o seguinte comando, substituindo o valor de $region pela região em que você está trabalhando:
aws ssm get-parameter --name /aws/service/datasync/ami --region $region

Exemplo.  Se você está trabalhando na região de N. Virginia, o comando seria executado assim:

aws ssm get-parameter --name /aws/service/datasync/ami --region us-east-1

Nota: Executar esse comando nos permite conhecer a versão mais recente da AMI (ami-id) do AWS DataSync.

  1. Copie o resultado da execução do comando acima e salve-o em um arquivo de texto.
  2. Copie o seguinte URL e substitua os valores source-file-systemregion pela região em que o agente está implantando e o valor ami-id com o valor ami-id resultante da execução do comando na etapa anterior:
https://console.aws.amazon.com/ec2/v2/home?region=source-file-systemregion#LaunchInstanceWizard:ami=ami-id

Exemplo.  Se você está trabalhando na região de N. Virginia, a URL ficaria assim:

https://console.aws.amazon.com/ec2/v2/home?region=us-east-1#LaunchInstanceWizard:ami=ami-0915bec43b802ceb7
  1. Depois de substituir os valores, copie a URL e cole-a no seu navegador da Web. Esse URL levará você a implantar o agente do AWS DataSync como uma instância do Amazon EC2.
  2. Selecione 2xlarge como o tipo de instância.
  3. Clique em Avançar: Configurar detalhes da instância.
  4. Em Rede, escolha a VPC onde você implantou a instância que você usará como o local de origem.
  5. Clique em Avançar: Adicionar armazenamento.
  6. Na tela Adicionar armazenamento , mantenha os padrões, não há necessidade de adicionar armazenamento adicional. Clique em Avançar: Adicionar tags.
  7. Adicione a tag Name com o valor do AWS DataSync Agent .
  8. Clique em Avançar: Configurar o Security Group.
  9. Habilite o acesso à porta TCP 80 (HTTP) a partir do seu endereço IP.

 

 

  1. Clique em Revisar e Iniciar.
  2. Clique em Iniciar.
  3. Selecione um par de chaves e clique em Executar instâncias .
  4. No console da AWS, clique em Serviços e navegue até o serviço EC2.
  5. Certifique-se de que a instância do seu agente indique Execução em Estado da instância e verificações 2/2 passadas na seção Verificação de status .

 

 

  1. Marque a caixa de seleção Agente do AWS DataSync, copie os endereços IP públicos e privados e salve-os em um arquivo de texto.
  2. Selecione a instância criada como parte dos pré-requisitos e modifique o security group para permitir o acesso pela porta TCP 2049 (NFS) a partir do endereço IP privado do agente do AWS DataSync.

 

 

  1. No console da AWS, clique em Serviços e navegue até o serviço DataSync.
  2. Clique em Agentes no menu do lado esquerdo.
  3. Clique no botão Criar agente.
  4. No campo Endereço do agente , insira o endereço IP público do agente do AWS DataSync.
  5. Clique em Obter chave.
  6. Insira o AWS DataSync Agent no campo Nome do agente .
  7. aHClique em Criar agente.
  8. Clique em Agentes no menu do lado esquerdo e verifique se seu agente está ativo (Status = Online ).

 

 

 

Criando a tarefa

  1. No console da AWS, clique em Serviços e navegue até o serviço DataSync.
  2. Clique em Tarefas no menu lateral à esquerda.
  3. Clique em Criar tarefa.
  4. Em Tipo de localização, selecione Sistema de arquivos de rede (NFS) .
  5. Em Agentes, selecione o agente do AWS DataSync que você criou anteriormente.
  6. No Servidor NFS , insira o endereço IP privado da instância do Amazon Linux 2 que você criou como parte dos pré-requisitos.
  7. Em Caminho de montagem , insira o seguinte caminho: /mnt/nfs .
  8. Clique em Avançar.
  9. Em Tipo de local, selecione Bucket do Amazon S3 .
  10. No bucket do S3, selecione o bucket que você criou como parte dos pré-requisitos.
  11. Na classe S3 Storage selecione Padrão.

Nota: Neste menu suspenso, você pode ver que o AWS DataSync permite transferir dados diretamente para qualquer uma das suas classes de armazenamento do Amazon S3. Se, por exemplo, se você precisar de arquivamento de dados históricos que não precisa acessar com frequência, você poderá transferir esses dados diretamente para o Amazon S3 Glacier ou o Amazon S3 Glacier Deep Archive.

  1. Na função do IAM , clique em Gerar automaticamente para gerar uma função que permita que o AWS DataSync interaja com seu bucket .

 

 

  1. Clique em Avançar.
  2. Em Nome da Tarefa , insira um nome para sua tarefa ( Data-Migration-Lab ).
  3. Em Registro de tarefas, selecione Registrar informações básicas, como erros de transferência no menu suspenso Nível de log.
  4. Clique no botão Gerar automaticamente.

Nota.  Na tela Configurar configurações, você pode configurar opções adicionais, como habilitar a verificação de dados, regular a largura de banda, modificar o modo de transferência, filtrar arquivos e diretórios e agendar a frequência de execução da tarefa.

  1. Clique em Avançar.
  2. Na tela Revisão, clique em Criar tarefa .
  3. Clique em Tarefas no menu lateral à esquerda. Você pode ver que a tarefa está sendo criada (status = Criação).

 

 

  1. Aguarde alguns minutos para que o status da tarefa seja alterado para Disponível.

 

 

  1. Marque a caixa de seleção para sua tarefa.
  2. Clique no menu suspenso Ações.

 

  1. Clique em Iniciar. Você pode ver como o status da sua tarefa muda para Execução. Aguarde alguns minutos até que a tarefa de migração seja concluída e o status da sua tarefa muda de volta para Disponível.

 

 

  1. Uma vez que o status da sua tarefa muda de volta para Disponível clique em Histórico em Tarefas no menu do lado esquerdo. Aqui você pode confirmar que sua tarefa foi executada com sucesso.

 

 

  1. Clique no valor ID de execução se quiser saber mais detalhes sobre como executar sua tarefa.
  2. Clique em Serviços e, em seguida, selecione o serviço S3 na categoria Armazenamento .
  3. Clique no intervalo que você criou como parte dos pré-requisitos. Você pode confirmar que os dados foram migrados existentemente.
  4. Por fim, recomendamos que você exclua todos os recursos criados em sua conta da AWS durante este exercício para evitar gerar custos adicionais.

 

Resumo

Esta publicação explicou o que é o AWS DataSync, seus componentes e benefícios e como você pode usar esse serviço para migrar dados de um compartilhamento do NFS para um bucket do Amazon S3. Com um único serviço, você pode: migrar os dados do aplicativo para a nuvem, arquivar seus dados frios e backups históricos, habilitar um local de recuperação para seus dados na nuvem e mover os dados gerados no local para processá-los, aproveitando a ampla oferta de computação, análise e aprendizado de máquina da AWS serviços. Além disso, você pode combinar esse serviço com o AWS Storage Gateway para ter acesso local aos dados que você já migrou para a nuvem para aproveitar o armazenamento híbrido em seu data center. O AWS DataSync é uma opção segura, confiável, econômica e totalmente gerenciada que permitirá que você atinja suas metas de migração de dados em grande escala e liberte o armazenamento de seus sistemas locais.

 

Links adicionais:

Definição de preço do AWS DataSync

Perguntas frequentes do AWS DataSync (FAQ)

AWS DataSync — Guia do usuário

 

 


Sobre o autor

José Peñúñuri é Arquiteto de Soluções na AWS.

 

 

 

 

Revisor

Carlos Landaeta é Arquiteto de Soluções na AWS.

 

 

 

 

Efraín Castilla é Arquiteto de Soluções na AWS.

 

 

 

 

René Roldán é Arquiteto de Soluções na AWS.

 

 

 

 

Diego Voltz Fagundes é Arquiteto de Soluções em Enterprise na AWS Brasil.