Questions d’ordre général

AWS DataSync est un service de découverte et de déplacement des données en ligne qui simplifie et accélère les migrations de données vers AWS ainsi que le déplacement des données vers et depuis le stockage sur site, les emplacements périphériques, les autres fournisseurs de cloud et les services AWS Storage.

AWS DataSync Discovery vous aide à simplifier la planification de la migration et à accélérer la migration de vos données vers AWS en vous donnant une visibilité sur les performances et l'utilisation de votre stockage sur site et en fournissant des recommandations pour la migration de vos données vers les services AWS Storage. DataSync Discovery vous offre une meilleure compréhension des performances et de l’exploitation de la capacité de vos stockages sur site grâce aux collectes et analyses de données automatisées, qui vous permettent d’identifier rapidement les données devant migrer et d’utiliser les recommandations générées pour choisir les services AWS Storage qui harmonisent vos besoins en termes de performances et de capacité.

En ce qui concerne le transfert de données en ligne, AWS DataSync simplifie, automatise et accélère la copie de grandes quantités de données vers et depuis les stockages sur site, les emplacements périphériques, les autres fournisseurs de cloud, les services AWS Storage. DataSync peut copier des données depuis et vers les partages NFS (Network File System) et SMB (Server Message Block), le système de fichiers distribué Hadoop (HDFS), le stockage d’objets autogéré, le stockage d’objets dans d’autres clouds tels que Google Cloud Storage et Wasabi Cloud Storage (voir la liste complète des clouds pris en charge), Azure Files, Azure Blob Storage (y compris Azure Data Lake Storage Gen2), le stockage compatible Amazon S3 sur Snowball Edge, Amazon Simple Storage Service (Amazon S3), ainsi que les systèmes de fichiers suivants : Amazon Elastic File System (Amazon EFS), Amazon FSx for Windows File Server, Amazon FSx pour Lustre, Amazon FSx pour OpenZFS et Amazon FSx pour NetApp ONTAP.

AWS DataSync vous permet de découvrir et de déplacer vos données, en toute sécurité et rapidement. Grâce à DataSync Discovery , vous pouvez mieux comprendre l'utilisation de votre stockage sur site et recevoir des recommandations qui vous aideront à estimer les coûts et à planifier la migration vers AWS. Pour le déplacement de données vous pouvez utiliser DataSync pour copier de larges jeux de données avec des millions de fichiers, sans avoir à créer des solutions personnalisées avec des outils open source ou à acheter des licences et gérer des logiciels commerciaux coûteux d'accélération réseau. Vous pouvez utiliser DataSync pour migrer des données actives vers AWS, archiver des données pour libérer de la capacité de stockage sur site ou répliquer des données vers AWS pour la continuité des activités ou encore pour transférer des données vers le cloud pour analyse et traitement.

AWS DataSync réduit la complexité et le coût du transfert de données en ligne, en simplifiant le transfert des jeux de données vers et depuis les systèmes de stockage sur site, les emplacements périphériques, les autres fournisseurs de cloud et les services AWS Storage. DataSync se connecte aux systèmes de stockage existants et aux sources de données avec des protocoles de stockage standard (NFS, SMB), en tant que client HDFS, en utilisant l'API Amazon S3 ou d'autres API de stockage dans le cloud. Il utilise un protocole réseau spécialement conçu et une architecture de montée en puissance pour accélérer le transfert de données entre les systèmes de stockage et les services AWS. DataSync gère les fichiers et objets dynamiques, planifie les transferts de données, surveille la progression des transferts, procède au chiffrement, vérifie les transferts et vous informe de tout problème.

AWS DataSync réduit la complexité et le coût du transfert de données en ligne, en simplifiant le transfert des jeux de données vers et depuis les systèmes de stockage sur site, les emplacements périphériques, les autres fournisseurs de cloud et les services AWS Storage. DataSync se connecte aux systèmes de stockage existants et aux sources de données avec des protocoles de stockage standard (NFS, SMB), en tant que client HDFS, en utilisant l'API Amazon S3 ou d'autres API de stockage dans le cloud. Il utilise un protocole réseau spécialement conçu et une architecture de montée en puissance pour accélérer le transfert de données entre les systèmes de stockage et les services AWS. DataSync gère les fichiers et objets dynamiques, planifie les transferts de données, surveille la progression des transferts, procède au chiffrement, vérifie les transferts et vous informe de tout problème.

Découverte

AWS DataSync Discovery prend actuellement en charge les réseaux NetApp des séries FAS et AFF exécutant ONTAP 9.7 ou une version ultérieure. La prise en charge de systèmes de stockage supplémentaires sera ajoutée au fil du temps.

AWS DataSync Discovery utilise votre interface API de gestion du stockage pour collecter des informations sur votre système de stockage ainsi que des mesures de performance et d'utilisation. Les informations sur le système comprennent des attributs tels que la capacité de stockage totale, la configuration du volume, les noms d'exportation/de partage, etc. Les mesures du système de stockage comprennent des performances telles que le débit du volume et les IOPS, ainsi que des mesures d'utilisation telles que la capacité allouée et utilisée. DataSync Discovery utilise les informations et les mesures du système collectées pour générer des recommandations pour la migration vers AWS Storage.

AWS DataSync Discovery analyse les données collectées à partir de votre système de stockage sur site et les compare aux fonctionnalités, à la capacité et aux performances des services de stockage AWS. Le cas échéant, DataSync Discovery vous recommandera un ou plusieurs services de stockage AWS.

Il n'y aura pas d'impact notable sur les utilisateurs et les applications lorsque AWS DataSync Discovery est utilisé avec vos systèmes de stockage sur site.

Les données collectées seront stockées et gérées par le service DataSync. Les données peuvent être visualisées dans la console AWS DataSync ou accessibles à l'aide de l'AWS CLI ou du kit de développement logiciel (SDK).

Les données collectées et les recommandations seront conservées pendant 60 jours après la fin d'un travail de détection.

Déplacement de données

DataSync prend en charge les types d’emplacements de stockage suivants : les partages NFS (Network File System) et SMB (Server Message Block), le système de fichiers distribué Hadoop (HDFS), le stockage d’objets autogéré, le stockage d’objets dans d’autres clouds tels que Google Cloud Storage et Wasabi Cloud Storage (voir la liste complète des clouds pris en charge), Azure Files, Azure Blob Storage (y compris Azure Data Lake Storage Gen2), le stockage compatible Amazon S3 sur Snow, Amazon Simple Storage Service (Amazon S3), ainsi que les systèmes de fichiers suivants : Amazon Elastic File System (Amazon EFS), Amazon FSx for Windows File Server, Amazon FSx pour Lustre, Amazon FSx pour OpenZFS et Amazon FSx pour NetApp ONTAP.

Vous pouvez utiliser AWS DataSync pour effectuer la migration de données situées sur site, en périphérie ou dans d’autres clouds vers Amazon S3, Amazon EFS, Amazon FSx for Windows File Server, Amazon FSx pour Lustre, Amazon FSx pour OpenZFS et Amazon FSx pour NetApp ONTAP. Configurez DataSync pour qu'il effectue une copie initiale de l'ensemble de votre jeu de données, puis planifiez les transferts incrémentiels ultérieurs des données modifiées jusqu'au transfert définitif des données sur site vers AWS. DataSync inclut également le chiffrement et la validation d'intégrité afin de garantir que vos données soient transférées en toute sécurité et arrivent intactes, prêtes à l'emploi. Pour réduire l'impact sur les charges de travail qui dépendent de votre connexion réseau, vous pouvez programmer votre migration pour qu'elle se déroule en dehors des heures de travail, ou limiter la quantité de bande passante réseau que DataSync utilise en configurant l'accélérateur de bande passante intégré. DataSync conserve les métadonnées entre les systèmes de stockage qui ont des structures de métadonnées similaires, permettant une transition en douceur des utilisateurs finaux et des applications vers l'utilisation de votre service de stockage AWS cible.

Consultez le blog sur le stockage « Migration du stockage avec AWS DataSync » qui explique les pratiques exemplaires de migration et fournit des conseils.

AWS DataSync vous permet de déplacer des données froides de systèmes de stockage sur site directement vers un système de stockage à long terme durable et sécurisé, tel que Amazon S3 Glacier Flexible Retrieval (anciennement S3 Glacier) ou Amazon S3 Glacier Deep Archive. Utilisez les filtres d'exclusion de DataSync pour exclure la copie de fichiers et de dossiers temporaires ou utilisez les filtres d'inclusion ou les manifestes pour ne copier qu'un sous-ensemble de fichiers depuis votre emplacement source. Vous pouvez choisir le service de stockage le plus économique pour vos besoins : transférer les données vers n’importe quelle classe de stockage S3 ou utiliser DataSync avec EFS Lifecycle Management pour stocker les données dans la classe de stockage en accès peu fréquent Amazon EFS (EFS IA). Utilisez la fonctionnalité intégrée de planification des tâches pour archiver régulièrement les données qui doivent être conservées à des fins de conformité ou d'audit, telles que les journaux, les séquences vidéo ou les dossiers médicaux électroniques. 

Avec AWS DataSync, vous pouvez répliquer régulièrement des fichiers dans n’importe quelle classe de stockage Amazon S3, ou envoyer les données vers Amazon EFS, Amazon FSx for Windows File Server, Amazon FSx pour Lustre, Amazon FSx pour OpenZFS, ou Amazon FSx pour NetApp ONTAP pour un système de fichiers de secours. Utilisez la fonctionnalité intégrée de planification des tâches pour que les modifications apportées à votre jeu de données soient régulièrement copiées vers votre stockage de destination. Consultez ce blog sur AWS Storage pour en savoir plus sur la protection des données avec AWS DataSync.

Vous pouvez utiliser AWS DataSync pour les transferts depuis des systèmes sur site vers ou hors d’AWS pour traitement. DataSync peut vous aider à accélérer vos flux de travail cloud hybrides critiques pour les activités qui nécessitent de déplacer rapidement des fichiers actifs vers AWS. Cela concerne le machine learning dans le secteur des sciences de la vie, la production de vidéos dans le secteur multimédia et de divertissement, l'analyse des Big Data dans les services financiers et la recherche sismique dans l'industrie pétrolière et gazière. DataSync assure une diffusion opportune afin de ne pas retarder les processus dépendants. Vous pouvez spécifier des filtres d'inclusion et d'exclusion ou des manifestes pour spécifier quels fichiers ou objets doivent être transférés à chaque exécution de votre tâche.

Oui. Grâce à AWS DataSync, vous pouvez copier des données depuis Google Cloud Storage à l’aide de l’API Amazon S3, depuis Azure Files à l’aide du protocole SMB ou depuis Azure Blob Storage (notamment Azure Data Lake Storage Gen 2). Vous pouvez également déplacer des données depuis d’autres systèmes de stockage cloud tels que Wasabi Cloud Storage, Oracle Cloud Storage, Cloudflare R2 Storage, DigitalOcean Spaces et Backblaze B2 Cloud Storage (voir la liste complète des clouds de support). Il suffit de déployer l'agent DataSync dans votre environnement cloud ou sur Amazon EC2, de créer vos emplacements source et destination, puis de lancer votre tâche pour commencer à copier les données. Découvrez-en plus sur les solutions AWS pour les environnements hybrides et multicloud.

Oui. Grâce à AWS DataSync, vous pouvez facilement créer votre lac de données en automatisant le transfert vers Amazon S3 de jeux de données sur site ou de données dans d'autres clouds. DataSync permet un transfert simple et rapide de l'ensemble de vos données en utilisant des protocoles de stockage standard (NFS, SMB), en tant que client HDFS, en utilisant l'API Amazon S3, ou en utilisant d'autres API de stockage dans le cloud. Après le transfert de votre jeu de données initial, vous pouvez programmer des transferts supplémentaires de nouvelles données vers AWS. DataSync inclut également le chiffrement et la validation d'intégrité afin de garantir que vos données soient transférées en toute sécurité et arrivent intactes, prêtes à l'emploi. L'impact sur les charges de travail qui dépendent de votre connexion réseau peut être atténué en programmant l’exécution des tâches de transfert en dehors des heures d'ouverture, ou en limitant la taille de la bande passante de réseau qu’utilise DataSync en configurant le limiteur intégré de bande passante. Une fois que vos données sont dans Amazon S3, vous pouvez utiliser les services AWS natifs pour exécuter des applications d’analyse Big Data, d’intelligence artificielle (IA), de machine learning (ML), de calcul haute performance (HPC) et de traitement de données médias pour extraire des informations de vos ensembles de données non structurées. Consultez la page web sur le stockage de lac de données AWS pour en savoir plus sur la création et l’exploitation de votre lac de données.

Vous pouvez utiliser DataSync pour transférer des fichiers ou des objets entre Amazon S3, Amazon EFS, Amazon FSx for Windows File Server, Amazon FSx pour Lustre, Amazon FSx pour OpenZFS ou Amazon FSx pour NetApp ONTAP au sein du même compte AWS. Vous pouvez transférer des données entre des services AWS d'une même région AWS, entre des services dans différentes régions AWS commerciales à l'exception de la Chine, ou entre les régions AWS GovCloud (US-Est et US-Ouest). Cela ne nécessite pas de déployer d'agent DataSync et peut être configuré de bout en bout à l'aide de la console AWS DataSync, de l'interface de ligne de commande AWS (CLI) ou d'un kit SDK (Software Development Kit) AWS.

Oui. AWS DataSync accélère une étape accomplie par Amazon WorkDocs Migration Service en automatisant le chargement de fichiers vers le compartiment Amazon S3 utilisé pour la migration. DataSync simplifie et accélère la migration de répertoires de base et de partages de services vers WorkDocs. Pour en savoir plus sur l’utilisation de DataSync pour les migrations vers WorkDocs, lisez l’article de blog « Migration des partages de fichiers de réseau vers Amazon WorkDocs avec AWS DataSync ».

Utilisation

Commencez par déployer un agent AWS DataSync dans votre environnement VM sur site. À l'aide de la console DataSync, de l'interface CLI ou du SDK, configurez DataSync Discovery pour qu'il se connecte à votre système de stockage sur site et exécute des tâches de détection pour collecter des données sur votre système de stockage ainsi que des mesures de performance, de capacité et d'utilisation. Pendant que vos travaux de détection s'exécutent, les informations sur vos systèmes de stockage peuvent être visualisées à partir de tableaux de bord dans la console DataSync. Lorsqu'une tâche de détection est terminée, les données recueillies sont analysées afin de produire des recommandations pour la migration vers les services de stockage AWS tels que Amazon EFS, Amazon FSx et Amazon S3. Ces recommandations peuvent être utilisées pour guider votre sélection de services de stockage AWS et vous pouvez utiliser AWS DataSync pour déplacer vos données.

Vous pouvez transférer des données avec AWS DataSync en quelques clics dans la console de gestion AWS ou via l’interface de ligne de commande AWS (AWS CLI). Suivez les trois étapes suivantes pour démarrer :

1. Pour transférer des données entre les services AWS Storage et des systèmes de stockage sur site, en périphérie ou dans d’autres clouds, déployez un agent : déployez un agent DataSync et associez-le à votre compte AWS au moyen de la console de gestion ou de l’API. L'agent sera utilisé pour accéder à votre serveur NFS, à votre partage de fichiers SMB, à votre cluster Hadoop ou à votre stockage d'objets autogéré ou cloud pour y lire ou y écrire des données. Le déploiement d'un agent n'est pas requis pour transférer des données entre les services de stockage AWS d'un même compte AWS.

2. Créer une tâche de transfert de données : créez une tâche en précisant l’emplacement de vos sources et destinations de données ainsi que toute option que vous souhaitez utiliser pour configurer le transfert, telles que la planification de la tâche et l’activation des rapports de tâche.

3. Lancer le transfert : lancez la tâche, surveillez le mouvement des données dans la console ou avec Amazon CloudWatch, et auditez les tâches de transfert à l’aide de rapports de tâches.

Vous déployez un agent AWS DataSync sur votre hyperviseur sur site, dans votre environnement cloud public, ou dans Amazon EC2. Pour copier des données vers ou depuis un serveur de fichiers sur site ou un stockage compatible Amazon S3 sur Snow, vous téléchargez l'image de la machine virtuelle de l'agent depuis la console AWS et la déployez sur votre hyperviseur VMware ESXi, la machine virtuelle de noyau Linux (KVM) ou Microsoft Hyper-V sur site. Lorsqu’un agent DataSync est utilisé, l’agent doit être déployé de manière à pouvoir accéder à votre serveur de fichiers à l’aide du protocole NFS, SMB, accéder aux NameNodes et DataNodes de votre cluster Hadoop, ou accéder à votre stockage d’objets autogéré à l’aide de l’API Amazon S3. Pour configurer des transferts entre vos compartiments S3 sur AWS Outposts et des compartiments S3 au sein des Régions AWS, déployez l’agent sur votre Outpost.

Lorsque vous copiez des données entre votre environnement de cloud public et AWS Storage, vous pouvez déployer l'agent DataSync dans votre environnement cloud ou sur Amazon EC2. Comme AWS DataSync compresse les données en transit entre l'agent AWS DataSync et les services de stockage AWS, vous pouvez peut-être réduire les frais de sortie en déployant l'agent AWS DataSync dans votre environnement de cloud public.  

Le déploiement d'un agent n'est pas requis pour transférer des données entre les services AWS Storage d'un même compte AWS. Pour copier des données vers ou à partir d'un serveur de fichier sur le cloud autogéré, ou entre les services AWS Storage dans différentes régions AWS, lancez une instance Amazon EC2 en utilisant une AMI d'agent DataSync.

Le nombre minimum de ressources requises pour l’exécution de l’agent est disponible ici.

AWS DataSync copie les données lorsque vous initiez une tâche via la console de gestion AWS ou l’interface de la ligne de commande AWS (AWS CLI). Chaque fois qu'une tâche est exécutée, AWS DataSync compare la source et la destination à la recherche de modifications et copie toutes les différences de données et de métadonnées de la source vers la destination. Vous pouvez configurer les caractéristiques de la source à utiliser pour déterminer ce qui a changé, définir les filtres pour inclure et exclure ou des manifestespour transférer un fichier spécifique et des données d’objet et vérifier si les fichiers ou objets doivent être écrasés lorsqu'ils sont modifiés dans la source ou supprimés lorsqu'ils sont introuvables dans la source.

Une tâche en mode de base est soumise à des quotas quant au nombre de fichiers et d’objets dans un jeu de données. Le mode de base prépare, transfère et vérifie de manière séquentielle les fichiers et les objets d’un jeu de données, ce qui le rend plus lent que le mode amélioré pour la plupart des charges de travail. Le mode amélioré vous permet de transférer des jeux de données contenant un nombre pratiquement illimité d’objets à des niveaux de performance supérieurs à ceux du mode de base. Les tâches en mode amélioré optimisent et rationalisent le processus de transfert de données en répertoriant, préparant, transférant et vérifiant les données en parallèle. Vous bénéficiez également de métriques et de fonctionnalités de rapports améliorées, ce qui facilite le suivi et la gestion des transferts de données volumineux. Le mode amélioré est actuellement disponible pour les transferts entre les sites Amazon S3. Le mode de base prend en charge tous les types de localisation DataSync disponibles aujourd’hui. Consultez la documentation DataSync pour obtenir une liste détaillée des différences entre les modes de tâche. Consultez la page de tarification de DataSync pour connaître les différences de tarification entre les modes de tâches.

Lors du transfert et du stockage des données, AWS DataSync effectue des contrôles d’intégrité destinés à s’assurer que les données écrites vers la destination correspondent aux données lues dans la source. De plus, un contrôle de vérification optionnel peut être effectué à la fin du transfert pour comparer la source et la destination. DataSync calculera et comparera les totaux de contrôle intégral des fichiers des données stockées dans la source et dans la destination. Vous pouvez vérifier le jeu de données ou vous limiter aux fichiers ou objets que DataSync a transférés.

Vous pouvez utiliser les rapports de tâches pour auditer vos processus de transfert de données en vérifiant les opérations de transfert lors de toutes vos exécutions de tâches. À l'aide des rapports de tâches, vous pouvez obtenir un rapport récapitulatif ainsi que des rapports détaillés pour tous les fichiers transférés, ignorés, vérifiés et supprimés, pour chaque exécution de tâche. Les rapports de tâches indiquent le nombre total de fichiers et d'octets transférés et incluent les attributs des fichiers tels que la taille, le chemin, les horodatages, les sommes de contrôle des fichiers et les identifiants de version des objets, le cas échéant. Vous pouvez également utiliser AWS Glue, Amazon Athena et Amazon QuickSight pour cataloguer, interroger et visualiser automatiquement les rapports de tâches afin d'obtenir des informations essentielles sur vos processus de transfert de données.

Vous pouvez utiliser la console de gestion AWS ou la CLI pour surveiller l'état et la progression des données en cours de transfert. Les métriques Amazon CloudWatch vous permettent de connaître le nombre de fichiers et le volume des données copiées. Vous pouvez également activer la journalisation de fichiers individuels vers CloudWatch Logs pour identifier ce qui a été transféré à un moment donné, ainsi que les résultats de la vérification d’intégrité du contenu réalisé par DataSync.

Ensemble, ces solutions simplifient l'audit, la surveillance, le reporting et le dépannage, et vous permettent de fournir des mises à jour opportunes aux parties prenantes.

Oui. Vous pouvez préciser un filtre d'exclusion, un filtre d'inclusion ou les deux pour limiter les fichiers, dossiers ou objets transférés à chaque exécution d'une tâche. Vous pouvez également utiliser des manifestes pour spécifier un sous-ensemble de fichiers ou d'objets qui doivent être transférés depuis votre emplacement source.

Les filtres d'inclusion précisent les chemins de fichiers et de dossier ou les clés d'objets qui doivent être inclus lorsque la tâche s'exécute et limitent la portée de ce qui est analysé par DataSync sur la source et la destination. Les filtres d'exclusion précisent les chemins d'accès aux fichiers et dossiers ou aux clés d'objet qui doivent être exclus de la copie.  Lorsque vous créez ou mettez à jour une tâche, vous pouvez configurer des filtres d'exclusion et d'inclusion. Lorsque vous commencez une tâche, vous pouvez remplacer et mettre à jour les filtres configurés pour la tâche. Lisez ce billet de blog consacré au service de stockage AWS pour en savoir plus sur l’utilisation de filtres courants avec DataSync.

Un manifeste est un fichier au format CSV qui énumère les chemins de fichiers ou les clés d'objets qui doivent être inclus lorsque la tâche s'exécute et limitent la portée de ce qui est analysé par DataSync sur la source et la destination. Lors de la création ou de la mise à jour d'une tâche, vous pouvez fournir un fichier manifeste contenant des millions de fichiers ou d'objets sources, et DataSync ne comparera et ne transférera que les fichiers répertoriés dans le manifeste. Lors du lancement d'une tâche, vous pouvez remplacer et mettre à jour le fichier manifeste. Lorsque vous copiez des données depuis Amazon S3, vous pouvez également spécifier un numéro de version S3 facultatif pour chaque objet à transférer. Consultez ce blog pour plus de détails.

Notez que les filtres et les manifestes ne peuvent pas être utilisés ensemble.

Alors qu’un manifeste est une liste explicite de fichiers ou d’objets à transférer à partir de l’emplacement source, un filtre d’inclusion est une chaîne spécifiant des modèles de fichiers et de dossiers à transférer à partir de la source. Seuls les fichiers et dossiers correspondant aux modèles du filtre sont copiés. Un motif peut être un chemin d'accès complet à un fichier ou à un dossier, ou un préfixe se terminant par un caractère générique (*), indiquant que tous les fichiers ou objets correspondant au préfixe doivent être copiés. Les filtres d'inclusion sont idéaux pour les clients qui souhaitent uniquement copier un petit ensemble de fichiers ou d'objets, ou quelques dossiers spécifiques. Les clients possédant des jeux de données connus, tels que ceux déplacés dans le cadre d'un flux de travail automatisé, peuvent utiliser des manifestes pour éviter de scanner l'intégralité de leurs systèmes de stockage de fichiers ou d'objets afin de déterminer les modifications. À l'aide d'un fichier manifeste, les clients peuvent spécifier des millions de fichiers sources ou d'objets à transférer, et DataSync ne comparera que les fichiers répertoriés dans le manifeste. Les clients peuvent également utiliser des manifestes pour copier des versions spécifiques d'objets depuis leur compartiment Amazon S3.

Oui. Vous pouvez planifier vos tâches à l'aide de la console AWS DataSync ou de l'interface de ligne de commande AWS (AWS CLI) sans avoir à écrire et exécuter de scripts pour gérer les transferts répétés. La planification des tâches exécute automatiquement les tâches selon le temps que vous configurez en utilisant les options horaires, quotidiennes ou hebdomadaires fournies directement dans la Console. Grâce à la planification, vous êtes sûr que les modifications apportées à votre ensemble de données sont automatiquement détectées et copiées dans votre stockage de destination.

Oui. Lors du transfert de fichiers, AWS DataSync crée une structure de répertoire sur l'emplacement de destination similaire à celle de l'emplacement source.

En cas d’interruption d’une tâche, par exemple si la connexion réseau s’arrête ou si l’agent AWS DataSync est redémarré, les fichiers manquants seront transférés lors de la prochaine exécution de la tâche et les données seront ainsi complètes et cohérentes à la fin de l’opération. À chaque redémarrage d'une tâche, le système effectue une copie incrémentielle et ne transfère que les modifications de la source vers la destination.

Vous pouvez utiliser AWS DataSync avec votre lien Direct Connect pour accéder à des points de terminaison de service public ou à des points de terminaison d’un VPC privé. Lorsque des points de terminaison d'un VPC sont utilisés, les données transférées entre l'agent DataSync et le service AWS ne transitent pas par l'Internet public et n'ont plus besoin d'adresses IP publiques, ce qui améliore la sécurité des données lorsqu'elles sont copiées sur le réseau. DataSync Discovery n'est actuellement pris en charge que par les points de terminaison du service public.

Oui, les points de terminaison d’un VPC sont pris en charge pour les cas d’utilisation de mouvement de données. Vous pouvez utiliser les points de terminaison d’un VPC pour vous assurer que les données transférées entre votre agent AWS DataSync déployé sur site ou dans le cloud ne passent pas par l’Internet public ou n’ont pas besoin d’adresses IP publiques. L’utilisation des points de terminaison d’un VPC augmente la sécurité de vos données sans nuire au trafic réseau au sein de votre Amazon Virtual Private Cloud (Amazon VPC). Les points de terminaison d’un VPC pour DataSync sont à technologie AWS PrivateLink. Il s’agit d’une technologie évolutive hautement disponible qui vous permet de connecter de manière privée votre VPC aux services AWS pris en charge.

Pour utiliser les points de terminaison d’un VPC avec AWS DataSync, commencez par créer une interface de point de terminaison AWS PrivateLink pour le service DataSync dans le VPC de votre choix, puis sélectionnez l’interface réseau Elastic (ENI) de ce point de terminaison lors de la création de votre agent DataSync. Ce dernier se connectera à l'ENI pour s'activer et par la suite, toutes les données transférées par l'agent resteront dans votre VPC configuré. Pour la configuration de vos points de terminaison d'un VPC, vous avez le choix entre AWS DataSync Console, l'Interface de ligne de commande AWS (AWS CLI), et le kit SDK AWS. Pour en savoir plus, consultez Using AWS DataSync in a Virtual Private Cloud (Utilisation d’AWS DataSync dans un Virtual Private Cloud).

Déplacement vers et depuis le stockage AWS

AWS DataSync prend en charge le transfert de données vers, depuis ou entre Amazon Simple Storage Service (Amazon S3), Amazon Elastic File System (Amazon EFS), Amazon FSx for Windows File Server, Amazon FSx pour Lustre, Amazon FSx pour OpenZFS et Amazon FSx pour NetApp ONTAP.

Oui. Lors de la configuration d'un compartiment S3 en vue d'une utilisation avec AWS DataSync, vous pouvez sélectionner la classe de stockage S3 que DataSync utilise pour stocker les objets. DataSync prend en charge le stockage des données directement dans S3 Standard, S3 Intelligent-Tiering, S3 Standard-Infrequent Access (S3 Standard-IA), S3 One Zone-Infrequent Access (S3 One Zone-IA), Amazon S3 Glacier Instant Retrieval, Amazon S3 Glacier Flexible Retrieval, et Amazon S3 Glacier Deep Archive (S3 Glacier Deep Archive). Des informations complémentaires sur les classes de stockage Amazon S3 sont disponibles dans le guide du développeur d’Amazon Simple Storage Service.

Les objets dont la capacité de charge est inférieure à la capacité de charge minimale par objet seront stockés dans S3 standard. À titre d'exemple, les objets de dossier dont la taille est de zéro octet et qui ne contiennent que des métadonnées seront stockés dans S3 standard. Vous trouverez dans notre documentation des informations sur les éléments à prendre en compte lorsque vous travaillez avec des classes de stockage Amazon S3 et sur l’évaluation des coûts des requêtes S3 lors de l’utilisation de DataSync. Pour plus d’informations sur les capacités de charge minimales, consultez la tarification d’Amazon S3.

Oui. Si vous utilisez S3 comme emplacement source pour une tâche AWS DataSync, le service récupérera tous les objets du compartiment qui doivent être copiés vers la destination. L'extraction d'objets du stockage S3 Standard – Accès peu fréquent et S3 Unizone – Accès peu fréquent entraîne des frais d'extraction calculés en fonction de la taille des objets. Vous trouverez dans notre documentation des informations sur les éléments à prendre en compte lorsque vous travaillez avec des classes de stockage Amazon S3.

Si vous utilisez S3 comme emplacement source pour une tâche AWS DataSync, le service récupérera tous les objets du compartiment qui doivent être copiés vers la destination. La récupération d'objets archivés dans la classe de stockage S3 Glacier Instant Retrieval entraînera des frais de récupération plus élevés en fonction de la taille des objets. La récupération d'objets archivés dans la classe de stockage S3 Glacier Flexible Retrieval ou S3 Glacier Deep Archive entraîne une erreur. Toute erreur de récupération des objets archivés sera journalisée par DataSync et entraînera l'échec de l'exécution de la tâche. Vous trouverez dans notre documentation des informations sur les éléments à prendre en compte lorsque vous travaillez avec des classes de stockage Amazon S3 et sur l’évaluation des coûts des requêtes S3 lors de l’utilisation de DataSync.

AWS DataSync endosse un rôle IAM que vous lui assignez. Les actions que le rôle peut exécuter dépendent de la politique que vous attachez à ce dernier. DataSync peut générer automatiquement ce rôle pour vous. Vous pouvez également configurer le rôle manuellement.

Lorsque des fichiers ou des dossiers sont copiés vers Amazon S3, il existe une relation de type un-à-un entre un fichier ou un dossier et un objet. Les horodatages de fichiers et de dossiers, ainsi que les autorisations POSIX (y compris l’ID utilisateur, l’ID de groupe et les autorisations) sont stockés dans les métadonnées de l’utilisateur de S3. Pour les partages NFS, les métadonnées de fichiers stockées dans les métadonnées utilisateur S3 interopérables avec la passerelle de fichiers, ce qui rend possible un accès basé sur les fichiers sur site aux données stockées dans Amazon S3 par AWS DataSync.

Les métadonnées du fichier sont restaurées lorsque DataSync recopie vers un serveur NFS des objets contenant ces métadonnées de l'utilisateur. Les liens symboliques et les liens physiques sont également restaurés lors de la copie de NFS vers S3.

Lors de la copie à partir d’un partage de fichiers SMB, les autorisations POSIX par défaut sont stockées dans les métadonnées de l'utilisateur dans S3. Lors de la copie vers un partage de fichiers SMB, la propriété est définie en fonction de l'utilisateur qui a été configuré dans DataSync pour accéder à ce partage de fichiers, et des autorisations par défaut sont attribuées.

Lors de la copie à partir de HDFS, les horodatages des fichiers et des dossiers, la propriété de l'utilisateur et du groupe, et les autorisations POSIX sont stockés dans les métadonnées utilisateur S3. Lors de la copie d'Amazon S3 vers HDFS, les métadonnées des fichiers et des dossiers sont restaurées.
 

Pour en savoir plus sur le stockage des fichiers et des métadonnées par DataSync, reportez-vous à notre documentation.

Lors du transfert d’objets entre le stockage d’objets autogéré ou Azure Blob Storage et Amazon S3, DataSync copie les objets avec les métadonnées et les balises d’objet.

Lors du transfert d’objets entre compartiments Amazon S3, DataSync copie les objets avec les métadonnées et les balises d’objet. DataSync ne copie pas les autres informations, telles que les listes de contrôle d'accès (ACL) d'objet ou leurs versions antérieures.

Certaines classes de stockage S3 ont des comportements qui peuvent affecter votre coût, comme la récupération des données, les capacités de stockage minimales et les durées de stockage minimales. DataSync automatise la gestion des données pour tenir compte de ces facteurs. Il fournit aussi des paramètres destinés à minimiser l'extraction des données.

AWS DataSync stocke automatiquement les petits objets dans S3 Standard afin d'éviter une charge minimale par objet. Vous pouvez minimiser les frais d'extraction de données en configurant DataSync pour ne vérifier que les fichiers qui ont été transférés par une tâche donnée. DataSync dispose de commandes pour écraser et supprimer des objets afin d'éviter des frais de durée de stockage minimale. Vous trouverez dans notre documentation des informations sur les coûts liés à l’utilisation des classes de stockage Amazon S3 et sur l’évaluation des coûts des requêtes S3 lors de l’utilisation de DataSync.

Oui. Vous pouvez copier des objets entre des compartiments Amazon S3 sur AWS Outposts et Amazon S3 dans des régions AWS. AWS DataSync copie les objets avec les métadonnées et les balises d’objet. Pour que DataSync accède à vos compartiments Amazon S3 sur Outposts, déployez un agent EC2 DataSync sur votre Outpost.

Lors de l’utilisation de DataSync avec Amazon S3 sur Outposts, vous ne pouvez transférer des données que vers et depuis des compartiments Amazon S3 dans des régions AWS. Vous pouvez en apprendre davantage sur les sources et les destinations prises en charge pour les tâches DataSync dans notre documentation.

AWS DataSync accède à votre système de fichiers Amazon EFS via le protocole NFS. Le service DataSync monte votre système de fichiers à partir de votre VPC à partir des interfaces réseau Elastic (ENI) gérées par le service DataSync. DataSync gère entièrement pour vous la création, l'utilisation et la suppression de ces interfaces ENI. Vous pouvez choisir de monter votre système de fichiers à l’aide d’une cible de montage ou d’un point d’accès EFS.

Oui. Vous pouvez utiliser AWS DataSync pour copier des fichiers vers Amazon EFS et configurer EFS Lifecycle Management pour effectuer la migration des fichiers qui n’ont pas été utilisés depuis un certain temps vers la classe de stockage avec accès peu fréquent.

Vous pouvez simultanément utiliser les politiques d’identité et les politiques de ressources IAM pour contrôler l’accès des clients aux ressources Amazon EFS de manière évolutive et optimisée pour les environnements cloud. Lorsque vous créez un emplacement DataSync pour votre système de fichiers EFS, vous pouvez indiquer un rôle IAM que DataSync occupera lors de l'accès à EFS. Ensuite, vous pouvez utiliser les politiques du système de fichiers EFS pour configurer l’accès au rôle IAM. Étant donné que DataSync monte les systèmes de fichiers en tant qu'utilisateur root, votre politique IAM doit autoriser l'action : elasticfilesystem:ClientRootAccess.

Oui. Vous pouvez également utiliser AWS DataSync pour planifier la réplication périodique de votre système de fichiers Amazon EFS vers un autre système de fichiers Amazon EFS au sein du même compte AWS en plus de la réplication intégrée déjà fournie par Amazon EFS. Cette fonction est disponible pour les déploiements au sein d'une même région et de plusieurs régions et ne requiert pas l'utilisation d'un agent DataSync.

AWS DataSync copie les horodatages de fichiers et de dossiers ainsi que les autorisations POSIX (y compris l’ID utilisateur, l’ID de groupe et les autorisations). Reportez-vous à notre documentation pour en savoir plus et accéder à la liste complète des métadonnées copiées.

AWS DataSync copie les horodatages des fichiers et des dossiers, ainsi que les autorisations POSIX et applique des valeurs par défaut pour l’ID utilisateur et l’ID de groupe. Reportez-vous à notre documentation pour en savoir plus et accéder à la liste complète des métadonnées copiées.

AWS DataSync accède à votre système de fichiers Amazon FSx for Windows File Server à l’aide du protocole SMB, en s’authentifiant avec le nom d’utilisateur et le mot de passe que vous définissez dans la console ou la CLI AWS. Le service DataSync monte votre système de fichiers à partir de votre VPC à partir des interfaces réseau Elastic (ENI) gérées par le service DataSync. DataSync gère entièrement pour vous la création, l'utilisation et la suppression de ces interfaces ENI.

AWS DataSync copie les métadonnées Windows, y compris les horodatages des fichiers, le propriétaire du fichier, les attributs de fichier standard, les listes d’accès discrétionnaire NTFS (DACL) et les listes d’accès système NTFS (SACL). Reportez-vous à notre documentation pour en savoir plus et accéder à la liste complète des métadonnées copiées.

Oui. Vous pouvez utiliser AWS DataSync pour planifier la réplication périodique de votre système de fichiers Amazon FSx for Windows File Server vers un autre système de fichiers Amazon FSx for Windows File Server au sein du même compte AWS. Cette fonctionnalité est disponible pour les déploiements dans une même région et entre les régions et ne requiert pas d'utiliser un agent DataSync.

Lorsque vous créez une tâche DataSync pour copier vers ou depuis votre système de fichiers FSx pour Lustre, le service DataSync crée des interfaces réseaux Elastic (ENI) dans le même VPC et sous-réseau que ceux où se trouve votre système de fichiers.  DataSync utilise ces ENI pour accéder à votre système de fichiers FSx for Lustre en utilisant le protocole Lustre en tant qu'utilisateur racine.  Lorsque vous créez une ressource d'emplacement DataSync pour votre système de fichiers FSx for Lustre, vous pouvez spécifier jusqu'à cinq groupes de sécurité à appliquer aux ENI et configurer l'accès sortant du service DataSync.  Les groupes de sécurité doivent être configurés pour autoriser le trafic sortant sur les ports réseau requis par FSx pour Lustre.  Les groupes de sécurité sur votre système de fichiers FSx for Lustre doivent être configurés pour permettre l'accès entrant des groupes de sécurité que vous avez assignés à la ressource d'emplacement DataSync pour votre système de fichiers FSx for Lustre.

AWS DataSync copie les horodatages de fichiers et de dossiers ainsi que les autorisations POSIX (y compris l’ID utilisateur, l’ID de groupe et les autorisations). Reportez-vous à notre documentation pour en savoir plus et accéder à la liste complète des métadonnées copiées.

Oui. Vous pouvez utiliser AWS DataSync pour copier depuis votre système de fichiers FSx for Lustre vers un second système de fichiers au sein du même compte AWS. Cette fonction est disponible pour les déploiements au sein d'une région ou sur plusieurs régions et ne requiert pas l'utilisation d'un agent DataSync.

Oui. Vous pouvez utiliser AWS DataSync pour planifier la réplication périodique de votre système de fichiers Amazon FSx for Lustre vers un second système de fichiers au sein du même compte AWS. Cette fonction est disponible pour les déploiements au sein d'une région ou sur plusieurs régions et ne requiert pas l'utilisation d'un agent DataSync.

Non. Les fichiers sont écrits en utilisant la configuration de disposition et de répartition des fichiers sur le système de fichiers de la destination.

Lorsque vous créez une tâche DataSync pour effectuer une copie sortante ou entrante dans votre système de fichiers FSx pour OpenZFS, le service DataSync crée des interfaces réseau Elastic (ENI) dans le même VPC et le même sous-réseau que ceux où se trouve votre système de fichiers.  DataSync utilise ces ENI pour accéder à votre système de fichiers FSx for OpenZFS en utilisant le protocole OpenZFS en tant qu'utilisateur racine.  Lorsque vous créez une ressource d'emplacement DataSync pour votre système de fichiers FSx for Lustre, vous pouvez spécifier jusqu'à cinq groupes de sécurité à appliquer aux ENI et configurer l'accès sortant du service DataSync.  Les groupes de sécurité doivent être configurés pour autoriser le trafic sortant sur les ports réseau requis par FSx pour OpenZFS. Les groupes de sécurité sur votre système de fichiers FSx for OpenZFS doivent être configurés pour permettre l'accès entrant des groupes de sécurité que vous avez assignés à la ressource d'emplacement DataSync pour votre système de fichiers FSx for OpenZFS.

AWS DataSync copie les horodatages de fichiers et de dossiers ainsi que les autorisations POSIX (y compris l’ID utilisateur, l’ID de groupe et les autorisations). Reportez-vous à notre documentation pour en savoir plus et accéder à la liste complète des métadonnées copiées.

Oui. Vous pouvez utiliser AWS DataSync pour effectuer une copie à partir de votre système de fichiers FSx for OpenZFS vers un second système de fichiers au sein du même compte AWS. Cette fonction est disponible pour les déploiements au sein d'une même région de plusieurs régions et ne requiert pas l'utilisation d'un agent DataSync.

Oui. Vous pouvez utiliser AWS DataSync pour planifier la réplication périodique de votre système de fichiers Amazon FSx for OpenZFS vers un second système de fichiers au sein du même compte AWS. Cette fonctionnalité est disponible pour les déploiements dans une même région et entre les régions et ne requiert pas d'utiliser un agent DataSync.

Lorsque vous créez une tâche, DataSync crée des interfaces réseau Elastic (ENI) dans le sous-réseau préféré du même VPC que celui où se trouve votre système de fichiers Amazon FSx pour NetApp ONTAP. Le sous-réseau préféré est configuré lorsque vous créez votre système de fichiers FSx pour ONTAP, et DataSync utilise les interfaces ENI qu'il crée dans ce sous-réseau pour accéder à votre système de fichiers FSx pour ONTAP. Lorsque vous créez une ressource d'emplacement DataSync pour votre système de fichiers FSx ONTAP, vous pouvez spécifier jusqu'à cinq groupes de sécurité à appliquer aux interfaces ENI et configurer l'accès sortant du service DataSync. Vous devez configurer les groupes de sécurité sur votre système de fichiers FSx pour ONTAP pour autoriser l'accès entrant des groupes de sécurité que vous avez affectés à la ressource DataSync Location pour votre système de fichiers FSx pour ONTAP.

AWS DataSync prend en charge l’utilisation de NFSv3, SMB 2.1 et SMB 3. Actuellement, DataSync ne prend pas en charge l'utilisation de NFSv4 ou version supérieure avec FSx pour ONTAP.

Oui, AWS DataSync copie les horodatages des fichiers et des dossiers et les autorisations POSIX, notamment l’ID d’utilisateur, l’ID de groupe et les autorisations, lorsqu’il utilise le protocole NFS. Lorsqu'il utilise le protocole SMB, DataSync copie les horodatages, la propriété et les ACL des fichiers et des dossiers. Reportez-vous à notre documentation pour en savoir plus et accéder à la liste complète des métadonnées copiées.

Lors de la migration à partir de serveurs Windows ou de partages NAS qui servent les utilisateurs par le biais du protocole SMB, utilisez un emplacement source DataSync SMB et le protocole SMB pour votre emplacement FSx pour ONTAP, en vérifiant que le type de sécurité de votre volume FSx pour ONTAP est configuré pour NTFS. Lors de la migration à partir de serveurs Unix ou Linux ou de partages NAS qui servent les utilisateurs par le biais du protocole NFS, utilisez un emplacement source DataSync NFS et le protocole NFS pour votre emplacement FSx pour ONTAP, en vérifiant que le type de sécurité pour votre volume FSx pour ONTAP est configuré pour Unix. Pour les migrations multiprotocoles, nous vous conseillons de consulter les pratiques exemplaires décrites dans le blog Mettre en œuvre les charges de travail multiprotocoles avec Amazon FSx pour NetApp ONTAP et d’utiliser le protocole SMB pour préserver les métadonnées du système de fichiers avec la plus grande fidélité. Pour plus d’informations sur la configuration des types de sécurité pour vos volumes FSx pour ONTAP, consultez la documentation sur la gestion des volumes FSx pour ONTAP.

Oui, mais vous devrez créer un emplacement DataSync et une ressource de tâche distincts pour chaque protocole (NFS ou SMB). Pour éviter les problèmes de remplacement des données et de vérification des données, nous ne recommandons pas d'utiliser plusieurs tâches DataSync pour copier simultanément dans le même chemin de volume (que ce soit en utilisant le même protocole ou des protocoles différents).

Non, DataSync ne prend en charge que la copie de données de fichiers vers ou à partir des volumes FSx pour ONTAP utilisant le protocole NFS ou SMB.

Oui. Vous pouvez utiliser AWS DataSync pour copier à partir de votre système de fichiers FSx pour ONTAP vers un second système de fichiers dans un même compte AWS. Cette fonctionnalité est disponible pour les déploiements dans une même région et entre régions, et ne nécessite pas l'utilisation d'un agent DataSync.

Bien que DataSync puisse être utilisé pour répliquer les données entre vos systèmes de fichiers, nous vous recommandons d’utiliser NetApp SnapMirror pour répliquer entre vos systèmes de fichiers FSx pour ONTAP. SnapMirror vous permet d'atteindre des RPO faibles, indépendamment du nombre et de la taille des fichiers de votre système de fichiers.

DataSync exclura automatiquement les dossiers nommés « .snapshot ». Vous pouvez également utiliser des filtres d’exclusion pour éviter de copier les fichiers et les dossiers qui correspondent aux modèles que vous spécifiez.

Migrer vers et depuis les appareils de la famille AWS Snow

Commencez par déployer un agent DataSync dans votre environnement sur site. Activez l'agent à l'aide de la console de gestion AWS ou de l'interface de ligne de commande, et configurez votre tâche DataSync pour déplacer des données entre un compartiment sur votre stockage compatible Amazon S3 et Amazon S3, Amazon EFS ou tout autre système de fichiers Amazon FSx.

Performances

La vitesse de copie d’un jeu de données par AWS DataSync dépend du volume des données, de la bande passante des E/S pouvant être atteinte entre les stockages source et cible, de la bande passante du réseau disponible et des conditions du réseau. Pour les transferts de données entre les services sur site et AWS Storage, une simple tâche DataSync peut totalement exploiter une liaison réseau de 10 Gbits/s.

Oui. Vous pouvez contrôler le volume de bande passante du réseau consommé par AWS DataSync en configurant le système de limitation de bande passante intégré. Vous pouvez augmenter ou diminuer cette limite pendant l'exécution de votre tâche de transfert de données. Cela permet de minimiser l'impact de cette consommation sur les autres utilisateurs ou applications utilisant la même connexion réseau.

AWS DataSync génère des métriques Amazon CloudWatch destinées à garantir une visibilité détaillée du processus de transfert. Grâce à ces paramètres, vous pouvez voir le nombre de fichiers et la quantité de données qui ont été copiés, ainsi que l'avancement de la recherche et de la vérification des fichiers. Vous pouvez voir des graphiques CloudWatch avec ces métriques directement dans la console de DataSync.

En fonction de la capacité de votre stockage sur site et de la quantité et de la taille des fichiers à transférer, AWS DataSync peut affecter le délai de réponse des autres clients ayant accès au même stockage de données, car l’agent effectue la lecture ou l’écriture des données depuis ce système de stockage. Configurer la limite de bande passante pour une tâche permet de réduire cet impact en limitant les E/S de votre système de stockage.

Sécurité et conformité

AWS DataSync Discovery utilise l'agent DataSync pour accéder aux interfaces de gestion/API de vos systèmes de stockage. Tous les accès sont en lecture seule. Consultez la documentation DataSyncpour plus d’informations sur les API utilisées pour accéder à votre stockage.

Lorsque vous configurez AWS DataSync Discovery pour découvrir votre système de stockage, vous fournissez un nom d'utilisateur et un mot de passe pour accéder à l'interface API de votre stockage. AWS DataSync Discovery créera ensuite automatiquement un secret dans AWS Secrets Manager pour stocker les informations d'identification. Lorsque DataSync Discovery exécute une tâche de détection, il récupère le mot de passe du secret, le ré-encrypte et envoie le mot de passe crypté à l'agent utilisé pour votre tâche. Le mot de passe est conservé en mémoire sur l'agent uniquement pour la durée de la tâche et à aucun moment le mot de passe ne persiste en dehors de la mémoire.

Oui. Toutes les données transférées entre la source et la destination sont chiffrées via TLS (Transport Layer Security) qui remplace le SSL (Secure Sockets Layer). Les données ne sont jamais conservées au sein même d'AWS DataSync. Le service prend en charge le chiffrement par défaut pour les compartiments S3, le chiffrement des systèmes de fichiers Amazon EFS des données au repos et le chiffrement Amazon FSx des données au repos et en transit.

AWS DataSync utilise un agent que vous déployez dans votre environnement informatique ou dans Amazon EC2 pour accéder à vos fichiers via le protocole NFS ou le protocole SMB. Cet agent se connecte aux points de terminaison du service DataSync dans AWS et est géré de manière sécurisée à partir d'AWS Management Console ou de la CLI.

AWS DataSync utilise un agent que vous déployez dans votre environnement informatique ou dans Amazon EC2 pour accéder à votre cluster Hadoop. L'agent DataSync fait office de client HDFS et communique avec les NameNodes et DataNodes de vos clusters. Lorsque vous démarrez une tâche, DataSync interroge le NameNode principal pour déterminer les emplacements des fichiers et des dossiers dans le cluster. DataSync communique ensuite avec les DataNodes dans le cluster pour copier des fichiers et des dossiers vers ou à partir de HDFS.

AWS DataSync utilise un agent que vous déployez dans votre centre de données ou environnement cloud public ou dans Amazon EC2 pour accéder à vos objets en utilisant l’API Amazon S3. Cet agent se connecte aux points de terminaison du service DataSync dans AWS et est géré de manière sécurisée à partir d'AWS Management Console ou de la CLI.

AWS DataSync utilise un agent que vous déployez dans votre environnement Azure ou dans Amazon EC2 pour accéder aux objets de vos conteneurs Azure Blob Storage. Cet agent se connecte aux points de terminaison du service DataSync dans AWS et est géré de manière sécurisée à partir de la console de gestion AWS ou de la CLI. L'agent s'authentifie auprès de votre conteneur Azure à l'aide d'un jeton SAS que vous spécifiez lors de la création d'un emplacement DataSync Azure Blob.

Non. Lorsque vous copiez des données vers ou depuis vos emplacements sur site, la configuration d’un VPN/tunnel n’est pas nécessaire. De même, vous n’avez pas besoin d’autoriser les connexions entrantes. Votre agent AWS DataSync peut être configuré pour passer par un pare-feu à l'aide de ports réseau standard. Vous pouvez également déployer DataSync dans votre Amazon Virtual Private Cloud (Amazon VPC) à l’aide des points de terminaison d’un VPC. Lors de l'utilisation des points de terminaison d'un VPC, les données transférées entre l'agent DataSync et les services AWS n'ont pas besoin de passer par l'Internet public. Elles n'ont pas non plus besoin d'adresses IP publiques.

Votre agent AWS DataSync se connecte aux points de terminaison du service DataSync de la Région AWS de votre choix. Vous pouvez choisir de connecter l'agent à des points de terminaison publics orientés Internet, à des points de terminaison validés par les standards FIPS (Federal Information Processing Standards), ou à des points de terminaison situés dans l'un de vos VPC. L'activation de votre agent l'associe de façon sécurisée à votre compte AWS. Pour en savoir plus, consultez Choose a Service Endpoint et Activate Your Agent.

Les mises à jour de l’agent installé sur une machine virtuelle (VM), y compris le système d’exploitation sous-jacent et les progiciels AWS DataSync, sont automatiquement appliquées par AWS lorsque l’agent est activé. Les mises à jour sont appliquées sans interruption lorsque l'agent est inactif et n'exécute pas une tâche de transfert de données.

AWS a le programme de conformité le plus ancien dans le cloud. AWS est résolu à aider ses clients à répondre à leurs besoins. AWS DataSync a été évalué et jugé conforme aux normes de sécurité mondiale et du secteur. DataSync satisfait aux normes PCI DSS, ISO 9001, 27001, 27017 et 27018, à SOC 1, 2 et 3. Il est conforme à la loi HIPAA. DataSync est également autorisé dans les régions AWS Est/Ouest (US) sous FedRAMP Moderate et dans les régions AWS GovCloud (US) sous FedRamp High. Cela vous permet de vérifier plus facilement notre sécurité et de remplir vos propres obligations. Pour plus d'informations et de ressources, consultez nos pages sur la conformité. Vous pouvez également consulter la page Services concernés par le programme de conformité qui contient la liste complète des services et des certifications.

Oui. AWS DataSync est conforme à la norme PCI-DSS, ce qui signifie que vous pouvez l’utiliser pour transférer des informations de paiement. Vous pouvez télécharger le package de conformité PCI sur AWS Artifact pour en savoir plus sur la procédure à suivre pour obtenir la conformité PCI sur AWS.

Oui. AWS DataSync est conforme à la loi HIPAA. En d’autres termes, si vous avez mis en place un accord d’association commerciale (BAA) HIPAA avec AWS, vous pouvez utiliser DataSync pour transférer des informations protégées relatives à la santé (PHI).

Oui. AWS DataSync a reçu une Provisional Authority to Operate (P-ATO) du Joint Authorization Board (JAB) en vertu d'une base de référence d'impact modéré dans le cadre du Federal Risk and Authorization Management Program (FedRAMP) dans les régions Est/Ouest (US). Si vous êtes un client fédéral ou commercial, vous pouvez utiliser AWS DataSync dans la limite d'autorisation des régions AWS Est/Ouest avec des données jusqu'au niveau d'impact modéré.

Oui. AWS DataSync a reçu une Provisional Authority to Operate (P-ATO) du Joint Authorization Board (JAB) en vertu d'une base de référence d'impact élevé dans le cadre du Federal Risk and Authorization Management Program (FedRAMP) dans les régions US GovCloud. Si vous êtes un client fédéral ou commercial, vous pouvez utiliser AWS DataSync dans la limite d'autorisation des régions AWS GovCloud (US) avec des données jusqu'au niveau d'impact élevé.

Quand choisir AWS DataSync

AWS DataSync automatise et accélère entièrement le transfert des grands jeux de données actifs vers AWS. Il est intégré en natif à Amazon S3, Amazon EFS, Amazon FSx, Amazon CloudWatch et AWS CloudTrail, ce qui garantit un accès fluide et sécurisé à vos services de stockage, ainsi qu’un suivi détaillé du transfert.

DataSync utilise un protocole réseau sur mesure, ainsi qu'une architecture qui monte en puissance pour transférer les données. Pour les transferts de données entre les services sur site et AWS Storage, une simple tâche DataSync peut totalement exploiter une liaison réseau de 10 Gbits/s.

DataSync automatise entièrement le transfert de données. Il est doté de mécanismes de relance et de résilience du réseau, d'optimisations du réseau, d'une planification intégrée des tâches, d'un audit via des rapports de tâches, d'une surveillance via l'API et la console DataSync, ainsi que de métriques, d'événements et de journaux CloudWatch qui offrent une visibilité granulaire sur le processus de transfert. DataSync vérifie l'intégrité des données pendant le transfert et à la fin de celui-ci.

DataSync assure une sécurité de bout en bout et s'intègre directement aux services de stockage AWS. Toutes les données transférées entre la source et la destination sont chiffrées par TLS et l'accès à votre stockage AWS est assuré par des mécanismes de sécurité intégrée tels que les rôles IAM. Sur DataSync, les points de terminaison d'un VPC sont activés pour s'assurer que les données transférées entre une organisation et AWS ne transitent pas sur l'Internet public, ce qui augmente encore la sécurité des données lorsqu'elles sont copiées sur le réseau.

AWS fournit plusieurs outils de copie d’objets entre vos compartiments.

Utilisez AWS DataSync pour la distribution de données continue, les pipelines de données, l'ingestion de lac de données, ainsi que pour consolider ou répartir des données entre plusieurs compartiments.

Utilisez laréplication S3 pour la réplication continue de données vers un compartiment de destination spécifique.

Utilisez les opérations par lots S3 pour effectuer des opérations par lots à grande échelle sur des objets S3, par exemple pour copier des objets, définir des identifications d’objet ou des listes de contrôle d’accès (ACL), lancer des restaurations d’objets à partir d’Amazon S3 Glacier Flexible Retrieval (anciennement S3 Glacier), invoquer une fonction AWS Lambda pour effectuer des actions personnalisées à l’aide de vos objets, gérer la mise en attente légale du verrouillage d'objet S3 ou gérer les dates de conservation du verrouillage d'objet S3.

AWS DataSync est parfait pour les transferts de données en ligne. Vous pouvez utiliser DataSync pour migrer des données actives vers AWS, transférer des données vers le cloud pour analyse et traitement, archiver des données pour libérer de la capacité de stockage sur site ou répliquer des données vers AWS pour la continuité des activités.

AWS Snowball Edge est recommandé pour les transferts de données hors ligne et pour les clients qui ont des contraintes de bande passante, ainsi que pour le transfert de données depuis des environnements distants, déconnectés ou austères. 

Utilisez AWS DataSync pour migrer les données existantes vers Amazon S3, puis utilisez la configuration de la passerelle de fichiers d’AWS Storage Gateway pour conserver l’accès aux données migrées ainsi que pour les mises à jour continues de vos applications sur site.

En combinant DataSync et la passerelle de fichiers, vous pouvez minimiser votre infrastructure sur site tout en connectant de manière fluide les applications sur site à votre stockage dans le cloud. AWS DataSync vous permet d'automatiser et d'accélérer les transferts de données en ligne vers les services AWS Storage. Après la phase de transfert initiale à l'aide d'AWS DataSync, la passerelle de fichiers fournit à vos applications sur site un accès à faible latence aux données migrées. Lors de l'utilisation d'AWS DataSync avec des partages NFS, les métadonnées POSIX de votre stockage sur site source sont conservées et les autorisations de ce stockage source sont appliquées lors de l'accès aux fichiers à l'aide de la passerelle de fichiers.

Si vos applications intègrent déjà l’API Amazon S3 et que vous avez besoin d’un débit plus élevé pour transférer de grands volumes de fichiers vers S3, vous pouvez opter pour S3 Transfer Acceleration. AWS DataSync est recommandé si vous souhaitez transférer des données depuis des systèmes de stockage existants, par exemple un stockage en réseau, ou des instruments immuables, par exemple les séquenceurs d'ADN et les caméras vidéo, ou si vous souhaitez transférer des données vers plusieurs destinations. DataSync automatise et simplifie également le transfert de données en apportant des fonctionnalités supplémentaires comme des mécanismes de résilience réseau et de relance intégrés, la vérification de l'intégrité des données et la configuration flexible, ce qui permet de répondre à vos besoins propres, notamment l'accélération de bande passante, etc.

Si vous utilisez actuellement SFTP pour échanger des données avec des tiers, AWS Transfer Family fournit un transfert SFTP, FTPS, FTP et AS2 entièrement géré directement vers et depuis Amazon S3, tout en réduisant votre charge opérationnelle.

Si vous souhaitez accélérer et automatiser le transfert de données entre des serveurs NFS, des partages de fichiers SMB, des clusters Hadoop, un stockage d’objets autogéré ou cloud, Amazon S3, Amazon EFS et Amazon FSx, vous pouvez utiliser AWS DataSync. DataSync est idéal pour les clients qui doivent effectuer des migrations en ligne pour des jeux de données actifs, des transferts ponctuels pour des données générées en continu ou la réplication pour la continuité des activités.