Ensembles de données publics sur AWS
Les ensembles de données publics sur AWS fournissent un référentiel centralisé d'ensembles de données publics qui peuvent être intégrés en continu dans les applications basées dans le cloud de AWS. AWS héberge gratuitement des ensembles de données publics pour la communauté. Comme avec tous les services AWS, les utilisateurs ne paient que les capacités de calcul et de stockage qu'ils utilisent pour leurs propres applications.
Auparavant, les grands ensembles de données publics tels que la cartographie du génome humain et les données de recensement des États-Unis nécessitaient des heures ou des jours pour localiser, télécharger, personnaliser et analyser. Désormais, n'importe qui peut accéder à ces ensembles de données depuis leurs instances Amazon Elastic Compute Cloud (Amazon EC2) et démarrer les calculs de données en quelques minutes. Les utilisateurs peuvent également se servir de tout l'écosystème AWS et collaborer facilement avec d'autres utilisateurs de AWS. Par exemple, les utilisateurs peuvent produire ou utiliser des images de serveurs préconstruites avec des outils et des applications afin d'analyser les ensembles de données. Les utilisateurs peuvent également échanger sur les bonnes pratiques et les solutions dans le forum dédié aux ensembles de données publics.
En hébergeant ces données importantes et utiles via des services économiques, tels qu'Amazon EC2, AWS espère fournir aux chercheurs de toutes disciplines et industries des outils permettant plus d'innovation, plus rapidement.
Ensembles de données publics disponibles sur AWS
AWS continuera d'ajouter dans le temps à la collection disponible d'ensembles de données du domaine public et non propriétaire. Les ensembles de données actuellement disponibles sont indiqués ci-dessous. Les copies instantanées Linux/UNIX sont sous format ISO9660 ou EXT3 et les copies instantanées Windows sont sous format NTFS.
Vous pouvez obtenir une liste complète des ensembles de données dans notre Centre de ressource des ensembles de données publics.
Voici quelques exemples d'ensemble de données publics très consultés :
- Données de génome humain annotées, fournies par ENSEMBL
Le projet Ensembl crée des bases de données sur le génome de l'espèce humaine et de près de 50 autres espèces, et rend ces informations disponibles gratuitement. - Bases de données du recensement des Etats-Unis, fournies par l'US Census Bureau
Données démographiques des Etats-Unis issues des recensements américains des années 1980, 1990 et 2000, informations de synthèse sur le commerce et l'industrie et données sur le profil des ménages de 2003 à 2006. - Base de données UniGene, fournie par le National Center for Biotechnology Information
Ensemble de séquences de transcription de gènes bien caractérisées et des centaines de milliers de marqueurs de séquence exprimée (EST) qui donnent une vision organisée du transcriptome. - Image mémoire des données de Freebase.com
Image mémoire de tous les faits et déclarations figurant actuellement dans le système Freebase. Freebase est une base de données ouverte regroupant des informations mondiales, qui couvre des millions de sujets dans des centaines de catégories. Issue de larges ensembles de données tels que Wikipédia, MusicBrainz et les archives SEC, elle contient des informations structurées sur de nombreux sujets populaires, y compris des films, des titres musicaux, des personnes et des lieux. Toutes ces données sont harmonisées et disponibles gratuitement.
Comment ça fonctionne
Des ensembles de données publics sélectionnés sont hébergés gratuitement sur Amazon EC2 en tant qu'instantanées Amazon Elastic Block Store (Amazon EBS). Les clients Amazon EC2 peuvent accéder à ces données en créant leurs propres volumes Amazon EBS personnels, en utilisant les instantanées d'ensemble de données public comme point de départ. Ils peuvent ensuite accéder, modifier et réaliser des calculs sur ces volumes directement en utilisant leurs instances Amazon EC2 et ne payer que les ressources de calcul et de stockage qu'ils utilisent. En cas de disponibilité, les chercheurs peuvent également utiliser des Amazon Machine Images (AMI) préconfigurées avec des outils comme Inquiry par BioTeam pour réaliser leur analyse.
Pour commencer à utiliser les ensembles de données publics sur AWS, effectuez simplement trois de ces étapes :
- Inscrivez-vous à un compte Amazon EC2.
- Lancer une instance Amazon EC2.
- Créer un volume Amazon EBS en utilisant l'ID de copie instantanée listée dans le catalogue ci-dessus pour votre copie instantanée choisie.
Le Guide de démarrage ElasticFox fournit une explication simplifiée sur comment lancer une instance et créer un volume Amazon EBS en utilisant ElasticFox, un plug-in FireFox pratique. Ou, consultez le Guide de démarrage d'Amazon EC2/.
Si vous avez des questions ou souhaitez participer à notre communauté d'ensembles de données publics, veuillez vous rendre sur notre Forum consacré aux ensembles de données publics.
Comment partager un ensemble de données public sur AWS
Si vous avez un ensemble de données du domaine public ou non propriétaires qui selon vous est utile et intéressant pour la communauté AWS, veuillez soumettre une demande ci-dessous et l'équipe AWS examinera votre soumission et vous répondra. En général les ensembles de données dans le référentiel font entre 1 Go à 1 To (en fonction de la limite de volume d'Amazon EBS), mais nous pouvons travailler avec vous afin d'héberger également des ensembles de données plus importants. Vous devez disposer de l'autorisation permettant de rendre les données disponibles gratuitement.
Pour démarrer, veuillez remplir le formulaire de soumission sur ce lien et un membre de notre équipe vous contactera pour discuter de votre ensemble de données public. Nous vous expliquerons étape par étape comment publier vos données vers le référentiel de données.