Öffentliche Datensätze in AWS

 

AWS hostet verschiedene öffentliche Datensätze, auf die Jeder kostenlos zugreifen darf.

Früher beanspruchte das Erfassen, Herunterladen, die Anpassung und Analyse großer Datensätze (z. B. die Kartierung des menschlichen Genoms) mehrere Stunden oder sogar Tage. Heute kann jeder diese Datensätze über Amazon EC2-Instances oder Amazon EMR-Cluster (gehostetes Hadoop) abrufen und analysieren. Durch das Hosting dieser wichtigen Daten in einem System, in dem diese schnell und einfach mit elastischen Rechenressourcen verarbeitet werden können, möchte AWS Möglichkeiten für mehr Innovation in kürzerer Zeit schaffen.

In AWS verfügbare öffentliche Datensätze

Klicken Sie hier, um eine detaillierte Liste der verfügbaren Datensätze anzuzeigen. Beispiele beliebter öffentlicher Datensätze:

  • NASA NEX: Eine von der NASA unterhaltene Sammlung geowissenschaftlicher Datensätze mit Klimaprognosen und Satellitenbildern der Erdoberfläche
  • Common Crawl Corpus: Ein Korpus aus Webcrawl-Daten aus über 5 Milliarden Webseiten
  • 1000 Genomes Project: Eine umfassende Karte des menschlichen Erbguts und seiner Varianten
    Google Books Ngrams: Ein Datensatz mit N-Gramm-Korpussen für Google Books
  • US Census Data: Demografische Daten der USA aus den Volkszählungen der Jahre 1980, 1990 und 2000
  • Freebase Data Dump: Ein Daten-Dump aller aktuellen Fakten und Aussagen im Freebase-System, einer offenen Datenbank zu Millionen von Themen

Funktionsweise

Die Datensätze werden in zwei möglichen Formaten gehostet: als Amazon EBS-Snapshots (Amazon Elastic Block) oder als Amazon S3-Buckets (Amazon Simple Storage Service).

So greifen Sie auf einen als Amazon EBS-Snapshot gehosteten Datensatz zu: Registrieren Sie sich für ein AWS-Konto, starten Sie eine Amazon EC2-Instance und erstellen Sie ein Amazon EBS-Volume mit der oben im Katalog aufgeführten Snapshot-ID. Das ElasticFox-Handbuch bietet eine Einführung in das Arbeiten mit Instances und das Erstellen eines Amazon EBS-Datenträgers mit ElasticFox, dem praktischen Firefox Plug-in. Weitere Informationen erhalten Sie im Handbuch für Amazon EC2.

So greifen Sie auf einen Amazon S3 gehosteten Datensatz zu: Sie können einfache HTTP-Anforderungen ausführen, Befehlszeilen-Tools und SDKs (Ruby, Java, Python, .NET, PHP usw.) von AWS verwenden, die Daten mithilfe von Amazon EC2 herunterladen oder Hadoop einsetzen, um die Daten mit Amazon EMR zu verarbeiten.

Falls Sie weitere Fragen haben oder sich an unserer Public Data Sets-Community aktiv beteiligen möchten, besuchen Sie bitte das Public Data Sets-Forum.

Freigabe von öffentlichen Datensätzen in AWS

Wenn Sie über einen öffentlichen Datensatz verfügen, der für die AWS-Community von Interesse sein könnte, übermitteln Sie bitte dieses Formular. Das AWS-Team wird Ihren Vorschlag prüfen und sich ggf. mit Ihnen Verbindung setzen. Sie müssen über die Rechte zur Freigabe der Daten verfügen. Sollte Ihr Datensatz in die Datensammlung aufgenommen werden, müssen Sie eine Beschreibung des Datensatzes, eine Beschreibung seines Schemas und Beispiel-Code angeben, der Analysemöglichkeiten aufzeigt.