Public Data Sets auf AWS

Public Data Sets auf AWS ermöglicht eine zentralisierte Speicherung von öffentlichen Datensätzen mit nahtloser Integration in Cloud-basierte Anwendungen von AWS. AWS hostet öffentliche Datensätze für die Community gebührenfrei. Wie bei allen AWS-Dienstleistungen zahlen Nutzer lediglich für die von eigenen Anwendungen beanspruchten Rechen- und Speicherkapazitäten.

Früher beanspruchte das Sammeln, Herunterladen, die Anpassung und Analyse großer Datensätze (z. B. die Kartierung des menschlichen Genoms oder die Daten der US-Volkszählung) mehrere Stunden oder sogar Tage. Heute kann jeder diese Datensätze innerhalb von Minuten über Amazon Elastic Compute Cloud (Amazon EC2)-Instances abrufen und verarbeiten. Für die einfache Zusammenarbeit mit anderen AWS-Nutzern kann das gesamte AWS-Ökosystem genutzt werden. Beispielsweise können selbst erstellte oder bereits vorhandene Server-Images mit verschiedenen Tools und Anwendungen zur Analyse von Datensätzen genutzt werden. Im Public Data Sets-Forum können sich Nutzer über die besten Vorgehensweisen und Lösungen austauschen.

Durch das Hosting dieser wichtigen und nützlichen Daten mit kostengünstigen Diensten wie Amazon EC2 bietet AWS Forschern verschiedener Disziplinen und Branchen die passenden Tools für mehr und schnellere Innovationen.

Anmeldung bei Amazon EC2




Diese Seite enthält folgende Informationskategorien. Klicken Sie auf den Link, um zum Thema zu gelangen:

Verfügbare Public Data Sets auf AWS

AWS erweitert nach und nach die zur Verfügung stehende Sammlung von freien Datensätzen und Datensätzen in der öffentlichen Domäne. Die derzeit verfügbaren Datensätze sind im Folgenden aufgeführt. Linux/UNIX Snapshots stehen im ISO9660- oder EXT3-Format zur Verfügung, Windows Snapshots im NTFS-Format.

Eine vollständige Liste der öffentlichen Datensätze erhalten Sie in unserem Public Data Sets-Ressourcenzentrum.

Beispiele für beliebte Public Data Sets:

  • Freebase Data Dump von Freebase.com
    Ein Datenraum mit allen aktuellen Fakten und Informationen im Freebase-System. Freebase ist eine offene Datenbank für Informationen aus aller Welt, mit Millionen Themen in Hunderten von Kategorien. Unter Nutzung großer öffentlich zugänglicher Datensätze wie Wikipedia, MusicBrainz und der SEC-Archive bietet Freebase strukturierte Informationen über zahlreiche beliebte Themen wie Film, Musik, Persönlichkeiten und Orte – übersichtlich und frei verfügbar.

Seitenanfang


Funktionsweise

Ausgewählte öffentliche Datensätze werden auf Amazon EC2 kostenlos als Amazon Elastic Block Store (Amazon EBS)-Snapshots gehostet. Amazon EC2-Kunden erhalten Zugriff auf diese Daten, indem sie ihre eigenen, persönlichen Amazon EBS-Datenträger erstellen. Die Snapshots der öffentlichen Datensätze dienen dabei als Basis. Anschließend können die Kunden direkt mit ihren Amazon EC2-Instances Daten auf diesen Datenträgern abrufen, modifizieren und verarbeiten. Dabei zahlen sie lediglich für die tatsächlich genutzten Rechen- und Speicherressourcen. Wenn verfügbar, können Forscher zur Durchführung von Analysen vorkonfigurierte Amazon Machine Images (AMIs) mit Tools wie Inquiry (BioTeam) verwenden.

Zur Nutzung von Public Data Sets auf AWS unternehmen Sie die folgenden einfachen Schritte:

  1. Melden Sie sich für ein Amazon EC2-Konto an.
  2. Starten Sie eine Amazon EC2-Instance.
  3. Erstellen Sie einen Amazon EBS-Datenträger unter Anwendung der Snapshot ID. Die ID für Ihren gewählten Snaphshot finden Sie im obigen Katalog.

Das ElasticFox-Handbuch bietet eine Einführung in das Arbeiten mit Instances und das Erstellen eines Amazon EBS-Datenträgers mit ElasticFox, dem praktischen Firefox Plug-in. Weitere Informationen erhalten Sie im Handbuch für Amazon EC2.

Falls Sie weitere Fragen haben oder sich an unserer Public Data Sets-Community aktiv beteiligen möchten, besuchen Sie bitte das Public Data Sets-Forum.

Seitenanfang


Freigabe von Public Data Sets auf AWS

Wenn Sie über eine öffentliche Domäne und/oder nicht geschützte Daten verfügen, die für die AWS-Community von Interesse sein könnten, füllen Sie bitte unten das entsprechende Formular aus und reichen Sie es ein. Das AWS-Team wird Ihren Antrag prüfen und sich mit Ihnen Verbindung setzen. Die bereits vorhandenen Datensätze haben normalerweise eine Größe von 1 GB bis 1 TB (basierend auf der Amazon EBS-Volumengrenze). Wir können jedoch nach Rücksprache auch größere Datensätze hosten. Sie müssen über die Rechte zur Freigabe der Daten verfügen.

Nachdem Sie das Antragsformular ausgefüllt und eingereicht haben, wird sich eines unserer Teammitglieder mit Ihnen in Verbindung setzen. Wir werden Ihnen dabei helfen, Ihre Datensätze in der Datensammlung zu veröffentlichen.




Ihre EC2-Rechnung reduzieren

Sehen Sie sich an, wie Kunden wie Numerate ihre Amazon EC2-Ausgaben nach der Implementierung von Spot Instances in nur fünf Tagen um 50 % reduzieren konnten.




©2011, Amazon.com, Inc. oder Tochtergesellschaften. Alle Rechte vorbehalten.