Public Data Sets auf AWS ermöglicht eine zentralisierte Speicherung von öffentlichen Datensätzen mit nahtloser Integration in Cloud-basierte Anwendungen von AWS. AWS hostet öffentliche Datensätze für die Community gebührenfrei. Wie bei allen AWS-Dienstleistungen zahlen Nutzer lediglich für die von eigenen Anwendungen beanspruchten Rechen- und Speicherkapazitäten.
Früher beanspruchte das Sammeln, Herunterladen, die Anpassung und Analyse großer Datensätze (z. B. die Kartierung des menschlichen Genoms oder die Daten der US-Volkszählung) mehrere Stunden oder sogar Tage. Heute kann jeder diese Datensätze innerhalb von Minuten über Amazon Elastic Compute Cloud (Amazon EC2)-Instances abrufen und verarbeiten. Für die einfache Zusammenarbeit mit anderen AWS-Nutzern kann das gesamte AWS-Ökosystem genutzt werden. Beispielsweise können selbst erstellte oder bereits vorhandene Server-Images mit verschiedenen Tools und Anwendungen zur Analyse von Datensätzen genutzt werden. Im Public Data Sets-Forum können sich Nutzer über die besten Vorgehensweisen und Lösungen austauschen.
Durch das Hosting dieser wichtigen und nützlichen Daten mit kostengünstigen Diensten wie Amazon EC2 bietet AWS Forschern verschiedener Disziplinen und Branchen die passenden Tools für mehr und schnellere Innovationen.
AWS erweitert nach und nach die zur Verfügung stehende Sammlung von freien Datensätzen und Datensätzen in der öffentlichen Domäne. Die derzeit verfügbaren Datensätze sind im Folgenden aufgeführt. Linux/UNIX Snapshots stehen im ISO9660- oder EXT3-Format zur Verfügung, Windows Snapshots im NTFS-Format.
Eine vollständige Liste der öffentlichen Datensätze erhalten Sie in unserem Public Data Sets-Ressourcenzentrum.
Beispiele für beliebte Public Data Sets:
Ausgewählte öffentliche Datensätze werden auf Amazon EC2 kostenlos als Amazon Elastic Block Store (Amazon EBS)-Snapshots gehostet. Amazon EC2-Kunden erhalten Zugriff auf diese Daten, indem sie ihre eigenen, persönlichen Amazon EBS-Datenträger erstellen. Die Snapshots der öffentlichen Datensätze dienen dabei als Basis. Anschließend können die Kunden direkt mit ihren Amazon EC2-Instances Daten auf diesen Datenträgern abrufen, modifizieren und verarbeiten. Dabei zahlen sie lediglich für die tatsächlich genutzten Rechen- und Speicherressourcen. Wenn verfügbar, können Forscher zur Durchführung von Analysen vorkonfigurierte Amazon Machine Images (AMIs) mit Tools wie Inquiry (BioTeam) verwenden.
Zur Nutzung von Public Data Sets auf AWS unternehmen Sie die folgenden einfachen Schritte:
Das ElasticFox-Handbuch bietet eine Einführung in das Arbeiten mit Instances und das Erstellen eines Amazon EBS-Datenträgers mit ElasticFox, dem praktischen Firefox Plug-in. Weitere Informationen erhalten Sie im Handbuch für Amazon EC2.
Falls Sie weitere Fragen haben oder sich an unserer Public Data Sets-Community aktiv beteiligen möchten, besuchen Sie bitte das Public Data Sets-Forum.
Wenn Sie über eine öffentliche Domäne und/oder nicht geschützte Daten verfügen, die für die AWS-Community von Interesse sein könnten, füllen Sie bitte unten das entsprechende Formular aus und reichen Sie es ein. Das AWS-Team wird Ihren Antrag prüfen und sich mit Ihnen Verbindung setzen. Die bereits vorhandenen Datensätze haben normalerweise eine Größe von 1 GB bis 1 TB (basierend auf der Amazon EBS-Volumengrenze). Wir können jedoch nach Rücksprache auch größere Datensätze hosten. Sie müssen über die Rechte zur Freigabe der Daten verfügen.
Nachdem Sie das Antragsformular ausgefüllt und eingereicht haben, wird sich eines unserer Teammitglieder mit Ihnen in Verbindung setzen. Wir werden Ihnen dabei helfen, Ihre Datensätze in der Datensammlung zu veröffentlichen.