Der AWS Big Data-Blog richtet sich an Lösungsarchitekten, Datenwissenschaftler und Entwickler, um diese beim Kennenlernen bewährter Methoden für Big Data, beim Ermitteln der optimalen AWS Big Data-Services für ihren Anwendungsfall, bei ihren ersten Schritten und bei der intensiven Nutzung von AWS Big Data-Services zu unterstützen. Das Ziel ist es, diesen Blogs zur Zentralstelle für alle zum Entdecken neuer Methoden zum Sammeln, Speichern, Verarbeiten, Analysieren und Visualisieren von Daten in beliebigem Umfang zu machen. Leser finden kurze Tutorials mit Codebeispielen, Fallstudien zu den einzigartigen Vorteilen der Arbeit mit Big Data auf AWS, Ankündigungen neuer Funktionen, Demos und Tutorials von von Partnern und Kunden sowie Tipps und bewährte Methoden für den Einsatz von AWS Big Data-Services.



Das Amazon Public Datasets-Programm dient dem Bereitstellen interessanter Datensammlungen, die allen kostenlos zur Verfügung stehen, um Innovation, Wissenschaft und Forschung zu fördern. Gleichgültig, ob Sie die offene Webplattform Common Crawl durchforsten, einige Genome analysieren oder Bilder von der NASA untersuchen möchten, bietet AWS die Daten, Services und Infrastruktur, die Sie dafür benötigen.


DynamoDB ist ein schneller vollständig verwalteter NoSQL-Datenbankservice, mit dessen Hilfe beliebig große Datenmengen einfach und wirtschaftlich gespeichert und abgerufen sowie sämtliche Datenverkehrsanforderungen erfüllt werden können. Der Service bietet einen zuverlässigen Durchsatz und dank seiner Latenz im einstelligen Millisekundenbereich eignet er sich besonders für Online-Spiele, digitale Werbung, mobile Anwendungen und viele andere Anwendungen.

Amazon Elastic MapReduce (Amazon EMR) ist ein Web-Service, mit dem große Datenmengen schnell und kostengünstig verarbeitet werden können.

Amazon EMR nutzt Hadoop, ein Open Source-Framework, für die Verteilung Ihrer Daten und die Verarbeitung auf einem skalierbaren Cluster aus Amazon EC2-Instances. Amazon EMR wird von einer Vielzahl von Anwendungen verwendet, darunter Anwendungen für Protokollanalyse, Web-Indizierung, Data Warehousing, maschinelles Lernen, Finanzanalyse, wissenschaftliche Simulationen und Bioinformatik. Unsere Kunden starten jährlich Millionen von EMR-Clustern.

Amazon Kinesis ist ein vollständig verwalteter Service für die Verarbeitung riesiger Mengen von Streaming-Daten in Echtzeit. Mit Amazon Kinesis lassen sich Hunderte Terabytes von Daten pro Stunde aus Hunderttausenden von Quellen erfassen und verarbeiten. Sie können mühelos Anwendungen entwickeln, die Informationen in Echtzeit verarbeiten. Bei den Daten kann es sich um Klickströme von Websites, Marketing- und Finanzinformationen, Daten aus Fertigungsanlagen und sozialen Medien, Betriebsprotokolle und Messdaten handeln.

Mit Amazon Kinesis-Anwendungen können Sie Echtzeit-Dashboards erstellen, Ausnahmen erfassen, Warnungen generieren, Empfehlungen erzeugen und in Echtzeit andere geschäftliche oder betriebliche Entscheidungen treffen. Sie können zudem Daten mühelos an verschiedene andere Services wie Amazon Simple Storage Service (Amazon S3), Amazon DynamoDB oder Amazon Redshift übertragen. Über einige wenige Klicks und Codezeilen können Sie mit dem Entwickeln von Anwendungen beginnen, die sekundenschnell auf Änderungen in Ihren Daten beliebiger Größe reagieren, während Sie nur für die Ressourcen zahlen, die Sie tatsächlich nutzen.

Amazon S3 ist ein Speicher für das Internet und bildet auch einen Grundstein für alle Big Data-Architekturen auf AWS. Der Service ist darauf ausgelegt, Cloud Computing für Entwickler zu erleichtern.

Amazon S3 bietet eine einfache Webservice-Schnittstelle zum Speichern und Abrufen einer beliebigen Datenmenge zu jeder Zeit und von jedem Ort im Internet aus. Mit Amazon S3 haben Entwickler Zugriff auf dieselbe hochgradig skalierbare, zuverlässige, sichere, schnelle und kostengünstige Datenspeicherinfrastruktur, die Amazon zum Ausführen seines eigenen globalen Website-Netzwerks verwendet. Somit können auch Entwickler von den Vorteilen einer flexiblen Skalierbarkeit profitieren.

Amazon Redshift ist ein schneller, vollständig verwalteter Data Warehouse-Service für Datenmengen im Petabyte-Bereich, mit dem Sie im Zusammenspiel mit Ihren vorhandenen Business Intelligence-Tools alle Ihre Daten einfach und wirtschaftlich analysieren können. Sie können für bloß 0,25 USD pro Stunde ohne Verpflichtungen oder Vorabkosten beginnen und für 1 000 USD pro Terabyte pro Jahr eine Skalierung zu weniger als einem Zehntel der Kosten der meisten anderen Data Warehouse-Lösungen vornehmen.