AWS-Fallstudie: Washington Post

Peter Harkins, Senior Engineer bei der Washington Post, erfuhr aus seiner Redaktion, dass das US-amerikanische Nationalarchiv die Herausgabe des offiziellen Terminplans von Hillary Clintons Zeit im weißen Haus angekündigt hatte. Die Daten sollten der Öffentlichkeit am 19. März um 10.00 Uhr zur Verfügung gestellt werden. Umfang: 17.481 Seiten, alles im PDF-Format und nicht online durchsuchbar.
Washington Post


Die Dokumente beinhalteten die täglichen Aktivitäten von Hillary Clinton als First Lady während der beiden Amtszeiten von Präsident Bill Clinton von 1993 bis 2001 und wurden entsprechend dem "Freedom of Information Act" auf mehrfache Anfrage von Journalisten und Überwachungsgremien hin veröffentlicht.

Harkins erkannte, dass diese Daten für Reporter von großem Interesse sein würden – allerdings würde es auch hunderte Arbeitsstunden brauchen, die schlecht aufbereiteten PDF-Dateien des Dokuments zu studieren. Also begann Harkins nur 45 Minuten nach der Veröffentlichung, mit den Daten zu arbeiten. Sein Ziel: eine Möglichkeit zu finden, die Bilder in nutzbaren, durchsuchbaren Text zu konvertieren und noch vor Redaktionsschluss an die Redaktion weiterzugeben.

Harkins testete zunächst verschiedene PDF- und OCR-Tools (Optical Character Recognition) zur Konvertierung der Bilddaten in für Computer lesbaren Text. Er schätzte, dass die Verarbeitung des Dokuments inklusive Neuformatierung, Änderung der Größe und Einscannen jeder Seite mit diesen Software-Tools rund 30 Minuten pro Seite dauern würde.

Da die Zeit drängte, verschob Harkins das Projekt in die Cloud – Amazon Elastic Compute Cloud (Amazon EC2). In Amazon EC2 startete er dann 200 Server-Instanzen zur Bearbeitung der Bilder nach seinen Vorgaben. Bei einer Verarbeitungsgeschwindigkeit von ca. 60 Sekunden pro Seite konnte das Projekt innerhalb von neun Stunden fertiggestellt und an die Redakteure gesendet werden, die schon sehnsüchtig darauf warteten, mit den Daten arbeiten zu können. Zu guter Letzt erstellten Harkins und sein Team eine attraktive Web-Oberfläche und stellten der Öffentlichkeit darüber nur 26 Stunden später ihre durchsuchbare Datenbank zur Verfügung.

Harkins rechnet nach: "Dank EC2 konnte dieses Projekt im Eilmeldungen-Tempo abgeschlossen werden. 1.407 Stunden virtueller Rechenzeit kosteten dabei insgesamt 144,62 USD. Das ist für uns der beste Beweis, dass das Konzept funktioniert."

Die Datenbank mit Hillary Clintons Terminplan 1993 bis 2001 steht öffentlich unter dem folgenden Link zur Verfügung: http://projects.washingtonpost.com/2008/clinton-schedule Dieser Link wird in einem neuen Browser-Fenster oder einer neuen Registerkarte geöffnet..

Seitenanfang









Sicherheits-Whitepaper
Erfahren Sie mehr über unsere physischen und betrieblichen Sicherheitsprozesse für Netzwerkinfrastrukturen.

Whitepaper Whitepaper anzeigen (PDF)



AWS-Kundennachrichten
Lesen Sie die neuesten Nachrichten über Erfolge und Innovationen von AWS-Kunden.

Medienberichterstattung anzeigen

©2011, Amazon.com, Inc. oder Tochtergesellschaften.