Genomische tertiäre Analyse und Data Lakes unter Verwendung von AWS Glue und Amazon Athena

Bei der genomischen Tertiäranalyse und Data Lakes unter Verwendung von AWS Glue und Amazon Athena wird eine skalierbare Umgebung in AWS geschaffen, um Genomdaten für umfangreiche Analysen vorzubereiten und interaktive Abfragen für einen Genomics Data Lake durchzuführen. Sie kann IT-Infrastrukturarchitekten, Administratoren, Daten-Wissenschaftlern, Software-Entwicklern und DevOps-Experten dabei helfen, Bibliotheken zu erstellen, zu verpacken und bereitzustellen, die für die Genomdatenkonvertierung verwendet werden, Datenaufnahme-Pipelines für die Genomdatenvorbereitung und -katalogisierung bereitzustellen und interaktive Abfragen an einem Genom-Data Lake durchzuführen.

Datenausgaben einer Sekundäranalyse können groß und komplex sein. Beispielsweise müssen Variant Call Files (VCFs) in große datenoptimierte Dateiformate (wie Parquet) konvertiert und in bestehende Genomdatensätze integriert werden. Ein Datenkatalog muss mit dem entsprechenden Schema und der entsprechenden Version aktualisiert werden, damit Benutzer die benötigten Daten finden und innerhalb eines definierten Datenmodells arbeiten können, das semantisch konsistent ist. Anmerkungsdatensätze und phänotypische Daten müssen verarbeitet, katalogisiert und in einen vorhandenen Data Lake aufgenommen werden, um eine Kohorte zu erstellen, die Daten zu aggregieren und den Ergebnissatz mit Daten aus Anmerkungsquellen anzureichern. Data Governance und differenzierte Datenzugriffssteuerungen sind notwendig, um die Daten zu sichern und gleichzeitig einen ausreichenden Datenzugriff für Forschungs- und Informatikgemeinschaften zu gewährleisten. Die tertiäre Genomanalyse und Data Lakes unter Verwendung von AWS Glue und Amazon Athena vereinfachen diesen Prozess.

Diese Anleitung bietet einen Genom-Data Lake und richtet Pipelines für Genomik und Anmerkungserfassung mithilfe von AWS Glue-ETLs und -Crawlern ein, um einen Genom-Data Lake in Amazon Simple Storage Service (Amazon S3) zu füllen. Sie zeigt, wie man neben einem Genom-Data Lake auch Amazon Athena für die Datenanalyse und -interpretation verwendet, und erstellt in einem Jupyter-Notebook einen Bericht zur Reaktion auf ein Medikament erstellt wird.

Übersicht

Das folgende Diagramm zeigt die Architektur, die Sie mit dem Beispielcode auf GitHub erstellen können.

Genomische tertiäre Analyse und Data Lakes unter Verwendung von AWS Glue und Amazon Athena | Architekturdiagramm
 Zum Vergrößern anklicken

Genomische tertiäre Analyse und Data Lakes unter Verwendung von AWS Glue und Amazon Athena Architektur

Der Code erstellt vier CloudFormation-Stacks in Ihrem AWS-Konto, einschließlich eines Setup-Stacks zur Installation der Lösung. Die anderen Stacks umfassen einen Landezonen-Stack (zone), der die gemeinsamen Lösungsressourcen und Artefakte enthält, einen Bereitstellungs-Pipeline-Stack (pipe), der die CI/CD-Pipeline der Lösung definiert, und einen Codebase-Stack (code), der die ETL-Skripts, Aufgaben, Crawler, einen Datenkatalog und Notebook-Ressourcen bereitstellt.

Der Setup-Stack erstellt ein AWS CodeBuild-Projekt, das das setup.sh-Skript enthält. Dieses Skript erstellt die übrigen Cloud-Formation-Stacks und stellt den Quellcode für das AWS CodeCommit-pipe-Repository und das code-Repository bereit.

Der Landing Zone-Stack (zone) erstellt das CodeCommit-pipe-Repository. Nachdem das Setup des Landing Zone-Stacks (zone) abgeschlossen ist,überträgt das setup.sh-Skript Quellcode an das CodeCommit-pipe-Repository.

Der Deployment-Pipeline-Stack (pipe) erstellt das CodeCommit code-Repository, ein Amazon CloudWatch-Ereignis und die CodePipeline code-Pipeline. Nachdem das Setup des Bereitstellungs-Pipeline-Stacks (pipe) abgeschlossen ist,überträgt das setup.sh-Skript Quellcode an das CodeCommit-code-Repository.

Die CodePipeline-Pipeline (code) stellt den Codebase-CloudFormation-Stack (code) bereit. Nachdem die AWS CodePipeline-Pipelines ihre Einrichtung abgeschlossen haben, umfassen die in Ihrem Konto bereitgestellten Ressourcen Amazon Simple Storage Service(Amazon S3)-Buckets zum Speichern von Objektzugriffsprotokollen, Build-Artefakten und Daten in Ihrem Data Lake; CodeCommit-Repositories für Quellcode; ein AWS CodeBuild-Projekt zum Erstellen von Code-Artefakten (z. B. Bibliotheken von Drittanbietern, die für die Datenverarbeitung verwendet werden); eine AWS CodePipeline-Pipeline zum Automatisieren von Builds und Bereitstellen von Ressourcen; AWS Glue-Beispielaufträge, Crawler und ein Datenkatalog sowie eine Amazon SageMaker Jupyter-Notebook-Instanz. 

Genomische tertiäre Analyse und Data Lakes unter Verwendung von AWS Glue und Amazon Athena

Version 1.0.1
Letzte Aktualisierung: 09/2020
Autor: AWS

Hat Ihnen dieser Leitfaden geholfen?
Feedback geben 

Funktionen

Bereitstellung einer skalierbaren Umgebung in AWS für umfangreiche Genomanalysen

Erstellen Sie eine skalierbare Umgebung in AWS, um genomische Daten für umfassende Analysen vorzubereiten und interaktive Abfragen an einem Genom-Data-Lake auszuführen.

Umsetzung von Continuous Integration und Continuous Delivery (CI/CD)

Verwenden Sie AWS CodeCommit-Quellcode-Repositorys und AWS CodePipeline, um Aktualisierungen für Datenvorbereitungs-Aufgaben und Crawler, Data-Lake-Konfigurationen und Jupyter-Notebooks zu erstellen und bereitzustellen.

Nutzung der bewährten Methoden von Infrastructure as Code

Entwickeln Sie die Lösung unter Verwendung der Prinzipien und bewährten Methoden für Infrastructure as Code (IaC) rasch weiter.

Ändern Ihrer Pipelines zur Vorbereitung von Genomdaten und Jupyter-Notebooks für die Analyse

Passen Sie die Anleitung an Ihre speziellen Anforderungen an, indem Sie z. B. neue AWS Glue-Aufgaben und Crawler sowie neue Jupyter-Notebooks zur Datenanalyse hinzufügen. Jede Änderung wird durch die CI/CD-Pipeline verfolgt, was das Management der Änderungskontrolle, Rollbacks und Prüfungen erleichtert.
Entwicklungssymbol
Bereitstellen einer eigenen Lösung

Durchsuchen Sie unsere Bibliothek der AWS-Lösungsimplementierungen, um Antworten auf häufige Architekturprobleme zu erhalten.

Weitere Informationen 
Einen APN-Partner suchen
Einen APN-Partner suchen

Finden Sie Beratungs- und Technologiepartner mit AWS-Zertifizierung, die Ihnen den Einstieg erleichtern.

Weitere Informationen 
Erkunden (Symbol)
Beratungsangebote für Lösungen erkunden

Durchsuchen Sie unser Portfolio mit Beratungsangeboten, um AWS-geprüfte Hilfe mit Lösungsbereitstellung zu erhalten.

Weitere Informationen