Genomische tertiäre Analyse und Machine Learning unter Verwendung von Amazon SageMaker

Die genomische tertiäre Analyse and Machine Learning unter Verwendung von Amazon SageMaker bietet eine Referenz, die verwendet werden kann, um maschinelle Lernmodelle auf genomischen Datensätzen mit AWS Managed Services zu erstellen. Wir definieren tertiäre Analysen als Interpretation genomischer Varianten und deren Bedeutung. Diese Lösung bietet eine breite Plattform für genomisches Machine Learning in AWS, indem die Variantenklassifizierung als Beispiel für ein wissenschaftlich bedeutsames Problem verwendet wird, das mit dieser Plattform gelöst werden kann. Im Beispiel lösen wir die spezifische Herausforderung konkurrierender klinischer Definitionen bei der Untersuchung genomischer Varianten. Unser Beispiel basiert auf der folgenden Kaggle-Herausforderung. Wir erstellen ein Modell, um vorherzusagen, ob eine Variante, die in ClinVar angemerkt wurde, eine widersprüchliche Klassifizierung hat oder nicht. Ein Modell, das die Existenz einer widersprüchlichen Klassifizierung für eine Variante vorhersagen kann, kann wertvolle Zeit sparen, die Forscher auf der Suche nach solchen Konflikten aufwenden müssen.

Diese Lösung veranschaulicht, wie 1) die Vorbereitung eines genomischen Machine Learning-Trainingsdatensatzes automatisiert wird, 2) genomisches Machine Learning-Modelltrainings und Bereitstellungspipelines entwickelt werden und 3) Vorhersagen generiert und die Modellleistung mithilfe von Testdaten bewertet werden. Diese Schritte können von Benutzern für ihre spezifischen Anwendungsfälle wiederholt oder bearbeitet werden.

Übersicht

Das folgende Diagramm zeigt die Architektur, die Sie mit dem Beispielcode auf GitHub erstellen können.

Genomische tertiäre Analyse und Machine Learning unter Verwendung von Amazon SageMaker Architektur

Der Setup-Stack dieser Anleitung erstellt ein AWS CodeBuild-Projekt, das das setup.sh-Skript enthält. Dieses Skript erstellt die übrigen CloudFormation-Stacks und stellt den Quellcode für das AWS CodeCommit -pipe-repository und das Code-Repository bereit.

Der Landing Zone-Stack (zone) erstellt das CodeCommit-Pipe-Repository. Nachdem das Setup des Landing Zone-Stacks (zone) abgeschlossen ist,überträgt das setup.sh-Skript Quellcode an das CodeCommit-pipe-Repository.

Die AWS CodePipeline-Pipeline (code) stellt den Codebase-CloudFormation-Stack (code) bereit. Die in Ihrem Konto bereitgestellten Ressourcen umfassen Amazon Simple Storage Service (Amazon S3)-Buckets zum Speichern von Objektzugriffsprotokollen, Build-Artefakten und Daten; CodeCommit-Repositorys für Quellcode; ein AWS CodeBuild-Projekt für die Erstellung von Code-Artefakten (z. B. Bibliotheken von Drittanbietern, die für die Datenverarbeitung verwendet werden); eine CodePipeline-Pipeline für die Automatisierung von Builds und die Bereitstellung von Ressourcen; AWS Glue-Beispielaufgaben; und eine Jupyter-Notebook-Instance von Amazon SageMaker. Der Beispielcode enthält die Ressourcen, die erforderlich sind, um Machine Learning-Modelle mithilfe von Genomdaten schnell zu entwickeln und Vorhersagen zu generieren.

Genomische tertiäre Analyse und Machine Learning unter Verwendung von Amazon SageMaker

Version 1.0
Letzte Aktualisierung: 08/2020
Autor: AWS

Hat Ihnen diese Lösungsimplementierung geholfen?
Feedback geben 

Funktionen

Bereitstellung einer skalierbaren Umgebung in AWS zur Durchführung von Genomanalyse und Forschungsprojekten

Erstellen Sie eine skalierbare Umgebung in AWS, um Machine Learning-Modelle für genomische Datensätzen mithilfe von AWS Managed Services zu erstellen. Diese Lösung bietet eine breite Plattform für genomisches Machine Learning in AWS, indem die Variantenklassifizierung als Beispiel für ein wissenschaftlich bedeutsames Problem verwendet wird, das mit dieser Plattform gelöst werden kann.

Umsetzung von Continuous Integration und Continuous Delivery (CI/CD)

Verwenden Sie AWS-CodeCommit-Quellcode-Repositorys, AWS-CodeBuild-Projekte und AWS CodePipeline, um genomische Machine Learning-Modellgenerierungs-Pipelines zu erstellen und bereitzustellen, um Jupyter-Notebooks bereitzustellen und ETL-Aufgaben zu erstellen, um neue Trainingsdatensätze zu generieren.

Nutzung der bewährten Methoden von Infrastructure as Code

Entwickeln Sie die Leitlinien schnell weiter, indem Sie Infrastructure as Code (IaC)-Prinzipien und bewährte Methoden verwenden.

Ändern Sie Ihre Genomanalyse- und Forschungsprojekte

Passen Sie die Anleitung an Ihre speziellen Bedürfnisse an, indem Sie Ihre einzigartigen Trainingsdatensätze hinzufügen. Jede Änderung wird durch die CI/CD-Pipeline verfolgt, was das Management der Änderungskontrolle, Rollbacks und Audits erleichtert.
Entwicklungssymbol
Bereitstellen einer eigenen Lösung

Durchsuchen Sie unsere Bibliothek der AWS-Lösungsimplementierungen, um Antworten auf häufige Architekturprobleme zu erhalten.

Weitere Informationen 
Einen APN-Partner suchen
Einen APN-Partner suchen

Finden Sie Beratungs- und Technologiepartner mit AWS-Zertifizierung, die Ihnen den Einstieg erleichtern.

Weitere Informationen 
Erkunden (Symbol)
Beratungsangebote für Lösungen erkunden

Durchsuchen Sie unser Portfolio mit Beratungsangeboten, um AWS-geprüfte Hilfe mit Lösungsbereitstellung zu erhalten.

Weitere Informationen