[SEO-Untertitel]
Wichtig: Diese Anleitung erfordert die Verwendung von AWS CodeCommit, das für Neukunden nicht mehr verfügbar ist. Bestehende Kunden von AWS CodeCommit können diese Anleitung weiterhin wie gewohnt verwenden und anwenden.
Diese Anleitung zeigt, wie Sie Bioinformatik-Workflows in Produktionsqualität in großem Maßstab erstellen und ausführen können. Mithilfe von AWS-Services für Automatisierung, Workflow-Analyse, Speicherung sowie Betriebs- und Kostenbeobachtbarkeit können Sie den bewährten Methoden von DevOps folgen, um den Lebenszyklus Ihrer Bioinformatik-Workflows zu verwalten. Sie können diese Architektur als Grundlage für Ihre eigene Infrastruktur verwenden und bestimmte Aspekte nach Bedarf aktualisieren, um sie in Ihre Umgebung zu integrieren und Ihren Anforderungen gerecht zu werden.
Bitte beachten Sie: [Haftungsausschluss]
Architekturdiagramm
[Beschreibung des Architekturdiagramms]
Schritt 1
Übertragen Sie Sequenzdaten mithilfe von AWS DataSync an Amazon Simple Storage Service (Amazon S3). Wenn Daten im FASTQ-Format vorliegen, können sie zur Kosteneinsparung in einen Sequenzspeicher in AWS HealthOmics (Nachfolger von Amazon Omics) importiert werden.
Schritt 2
HealthOmics führt Bioinformatik-Workflows in Sprachen wie Workflow Description Language (WDL), Nextflow oder Common Workflow Language (CWL) aus, um Rohdaten zu analysieren. Diese Workflows können als private Workflows oder als Ready2Run (gehostet von HealthOmics) erstellt werden.
Tools, die innerhalb der Workflows ausgeführt werden, werden als Docker-Images in Amazon Elastic Container Registry (Amazon ECR) gespeichert. Workflow-Ausgaben werden auf Amazon S3 hochgeladen.
Schritt 3
HealthOmics veröffentlicht Workflow-Engine-Protokolle, Aufgabenprotokolle und Workflow-Ausführungsprotokolle zur Problembehandlung und Überwachung auf Amazon CloudWatch.
Schritt 4
HealthOmics veröffentlicht Ereignisse mithilfe von Amazon EventBridge, das nachgelagerte Aktionen automatisieren kann, z. B. die Verwendung von AWS-Lambda-Funktionen, um weitere Bioinformatik-Workflows zu starten, oder die Benachrichtigung von Benutzern oder Gruppen über Workflow-Fehler mithilfe von Amazon Simple Notification Service (Amazon SNS).
Schritt 5
Nützliche Metadaten aus HealthOmics-Workflows – wie z. B. Workflow-Ausführungs-ID, Tags, Beispiel-ID, Speicherorte der Workflow-Ausgabedateien – können in Amazon-DynamoDB-Tabellen nachverfolgt werden. Ein AWS-Glue-Crawler nimmt diese Daten in den AWS-Glue-Datenkatalog auf, der mit Amazon Athena abgefragt werden kann.
Schritt 6
Workflow-Entwickler und Bioinformatiker können mithilfe der kontinuierlichen Integration und kontinuierlichen Bereitstellung mit AWS CodeCommit an neuen und bestehenden Workflows iterieren und die Versionskontrolle aufrechterhalten. AWS CodePipeline kann verwendet werden, um einen AWS-CodeBuild-Auftrag aufzurufen, um die Erstellung neuer Workflows in HealthOmics zu automatisieren.
Schritt 7
AWS-Kosten- und Nutzungsberichte (AWS CUR) erleichtern die Kostenüberwachung. Dieser Service kann so konfiguriert werden, dass Berichte erstellt und in einen Amazon-S3-Bucket hochgeladen werden. Ein AWS-Glue-Crawler ist so konfiguriert, dass er diese Daten in den AWS-Glue-Datenkatalog einspeist, der mithilfe von Amazon Athena abgefragt werden kann, um kostenbezogene Erkenntnisse abzuleiten.
Well-Architected-Säulen
Das AWS-Well-Architected-Framework hilft Ihnen, die Vor- und Nachteile der Entscheidungen zu verstehen, die Sie beim Aufbau von Systemen in der Cloud treffen. Die sechs Säulen des Frameworks ermöglichen es Ihnen, architektonische bewärhte Methoden für die Entwicklung und den Betrieb zuverlässiger, sicherer, effizienter, kostengünstiger und nachhaltiger Systeme zu erlernen. Mit dem AWS-Well-Architected-Tool, das kostenlos in der AWS-Managementkonsole verfügbar ist, können Sie Ihre Workloads anhand dieser bewährten Methoden überprüfen, indem Sie eine Reihe von Fragen für jede Säule beantworten.
Das obige Architekturdiagramm ist ein Beispiel für eine Lösung, die unter Berücksichtigung der bewährten Methoden von Well-Architected erstellt wurde. Um eine vollständige Well-Architected-Lösung zu erhalten, sollten Sie so viele bewährte Methoden von Well-Architected wie möglich befolgen.
-
Operative Exzellenz
Diese Anleitung verwendet AWS CodeCommit, AWS CodeBuild und AWS CodePipeline, um eine Versionskontrolle zu erstellen und die Erstellung und Bereitstellung des Quellcodes Ihres Bioinformatik-Workflows zu automatisieren. Darüber hinaus können Sie mit DynamoDB HealthOmics-Ausgabedateien verfolgen und Metadaten ausführen. Da in dieser Anleitung die bewährten Methoden von DevOps zur Verwaltung Ihres Workflow-Codes verwendet werden und Sie Einblick in die Metadaten der Workflow-Ausführung erhalten, können Sie schrittweise Änderungen vornehmen, um genaue Ergebnisse zu erzielen. Durch die Nachverfolgung der Workflow-Ausführungsmetadaten können Sie leicht relevante Workflow-Ausführungsstatus- und Ausgabedateien finden, um Downstream-Berichte oder wissenschaftliche Analysen durchzuführen.
-
Sicherheit
Diese Anleitung bietet Verschlüsselung im Ruhezustand mithilfe von AWS Key Management Service (AWS KMS) und Verschlüsselung während der Übertragung für den gesamten Netzwerkverkehr mithilfe von DataSync. Darüber hinaus bietet AWS Identity and Access Management (IAM) eine detaillierte Zugriffskontrolle für potenziell sensible Daten, sodass nur autorisierte Benutzer bestimmte Aktionen ausführen können, um diese zu verarbeiten und zu analysieren.
-
Zuverlässigkeit
Mit dieser Anleitung können Sie rechenintensive Bioinformatik-Workflows mithilfe von HealthOmics in großem Maßstab orchestrieren. Dieser Service hat bestimmte Service Quotas, z. B. die Anzahl der virtuellen CPUs, um eine versehentliche Überversorgung zu verhindern. Darüber hinaus bieten Amazon S3 und DynamoDB hohe Verfügbarkeit mit integriertem Backup. Diese Anleitung verwendet EventBridge auch zur Erfassung von Ereignissen wie Ausfällen, und Amazon SNS kann als Reaktion darauf Benachrichtigungen in Echtzeit bereitstellen, sodass Sie geeignete Maßnahmen ergreifen können. Mit Amazon CloudWatch können Sie Ereignisse schnell untersuchen. Das Unternehmen bietet detaillierte Protokolle, die Ihnen einen Überblick über Ihre HealthOmics-Workflows und die zugrunde liegenden Tools geben.
-
Leistung und Effizienz
Mit dieser Anleitung können Sie gleichzeitige Workflows mit unterschiedlichen CPU- und Speicherkonfigurationen für bestimmte Aufgaben ausführen. Sie können Ressourcen anfordern, indem Sie die CPUs, den Arbeitsspeicher und den Speicher angeben, die Sie benötigen, und HealthOmics stellt die entsprechende Infrastruktur bereit. Auf diese Weise können Sie mit den richtigen Ressourcen auf der Grundlage Ihrer Geschäftsanforderungen skalieren.
-
Kostenoptimierung
Diese Anleitung verwendet einen HealthOmics-Sequenzspeicher, mit dem Sie Genomik-Datendateien im Petabyte-Bereich effizient und zu niedrigen Kosten pro Gigabasis speichern und gemeinsam nutzen können, was zusätzliche Kosteneinsparungen gegenüber Amazon S3 bietet. Darüber hinaus können Sie AWS CUR verwenden, um auf die detailliertesten Informationen über Ihre AWS-Kosten und -Nutzung zuzugreifen, Bereiche zu identifizieren, die optimiert werden müssen, und die Trends Ihres Unternehmens anhand von Attributen wie Projekten, Abteilungen oder Benutzern zu verstehen.
-
Nachhaltigkeit
In diesem Leitfaden werden verwaltete und Serverless-Services verwendet, mit denen Sie die Bereitstellung und Verwaltung Ihrer eigenen Infrastruktur vermeiden und so die Umweltauswirkungen Ihrer Projekte minimieren können. HealthOmics stellt Ressourcen nur bereit, wenn Sie eine Workflow-Ausführung anfordern, und löst die Ressourcen nach Abschluss auf. In ähnlicher Weise können Sie mit Lambda kleinere Aufgaben als Funktionen ausführen, ohne Ihre eigenen Server bereitstellen zu müssen.
Implementierungsressourcen
Es wird eine detaillierte Anleitung zum Experimentieren und zur Verwendung in Ihrem AWS-Konto bereitgestellt. Jede Phase der Erstellung der Anleitung, einschließlich Bereitstellung, Verwendung und Bereinigung, wird untersucht, um sie für die Bereitstellung vorzubereiten.
Der Beispielcode dient als Ausgangspunkt. Er ist branchenerprobt, präskriptiv, aber nicht endgültig, und ein Blick unter die Motorhaube, der Ihnen den Einstieg erleichtert.
Ähnliche Inhalte
Entwurf einer ereignisgesteuerten Architektur für Bioinformatik-Workflows mit AWS HealthOmics und Amazon EventBridge
Leitfaden für ein Labor-Data-Mesh in AWS
Leitfaden zur Migration und Speicherung von Sequenzdaten mit AWS HealthOmics
Multimodale Datenanalyse mit AWS-Servicestatus und Machine-Learning-Services
Ihre genomischen Workflows und Daten mit AWS HealthOmics schützen
Haftungsausschluss
Der Beispielcode, die Softwarebibliotheken, die Befehlszeilentools, die Machbarkeitsnachweise, die Vorlagen oder andere zugehörige Technologien (einschließlich derjenigen, die von unseren Mitarbeitern bereitgestellt werden) werden Ihnen als AWS-Inhalte im Rahmen der AWS-Kundenvereinbarung oder der entsprechenden schriftlichen Vereinbarung zwischen Ihnen und AWS (je nachdem, was zutrifft) zur Verfügung gestellt. Sie sollten diese AWS-Inhalte nicht in Ihren Produktionskonten oder für Produktions- oder andere kritische Daten verwenden. Sie sind verantwortlich für das Testen, Sichern und Optimieren des AWS-Inhalts, z. B. des Beispielcodes, für die Verwendung in der Produktion auf der Grundlage Ihrer spezifischen Qualitätskontrollverfahren und -standards. Bei der Bereitstellung von AWS-Inhalten können AWS-Gebühren für die Erstellung oder Nutzung von kostenpflichtigen AWS-Ressourcen anfallen, z. B. für den Betrieb von Amazon-EC2-Instances oder die Nutzung von Amazon-S3-Speicher.
Verweise auf Services oder Organisationen von Drittanbietern in diesen Leitlinien bedeuten nicht, dass Amazon oder AWS eine Billigung, Förderung oder Zugehörigkeit zwischen Amazon oder AWS und dem Drittanbieter darstellt. Die Beratung durch AWS ist ein technischer Ausgangspunkt, und Sie können Ihre Integration mit Services von Drittanbietern anpassen, wenn Sie die Architektur bereitstellen.