Ancestry beschleunigt mithilfe von Amazon EFS Einblicke in Genomikdaten

2020

Ancestry® ist ein weltweit führendes Unternehmen in den Bereichen Familiengeschichte und Verbrauchergenomik. Es verwendet Familienstammbäume, historische Aufzeichnungen und DNA, um Menschen auf ihren persönlichen Entdeckungsreisen zu unterstützen. Ancestry hat mehr als 18 Millionen Menschen in seinem DNA-Netzwerk für Verbraucher. AncestryDNA® nutzt fortschrittliche Genomforschung, um Mitgliedern dabei zu helfen, neue Details über ihre Familiengeschichte aufzudecken, indem es ihnen mehr Möglichkeiten bietet, ihre DNA-Übereinstimmungen zu untersuchen, sich mit genaueren Regionen zu verbinden und Einblicke in genetische Gesundheitsinformationen und persönliche Merkmale zu gewinnen.

Das AncestryDNA-Team umfasst Dutzende von Wissenschaftlern, darunter Populationsgenetiker, Computerbiologen, Statistiker, Epidemiologen, Genomdatenwissenschaftler und Bioinformatiker, die Algorithmen zur Analyse genetischer und anderer Daten entwickeln, die mehrere Terabyte Speicherplatz repräsentieren. Das Team verwaltete seinen skalierbaren Network Attached Storage (NAS)-Cluster zuvor selbst On-Premises, war jedoch nicht in der Lage, Speicher- und Rechenressourcen schnell zu skalieren, ohne sie überwachen, bereitstellen und vorausschauend planen zu müssen, um zukünftige Anforderungen zu antizipieren. „Unsere Daten wachsen ständig, und eine unserer Herausforderungen bestand darin, sie mit dem Wachstum unseres genetischen Netzwerks zu skalieren“, sagt Dr. Eurie Hong, Ph.D., Vizepräsidentin für Genomik bei AncestryDNA. „Wir wollten die Rechenkapazität erweitern, um einer quadratisch zunehmenden Datensatzgröße für die Analyse gerecht zu werden.“

Das Wissenschaftsteam von AncestryDNA benötigte außerdem mehr Elastizität, um unvorhersehbare Workloads zu bewältigen. „Unsere Workflows können sehr aufreibend sein, und es war schwierig, das Budget zuzuweisen, da wir nicht vorhersagen konnten, wie viel Festplatte und Rechenleistung wir für das Jahr benötigen würden“, sagt Dr. Asher Baltzell, Ph.D., Bioinformatik-Manager bei Ancestry.

lab analysis of new corona virus, clinic laboratory chemical research of infection. Covid-19 concept.
kr_quotemark

Mit Amazon EFS müssen wir uns keine Gedanken über die Skalierung von Forschungs-Workloads machen – das System wächst automatisch, um die Anforderungen unserer Forscher zu erfüllen, unabhängig von den Rechen- und Speicheranforderungen.“

Dr. Eurie Hong, Ph.D.
Vice President of Genomics, AncestryDNA

Verlagern von Workloads für die Genomforschung zu AWS

Das AncestryDNA-Wissenschaftsteam entschied sich für den Wechsel zu Amazon Web Services (AWS). „Unser Unternehmen hatte insgesamt begonnen, auf AWS umzusteigen, und wir waren an der Skalierbarkeit und Flexibilität der Cloud interessiert“, sagt Baltzell.

Das Team verwendet Amazon Elastic Compute Cloud (Amazon EC2) für On-Demand-Computing und Amazon Elastic File System (Amazon EFS) – ein skalierbares, vollständig verwaltetes, elastisches Network File System (NFS) – als gemeinsam genutztes Datendateisystem. „Wissenschaftler arbeiten normalerweise mit herkömmlichen Dateiservern, daher wussten wir, dass wir etwas wollten, das dem ähnelt, was unsere Forscher zuvor verwendet hatten“, sagt Hong. „Mit Amazon EFS müssen wir uns keine Gedanken über die Implementierung oder das laufende Management machen, da Amazon EFS die Skalierbarkeit und Elastizität bietet, um unserem sich ändernden Workload gerecht zu werden.“ AncestryDNA setzt auch auf Amazon Simple Storage Service (Amazon S3).

Das Wissenschaftsteam von AncestryDNA war in der Lage, die Migration vorzeitig abzuschließen, ohne dass dies Auswirkungen auf die Projektzeitpläne oder die Produktivität des Datenwissenschaftsteams hatte.

Einfache Skalierung, um den Rechen- und Speicheranforderungen von Wissenschaftlern gerecht zu werden

Ancestry kann nun Forschungsarbeiten im Rahmen seines Ancestry Human Diversity Project durchführen, ohne sich Gedanken über die Datenspeicherbeschränkungen machen zu müssen. „Mit Amazon EFS müssen wir uns keine Gedanken über die Skalierung von Forschungs-Workloads machen – das System wächst automatisch, um die Anforderungen unserer Forscher zu erfüllen, unabhängig von den Rechen- und Speicheranforderungen“, sagt Hong.

Da Amazon EFS ein vollständig verwaltetes Cloud-Dateisystem ist, hat AncestryDNA außerdem die Notwendigkeit vermieden, eigene NFS-Server zu erstellen und zu verwalten. „Wir wollen unsere Zeit und unser Geld nicht damit verbringen, unser eigenes Dateisystem zu erstellen und zu verwalten – wir wollen uns auf die Forschung konzentrieren“, sagt Hong. „Das können wir tun, indem wir Amazon EFS verwenden.“

Erhöhung der Elastizität zur Unterstützung von Workload-Spitzen und zur Kostenoptimierung

Ancestry verfügt jetzt über die nötige Elastizität, um unvorhersehbare Zu- oder Abnahmen des Workloads zu bewältigen. „Die Elastizität und Flexibilität, die wir mit Amazon EFS erhalten, sind für uns enorm“, sagt Baltzell. Darüber hinaus kann das Team mithilfe von Amazon EC2 die Kosten optimieren. „Forscher können mehr Ressourcen gleichzeitig nutzen und müssen nicht für ungenutzte Ressourcen bezahlen. Anstatt ständig 10 Server zu betreiben, können wir 100 Server nur für die Zeit betreiben, in der sie benötigt werden. Das macht es uns auch einfacher, die Kosten vorherzusagen und zu verwalten.“

Schnelleres Onboarding neuer Wissenschaftler

Amazon EFS bietet eine Umgebung, die mit dem vorherigen On-Premises-System von Ancestry konsistent ist, und bietet Datenwissenschaftlern gemeinsame Projektordner und persönliche Ordner, die alle von ihren Jupyter- und RStudio-Datenwissenschafts-Analyse-Notebooks aus gemountet werden können, um die Auftragsverwaltung zu vereinfachen. Darüber hinaus ist das Onboarding neuer Wissenschaftler einfach, da die Cloud-Umgebung, in der sie arbeiten, dieselben Methoden für den Zugriff auf und die Speicherung von Daten verwendet, die sie gewohnt sind. Da sie über ein vertrautes Dateisystem verfügen, können Wissenschaftler ähnliche AWS-Services nutzen, die ihnen möglicherweise helfen könnten, ihr Innovationstempo zu beschleunigen, anstatt ihre Zeit damit zu verbringen, Berechnungen und Analysen zu lernen. Die Wissenschaftler des Teams nutzen Amazon EMR auch, um Forschungsarbeiten zu unterstützen, die auf dem Hadoop-Big-Data-Framework basieren.

AncestryDNA-Wissenschaftler können sich jetzt stärker auf Innovationen konzentrieren. „Mit AWS können wir mehr Zeit damit verbringen, neue Wege zu finden, Kunden bei der Entdeckung ihrer einzigartigen Familiengeschichte zu helfen“, sagt Hong. „Wir werden weiterhin versuchen, Methoden zu finden, die unseren Kunden helfen, ihre Familien besser zu verstehen und herauszufinden, wie ihre Genetik sie über ihre zukünftige Gesundheit informieren kann.“

Über Ancestry

Ancestry ist ein führender Anbieter für Familiengeschichte und Verbrauchergenomik. Mit einer Sammlung von über 27 Milliarden Datensätzen und mehr als 18 Millionen Menschen in seinem wachsenden DNA-Netzwerk hilft Ancestry seinen Kunden, ihre Familiengeschichte zu entdecken und umsetzbare Erkenntnisse über ihre Gesundheit und ihr Wohlbefinden zu gewinnen. Seit über 30 Jahren wählen Millionen von Menschen Ancestry als Plattform, um die wichtigsten Informationen über sich und ihre Familien zu entdecken, zu bewahren und zu teilen.

Vorteile von AWS

  • Ermöglicht mehreren Wissenschaftlern, Genomforschung durchzuführen
  • Skaliert Rechen- und Speicherressourcen automatisch nach oben oder unten
  • Schnelleres und einfacheres Onboarding neuer Wissenschaftler

Genutzte AWS-Services

Amazon Elastic File System

Amazon Elastic File System (Amazon EFS) stellt ein einfaches, skalierbares, vollständig verwaltetes und elastisches NFS-Dateisystem für die Verwendung mit AWS-Cloud-Services und On-Premises-Ressourcen bereit.

Weitere Informationen »

Amazon S3

Amazon Simple Storage Service (Amazon S3) ist ein Objektspeicherservice, der branchenführende Skalierbarkeit, Datenverfügbarkeit, Sicherheit und Leistung bietet.

Weitere Informationen »

Amazon Elastic Compute Cloud

Amazon Elastic Compute Cloud (Amazon EC2) ist ein Web-Service, der sichere, skalierbare Rechenkapazitäten in der Cloud bereitstellt.

Weitere Informationen »

Amazon EMR

Einfache Ausführung und Skalierung von Apache Spark, Hive, Presto und anderen Big-Data-Frameworks

Weitere Informationen »


Erste Schritte

Unternehmen jeder Größe und aus jeder Branche transformieren ihr Geschäft mit AWS. Kontaktieren Sie unsere Experten und beginnen Sie noch heute Ihren Weg in AWS Cloud.