Amazon Web Services ブログ
ゲノミクス研究とクラウドコンピューティングでコアラを救う
今日はコアラを救う日で、AWS Research Credits と AWS クラウドによって可能になった注目に値する画期的な研究についてお話しするためにこれ以上良いタイミングはありません。
5 年前、レベッカ・ジョンソン博士 (Australian Museum Research Institute のディレクター) は、コアラの個体群、遺伝的性質、および疾患についてより詳しく学ぶ研究に着手しました。食に限りがある生物学的にユニークな動物として、健康で遺伝的に多様な個体群を維持することは、どちらもあらゆる保護計画の重要な要素です。コアラ個体群の遺伝的多様性の特性を明らかにすることに加えて、このチームは、大規模なゲノムシーケンシングプロジェクトを率いるオーストラリアの能力を強めたいと考えていました。
コアラゲノムの内部
このチームは先月、その結果をNature Genetics紙上で発表しました。彼らの研究論文 (Adaptation and Conservation Insights from the Koala Genome) は、コアラのユニークな生態に関する遺伝的基盤を特定しています。この研究論文を読むにはたくさんの概念を調べなければなりませんでしたが、チームが発見した事柄をある程度理解することはできました。これがそのまとめです。
有毒な食習慣 – コアラが好むユーカリの葉には、他の種が摂取すると有害になる物質が数え切れないほど含まれています。解毒機能を持つエンザイムをエンコードする遺伝子での遺伝子拡張と遺伝子選択の事象は、コアラがこれらの物質を素早く解毒することを可能にし、他のどの動物も好まない食物で生命を維持することができるようになります。加速化された代謝の根本にある遺伝的レパートリーは、疾患のあるコアラを治療するための一般的な抗炎症剤と抗生物質の効果もなくしてしまいます。
食物の選択 – 前述したように、コアラは好き嫌いの多い動物です。遺伝学的見地から言うと、これは、匂いに基づいて植物代謝物の違いを識別する能力を提供する 6 個の遺伝子によって、コアラの嗅覚と味覚が増大される結果として起こるものです。研究者たちは、コアラが水分含有量の多いユーカリの葉を選ぶために役立つ遺伝子と、苦味と旨味を判断する能力を向上させる遺伝子を持つことも発見しました。
繁殖 – 排卵と出産を制御する特定の遺伝子も見つかりました。無駄を避けるため、雌のコアラは必要なときにしか卵子を作りません。
コアラの母乳 – 生まれたばかりのコアラはインゲンマメの大きさで、体重もたったの 2 分の 1 グラムです! コアラの赤ちゃんは約 1 年間、時間と共に組成が変化する母乳を飲んで育ち、これには潜在的な遺伝相関があります。研究者たちは、抗微生物性を発揮するとして知られる遺伝子も特定しました。
免疫システム – 研究者たちは、コアラに影響する特定の疾患に対する耐性、免疫、および感受性の基礎を形成した遺伝子を確認しました。コアラレトロウイルスが、実際にそれ自体をゲノムに挿入するという「遺伝的侵略」 (研究者自身の言葉です) の証拠も発見しました。
遺伝的多様性 – 研究者たちは、生息環境の障害物、および表面温度などの地質学上の事象が、どのように遺伝的多様性と種の進化を形作ったかについても調査を行いました。彼らは、多様性 (または多様性の欠如) と、ハンターバレーなどの自然界の障害物とを関連付けることを可能にする証拠と共に、一部の地域のコアラには、他の地域のコアラと比べて遺伝的多様性が著しく少ないことも発見しました。
AWS の活用
完全な遺伝子配列の作成には、数ある必須事項の中でも特に、途方もなく高い処理能力と、膨大なストレージが必要になります。
私にはそのプロセスを十分に理解することはできませんが、ボトムアップベースの取り組みであることはわかります。DNA サンプルは管理可能な断片に分解され、各断片には数万個もの塩基対が含まれています。異なる塩基構成要素 (A、T、C、または G) を蛍光させるために様々な化学薬品が使用され、結果として生じる光がキャプチャ、測定、および保存されます。この研究はコアラリファレンスゲノムを生成したため、シーケンシングリードは、AWS で実行された Falcon として知られる Overlapping Layout Consensus Assembly アルゴリズムでアセンブルされました。コアラゲノムには 34億2千万個の塩基対があり、ヒトゲノムよりわずかに多い数となっています。
私は、この画期的な取り組みが AWS で実行されたと報告できることをとてもうれしく思っています。この研究チームは、複数のクラスターを作成するために cfnCluster を使用しました。クラスターには、それぞれ 500 個から 1000 個の vCPU が装備されており、Falcon は Pacific Biosciences 社から実行されました。チームは、EC2 のコア時間を全部で 300 万時間使用し、そのほとんどは EC2 スポットインスタンスでした。柔軟で低コストの処理能力を利用できたことから、バイオインフォマティクスチームは、Falcon パイプラインを調整してワークロードに適応させるにあたり、Falcon パイプラインの設定を用いて実験を行うことができました。
興味深く価値のある研究を少しでもお手伝いできて本当によかったです!
— Jeff;