Amazon Web Services ブログ
Open Data on AWSに、コアラのゲノム、気候変動、衛星データなどの新たなデータセットを追加。
今回のブログでは、 AWSジャパン・パブリックセクターより、「AWS上で公開されている、オープンデータセット充実に向けた取り組み」について紹介します。ご不明の点、「Contact Us」までお問合せください。(以下、AWS Public Sector Blog へ掲載された投稿の翻訳となります。)
AWSによるオープンデータ推進の取り組み
AWSオープン データ スポンサーシップ プログラムは、価値の高い、クラウドに最適化されたデータセットをAmazon Web Services(AWS)上で公開する取り組みです。私たちは、データの提供者・提供機関と協力して、AWSのサービスを用いて分析可能なデータ群を一般に公開しています。そうすることで、データへのアクセスを民主化し(democratize access to data)、データを扱うコストを削減する新しいクラウドネイティブな技術、フォーマット、ツールを開発することが可能となります。さらには、共有データセットへのアクセスから利益を得るコミュニティの発展を促進することも、併せて目指しています。
AWSで公開されているデータセットの全リストは、Registry of Open Data on AWSに掲載されています。今期(2021年Q4時点)には、気候に関するデータ、コアラのゲノムデータ、解析可能なレーダーデータ、高度かつ頻繁なクエリ パフォーマンスを発揮可能な(highly-queryable)ゲノムデータなど、26の新規または更新されたデータセットをリリースしました。以下に、その一部をご紹介します。
NOAA US Climate Normals & Gridded Dataset (NClimGrid)
この2つのデータセット(NOAA、NClimGrid))は、米国の最高気温、最低気温、平均気温、降水量──等の経年データを収録しています。これらのデータセットは、これからの季節の気温と降水量を予測するのに役立ちます。これらの情報は、例えば住宅にエアコンを設置すべきかどうか、予想される降雨量でどの植物が最もよく育つか、あるいは、冬にオフィスビルを暖かく保つためにどのくらいのエネルギーを生産する必要があるか──などを決める際に利用できます。
気候標準データセットには、約15,000カ所の気象観測所から得られたデータが含まれており、30年間の統一された期間で算出され、10年ごとに更新されています。最新の更新は2021年の夏に公開され、Registry of Open Data on AWSで公開されています。グリッド化された気候データセットは、同じ変数を米国内の均一なグリッドに変換したものです。
解析可能な衛星レーダー データセット
この合成開口レーダー(Synthetic Aperture Radar; SAR)由来のデータセットは、Sentinel-1の前方および後方の衛星地図画像を連続的に収集したもので、1年間のデータ収集期間中、世界中の陸地の四季の移り変わりの模様を連続的にカバーしています。農業や地球科学の研究に応用すれば、天候や日照条件に関わらず、作物の種類や植生、土壌水分などの景観の特徴の変動を分析することができます。90メートルの解像度を持つこのデータは、RADARSAT-1やSentinel-1などのSARオープンデータに加えて、1度単位での調整が可能なタイルとしてCloud Optimized GeoTIFF(COG)フォーマットで提供されています。
イルミナDRAGEN 3.5およびgnomADによる1000ゲノム再解析 – データレイクハウス対応版
バリアント コール ファイル(VCF)は、二次的なゲノム解析結果の出力であり、シーケンスされたDNAサンプルから発見された遺伝的バリアントの配列、過去のアノテーション、そして時には予測される影響までもが記述されています。臨床試験のためのコホート作成や薬物治療のための適切な遺伝子ターゲットの特定など、ゲノムシーケンスの下流のアプリケーションにとって、VCFを効率的にマイニングして検索できるかどうかは、研究の成功のための1つの鍵となります。Apache Parquetのような圧縮されたカラム形式に変換することで、Amazon AthenaやAmazon Redshiftなどのサービスでのクエリ パフォーマンスが大幅に向上し、発見に直結しやすくなります。これらのデータセットは、ChEMBL、OpenTargets、その他のライフサイエンスデータセットとともに、データレイクハウスに登録する準備が整っています。(公開先はこちら:1000 Genomes Reanalysis with Illumina DRAGEN 3.5 & gnomAD)
オーストラリア大陸周辺の生物種のゲノム
Australasian Genomesは、Threatened Species Initiative (TSI)により提供されたゲノム データ レポジトリです。このデータセットには、コアラやビルビーなどオーストラリア固有の生物種の参照可能なゲノムデータ、トランスクリプトーム[訳注:特定の状況下において細胞中に存在する全てのmRNA、ないしは一次転写産物]、リシーケンスされた全ゲノム、縮小表現シーケンスデータが含まれています。現在、まずは第一段のゲノムセットが世界中の研究者がアクセスできるよう、公開されています。シドニー大学Australasian Wildlife Genomics Groupのシニアリサーチマネージャーであるキャロリン・ホッグ博士は、次のようにオープンデータ公開の意義を語っています──「大陸の西部に住むコアラには、寒くて雨の多い東海岸では見られないような遺伝子変異があるのでしょうか? その遺伝子は気候変動に対処していく上で重要なものなのでしょうか?」 データとプロジェクトの詳細はこちらをご覧ください。
* * *
その他の最近公開されたデータセットは、「What’s New」でご覧いただけます。
これらの素晴らしいデータセットを皆さんがどのように活用してくれるのか、AWSはとても楽しみにしています。これらのデータセットを使ったチュートリアル、アプリケーション、ツール、出版物などの例があれば、ぜひ Registry of Open Data on AWSに掲載し、コミュニティに所属する各メンバーが見つけられるようにしてください。あなたのデータセットをAWS Open Data Sponsorship Programに提案する方法や、AWSのオープンデータ(Open Data on AWS)についてもっと知りたい方はハイパーリンク先をご覧ください。
日本の公共部門の皆様へのご案内
AWSでは、政府・公共部門、パブリックセクターの皆さまの各組織におけるミッション達成が早期に実現するよう、継続して支援して参ります。
今後ともAWS 公共部門ブログで AWS の最新ニュース・公共事例をフォローいただき、併せまして、国内外の公共部門の皆さまとの取り組みを多数紹介した過去のブログ投稿に関しても、ぜひご覧いただければ幸いです。「クラウド×公共調達」の各フェーズでお悩みの際には、お客様・パートナー各社様向けの相談の時間帯を随時設けておりますので、ぜひAWSまでご相談ください(Contact Us)。
* * * *
このブログは英文での原文ブログを参照し、アマゾンウェブサービスジャパン合同会社 パブリックセクター 統括本部長補佐(公共調達渉外担当)の小木郁夫が翻訳・執筆しました。
* * * *