发布于: Jul 15, 2020
来自美国国家生物信息学中心、约翰霍普金斯大学、德克萨斯大学西南分校、美国国家海洋和大气管理局 (NOAA)、美国国家癌症研究所、新南威尔士州国家植物标本馆和其他机构的 23 个全新或更新的 Amazon Web Services (AWS) 公用数据集现已在下列类别中推出:
新冠肺炎 (COVID-19) 响应:
- 来自分子科学软件研究所的新冠肺炎 (COVID-19) 分子结构和治疗中心
- 来自美国国家生物技术信息中心的新冠肺炎 (COVID-19) 基因组序列数据集
生命科学:
- 来自约翰霍普金斯大学和德克萨斯大学西南分校的云基因组索引
- 来自弗吉尼亚大学的 Refgenie 基因组资产
- 来自美国国家癌症研究所的 Gabriella Miller 儿童第一儿科研究计划
- 来自美国国家癌症研究所的癌症基因组图谱
- 来自美国国家医学图书馆的基本局部比对序列工具 (BLAST) 数据库
- 来自皇家植物园和领域信托基金的新南威尔士州国家植物标本馆
气象学:
- 来自 NOAA 的国家混合模型
- 来自美国国家海洋和大气管理局的国家数字预报数据库
- 由 Unidata 管理的 NOAA 的 NEXRAD 3 级数据
- 来自麻省理工学院的风暴事件图像 (SEVIR)
- 来自康涅狄格大学 Eversource Energy 中心的 RAPID NRT 洪水图
- 来自美国国家可再生能源实验室的太阳跟踪
- 来自美国国家可再生能源实验室的美国海浪数据集
地理空间:
- 来自新泽西信息技术办公室的新泽西州全州数字航空摄影目录和 LiDAR 数据
- 来自 NOAA 的众包测深 (CSB)
- 来自 GeoSampa 的圣保罗市政府 (PMSP) LiDAR 点云
- 来自气象环境地球观测的 Sentinel-3
机器学习:
- 来自 CosmiQ Works 的 RarePlanes
- 来自 Amazon 的多语种 Amazon 评论语料库
- 由 Alexa Shopping 提供的答案改写
- 由 Alexa Shopping 提供的从产品问答系统进行幽默检测
AWS 公用数据集计划涵盖公开提供的高价值云优化型数据集的存储成本。我们与致力于以下目标的数据提供商合作:
- 让数据可在 AWS 上进行分析,以实现数据的普遍访问
- 开发新的原生云技术、格式和工具,以降低数据处理成本
- 鼓励从访问共享数据集中获益的社区实现发展