发布于: Oct 8, 2020
来自麻省理工学院、First Street 基金会、Ookla 及其他组织的 32 个全新或更新的数据集已加入 Registry of Open Data,可分为以下类别。
新冠肺炎:
- 来自 Folding@home 协会的 Folding@home COVID19 数据集
- 来自 Greenwich.HR 的COVID 招聘数据:美国招聘率
生命科学:
- 来自博德研究所的基因组聚合数据库 (gnomAD) 和英国生物样本库 Panancestry GWAS 摘要统计
- 来自俄亥俄州立大学的俄亥俄州心脏 MRI 原始数据
- 来自 Medical Decathlon 团队的 Medical Decathlon 细分数据集
- 来自麻省理工学院的神经生理学数据集成的分布式存档 (DANDI)
- 来自 Oxford Nanopore Technologies 公司的 Oxford Nanopore Technologies 基准数据集
- 由 Amazon Web Services (AWS) 管理的 ChEMBL 25 和 27 以及 开放目标 2020-06
- 已更新:来自人类泛基因组参考协会的 人类泛基因组项目
地理空间:
- 来自麻省理工学院林肯实验室的低空灾难影像 (LADI)
- 由 Esri 管理的国家航空影像计划 (NAIP) 2019 年数据
- 由 Indigo Ag 管理的可供分析的 Sentinel-1 背向散射影像
- 由 Element 84 管理的 Sentinel-2 云优化型 GeoTIFF
- 来自 NOAA 的 S-111 地表水流数据
- 由辐射地球基金会管理的 ISS SERVIR 环境研究与可视化系统 (ISERV)
- 来自美国国家可再生能源实验室的 PoroTomo 分布式声学感测 (DAS)
气候和气象:
- 来自 NASA 的臭氧监测仪 (OMI) / Aura 二氧化氮对流层柱密度
- 来自 NOAA 的世界海洋数据库
- 来自 NOAA 的全球全体预报系统重新预测
- 来自 NOAA 的太空天气预报和观测数据
- 由 Pangeo 管理的耦合模型比较项目 6
- 来自 First Street 基金会的洪水风险摘要统计
- 由美国国家可再生能源实验室管理的能源部的开放能源数据计划 (OEDI)
- 来自芬兰气象局的天气雷达数据
机器学习:
- 来自辐射地球基金会的辐射 MLHub
- 来自 Cotonoha 的日语分词词典
- 来自 Works Applications 的用于自然语言处理的日语词典和单词嵌入
- 来自 Amazon 的自动语音识别 (ASR) 错误稳定性
- 来自 Amazon 的适用于以知识为基础的对话系统的丰富主题聊天数据集
联网:
- 来自 Ookla.com 的 通过 Ookla 全球固定和移动网络性能测试图进行测速
AWS 开放数据赞助计划涵盖公开提供的云优化型数据集的存储成本。我们与致力于以下目标的数据提供商合作:
- 让数据可在 AWS 上进行分析,以实现数据的普遍访问
- 开发新的原生云技术、格式和工具,以降低数据处理成本
- 鼓励从访问共享数据集中获益的社区实现发展