发布于: Apr 11, 2019
现已在下列类别中推出 18 个全新或经过更新的 AWS 公用数据集:
天文学:
- 纪元格式再电离射电天文学数据集,来自华盛顿大学
- LOFAR ELAIS-N1 周期 2 观测射电天文数据集,来自爱丁堡大学天文研究所
生物学:
- ZINC15 三维分子对接模型,来自 John Irwin
- Genome Ark,来自 Vertebrate Genomes Project
- DNA 元素百科全书 (ENCODE) 数据集,来自 ENCODE 数据协调中心
- 人类泛基因组学项目,来自加州大学圣克鲁兹分校
灾难响应:
- 南亚、东南亚、中国台湾和日本的哨兵 1 号单视复数 (S1 SLC) 数据集,来自新加坡南洋理工大学
- 公开地震预警 (OpenEEW),来自格里洛
百科:
- 软件遗产图数据集,来自 Software Heritage
环境:
- 风集成国家数据集 (WIND),来自美国国家可再生能源实验室 (NREL)
- 国家太阳辐射数据库,来自美国国家可再生能源实验室 (NREL)
- eBird 状态和趋势模型结果,来自康奈尔大学鸟类学实验室
- 非洲土壤信息服务 (AfSIS) 土壤化学,来自 Quantitative Engineering Design
机器学习:
- 来自宾夕法尼亚大学的大规模多语言图像数据集已经扩展到包含 98 种语言的数据。
- Paracrawl,来自针对欧洲语言提供的更广泛 Web 规模并行语料库
气象学:
- 全球预报系统(GFS 版本 2.0 和 3.0),来自 NOAA
- Météo-France 模型,来自 OpenMeteoData
法规:
- IRS 990 电子报表,来自 Applied Nonprofit Research
AWS 公用数据集计划涵盖公开提供的高价值云优化型数据集的存储成本。我们与致力于以下目标的数据提供商合作:
- 让数据可在 AWS 上进行分析,以实现数据的普遍访问。
- 开发新的原生云技术、格式和工具,以降低数据处理成本。
- 鼓励从访问共享数据集中获益的社区实现发展。
2021 年 12 月 9 日修改 – 为了确保良好的体验,本文中过期的链接均已更新或从原文中删除。