AWS 託管各式各樣的公用資料集,任何人都能免費存取。

在過去,需要花數小時或數天的時間才能找到、下載、自訂和分析衛星影像或基因體資料等大型資料集。將資料放在 AWS 供大眾使用之後,大家無須自行下載或存放資料即可分析任何規模的資料。這些資料集可透過 AWS 運算和資料分析產品進行分析,包含 Amazon EC2Amazon AthenaAWS LambdaAmazon EMR

請前往 Earth on AWS 進一步了解如何在 AWS 上使用地理空間資料。

  • AWS 上的 Landsat:持續蒐集由 Landsat 8 衛星對地球所有陸地產生的衛星影像。
  • AWS 上的 Sentinel-2:持續蒐集由 Sentinel-2 衛星對地球所有陸地產生的衛星影像。
  • AWS 上的 GOES:GOES 持續提供氣象影像和監控北美的氣象和太空環境資料。
  • AWS 上的 SpaceNet:商用衛星影像和加註標籤訓練資料的主體,可用來培育電腦視覺演算法開發方面的創新能力。
  • AWS 上的 OpenStreetMap:OSM 是免費且可編輯的世界地圖,由義工負責建立和維護。您可以在 Amazon S3 使用一般 OSM 資料存檔。
  • AWS 上的 MODIS:美國地質調查局和 NASA 管理的中解析度影像頻譜幅射儀 (MODIS) 的精選產品。
  • Terrain Tiles:提供地球裸面地形高度的全球資料集,以磚塊式並排顯示便於使用,在 S3 提供。
  • NAIP:在美國大陸農業生長季節期間擷取的 1 公尺航空影像。
  • AWS 上的 NEXRAD:下一代氣象雷達 (NEXRAD) 網路的即時和存檔資料。
  • NASA NEX:NASA 維護的地球科學資料集集合,其中包含氣候變遷預測和地球表面的衛星影像。
  • 華盛頓哥倫比亞特區 LiDAR:華盛頓特區的 LiDAR 點雲資料。
  • EPA 風險篩檢環境指標:EPA 風險篩檢環境指標 (RSEI) 模型的詳細空氣模型結果。
  • HIRLAM 天氣模型:HIRLAM (高解析有限區域模型) 是由芬蘭氣象研究所管理的作業綜觀和中尺度天氣預報模型。

進一步了解雲端基因體資料

  • 1000 個基因體專案:詳細的人類遺傳變異圖譜。
  • AWS 上的 TCGA:來自癌症基因體圖譜 (TCGA) 的原始和處理過的基因體、轉錄學和表觀基因體學資料可透過癌症基因體雲端提供給合格的研究員。
  • AWS 上的 ICGC:完整的基因體序列資料可透過國際癌症基因體協會 (ICGC) 提供給合格的研究員。
  • AWS 上的 3000 Rice Genome:3,024 種不同米類的基因體序列。
  • Genome in a Bottle (GIAB):多個參考基因體,可在臨床試驗上轉譯全人類基因體定序。

進一步了解 AWS 上的人工智慧和機器學習

  • 常用網路爬取:由超過 50 億個網頁組成的 Web 網路爬取資料主體。
  • Amazon 容器影像資料集:超過 500,000 個容器 JPEG 影像及其對應的 JSON 中繼資料檔案描述運作中 Amazon Fulfillment Center 的產品。
  • GDELT:超過 2.5 億筆記錄,監控全球幾乎每個國家每個角落的廣播、印刷和網路新聞,每天更新。
  • 多媒體共用功能:將近 1 億個影像和影片集合,提供音訊和視覺功能以及註釋。
  • Google Books Ngrams:含有 Google Books n-gram 主體的資料集。
  • AWS 上的 SpaceNet:商用衛星影像和加註標籤訓練資料的主體,可用來培育電腦視覺演算法開發方面的創新能力。
  • AWS 上的 IRS 990 檔案:從 2011 年至今,IRS 歸檔的特定 990 電子表格機器可讀資料
  • AWS 上的 ACS PUMS:美國人口普查社區調查 (ACS) 公用個體抽樣資料 (PUMS) 現在發行使用資源描述架構 (RDF) 資料模型的連結資料格式版本
  • AWS 上的 USAspending.gov:USAspending.gov 資料庫內有聯邦政府所有花費的資料,其中包含合約、贊助、貸款、員工薪資等等。