AWS 大数据博客的目标读者是解决方案架构师、数据科学家和开发人员,方便他们学习大数据最佳实践、发现最适合其使用案例的托管 AWS 大数据服务,并帮助他们开始使用 AWS 大数据服务以及进一步深入使用这些服务。此博客的目标是将其打造成一个门户,让所有人都可以了解收集、储存、处理、分析和可视化任何数据规模的新方法。读者能找到包含代码示例的简短教程、展示使用 AWS 大数据独特优势的案例研究、新的功能发布、由合作伙伴和客户制作的演示和教程,以及使用 AWS 大数据服务的各种建议和正确操作说明。



Amazon 公共数据集计划旨在托管有用的数据集并向所有人免费开放,帮助创新和科研进步。因此,无论您想查询 Common Crawl 开放性网络语料库、配对基因组还是浏览 NASA 提供的图像,AWS 都能为您提供启动并运行所需的数据、服务和基础设施。


DynamoDB 是一种快速、全面受管的 NoSQL 数据库服务,它能让用户以简单并且经济有效地方式存储和检索任何数据量,同时服务于任何程度的请求流量。其可靠的吞吐量和几毫秒的延迟非常适合于游戏、广告技术、移动以及很多其他应用领域。

Amazon Elastic MapReduce (Amazon EMR) 是一种 Web 服务,让您能够轻松快速并经济地处理大量的数据。

Amazon EMR 使用称为 Hadoop 的开源框架将您的数据分布在可重新调整大小的 Amazon EC2 实例集群中并进行处理。Amazon EMR 可用于各种应用程序中,包括日志分析、Web 索引、数据仓库、机器学习、财务分析、科学模拟和生物信息学。客户每年启动数以百万的 Amazon EMR 集群。

Amazon Kinesis 是一种完全托管的服务,能够实时进行大规模的流式数据处理。Amazon Kinesis 每小时可以从数十万个来源采集和处理数百 TB 的数据,帮助您轻松编写能够实时地从各种来源(例如网站点击流、营销和金融信息、生产规范和社交媒体、运行日志和计量数据等)处理信息的应用程序。

借助 Amazon Kinesis 应用程序,您可以构建实时控制面板、捕获异常并生成警报、推出建议并做出其他实时业务或运营决策。您还可以将数据轻松发送到其他各种服务中,如 Amazon Simple Storage Service (Amazon S3)、Amazon DynamoDB 或 Amazon Redshift。只要点击几下鼠标,输入几行代码,您就可以开始构建能在几秒钟内响应数据流变化的应用程序,不必考虑数据量的大小,而且只需为您所使用的资源付费。

Amazon S3 既是一项互联网存储服务,也是 AWS 中所有大数据架构的基本构建块。该服务旨在让开发人员能更轻松的进行互联网规模计算。

Amazon S3 提供了一个简单的 Web 服务界面,用户可通过它随时在 Web 上的任何位置存储和检索任意大小的数据。此服务让所有开发人员都能访问与亚马逊运行其全球网站的同一个高扩展性、可靠性、安全性和快速价廉的基础设施。此服务旨在为开发人员带来最大化的规模效益。

Amazon Redshift 是一种快速、完全托管的 PB 级数据仓库服务,它使得用现有商业智能工具对您的所有数据进行高效分析变得简单而实惠。您可以以每小时 0.25 USD 的价格从小规模开始,无需订立长期合约或预付费,然后以每年每 TB 1 000 USD 的价格再扩展到 1 PB 或以上,这个费用比大多数其他数据仓库解决方案成本的十分之一还要低。