AWS 上的数据湖和分析

构建数据湖和分析解决方案的最全面、安全、可扩展且经济高效的服务组合

 

今天需要分析的数据的大小和复杂性,意味着过去使用的相同技术和方法不再起作用了。为了从数据中获得最大价值,AWS 提供了最全面、安全、可扩展和经济高效的服务组合,使您能够在云中构建数据湖,使用包括机器学习在内的多种分析方法,分析所有数据,包括来自 IoT 设备的数据。

相比其他平台,更多组织选择在 AWS 上运行其数据湖和分析,包括客户 NASDAQ、Zillow、Yelp、iRobot 和 FINRA,他们相信 AWS 能够运行其业务关键的分析工作负载。

AWS 上的数据湖和分析

AWS 上的数据湖和分析

为了构建数据湖和分析解决方案,AWS 提供了最全面的服务集来移动、存储和分析数据。

aws-datalake-diagram-simplified

数据移动

从本地实时导入您的数据。

数据湖

安全存储从吉字节到艾字节的任何类型数据。

分析

使用大量的分析工具和引擎来分析数据。

机器学习

预测未来的产出,并确定相应操作。

数据移动

在 AWS 上构建数据湖的第一步是将数据转移到云上。带宽和传输速度的物理限制制约了移动数据的能力,不会造成重大的中断、高成本和耗时的结果。为了使数据传输简单灵活,AWS 提供了将数据传输到云的多个选项。

本地数据移动

AWS 提供多种方法将数据从数据中心转移到 AWS。要在您的网络和 AWS 之间建立一个专用的网络连接,可以使用 AWS Direct Connect。若要使用物理设备将拍字节到艾字节的数据转移到 AWS,可以使用 AWS SnowballAWS Snowmobile。 要让本地应用程序直接将数据存储到 AWS,可以使用 AWS Storage Gateway

实时数据移动

AWS 提供多种方式来接收从新来源(如网站、移动应用和联网设备)生成的实时数据。为了简单地捕获和加载流数据或 IoT 设备数据,可以使用 Amazon Kinesis Data FirehoseAmazon Kinesis Video StreamsAWS IoT Core

数据湖

一旦数据已为云做好准备,AWS 就可以轻松地使用 Amazon S3 和 Amazon Glacier,安全、大规模地存储任何格式的数据。为了方便最终用户发现要在分析中使用的相关数据,AWS Glue 会自动创建一个用户可搜索和查询的单一编目。

对象存储

Amazon S3

Amazon S3 是安全、高度可扩展且持久的对象存储,具有毫秒级的数据访问延迟。S3 专为存储任意位置、任意类型的数据而构建,包括来自网站和移动应用程序、公司应用程序的数据,以及来自 IoT 传感器或设备的数据。它旨在存储和检索任意数量的数据,具有无与伦比的可用性,从底层开始构建,提供了高达 99.999999999%(11 个 9)的持久性。S3 提供了全面的安全与合规功能,可满足即使是最严格的法规要求。

备份和归档

Amazon Glacier

Amazon Glacier 是安全、持久,且成本极低的存储工具,可用于长期备份和存档,且可在几分钟内访问数据。它能够提供 99.999999999% 的持久性以及全面的安全与合规功能,可以帮助满足最严格的监管要求。客户存储数据的价格可低至 0.004 美元/月/GB ,与本地解决方案相比,显著降低了成本。

数据编目

AWS Glue

AWS Glue 是一项完全托管的服务,它提供数据编目以使数据湖中的数据可发现,并且有能力进行提取、转换和加载 (ETL) 来准备数据进行分析。自动创建数据编目为面向所有数据资产的持久元数据存储,使所有数据都可搜索,并且可以在单个视图中查询。

分析

AWS 提供了在数据湖上运行的最广泛、最经济高效的分析服务集。每个分析服务都是为各种分析用例而设计,例如交互式分析、使用 Hadoop 和 Spark 的大数据处理、数据仓库、实时分析、运营分析、仪表板和可视化效果。

交互式分析

Amazon Athena

为了进行交互式分析,Amazon Athena 使用标准的 SQL 查询,可以直接轻松分析 S3 和 Glacier 中的数据。Athena 属于无服务器服务,因此无需设置或管理基础设施。您可以即时开始查询数据,在几秒钟内得到结果,并且只为您运行的查询付费。只需指向您存储在 Amazon S3 中的数据,定义架构并使用标准 SQL 开始查询。便可在数秒内获取最多结果。

大数据处理

Amazon EMR

对于使用 Hadoop 和 Spark 框架的大数据处理,Amazon EMR 提供了一项托管服务,可以简单、快速地处理大量数据,且经济高效。Amazon EMR 支持 19 个不同的开源项目,包括 HadoopSparkHBasePresto 等。每个项目在版本发布的 30 天内在 EMR 中更新,确保您拥有来自社区的最新和最出色的项目。

数据仓库

Amazon Redshift

对于数据仓库,Amazon Redshift 提供了对结构化的拍字节数据进行复杂、分析查询的能力,并且包括在 S3 中直接对结构化或未结构化的艾字节数据运行 SQL 查询的 Redshift Spectrum,而无需不必要的数据移动。Amazon Redshift 的成本不及传统解决方案成本的十分之一。从每小时 0.25 美元的小规模数据开始,扩展到每年每太字节 1,000 美元的拍字节数据。

实时分析

Amazon Kinesis

对于实时分析,Amazon Kinesis 可以轻松收集、处理和分析诸如 IoT 遥测数据、应用程序日志和网站点击流等流数据。借助 Amazon Kinesis,您可以对到达数据湖的数据进行实时处理和分析并做出响应,无需等到收集完全部数据后才开始进行处理。

运营分析

Amazon Elasticsearch Service

对于诸如应用程序监控、日志分析和点击流分析等运营分析,Amazon Elasticsearch Service 允许您在近实时情况下搜索、探索、筛选、聚合和可视化数据。Amazon Elasticsearch Service 可以提供各种易于使用的 Elasticsearch API 和实时分析功能,还可以实现生产工作负载需要的可用性、可扩展性和安全性。

 

仪表板和可视化效果

Amazon QuickSight

对于仪表板和可视化效果,Amazon QuickSight 提供了一项快速、云助力的业务分析服务,以便轻松构建令人惊叹的可视化效果和丰富的仪表板,可以从任何浏览器或移动设备进行访问。

 

机器学习

对于预测分析用例,AWS 提供了一组广泛的机器学习服务,以及在 AWS 上运行数据湖的工具。我们的服务源自我们在 Amazon 建立的知识和能力,其中 ML 为 Amazon.com 的推荐引擎、供应链、预测、物流中心和容量规划提供了动力。 

 

应用程序服务

对于想要将预构建的 AI 功能插入到应用中的开发人员,AWS 为计算机视觉和自然语言处理提供了面向解决方案的 API。

Amazon Rekognition

对于计算机视觉,Amazon Rekognition 允许开发人员轻松地在其应用程序中构建智能视频和图像分析。

Amazon Transcribe

Amazon Transcribe 是一项自动语音识别 (ASR) 服务,让开发人员能够轻松地为其应用程序添加语音转文本功能。

Amazon Translate

Amazon Translate 是一项神经网络机器翻译服务,可提供快速、高质量且经济实惠的语言翻译。

Amazon Polly

Amazon Polly 允许开发人员轻松地将文本转换为大量语音和语言中的真人语音。

Amazon Comprehend

Amazon Comprehend 是一项自然语言处理 (NLP) 服务,可通过机器学习发现文本中的见解和关系。它可以识别文本语言,提取关键的短语、地点、人物、品牌或事件,了解文本的含义是肯定还是否定,还可以自动按主题整理一系列文本文件。

Amazon Lex

Amazon Lex 使用自动语音识别和自然语言理解技术,为 Amazon Alexa 提供支持,以便开发人员可以快速构建智能会话应用程序。

框架和接口

AWS Deep Learning AMI

对于专业的机器学习实践者和数据专家,AWS 提供了 AWS Deep Learning AMI,可以帮助轻松构建深度学习模型,并使用 ML 和 DL 优化的 GPU 实例构建集群。AWS 支持所有主要的机器学习框架,包括 TensorFlow、Caffe2 和 Apache MXNet,以便您可以引入或开发您选择的任何模型。这些功能提供了深度学习和机器学习工作负载所需的强劲动力、速度和效率。

平台服务

Amazon SageMaker

对于想要深入了解 ML 的开发人员,Amazon SageMaker 是一项平台服务,它通过提供连接到训练数据,选择、优化最佳算法和框架,以及在自动调整规模的 Amazon EC2 集群上部署模型所需的一切内容,使构建、训练和部署 ML 模型的整个过程变得简单。SageMaker 还包含托管的 Jupyter 笔记本,可以轻松浏览和可视化在 Amazon S3 中存储的训练数据。

在 AWS 上构建的数据湖和分析比其他任何平台都要多

为什么要在 AWS 上构建数据湖和分析?

灵活性和选择

AWS 提供了一组最广泛的分析工具和引擎,它们使用开放格式和开放标准来分析数据。您可以将数据存储在基于标准的选定数据格式中,如 CSV、ORC、Grok、Avro 和 Parquet,并且可以通过各种方式灵活地分析某一天,如数据仓库、交互式 SQL 查询、实时分析和大数据处理。您可将广泛分析服务用于 AWS 中的数据,确保在现有和未来分析用例中满足您的需求。

出色的可扩展性和可用性

Amazon S3 旨在存储和检索任意数量的数据,具有无与伦比的可用性,它从底层开始构建,提供了高达 99.999999999%(11 个 9)的持久性。它是同类存储服务中独一无二的,可以将数据存储在单一 AWS 地区中三个可用性区域的多个数据中心中,从而获得针对单个数据中心问题的灵活弹性,可以在任何地区之间无缝复制数据。

高度安全

S3 是唯一允许您在帐户和对象级别上应用访问、日志记录和审核策略的云存储平台。S3 提供了自动服务器端加密、由 AWS Key Management Service (KMS) 管理的密钥加密,以及您负责管理的密钥加密。S3 在跨地区复制时对传输中的数据进行加密,并允许您为源地区和目标区域使用单独的帐户,以防止恶意内部删除。为了主动发现攻击的早期阶段,ML 驱动的安全服务 Amazon Macie 将监控数据访问活动的异常情况,并在检测到未经授权的访问或无意数据泄露风险时生成详细警报。

经济高效

在 AWS 上建立的数据湖最具经济高效的特性。不常使用的数据可以转移到 Amazon Glacier,它以极低的成本提供长期备份和存档。Amazon S3 管理功能可以分析对象访问模式,通过生命周期策略将不常用的数据按需或自动移动到 Glacier。可以通过 Amazon Athena 着手查询数据,只需花费 0.005 美元/GB。其他分析和机器学习服务则通过即用即付的方式对您所使用的资源进行收费。

显著提升性能

AWS 分析服务(如 Amazon Redshift 和 Amazon Athena)专为实现快速交互式查询性能而构建,以支持大量并发的交互式查询。使用 Amazon S3 Select 运行 AWS 的广泛分析和机器学习服务组合时,只返回对象中需要的数据子集,从而使查询速度增加至 400%,同时成本也将大大降低。Glacier Select 提供了类似的功能,允许您更快地检索归档数据,并允许将分析能力扩展到数据湖,以包含归档存储。

 

最大的合作伙伴网络

AWS Partner Network (APN) 合作伙伴集成的数量是其他平台的两倍,包括来自全球各地的咨询和独立软件供应商在内的数以万计的合作伙伴。这使您可以轻松地使用和集成许多您当下使用和喜爱的相同工具。由 AWS 解决方案架构师和合作伙伴开发的数据湖快速入门可帮助您基于 AWS 安全性和高可用性最佳实践,构建、测试和部署数据湖解决方案,只需通过几个简单的步骤即可完成。

 

AWS 入门

icon1

注册 AWS 账户

即时享受 AWS 免费套餐
了解更多: 什么是数据湖?
icon2

详细了解 AWS 上的数据湖

点击 此处阅读有关在 AWS 上部署数据湖的更多信息。
点击 此处观看有关构建数据湖架构的会话,点击 此处了解大数据架构模式。
观看客户会话了解他们如何构建数据湖,包括 FINRAAmazon.comRovioSysco Foods
 
icon3

开始使用 AWS 进行构建

数据上传到 Amazon S3,使用 AWS Glue 编目数据,然后使用 Amazon Athena 开始 查询数据。使用 Amazon Redshift Spectrum 运行 数据仓库查询,使用 Amazon EMR 运行 Hadoop 和 Spark,以及使用 Amazon Sagemaker 运行 机器学习
 
有 POC 并且希望和他人交流吗? 请联系我们或通过我们的 AWS 快速入门进行部署
 

AWS 上的数据湖入门

使用 AWS 快速入门部署数据湖
还有更多问题?
联系我们