简介

应用程序和人员需要安全地访问和分析数据。数据量来自新的、多样化的来源,并且以前所未有的速度增长。组织需要提取数据价值,但很难捕获、存储和分析当今现代企业生成的所有数据。

应对这些挑战意味着要构建一个现代数据架构,打破用于进行分析和获取见解的所有数据孤岛(包括第三方数据),并通过端到端治理将其交到组织中的每个人手中。连接分析和机器学习(ML)系统以实现预测性分析也变得越来越重要。 

本决策指南有助于提出正确的问题,以便在 AWS 服务上构建现代数据架构。它解释了如何打破数据孤岛(通过连接数据湖和数据仓库)、系统孤岛(通过连接机器学习和分析)和人员孤岛(通过将数据交到组织中的每个人手中)。

这段六分钟的片段摘自 AWS 分析副总裁 G2 Krishnamoorthy 在 re:Invent 2022 上发表的一小时演讲。它概述了 AWS 分析服务。完整的演示文稿涵盖了 AWS 分析的当前状态以及围绕数据的最新服务创新,并重点介绍了客户通过 AWS 分析取得的成功。

阅读时间

20 分钟

用途

帮助确定哪些 AWS 分析服务最适用于贵组织。

级别

新手

上次更新日期

2023 年 8 月 8 日

了解

现代数据策略由一组技术构建基块提供支持,可以帮助您管理、访问、分析和处理数据。它还为您提供了多个连接到数据来源的选项。通过现代数据策略,您的团队应该能够:

  • 使用您首选的工具或技术运行分析或机器学习
  • 通过适当的安全和数据治理控件来管理谁有权访问数据
  • 打破数据孤岛,让您充分利用数据湖和专门构建的数据存储
  • 以低成本、开放式、基于相应标准的数据格式存储任何数量的数据。AWS 现代数据架构将您的数据湖、仓库和其他专门构建的服务连接成一个连贯的整体。

在 AWS 上实施现代数据策略基于以下五大支柱:

可扩展的数据湖

为了快速做出决策,您需要以开放格式存储任意数量的数据,并能够打通脱节的数据孤岛。 您可能还需要授权组织中的人员运行分析或机器学习(使用您的首选工具或技术),并通过适当的安全和数据治理控件来管理谁可以访问特定数据。

现代数据架构始于数据湖。数据湖让您能够经济高效地存储所有数据(关系、非关系、结构化和非结构化)。借助 AWS,您可以将任意数量的数据从各种孤岛移动到 Amazon S3 数据湖中。然后,Amazon S3 将使用基于标准的开放格式存储数据。

专为满足性能和成本需求构建

本地数据管道通常会根据您当前使用的工具进行改造,从而提供次优体验。AWS 提供了一系列广泛而深入的专用数据服务,让您可以为适当的作业选择适当的工具,这样您就不必在功能、性能、规模或成本上妥协。

无服务器且易于使用

对于许多类型的分析需求,AWS 提供了无服务器选项,旨在让您无需接触任何基础设施即可专注于应用程序。

将原始数据置于可用于获取业务见解的状态,并由数据管道的提取、转换、加载(ETL)阶段执行,这一过程可能具有挑战性。AWS 正在转向零 ETL 方法(一种无需执行传统 ETL 流程的方法)。这种方法将帮助您分析数据所在的位置,而无需使用 ETL。AWS 服务中支持这种方法的功能包括:


  • Aurora 到 Redshift 的 Amazon 零 ETL 集成
  • 直接从 Kinesis 和 MSK 到 Redshift 的 Amazon Redshift 流式摄取
  • Amazon Redshift 和 Amazon Athena 中的联合查询

数据访问、数据安全和数据管控一统云端

一旦您拥有集中式数据湖和专门构建的分析服务集合,就需要能够访问该数据(无论其位于何处),然后保护数据并制定治理策略以遵守相关法规和安全最佳实践。

治理从 AWS Lake Formation 开始。此服务允许您随时随地访问数据,无论数据位于数据库、数据仓库、专用数据存储还是数据湖中,然后无论将数据存储在何处,都能确保数据的安全。

对于数据治理,AWS 会自动发现、标记和编目数据并使数据保持同步,您可以集中定义和管理安全、治理和审计策略,以满足您所在行业和地理位置的特定法规。

内置机器学习

AWS 提供内置的 ML 集成,随专门构建的分析服务一起提供。您可以使用熟悉的 SQL 命令创建、训练和部署机器学习模型,而无需任何机器学习经验。

针对不同的应用场景使用不同类型的数据存储(关系型、非关系型、数据仓库和分析服务)的情况并不少见。AWS 提供了一系列集成,让您可以选择根据数据训练模型,或者直接从数据存储中添加推理结果,而无需导出和处理数据。

考虑

在 AWS 上构建分析管道的原因有很多。作为云迁移之旅的第一步,您可能需要支持新建项目或试点项目。或者,您可能需要在尽可能减少干扰的情况下迁移现有工作负载。无论您的目标是什么,以下注意事项都可能有助于您做出选择。

  • 分析可用的数据来源和数据类型,全面了解数据的多样性、频率和质量。了解处理和分析数据时可能遇到的任何挑战。 这种分析至关重要,因为:

    • 数据来源多种多样,来自不同的系统、应用程序、设备和外部平台。
    • 数据来源具有独特的结构、格式和数据更新频率。分析这些来源有助于确定合适的数据收集方法和技术。
    • 分析数据类型,例如结构化、半结构化和非结构化数据,可以确定适当的数据处理和存储方法。
    • 分析数据来源和数据类型有助于进行数据质量评测,帮助您预测潜在的数据质量问题,即缺失值、不一致或不准确。
  • 确定数据处理要求,以了解如何摄取、转换、清理和准备分析数据。关键考虑因素包括:

    • 数据转换:确定使原始数据适合分析所需的特定转换。这涉及诸如数据聚合、标准化、筛选和丰富之类的任务。
    • 数据清理:评测数据质量并定义处理数据缺失、不准确或不一致的流程。实施数据清理技术,确保高质量的数据以获得可靠的见解。
    • 处理频率:根据分析需求确定是需要实时、近实时还是批处理。实时处理可以立即获得见解。如需进行定期分析,只需使用批处理即可。
    • 可扩展性和吞吐量:评估处理数据量、处理速度和并发数据请求数量的可扩展性要求。确保所选的处理方法能够满足未来增长的需求。
    • 延迟:考虑数据处理的可接受延迟以及从数据摄取到分析结果所花费的时间。这对于实时分析或时间敏感型分析尤其重要。
  • 通过确定数据在整个分析管道中的存储方式和位置来确定存储需求。重要考虑因素包括:

    • 数据量:评测生成和收集的数据量,并估计未来的数据增长以规划足够的存储容量。
    • 数据留存:定义出于历史分析或合规性目的,应保留数据的期限。确定适当的数据留存策略。
    • 数据访问模式:了解如何访问和查询数据,以选择最合适的存储解决方案。考虑读写操作、数据访问频率和数据位置。
    • 数据安全:通过评估保护敏感信息的加密选项、访问控制和数据保护机制,优先考虑数据安全。
    • 成本优化:根据数据访问模式和使用情况选择最具成本效益的存储解决方案,从而优化存储成本。
    • 与分析服务集成:确保所选存储解决方案与正在开发的数据处理和分析工具无缝集成。
  • 在决定使用分析服务来收集和摄取数据时,请考虑与组织的需求和目标相关的各种数据类型。您可能需要考虑的常见数据类型包括:

    • 交易数据:包括有关个人互动或交易的信息,例如客户购买、金融交易、在线订单和用户活动日志。
    • 基于文件的数据:指存储在文件中的结构化或非结构化数据,例如日志文件、电子表格、文档、图像、音频文件和视频文件。分析服务应支持摄取不同文件格式
    • 事件数据:捕获重大情况或事件,例如用户操作、系统事件、计算机事件或业务事件。事件可以包括为进行上游或下游处理而捕获的高速到达的任何数据。
  • 运营责任由您和 AWS 共同承担,不同现代化级别的责任分工各不相同。您可以选择在 AWS 上自行管理您的分析基础设施,也可以利用众多的无服务器分析服务来减轻基础设施管理负担。

    用户可以通过自行管理选项更好地控制基础设施和配置,但这些选项所需的运营工作量更大。

    无服务器选项可以消除大部分运营负担,并且提供自动可扩展性、高可用性和强大的安全功能,使用户更加专注于构建分析解决方案和推动见解,而不是将精力投入在管理基础设施和运营任务上。考虑无服务器分析解决方案的以下好处:

    • 基础设施抽象化:无服务器服务将基础设施管理抽象化,使用户无需执行预置、扩展和维护任务。AWS 将处理这些运营工作,从而减少管理开销。
    • 自动扩缩和性能:无服务器服务会根据工作负载需求自动扩展资源,无需人工干预即可确保最佳性能。
    • 高可用性和灾难恢复:AWS 为无服务器服务提供高可用性。AWS 可管理数据冗余、复制和灾难恢复,以增强数据的可用性和可靠性。
    • 安全性与合规性:AWS 遵循行业标准和最佳实践,管理无服务器服务的安全措施、数据加密和合规性。
    • 监控和记录:AWS 为无服务器服务提供内置的监控、日志和警报功能。用户可以通过 AWS CloudWatch 访问详细的指标和日志。
  • 在构建现代分析管道时,确定要支持的工作负载类型对于有效满足不同的分析需求至关重要。每种工作负载需要考虑的关键决策点包括:

    批量工作负载

    • 数据量和频率:批处理适用于定期更新的大量数据。
    • 数据延迟:与实时处理相比,批处理在提供见解时可能会出现一些延迟。

    交互式分析

    • 数据查询的复杂性:交互式分析需要低延迟响应以快速提供反馈。
    • 数据可视化:评估对交互式数据可视化工具的需求,使业务用户能够直观地探索数据。

    流式传输工作负载

    • 数据速度和数据量:流式传输工作负载需要实时处理以便处理高速数据。
    • 数据窗口:为流式数据定义数据窗口和基于时间的聚合,以提取相关见解。
  • 明确定义业务目标和您要从分析中获得的见解。不同类型的分析有不同的用途。例如:

    • 描述性分析是获得历史概述的理想选择
    • 诊断分析有助于了解过去事件背后的原因
    • 预测性分析可以预测未来结果
    • 规范性分析可以为最佳行动提供建议

    将您的业务目标与相关的分析类型相匹配。以下是一些关键决策标准,可帮助您选择正确的分析类型:

    • 数据可用性和质量:描述性和诊断性分析依赖于历史数据,而预测和规范性分析则需要足够的历史数据和高质量数据来构建准确的模型。
    • 数据量和复杂性:预测性和规范性分析需要大量的数据处理和计算资源。请确保您的基础设施和工具能够处理大量复杂数据。
    • 决策复杂性:如果决策涉及多个变量、约束条件和目标,则规范性分析可能更适合指导最佳行动。
    • 风险承受能力:规范性分析可以提供建议,但存在相关的不确定性。请确保决策者了解与分析结果相关的风险。
  • 评测架构的可扩展性和性能需求。设计必须处理不断增长的数据量、用户需求和分析工作负载。需要考虑的关键决策因素包括:

    • 数据量和增长:评测当前的数据量并预测未来的增长。 
    • 数据速度和实时要求:确定是否需要实时或近实时地处理和分析数据。
    • 数据处理复杂性:分析数据处理和分析任务的复杂性。对于计算密集型任务,Amazon EMR 等服务可以为大数据处理提供可扩展的托管环境。
    • 并发性和用户负载:考虑系统上的并发用户数量和用户负载水平。 
    • 自动扩缩功能:考虑提供自动扩缩功能的服务,允许资源根据需求自动纵向扩展或缩减。这可以确保高效的资源利用率和成本优化。
    • 地理分布:如果您的数据架构需要分布在多个区域或地点,请考虑具有全球复制和低延迟数据访问功能的服务。
    • 性价比权衡:在性能需求和成本考虑之间取得平衡。高性能服务的成本可能更高。
    • 服务水平协议(SLA):查看 AWS 服务提供的 SLA,确保它们符合您的可扩展性和性能预期。
  • 数据治理是为确保数据资产的有效管理、质量、安全性和合规性而需要实施的一系列流程、策略和控制措施。需要考虑的关键决策点包括:

    • 数据留存策略:根据监管要求和业务需求定义数据留存策略,并建立安全处置不再需要的数据的流程。
    • 审计跟踪记录和日志记录:确定用于监控数据访问和使用情况的记录和审计机制。实施全面的审计跟踪记录,以跟踪数据更改、访问尝试和用户活动,从而监控合规性与安全性。
    • 合规性要求:了解适用于贵组织的行业特定和地理数据合规性法规。确保数据架构符合这些法规和准则。
    • 数据分类:根据数据的敏感度对数据进行分类,并为每个数据类别定义适当的安全控制措施。 
    • 灾难恢复和业务连续性:制定灾难恢复和业务连续性计划,以确保在发生意外事件或系统故障时保证数据可用性和弹性。
    • 第三方数据共享:如果与第三方实体共享数据,请实施安全的数据共享协议和协议,以保护数据机密性并防止数据滥用。
  • 分析管道中数据的安全性涉及在管道的每个阶段保护数据,以确保其机密性、完整性和可用性。需要考虑的关键决策点包括:

    • 访问控制和授权:实施强大的身份验证和授权协议,确保只有经过授权的用户才能访问特定数据资源。
    • 数据加密:为存储在数据库、数据湖中的数据以及在架构的不同组件之间移动的数据选择适当的加密方法。
    • 数据掩蔽和匿名化:考虑是否需要进行数据掩蔽或匿名化,以保护敏感数据(例如 PII 或敏感业务数据),同时使某些分析过程能够继续进行。
    • 安全数据集成:建立安全的数据集成实践,确保数据在架构的不同组件之间安全流动,避免在数据移动期间发生数据泄露或未经授权的访问。
    • 网络隔离:考虑支持 AWS VPC 端点的服务,以避免将资源暴露在公共互联网中。
  • 定义分析管道各个组件之间的集成点和数据流,以确保无缝的数据流和互操作性。需要考虑的关键决策点包括:

    • 数据来源集成:确定要从中收集数据的数据来源,例如数据库、应用程序、文件或外部 API。确定数据摄取方法(批量、实时、基于事件),以便以最小的延迟高效地将数据引入管道。
    • 数据转换:确定准备数据以供分析所需的转换。确定在数据流经管道时对其进行清理、聚合、标准化或丰富的工具和流程。
    • 数据移动架构:为在管道组件之间移动的数据选择合适的架构。根据实时要求和数据量,考虑批处理、流处理或两者的组合。
    • 数据复制和同步:确定数据复制和同步机制,以使所有组件的数据都保持最新状态。根据数据新鲜度要求,考虑实时复制解决方案或定期数据同步。
    • 数据质量和验证:实施数据质量检查和验证步骤,确保数据在流经管道时的完整性。确定要在数据未通过验证时执行的操作,例如发送警报或处理错误。
    • 数据安全性和加密:确定如何保护传输中数据和静态数据的安全。根据数据敏感度考虑所需的安全级别,确定保护整个管道中的敏感数据的加密方法。
    • 可扩展性和弹性:确保数据流设计允许横向扩展并能够处理增加的数据量和流量。
  • 在 AWS 上构建分析渠道可提供各种成本优化机会。为确保成本效率,请考虑以下策略:

    • 资源大小调整和选择:根据实际工作负载要求调整资源大小。选择与工作负载性能需求相匹配的 AWS 服务和实例类型,同时避免过度预置。
    • 自动扩缩:为具有不同工作负载的服务实施自动扩缩。自动扩缩可根据需求动态调整实例数量,从而在低流量时期降低成本。
    • 竞价型实例:将 AWS EC2 竞价型实例用于非关键容错型工作负载。与按需型实例相比,竞价型实例可以显著降低成本。
    • 预留实例:考虑购买 AWS 预留实例,与按需定价相比,可以为使用量可预测的稳定工作负载节省大量成本。
    • 数据存储分层:根据数据访问频率使用不同的存储类别,从而优化数据存储成本。
    • 数据生命周期策略:设置数据生命周期策略,根据数据的使用年限和使用模式自动移动或删除数据。这有助于管理存储成本并使数据存储与其价值保持一致。

选择

您已经了解评估分析需求的标准,现在可以选择适合贵组织需求的 AWS 分析服务了。下表对服务集进行了分类,这些服务与您需要实现的业务目标(例如进行高级分析、执行数据管理或预测分析以及机器学习)保持一致。

目标区域
关闭

高级分析

AWS 提供广泛且经济实惠的成套分析服务,可帮助您更快从数据中获得见解。

使用案例
相关分析服务

交互式分析
执行实时数据分析和探索的过程,允许用户以交互方式查询和可视化数据,从而获得见解并快速做出数据驱动的决策。

关闭

Amazon Athena

Amazon Athena 是一项基于开源框架的无服务器交互式分析服务,支持开源表和文件格式。Athena 提供了一种简化、灵活的方法来分析包含它的 PB 级数据。从 Amazon S3 数据湖和超过 30 个数据来源(包括本地数据来源,或使用 SQL 或 Python 的其他云系统)分析数据或构建应用程序。Athena 基于开源 Trino 和 Presto 引擎以及 Apache Spark 框架构建,无需进行预配或配置。

大数据处理
大数据具有三个维度特征,即数据量、速度和多样性。 大数据处理解决方案旨在克服大数据规模和复杂性带来的挑战。

关闭

Amazon EMR

Amazon EMR 是行业领先的云大数据解决方案,适用于使用开源框架(如 Apache Spark、Apache Hive、Presto)进行 PB 级数据处理、交互分析和机器学习。

数据仓库
集中存储、组织和检索来自组织内各种来源的大量结构化数据,有时甚至是半结构化数据。

关闭

Amazon Redshift

Amazon Redshift 使用 SQL 在数据仓库、运营数据库和数据湖间分析结构化和半结构化数据,使用 AWS 设计的硬件和机器学习在任意规模提供最佳性价比。

实时分析
在生成、接收或摄取数据时对其进行分析和处理的过程,不会出现任何明显的延迟。

关闭

Amazon Kinesis Data Analytics

借助 Amazon Kinesis Data Analytics,您可以更轻松地使用 Apache Flink 实时转换和分析串流数据。

运营分析
使用实时数据分析和洞察来优化和改善组织内正在进行的运营流程和活动。

关闭

AWS OpenSearch Service

OpenSearch 是一种分布式,由社区驱动并取得 Apache 2.0 许可的 100% 开源搜索和分析套件,可用于一组广泛的使用案例,如实时应用程序监控、日志分析和网站搜索。OpenSearch 提供了一个高度可扩展的系统,通过集成的可视化工具 OpenSearch 控制面板为大量数据提供快速访问和响应,使用户可以轻松地探索他们的数据

控制面板和可视化
控制面板和可视化效果可以直观呈现复杂的数据集,便于用户一目了然地掌握模式、趋势和见解。它们通过具有视觉吸引力且直观的方式呈现信息,使数据易于理解,即使对于非技术用户也是如此。

关闭

Amazon QuickSight

Amazon QuickSight 提供超大规模的统一商业智能(BI),助力数据驱动型组织腾飞。借助 QuickSight,所有用户都可以通过现代交互式控制面板、分页报告、嵌入式分析、自然语言查询,使用相同事实来源满足不同的分析需求。

可视化数据准备
使用可视化工具和界面以可视、直观的方式探索、清理、转换和操作数据。

关闭

AWS Glue DataBrew

AWS Glue DataBrew 是一个可视化数据准备工具,它使数据分析师和数据科学家能够轻松清理和标准化数据,以使这些数据为分析和机器学习做好准备。您可以从 250 多个预构建转换中进行选择,无需编写任何代码即可自动执行数据准备任务。 

关闭

数据管理

通过这些服务,您可以轻松地跨多个数据存储和数据湖合并、移动和复制数据。

使用案例
相关分析服务

实时数据变动
实时数据移动涉及数据传输的最小延迟,通常在数据可用后的几秒钟或几毫秒之内。

关闭

Amazon MSK

Amazon Managed Streaming for Apache Kafka(Amazon MSK)是一项完全托管的服务,让您能够构建并运行使用 Apache Kafka 的应用程序来处理流数据。Amazon MSK 提供控制面板操作,例如用于创建、更新和删除集群的操作。

关闭

Amazon Kinesis Data Streams

Amazon Kinesis Data Streams 是一项无服务器串流数据服务,可简化任何规模的数据流捕获、处理和存储。

关闭

Amazon Kinesis Data Firehose

Amazon Kinesis Data Firehose 是一项提取、转换、加载(ETL)服务,可以将流式处理数据以可靠方式捕获、转换和提供到数据湖、数据存储和分析服务中。

关闭

Amazon Kinesis Video Streams

有了 Amazon Kinesis Video Streams,您就能轻松而安全地将视频从互联设备流式传输到 AWS,用于分析、机器学习、播放以及其它处理。Kinesis Video Streams 可以自动预置和弹性扩展从数百万台设备中提取视频流所需的所有基础设施。它可以持久存储和加密流中的视频数据并为其创建索引,还允许您通过易用的 API 访问您的数据。

关闭

AWS Glue

AWS Glue 是一项无服务器数据集成服务,它简化了发现、准备、移动和集成来自多个来源的数据以进行分析、机器学习和应用程序开发的工作。

数据治理
一组流程、策略和指南,可确保数据在其整个生命周期中得到适当的管理,并确保其可用性、实用性、完整性和安全性。

关闭

Amazon DataZone

使用 Amazon DataZone 跨组织边界大规模共享、搜索和发现数据。通过统一的数据分析门户在数据项目上进行协作,该门户为您提供所有数据的个性化视图,同时强制实施您的治理和合规策略。

关闭

AWS Lake Formation

AWS Lake Formation 是一种完全托管服务,可轻松构建、保护和管理数据湖。Lake Formation 可以简化并自动化创建数据湖通常需要的许多复杂手动步骤。这些步骤包括收集、清理、移动和编目数据,以及安全地将这些数据用于分析和机器学习。

数据湖的对象存储
在 AWS 上构建的数据湖使用 Amazon S3 作为其主要存储平台。Amazon S3 为数据湖提供了最佳基础,因为它具有几乎无限的可扩展性和高持久性。 

关闭

Amazon S3

Amazon Simple Storage Service(Amazon S3)是一种兼具可扩展性、数据可用性、安全性和性能的对象存储服务。Amazon S3 提供管理功能,以便您可以优化、组织和配置对数据的访问,以满足您的特定业务、组织和合规性要求。

关闭

AWS Lake Formation

AWS Lake Formation 是一种完全托管服务,可轻松构建、保护和管理数据湖。Lake Formation 可以简化并自动化创建数据湖通常需要的许多复杂手动步骤。这些步骤包括收集、清理、移动和编目数据,以及安全地将这些数据用于分析和机器学习。

数据湖的备份和存档
由 Amazon S3 提供支持的数据湖为组织提供了现代分析方法所需的可用性、敏捷性和灵活性,以获得更深入的见解。保护这些 S3 存储桶中存储的敏感或关键业务信息是组织的首要任务。

关闭

Amazon S3 Glacier

Amazon S3 Glacier 存储类专为数据归档而构建,旨在为您提供具有最高性能、最大检索灵活性和最低成本的云归档存储。所有 S3 Glacier 存储类都提供几乎无限的可扩展性,并且旨在实现 99.999999999%(11 个 9)的数据持久性。 

关闭

AWS Backup

AWS Backup 是一项经济高效、完全托管且基于策略的服务,可简化大规模数据保护。

数据目录
一种元数据管理工具,提供有关可用数据及其结构、特征和关系的详细信息。

关闭

Amazon Glue

AWS Glue 是一项无服务器数据集成服务,它简化了发现、准备、移动和集成来自多个来源的数据以进行分析、机器学习(ML)和应用程序开发的工作。

第三方数据
在现代数据驱动的环境中,第三方数据和软件即服务(SaaS)数据对业务运营的重要性日益提升。

关闭

AWS Data Exchange

借助 AWS Data Exchange 这项服务,AWS 客户可以轻松查找、订阅和使用 AWS Cloud 中的第三方数据。

关闭

Amazon AppFlow

借助 Amazon AppFlow,只需单击几下即可在 SaaS 应用程序和 AWS 服务之间自动执行双向数据流。按您选择的频率运行数据流,无论是根据计划、针对业务事件要求或按需。 

关闭

预测性分析和机器学习

对于预测分析用例,AWS 提供了一系列广泛的机器学习服务,以及在 AWS 上的数据湖上运行的工具。

使用案例
相关分析服务

框架和接口
AWS ML 基础设施支持所有领先的机器学习框架。 

关闭

AWS Deep Learning AMI

AWS Deep Learning AMI(DLAMI)为机器学习从业者和研究人员提供一组精心策划的安全框架、依赖项和工具,以加速云中的深度学习。亚马逊机器镜像(AMI)专为 Amazon Linux 和 Ubuntu 构建,预配置了 TensorFlow、PyTorch、Apache MXNet、Chainer、Microsoft Cognitive Toolkit(CNTK)、Gluon、Horovod 和 Keras,让您可以快速地大规模部署和运行这些框架和工具。

平台服务
一种完全托管的基础设施,用于构建、训练和部署机器学习模型。 

关闭

Amazon SageMaker

通过完全托管的基础设施、工具和工作流程为任何使用场景构建、训练和部署机器学习(ML)模型

直接数据集成
使用熟悉的 SQL 命令创建、训练和部署机器学习模型

关闭

Amazon Athena ML

借助 Athena ML,您可以在 Amazon SageMaker 中构建和部署机器学习模型,并在 Amazon Athena 中使用 SQL 函数以从您的 SageMaker 模型中生成预测。 

这使分析团队能够将以模型驱动的见解提供给业务用户和分析师,而无需专门的工具和基础设施。

关闭

Amazon QuickSight ML

QuickSight ML Insights 利用 AWS 久经考验的机器学习和自然语言功能,帮助您从数据中获得更深入的见解。任何人都可以借助这些开箱即用的强大功能轻松发现隐藏的趋势和异常值、识别关键的业务驱动因素,并进行强大的假设分析和预测,而无需技术专业知识或机器学习经验。

关闭

Amazon Redshift ML

借助 Amazon Redshift ML,数据分析师和数据库开发人员可以在 Amazon Redshift 数据仓库中,使用熟悉的 SQL 命令创建、训练和应用机器学习模型。借助 Redshift ML,您无需学习新工具或语言,即可利用 Amazon SageMaker,这是一种完全托管的机器学习服务。只需使用 SQL 语句借助您的 Redshift 数据创建和训练 Amazon SageMaker 机器学习模型,然后使用这些模型进行预测。

使用

现在,您应该已经清楚了解自己的业务目标,以及开始构建数据管道时将要采集和分析的数据量和速度。

为了探索如何使用每项可用服务,以及了解有关各项服务的更多信息,我们提供了探索每项服务工作原理的途径。以下部分提供了指向深入文档、动手教程和资源的链接,可帮助您从基本用法开始,逐渐深入到更高级的深度探索。

高级分析

  • 交互式分析
  • Amazon Athena

    Amazon Athena 入门

    了解如何使用 Amazon Athena 查询数据,并根据存储在 Amazon S3 中的示例数据创建表、查询表和检查查询结果。

    开始使用教程 »

    Amazon Athena

    Amazon Athena 上的 Apache Spark 入门

    使用 Amazon Athena 控制台中简化的笔记本体验,使用 Python 或 Athena 笔记本 API 开发 Apache Spark 应用程序。

    开始使用教程 »

    Amazon Athena

    AWS re:Invent 2022 — Amazon Athena 的新增功能

    了解如何将 Athena 引入您的数据,将其应用于跨数据湖、外部来源等的所有数据。


    观看研讨会 »

    Amazon Athena

    使用 Amazon Athena 分析 S3 中的数据
     
    探索如何对负载均衡器中的日志使用 Athena,这些日志以预定义格式生成为文本文件。我们将向您展示如何创建表、以 Athena 使用的格式对数据进行分区、将其转换为 Parquet 以及比较查询性能。

    阅读博客文章 »

  • 大数据处理
  • Amazon EMR

    AWS EMR 入门

    了解如何使用 Spark 启动示例集群,以及如何运行存储在 Amazon S3 存储桶中的简单 PySpark 脚本。
     


    开始使用教程 »


    Amazon EMR

    EKS 上的 Amazon EMR 入门
     

    我们将向您展示如何通过在虚拟集群上部署 Spark 应用程序开始在 EKS 上使用 Amazon EMR。

    开始使用教程 »

    Amazon EMR

    EMR Serverless 入门
     

    探索 EMR Serverless 如何提供无服务器运行时系统环境,简化使用最新开源框架的分析应用程序的操作。

    开始使用教程 »

    Amazon EMR

    Amazon EMR 新增功能

    了解 Amazon EMR 的最新发展,包括 Amazon EMR Serverless、Amazon EMR Studio 等。

    观看研讨会 »

  • 数据仓库
  • Amazon Redshift

    Amazon Redshift 入门

    了解 Amazon Redshift Serverless 创建无服务器资源、连接到 Amazon Redshift Serverless、加载示例数据,然后对数据运行查询的基本流程。

    探索指南 »

    Amazon Redshift

    使您的数据仓库实现现代化


    探索如何使用 Amazon Redshift 的新功能,通过访问所有数据来实现数据仓库的现代化。



    观看视频 »

    Amazon Redshift

    在 AWS 上部署数据仓库


    了解如何创建和配置 Amazon Redshift 数据仓库、加载示例数据并使用 SQL 客户端对其进行分析。


    开始使用教程 »

    Amazon Redshift

    Amazon Redshift 深入探究研讨会

    探索一系列练习,帮助用户开始使用 Redshift 平台。

    开始使用研讨会 »

  • 实时分析
  • Amazon Kinesis Data Analytics

    适用于 Apache Flink 的 Amazon Kinesis Data Analytics 入门
     

    了解适用于 Apache Flink 的 Kinesis Data Analytics 和 DataStream API 的基本概念。

    探索指南 »

    Amazon Kinesis Data Analytics

    流分析研讨会
     


    了解如何构建端对端的串流架构以近乎实时地提取、分析和显示串流数据。

    开始使用研讨会 »

    Amazon Kinesis Data Analytics

    适用于 Java 应用程序的 Amazon Kinesis Data Analytics 简介
     

    探索如何在 Amazon Kinesis Data Analytics 中使用 Apache Flink 应用程序,以便从数据中获得更及时的见解。

    观看研讨会(需要登录)»

    Amazon Kinesis Data Analytics

    点击流实验室

    适用于点击流使用案例的端到端实验室,使用 Amazon MSK 进行流存储,并将适用于 Java 应用程序的 Amazon KDA 与 Apache Flink 引擎结合使用,以进行流处理。

    开始使用实验室 »

  • 运营分析
  • Amazon OpenSearch Service

    开始使用 Amazon OpenSearch Service


    了解如何使用 Amazon OpenSearch Service 创建和配置测试域。

     





    开始使用教程 »

    Amazon OpenSearch Service

    使用 OpenSearch Service 和 OpenSearch 控制面板可视化客户支持来电

    全面了解以下情况:企业接听了一定数量的客户支持来电,并且希望对其进行分析。每次来电的主题是什么? 有多少是正面的? 有多少是负面的? 经理如何搜索或查看这些来电的转录文本?

    开始使用教程 »

    Amazon OpenSearch Service

    开始使用 Amazon OpenSearch 无服务器研讨会

    了解如何在 AWS 管理控制台中设置新的 Amazon OpenSearch 无服务器域。探索各种可用的搜索查询,设计引人注目的可视化效果,并学习如何根据分配的用户权限保护域名和文档。


    开始使用研讨会 »

    Amazon OpenSearch Service

    使用 Amazon OpenSearch Service 构建日志分析解决方案

    了解如何根据日志分析工作负载调整 OpenSearch 集群的大小。 


    阅读博客文章 »

  • 控制面板和可视化
  • Amazon QuickSight

    Amazon QuickSight 数据分析入门

    了解如何创建您的第一个分析。使用样本数据创建简单或更高级的分析。或者,您也可以连接到自己的数据来创建分析。


    探索指南 »

    Amazon QuickSight

    使用 QuickSight 进行可视化


    使用 AWS 对商业智能(BI)和数据可视化进行技术方面的探索。了解如何将控制面板嵌入到应用程序和网站中,以及如何安全地管理访问和权限。

    开始使用课程 »

    Amazon QuickSight

    QuickSight 研讨会


    通过研讨会抢先开启您的 QuickSight 之旅。

     



    开始使用研讨会 »

  • 可视化数据准备
  • AWS Glue DataBrew

    AWS Glue DataBrew 入门

    了解如何创建您的第一个 DataBrew 项目。您可以加载示例数据集、在该数据集上运行转换、构建用于捕获这些转换的配方,然后运行作业以将转换后的数据写入 Amazon S3。

    开始使用教程 »

    AWS Glue DataBrew

    使用 AWS Glue DataBrew 转换数据

    了解 AWS Glue DataBrew,这是一个可视化数据准备工具,使数据分析师和数据科学家能够轻松清理和标准化数据,以使这些数据为分析和机器学习做好准备。了解如何使用 AWS Glue DataBrew 构建 ETL 流程。

    开始使用实验室 »

    AWS Glue DataBrew

    AWS Glue DataBrew 沉浸日

    探索如何使用 AWS Glue DataBrew 清理和标准化数据以进行分析和机器学习。 





    开始使用研讨会 »

数据管理

  • 实时数据变动
  • Amazon Kinesis Data Streams

    开始从 Amazon Kinesis Data Streams 进行流摄取

    探索如何将数据从 Kinesis Data Streams 直接流式传输到 Amazon Redshift,从而缩短访问数据所需的时间并降低存储成本。

    探索指南 »

    Amazon MSK

    开始从 Amazon Managed Streaming for Apache Kafka 中进行流摄取

    了解如何将数据从 Amazon MSK 直接流式传输到 Amazon Redshift,从而缩短访问数据所需的时间并降低存储成本。

    探索指南 »

    Amazon Redshift

    开始使用 Amazon Aurora 与 Amazon Redshift 的零 ETL 集成

    了解如何通过 Amazon Aurora 与 Amazon Redshift 的零 ETL 集成,开始进行近乎实时的运营分析。

    阅读博客文章 »

    AWS Glue

    AWS Glue 沉浸式日研讨会
     
    在多个动手实验室中工作,向您展示如何使用 AWS Glue 和相关的 AWS 服务解决实际问题。


    开始使用研讨会 »

    Amazon Kinesis Firehose

    Amazon Kinesis Data Firehose 沉浸日

    了解如何通过几个配置步骤轻松地将流数据提取到 Amazon OpenSearch 和 Amazon Redshift 中。


    开始使用研讨会 »

    Amazon Kinesis Video Streams

    Amazon Kinesis Video Streams 研讨会

    了解如何使用 Amazon Kinesis Video Streams 从相机设备中提取和存储视频、进行直播和点播,以及下载视频文件。

    开始使用研讨会 »

  • 数据治理
  • AWS Lake Formation

    使用 AWS Lake Formation 集中管理您的数据湖

    探索如何使用 AWS Lake Formation 集中进行数据治理和数据访问管理,同时使用 Amazon Redshift Spectrum 查询您的数据湖。 

    阅读博客文章 »

     

    Amazon EMR

    Amazon DataZone 入门
     


    学习如何创建 Amazon DataZone 根域、获取数据门户网址、演练面向数据创建者和数据使用者的基本 Amazon DataZone 工作流程。

    探索指南 »

    Amazon EMR

    EMR Serverless 入门
     



    探索 EMR Serverless 如何提供无服务器运行时系统环境,简化使用最新开源框架的分析应用程序的操作

    探索指南 »

  • 数据湖的对象存储
  • AWS Lake Formation

    AWS Lake Formation 入门

    了解如何对 Lake Formation 进行首次设置,以管理 Amazon S3 现有的 AWS Glue Data Catalog 对象和数据位置。

    探索指南 »

    AWS Lake Formation

    AWS Lake Formation 研讨会


    探索如何使用 AWS Lake Formation 在 AWS 上构建、保护和管理数据湖。



    开始使用研讨会 »

    Amazon S3

    中央存储 — 作为数据湖存储平台的 Amazon S3

    了解 Amazon S3 如何凭借其几乎无限的可扩展性和高持久性而成为数据湖的最佳基础。


    阅读白皮书 »

  • 数据目录
  • AWS Glue Data Catalog

    AWS Glue 中的数据目录和爬网程序

    了解如何使用 Data Catalog 中的信息来创建和监控 ETL 作业。


    探索指南 »

    AWS Glue Data Catalog

    AWS Glue Data Catalog 入门

    了解如何创建您的第一个 AWS Glue Data Catalog,该目录使用 Amazon S3 存储桶作为您的数据来源。

    开始使用教程 »

  • 第三方数据
  • AWS Data Exchange

    作为 AWS Data Exchange 订阅用户开始使用

    了解使用 AWS Data Exchange 控制台成为 AWS Data Exchange 上的数据产品订阅用户的完整流程。

    探索指南 »

    AWS Data Exchange

    作为 AWS Data Exchange 提供商开始使用

    了解使用 AWS Data Exchange 控制台成为 AWS Data Exchange 上的数据产品提供者的完整流程。

    探索指南 »

    Amazon AppFlow icon

    Amazon AppFlow 入门

    了解 Amazon AppFlow 并探索入门先决条件。



    探索指南 »

    AWS Data Exchange

    AWS Data Exchange 研讨会

    探索自助服务实验室,您可以使用它来了解和学习如何将 AWS 服务与第三方数据结合使用,为您的数据分析项目添加见解。 

    开始使用研讨会 »

    Amazon AppFlow icon

    Amazon AppFlow 研讨会

    了解 Amazon AppFlow 以及如何在常用 SaaS 服务和 AWS 之间轻松传输数据。



    开始使用研讨会 »

预测分析和机器学习

  • 框架和接口
  • Amazon Deep Learning AMI

    AWS Deep Learning AMI 入门

    探索有关选择适合您的 DLAMI、选择适合您的使用案例和预算的实例类型的提示,以及描述自定义设置的其他信息。
    探索指南 »

    Amazon Deep Learning AMI

    深度学习 AMI 教程


    一组教程,向您展示如何将深度学习 AMI 与 Conda 软件结合使用。



    开始使用教程 »

    Amazon Deep Learning AMI

    开始使用 AWS Deep Learning AMI 进行深度学习

    了解 AWS 深度学习 AMI(亚马逊机器映像),您可以通过它来构建自定义环境和工作流程。


    阅读博客文章 »

  • 平台服务
  • Amazon SageMaker

    Amazon SageMaker 的工作原理


    浏览机器学习概述和 Amazon SageMaker 的工作原理。 



    探索指南 »

    Amazon SageMaker

    Amazon SageMaker 入门

    我们将向您展示如何通过在虚拟集群上部署 Spark 应用程序开始在 EKS 上使用 Amazon EMR。

    探索指南 »

    Amazon SageMaker

    在不编写代码的情况下生成机器学习预测
     

    了解如何使用 Amazon SageMaker Canvas 在不编写任何代码的情况下构建机器学习模型并生成准确的预测。

    开始使用教程 »

  • 直接数据集成
  • AWS Athena ML

    使用 Amazon Athena 机器学习

    探索 Amazon Athena 机器学习如何通过 Athena 编写使用 Amazon SageMaker 运行机器学习(ML)推理的 SQL 语句。



    探索指南 »

    AWS QuickSight ML

    通过 Amazon QuickSight 中的机器学习获得见解

    了解 Amazon QuickSight 企业版的机器学习和自然语言功能如何帮助您超越描述性和诊断分析,并引导您进入预测和决策阶段。

    探索指南 »

    AWS Redshift ML

    Amazon Redshift ML 入门

    了解如何通过 Amazon SageMaker,使用 Redshift 集群中的数据训练模型。





    探索指南 »

    AWS Neptune ML

    如何开始使用 Neptune ML

    我们将向您展示如何轻松设置 Neptune ML 并推断图形中顶点的属性。

    阅读博客文章 »

探索

架构图

探索架构图,以帮助您在 AWS 上开发、扩展和测试分析解决方案。

探索架构图 »

 

白皮书

浏览白皮书以帮助您入门、学习最佳实践,以及了解您的分析选项。

探索白皮书 »

 

AWS 解决方案

探索经过审查的解决方案和架构指南,了解分析服务的常见应用场景。

探索解决方案 »

 

此页内容对您是否有帮助?