亚马逊AWS官方博客
Category: Analytics
Amazon DocumentDB 与 Amazon OpenSearch Service 的零 ETL 集成现已推出
在这篇博文中,我们将向您展示如何使用 Amazon OpenSearch Ingestion,来配置 Amazon DocumentDB 与 OpenSearch Service 的零 ETL 集成。这涉及到对 Amazon DocumentDB 数据执行完全加载,并使用变更流将最新数据流式传输到 Amazon OpenSearch Service。
浅谈利用 AWS Redshift + dbt + MWAA 搭建现代数据栈
讲述利用 AWS Redshift+dbt + MWAA 搭建现代数据栈的方案,讲解搭建方案的步骤,以及演示在此方案基础上如何处理数据。
探索 Amazon EMR HBase 托管 WAL workspaces 新功能
背景 Amazon EMR 是行业领先的云大数据解决方案,适用于使用开源框架(如 Apache Spark、A […]
基于亚马逊云科技数据分析服务,构建可靠数据治理模式
随着车联网技术的快速发展,汽车行业正在经历前所未有的数字化转型。大量来自车载传感器、诊断系统和远程监控设备的数据,为汽车制造商提供了全新的洞察和创新机会。为了充分利用这些宝贵的数据资产,构建一个先进的车联网数据分析平台(Vehicle Data Platform,车联网大数据平台)变得至关重要。基于亚马逊云科技(AWS)的数据分析产品组合,打造了一个横跨汽车产品全生命周期的车联网大数据平台。
使用 Amazon Glue 完成 SMT 贴片机日志数据 ETL 处理
SMT(表面贴装技术)是离散制造业中的一项关键技术,它通过自动化设备将电子元件直接贴装在印刷电路板(PCB)的 […]
利用 Amazon EMR Serverless、Amazon Athena、Apache Dolphinscheduler 以及本地 TiDB 和 HDFS 在混合部署环境中构建无服务器数据仓库(三)EMR Serverless 操作要点、优化以及开放集成测试
在数据驱动的世界中,企业正在寻求可靠且高性能的解决方案来管理其不断增长的数据需求。本系列博客从一个重视数据安全和合规性的 B2C 金融科技客户的角度来讨论云上云下混合部署的情况下如何利用亚马逊云科技云原生服务、开源社区产品以及第三方工具构建无服务器数据仓库的解耦方法。
利用 Amazon EMR Serverless、Amazon Athena、Apache Dolphinscheduler 以及本地 TiDB 和 HDFS 在混合部署环境中构建无服务器数据仓库(二)Apache DolphinScheduler 集成以及 LOB 粒度资源消费分析
在数据驱动的世界中,企业正在寻求可靠且高性能的解决方案来管理其不断增长的数据需求。本系列博客从一个重视数据安全和合规性的 B2C 金融科技客户的角度来讨论云上云下混合部署的情况下如何利用亚马逊云科技云原生服务、开源社区产品以及第三方工具构建无服务器数据仓库的解耦方法。
利用 Amazon EMR Serverless、Amazon Athena、Apache Dolphinscheduler 以及本地 TiDB 和 HDFS 在混合部署环境中构建无服务器数据仓库(一)云上云下数据同步方案设计
在数据驱动的世界中,企业正在寻求可靠且高性能的解决方案来管理其不断增长的数据需求。本系列博客从一个重视数据安全和合规性的 B2C 金融科技客户的角度来讨论云上云下混合部署的情况下如何利用亚马逊云科技云原生服务、开源社区产品以及第三方工具构建无服务器数据仓库的解耦方法。
使用 Amazon Athena 查询分析 Apache Paimon 数据
本文探索了使用 Amazon Athena 来对 Apache Paimon 表中的数据进行查询分析,包括使用 Athena for Apache Spark 以及开发 Athena Paimon Connector,使用 Athena Federated Query 这两种方式来连接和查询 Paimon 表。
基于 Amazon Bedrock 托管 Claude3 实现 RAG 增强文本检索的 Text to SQL 方案
基于 Amazon Bedrock 托管 Claude3 实现 RAG 增强文本检索的 Text to SQL 方案。其中 RAG 通过 Amazon Titan 实现 Embedding,通过向量检索工具进行向量文件保存和向量检索。最后得到有知识库背景的 prompt,连同上下文一起发送给大模型,得到更精准的输出。