亚马逊AWS官方博客
Category: Analytics
在基于 Amazon 云平台的湖仓一体架构上构建数据血缘的探索和实践
本文会为您介绍在湖仓一体架构下,如何将亚马逊云科技的数据湖 Amazon S3 在数据 ETL 处理过程中通过 Spline 捕获并产生在图数据库 ArangoDB 中的数据血缘和数据仓库 Amazon Redshift 通过 DBT 产生的数据血缘进行合并,并使用图数据库 Amazon Neptune 通过 DAG 图进行可视化展示。
Amazon MSK 推出从 Apache Kafka 到您的数据湖的托管数据传输
我很高兴地宣布 Amazon Managed Streaming for Apache Kafka(Ama […]
基于大语言模型知识问答应用落地实践 – 知识召回调优(下)
本文是本系列的第四篇,对 RAG 场景中的知识召回展开介绍,基于一些实践总结了向量召回问题分析和优化的经验。
Alluxio 本地缓存 + EMR Presto 即席查询加速
对于大数据平台的 OLAP 查询引擎来说,天下武功唯快不破,Presto 做为大数据生态的业界知名的查询引擎和平台,首当其冲承载了业务查询分析的实时响应的需求。 对于 Presto 集群而言,横向扩展,加机器资源固然可以解决绝大多数性能问题,但成本也是客户考虑的重要因素。本文详细介绍了在 Amazon EMR 上集成 Alluxio 本地缓存做为 Presto 即席查询加速的具体实现,包括 Alluxio Presto 本地缓存整体架构原理,在 Amazon EMR 上 Alluxio 缓存相关的配置及对比测试。
基于大语言模型知识问答应用落地实践 – 知识召回调优(上)
本文是本系列的第三篇,对 RAG 场景中的知识召回展开介绍,对比和分析了向量召回和倒排召回的优劣势,并基于一些实践总结了倒排召回问题分析和优化的经验。
利用 Amazon Web Services Athena 处理 CSV 文件中的 JSON 数据
利用 Athena 处理 CSV 中 JSON 数据的多种方案介绍和对比,以及适用的场景分析。
利用 Apache Ranger 管理 EMR 中的数据权限
在 Amazon EMR 中,通过部署 Apache Ranger 和 Simple AD 服务,对 Amazon EMR 中的数据进行 Hive 表级别的权限管理。
Tricentis 如何使用 Amazon Redshift 在软件开发生命周期中快速解锁见解
介绍了 Tricentis 如何使用 Amazon Redshift 在软件开发生命周期中解锁洞察力
企业级数据共享规模化模式
介绍如何通过 AWS 的数据共享服务在企业中规模化地共享数据
基于大语言模型知识问答应用落地实践 – 知识库构建(下)
本文在本系列上篇博客的基础上,通过一个真实数据场景的实践进行更详细的阐述,讨论的重点更多放在针对大规模的文档,更快更完整的构建基于向量数据的知识库上面,这对于一些行业如金融、法律、医疗等行业知识库的构建具备指导借鉴意义。本文的第一部分对于 OpenSearch 的集群配置选择给出了一些方法参考,第二三四部分对于数据摄入和检索性能等方面给出了一些初步的经验总结。