亚马逊AWS官方博客

Category: Analytics

基于大语言模型知识问答应用落地实践 – 知识库构建(下)

本文在本系列上篇博客的基础上,通过一个真实数据场景的实践进行更详细的阐述,讨论的重点更多放在针对大规模的文档,更快更完整的构建基于向量数据的知识库上面,这对于一些行业如金融、法律、医疗等行业知识库的构建具备指导借鉴意义。本文的第一部分对于 OpenSearch 的集群配置选择给出了一些方法参考,第二三四部分对于数据摄入和检索性能等方面给出了一些初步的经验总结。

语义搜图检索方案

图像检索(包括文搜图和图搜图)是各个行业中常见的一个应用场景。比如在电商场景中,基于以图搜图做相似商品查找;在云相册场景中,基于文搜图来找寻所需的图像素材……在本文中,我们将介绍两种基于语义的搜图检索方式以及部署方案,您可以实际测试两种方式在特定应用场景下的搜索率以及搜索的准确性,并选择更加适合的方案使用。

CDC 一键入湖:在 Amazon EMR Serverless 上运行 Apache Hudi DeltaStreamer

Apache Hudi 的 DeltaStreamer 是一种以近实时方式摄取数据并写入 Hudi 表的工具类,自 `0.10.0` 版开始,Hudi 在 DeltaStreamer 的基础上增加了基于 Debezium 的 CDC 数据处理能力。另一方面,越来越多的 Amazon EMR 的用户开始使用 Amazon EMR Serverless。一个是“全配置”的 Hudi 工具类, 一个是“开箱即用”的 Spark 运行环境,两者结合在一起,仅通过一条命令,就可以轻松实现 CDC 数据入湖。

使用 OpenTelemetry 实现现代化应用可观测性指南

博客重点讲解了在 Amazon EKS 环境下使用开源组件实现全栈可观测性的实践,包括日志传输、性能指标采集、应用跟踪和告警设置等。通过一个 Spring Boot 样例程序,展示了如何使用 OpenTelemetry 和 Amazon 的托管服务快速部署和设置跟踪、日志和指标等观测功能。