Analytics | 亚马逊AWS官方博客

基于大语言模型知识问答应用落地实践 – 知识库构建（下）

本文在本系列上篇博客的基础上，通过一个真实数据场景的实践进行更详细的阐述，讨论的重点更多放在针对大规模的文档，更快更完整的构建基于向量数据的知识库上面，这对于一些行业如金融、法律、医疗等行业知识库的构建具备指导借鉴意义。本文的第一部分对于 OpenSearch 的集群配置选择给出了一些方法参考，第二三四部分对于数据摄入和检索性能等方面给出了一些初步的经验总结。

语义搜图检索方案

图像检索（包括文搜图和图搜图）是各个行业中常见的一个应用场景。比如在电商场景中，基于以图搜图做相似商品查找；在云相册场景中，基于文搜图来找寻所需的图像素材……在本文中，我们将介绍两种基于语义的搜图检索方式以及部署方案，您可以实际测试两种方式在特定应用场景下的搜索率以及搜索的准确性，并选择更加适合的方案使用。

基于大语言模型知识问答应用落地实践 – 知识库构建（上）

本文介绍了大语言模型+知识库用于知识问答机器人场景的业务背景，并对其中的知识库构建的所有环节，包括文档拆分，知识向量化，入库向量数据库以及调优进行讨论和分析。

海纳百川：基于 Redshift Streaming Ingestion 实现日志实时入仓

本文介绍如何使用 Redshift Streaming Ingestion 及 fluent bit 实现日志实时入仓。

如何使用 Amazon EMR on Amazon EKS 构建可靠、高效、用户友好的 Spark 平台

介绍如何在 Amazon EKS 上构建安全、高效和易于使用的 Spark 平台，以支持数据科学家和分析师

使用 Transformer 和 Amazon OpenSearch Service 构建基于列的语义搜索引擎

介绍了如何使用 Transformers 和 Amazon OpenSearch Service 构建基于表格列的语义搜索引擎

使用 Amazon Redshift Serverless 和 Toucan 构建数据故事应用程序

介绍如何使用 Amazon Redshift Serverless 和 Toucan 构建数据讲述应用程序

CDC 一键入湖：在 Amazon EMR Serverless 上运行 Apache Hudi DeltaStreamer

Apache Hudi 的 DeltaStreamer 是一种以近实时方式摄取数据并写入 Hudi 表的工具类，自 `0.10.0` 版开始，Hudi 在 DeltaStreamer 的基础上增加了基于 Debezium 的 CDC 数据处理能力。另一方面，越来越多的 Amazon EMR 的用户开始使用 Amazon EMR Serverless。一个是“全配置”的 Hudi 工具类，一个是“开箱即用”的 Spark 运行环境，两者结合在一起，仅通过一条命令，就可以轻松实现 CDC 数据入湖。

使用 OpenTelemetry 实现现代化应用可观测性指南

博客重点讲解了在 Amazon EKS 环境下使用开源组件实现全栈可观测性的实践，包括日志传输、性能指标采集、应用跟踪和告警设置等。通过一个 Spring Boot 样例程序，展示了如何使用 OpenTelemetry 和 Amazon 的托管服务快速部署和设置跟踪、日志和指标等观测功能。

亚马逊AWS官方博客

Category: Analytics

企业级数据共享规模化模式