基于 Amazon Bedrock 的电商行业图片检索解决方案

（一）方案背景

大模型在电商行业的应用趋势

随着电商行业的快速发展，新技术的应用也在不断演进。特别是生成式人工智能（AI）技术，正在被越来越多的电商行业公司作为提升竞争力的关键工具。亚马逊云科技作为生成式 AI 技术的推动者，在各个行业中不断的推出贴合实际业务场景，易于落地的应用解决方案。电商行业企业对图片检索的需求如相似商品推荐、以图搜图、个性化推荐、自动标签生成、商品合规审核、竞品分析、库存管理等。利用图片检索解决方案可以提升用户体验、增加转化率、优化商品管理与库存并简化运营流程。

亚马逊云科技的 Amazon Bedrock 服务是利用基础模型构建和扩展生成式人工智能应用程序的最便捷方式。Amazon Bedrock 提供对各种 LLM 模型的 API 灵活快速调用的能力。应用大模型，在图片检索场景中可以提供增强的能力，如电商细分品类图片精准检索能力，用户可自定义提示词利用大模型生成对图片的描述信息，提升偏向性的检索召回效率，还可自定义提示词对召回图片进行重新排序，更加精准地检索图片。

本文将详细介绍如何基于 Amazon Bedrock 结合 Amazon Opensearch、Amazon S3、Amazon Lambda 等服务快速构建端到端的图片解决方案。

方案价值

独立站

电商独立站（eCommerce Independent Website）是指品牌或商家通过自建的独立电商平台进行产品销售，而非依赖于第三方电商平台（如亚马逊等平台）。这种方式让商家能够完全掌控自己的品牌形象、销售数据、定价策略和用户体验。通过自有网站，商家能够提供定制化的购物体验，积累用户数据，增强品牌忠诚度。

平台卖家

平台卖家指那些通过大型第三方电商平台（如亚马逊、eBay、淘宝等）进行产品销售的商家。这类卖家依托于电商平台自带的流量、支付系统、物流网络等基础设施，降低了自建网站的成本和复杂度，但也面临着许多平台化的限制。

服务商

电商服务提供商是指那些为独立站和平台卖家提供技术、运营、营销、物流等解决方案的公司或机构。他们通常为电商业务的不同环节提供支持，例如建站服务、数字营销、仓储物流、客户服务外包等。

不同业务形态对图片检索的需求

需求内容	平台卖家	独立站	服务商
提升客户体验	搜索引擎优化：卖家上传商品图片时，系统自动生成关键词标签，帮助提高商品搜索和展示的准确性，优化搜索引擎优化（SEO）。	相似商品推荐：当用户查看某个商品时，平台通过图片检索技术推荐视觉上相似的商品，帮助增加转换率和促进交叉销售。	智能推荐引擎：为电商平台提供基于视觉检索的智能推荐工具，提升转化率。系统可以基于用户点击的商品图片，为电商商家推荐相关产品，助力实现精准营销。
运营提效	相似商品及素材查找：卖家可以通过上传图片，查找平台上已经存在的相似商品，方便定价对比或库存更新。	上架管理：帮助平台快速识别视觉相似的商品，避免重复上架，提高商品管理效率。
服务优化	合规审核：自动检测卖家上传的图片，防止上传重复、假冒伪劣商品或违禁品，提高平台的合规性和用户信任度。	产品检索：用户可以通过上传或点击某个商品图片，找到独立站上相同或类似的商品。尤其适合时尚、家居等类目。	视觉搜索优化工具：服务商可以为电商平台或独立站开发视觉搜索引擎，帮助客户提供以图搜图的能力，优化用户购物体验。

（二）方案介绍

架构总览

关键技术及功能

电商细分品类图片精准检索能力

用户可自定义提示词利用大模型生成对图片的描述信息，提升偏向性的检索召回效率；
可自定义提示词对召回图片进行重新排序，更加精准地检索图片；
亚马逊云科技架构师团队可提供提示词参考，帮助不同品类客户要求定制，进一步检索能力。

使用业内先进低成本的大模型及存储服务

默认使用 Amazon Titan Multimodal Embeddings 模型，可将图片、文本在一个向量空间中向量化，提升联合文本和图片检索能力；
默认 Amazon Nova 模型进行图片描述及重排序，可以精准捕获图片细节，提升检索准确性。Amazon Nova 是亚马逊云科技提供的基础模型（FM），可提供前沿智能和行业领先的性价比，仅在 Amazon Bedrock 上提供。Amazon Nova Micro、Amazon Nova Lite 和 Amazon Nova Pro 是接受文本、图像和视频输入并生成文本输出的理解模型，提供广泛的能力、准确性、速度和成本操作点。

插件式提供图片标注、重排序功能，灵活控制成本

成本构成：向量数据库 Amazon OpenSearch、存储 S3、大模型托管服务 Amazon Bedrock、服务后端 Amazon Lambda；
可选图片描述标注、检索重排序功能，增强检索准确度。

（三）方案实现与效果

您可以尝试此 workshop，以帮助您更好地体验和理解此方案的实现和效果。整体功能详情如下图所示。

搜索演示

业务逻辑

图片上传

提供 API 接口进行单张和最多 100 张图片的上传，部署方案后，可以通过 UI 或直接调用 API 进行图片上传。上传图片时，可选生成图片的精准描述，用户也可在源代码中修改提示词，获取更加贴近业务场景的关键描述信息，通过模型自动生成的描述信息也可以通过 API 或直接在 UI 进行修改。后续，描述文本及图片将在一个通过多模态向量模型，在一个向量空间进行存储。实现文本+图片的多模态检索。

图片检索

同样提供 API 接口可以分别通过文字、图片、文字+图片进行图片检索。对于纯文本或图片检索，通过语义相近返回近似结果，并且按匹配度进行排序。对于文本+图片结合的图片检索，可以开启重排序功能，提供文字细节描述检索图片，增强检索准确度。

重排序

由于复杂语义关系的限制，使用 embedding 做初始检索可能并不总是按真正的相关性顺序对文档进行排名。Rerankers 通过根据更复杂的相关标准进行重新评估和重新排序这些结果来优化。

利用具有多模态功能的 LLMs 在 RAG 系统中进行重新排序可以产生更准确和上下文感知的检索结果，从而提高信息检索系统的有效性和用户体验。

（四）生成优化建议

1）利用 Bedrock Batch API 处理大批量图片存储

在实际场景中，企业往往已经有一个图库，需要一次性载入。而直接通过 API 上传，因为需要每次调用单次大模型推理，效率较低且成本会高。Amazon Bedrock 可以使用批处理 API ，更有效地使用基础模型（FM）进行推理。并且能够汇总响应并对其进行批量分析。在方案中，我们提供了脚本，可以从 S3 桶中，将图片批量向量化载入 Opensearch 服务中。

2）优化描述生成的提示词及重排序的提示词，以适应实际业务

用户可自定义提示词利用大模型生成对图片的描述信息，提升偏向性的检索召回效率；可自定义提示词对召回图片进行重新排序，更加精准的检索图片；可以联系亚马逊云科技架构师团队，提供提示词参考，帮助不同品类客户要求定制，进一步检索能力。

3）成本优化

您可以从以下几个方面在生产过程中优化本方案的成本：

模型 PE 调优，减少 token 调用；
优化图片检索效率，测试不同图片分辨率下，标签生成及 reranking 的效果；
使用 Batch 调用模型，批量生成图片描述；
使用托管的 Amazon Opensearch Graviton 实例或 serverless 集群替换，选择更优成本的向量数据库规格。

*前述特定亚马逊云科技生成式人工智能相关的服务仅在亚马逊云科技海外区域可用，亚马逊云科技中国仅为帮助您了解行业前沿技术和发展海外业务选择推介该服务。

亚马逊AWS官方博客