Amazon Web Services ブログ

生成 AI を使用して商品画像から新機能を引き出す

この記事は 「Unlock new capabilities from product images using generative AI」(記事公開日: 2024 年 11 月 12 日)の翻訳記事です。

小売および消費財企業は、顧客体験の向上、業務効率の向上、新しい収益源の創出を目的として、生成 AI を採用していっています。 マルチモーダルおよび画像生成の大規模言語モデル (LLM) の最近の進歩により、ビジュアルデータの利用も拡大しています。 たとえば、Amazon の生成 AI ツールは、出品者が商品説明や動画広告を作成できるよう支援し、業務を効率化し、販売体験を向上させます。

このブログ記事では、革新的な生成 AI のユースケースを 3 つご紹介します。 それぞれのユースケースでは、生成 AI が商品画像やビジュアルアセットからどのように新しい可能性を引き出すことができるかに注目しています。 また、小売企業や消費財企業にもたらされる主なメリットについても説明し、これらのソリューションを AWS 上で実装するためのアーキテクチャガイダンスを提供します。

画像ベースの生成 AI のユースケース

画像からテキストへ

コンピュータービジョン機能を備えた生成 AI モデルは、商品コンテンツを変革し、顧客体験を大幅に向上させることができます。 Amazon Bedrock でホストされている Anthropic の Claude 3 などのマルチモーダル LLM を使用することで、企業はビジュアルアセットから詳細な商品説明をシームレスかつ自動的に作成できます。

マルチモーダル LLM は、商品画像内の重要な要素を認識して識別できます。 関連するメタデータを抽出し、この情報を説得力のある、読みやすいテキストに変換します。 生成されたコンテンツは、検索エンジン最適化 (SEO) を改善して商品を見つけやすくし、実際の商品と商品情報の間のギャップを埋め、より包括的で正確な詳細を作成することで、商品ページの内容を充実させます。 こうした改善は、コンバージョン率の向上と顧客満足度の向上につながります。

消費財ブランドは、商品の寸法、素材、スタイルを自動的に推論することで、カタログ管理を効率化することもできます。 この自動化により、より完全で充実した商品データが作成され、業務効率が向上します。 LLM は画像内の特定のオブジェクト、シーン、属性を識別できるため、コンテンツモデレーションのワークフローが効率化され、その一方で規制を遵守するようにします。 また、目の見えないユーザーや弱視のユーザー向けに、詳細な画像キャプションを自動で作成できるため、アクセシビリティも向上します。

アーキテクチャの例

  1. 商品イメージと説明プロンプトを 1 つの入力に組み合わせ、Anthropic Claude 3.5 といった Amazon Bedrock 上でホストされているマルチモーダル言語モデルで処理を行います。例ではチェック柄のシャツの画像に対し、「この商品イメージにあった詳細で、検索エンジンで最も見つけやすくなるような商品説明文を作成して」と指示が付加されています。
  2. Amazon Bedrock はこの商品とその特徴について豊富な情報を含む詳細な説明を出力します。例では「このスタイリッシュなチェック柄のフランネルシャツは様々な用途で使えるトレンディな基本アイテムです。高品質な綿フランネル生地を使用し…」といった説明が出力されています。

画像ベースの検索

画像ベースの検索では、コンピュータービジョンを採用して、より直感的で効果的な検索体験を提供します。 Amazon Bedrock の Amazon Titan Multimodal Embeddings などのマルチモーダル埋め込みモデルや、Amazon OpenSearch Serverless 用の Vector Engine などのベクターデータベースを使用することで、企業はテキストとビジュアルデータの両方を理解する自然言語のセマンティック検索機能を実装できます。 このアプローチにより、より直感的で魅力的なショッピング体験が可能になります。つまり、顧客に厳格な検索条件を強いるのではなく、自然言語と視覚的な手がかりを通じて顧客の意図を理解しようとします。

小売および消費財アプリケーションでは、画像ベースの検索は、顧客が自然言語クエリを使用して商品を見つけるのに役立ちます。 顧客は参考画像をアップロードすることもできます。 顧客は「花柄の赤いドレス」を検索したり、画像をアップロードしてそれに類似するドレスを検索したりすることができます。 システムは視覚的にも意味的にも類似した商品を検索するため、検索の関連性が向上し、コンバージョン率が高まる可能性があります。 組み込み LLM は商品画像を処理し、テキストとビジュアル入力を関連する商品組み込みにマッピングします。 組み込みモデルは、複雑な検索入力の解釈と照合という面倒な作業を行ってくれるため、広範囲にわたるキーワード管理や SEO の取り組みの必要性が軽減されます。

画像ベースの検索は、商品の見つけやすさと検索結果の関連性を大幅に向上させます。 顧客エンゲージメントが向上し、コンバージョン率の向上と売上の増加につながります。 さらに、顧客の意図を深く理解することで、小売業者は状況に応じたパーソナライズされた商品レコメンデーションを提供できるようになり、ショッピング体験がさらに向上し、ビジネスの成長を促進します。

アーキテクチャ例

  1. 商品画像は Amazon Bedrock 上でホストされているマルチモーダル組み込みモデル(例えば、Amazon Titan Multimodal Embeddings など)で処理され、商品のビジュアルな特徴をコード化した数値ベクトルに変換されます。
  2. 手順 1 で生成されたベクトル情報は Amazon OpenSearch といったベクトルデータベースに格納されます。
  3. ユーザーが検索したい対象商品の画像をアップロードすると、マルチモーダル埋め込みモデルによって処理され、ベクトル表現に変換されます。
  4. ユーザーが入力したクエリのベクトル表現はベクトルデータベースを検索し、最も類似した画像埋め込みを探し出すと、それに関連した商品を出力します。

画像生成 (テキストから画像、画像から画像)

Stability AI の Stable Diffusion UltraAmazon Titan Image Generator V2 などの画像生成モデルは、どちらも Amazon Bedrock でホストされており、商品のアイディエーションやパーソナライズされた体験に新たな可能性を切り開いています。 このアプローチにより、アイディエーションが迅速になり、複数あることの多いデザイン案を同時に検討して方向性を決定できます。

一般的なユースケースでは、ビジュアルを利用して商品のアイディエーションを行います。 設計者は、基本的なスケッチやコンセプトから始めて、画像生成モデルを使用して、さまざまな商品のアイデアやバリエーションを開発し、具体化できます。

小売業者はまた、画像生成を利用して、ユーザーが指定したシーンや環境で商品をレンダリングすることで、パーソナライズされた商品体験を作り出せます。 たとえばユーザーが居間の画像をアップロードすると、モデルはそれを参照し、その居間に実際に商品が置かれているかのような画像を生成します。 このように指示に基づいて画像を作成することで、購買決定を支援し、顧客エンゲージメントを高めます。

生成 AI を活用した画像生成は、ビジネスに大きなメリットをもたらします。 商品のアイディエーションと設計を加速させると同時に、購入の決定に役立つ高度にパーソナライズされた顧客体験を可能にします。 ただし、これらの機能を実装する場合、企業は信頼性、透明性、責任ある使用を徹底する必要があります。

AWS は、Amazon Titan Image Generator モデルで生成された画像に目に見えない電子透かしを入れることで、こうした取り組みを支援しています。 これにより、商品表現に対する信頼を維持することができます。 また、基本モデルのコンテンツフィルタリング機能は、誤解を招くような商品画像や有害な商品画像が生成されるのを防ぎ、ブランドイメージを守るのに役立ちます。 商品の完全性を保ち、顧客との関係を強化しながら、生成 AI の革新的な可能性を最大限に引き出すには、ブランドはビジュアルコンテンツ制作における AI の使用に関する明確なポリシーを確立する必要があります。 これには、AI をいつ、どのように利用するかについて、顧客に対して明確に説明できるよう透明性を保つことも含まれます。 これらの倫理ガイドラインに従い、AWS の生成 AI 機能を利用することで、企業はクリエイティブな新しいアプリケーションを模索し、収益の可能性を引き出して事業を進めることができます。

アーキテクチャ例

  1. Amazon Bedrock 上のマルチモーダル LLM (例えば Anthropic Claude 3.5 Sonnet)を使って、アイデアの下書きスケッチを解析し、画像生成モデル向けの詳細なプロンプトを生成します。
  2. 生成されたプロンプトとオリジナルのアイデア画像を Amazon Bedrock 上でホストされている、Amazon Titan Image Generator G1 といった画像生成 LLM に入力します。
  3. 入力プロンプトとオリジナルの下書きスケッチに基づいた高精細にレンダリングされたアイデアイメージが出力されます。

LLM で小売業者の生産性向上

生成 AI は従業員に取って代わるものではありません。 チームがより多くのことを成し遂げられるように支援するのが役目です。 これらのテクノロジーを導入することで、小売業者はさまざまな業務においてアウトプットの質と量の両方を大幅に向上させることができます。 業界を代表するブランドはすでに AWS の生成 AI ソリューションでビジネスを変革しています。

  1. The Very Group が生成 AI でどのように顧客体験を向上させたかをご覧ください。
  2. Zalando と AWS Gen AI Innovation Center が Amazon Bedrock を使用して非構造化データから商品属性を抽出した方法をご覧ください。

生成 AI で小売業務を変革する準備はできていますか? 次の一歩を踏み出しましょう。

  1. Generative AI for Retail and Customer Goods ページで、AWS がどのように効率を高め、顧客エンゲージメントを高め、ビジネスのイノベーションを加速できるかをご覧ください。
  2. AWS の小売スペシャリストとの個別相談を設定していただき、御社の課題に関してお聞かせください。
  3. AWS re: Invent の「RCG206: How Nykaa automates product descriptions using generative 」を視聴して、インドの大手小売業者である Nykaa が生成 AI を使用して商品説明を作成している方法をご覧ください。
  4. こうした機能のライブデモンストレーションをNRF 2025: Retailer’s Big Show (2025 年 1 月 12 日~ 14 日) にて実施いたしました。詳細はこちら

著者について

Matt Barbieri

Matt Barbieri は AWS のシニアソリューションアーキテクトで、ニューヨークオフィスに勤務しています。 AWS の元顧客として 10 年近くの経験を持つ Matt は、クラウドの導入とデジタルトランスフォーメーションを通じて小売および消費財企業のビジネスを導いています。 生成 AI やその他のテクノロジーを使用してビジネス上の課題を解決することを専門としています。 Matt は、複雑な技術概念を実用的な戦略に変換しながら、安全かつ規制に準拠した効率的な AWS ソリューションを設計しています。 彼の仕事は、小売企業や消費財企業が急速に変化する市場でイノベーションを加速し、より効果的に競争できるようにすることです。

本ブログは CI PMO の村田が翻訳しました。原文はこちら