Amazon Web Services ブログ

ルームクリップ株式会社様の AWS 生成 AI 事例 「軽量基盤モデルを用いた画像内の家具の検出システム」 のご紹介

本ブログは、ルームクリップ株式会社と Amazon Web Services Japan が共同で執筆しました。また、今回の内容を含む講演動画 (Lambda で動くプロンプトライクな物体検出システム) も公開されていますので、興味をお持ちいただけましたら合わせてご覧ください。

ルームクリップ株式会社は「日常の創造性を応援する」というミッションを掲げ、住生活の領域に特化した日本最大級のソーシャルプラットフォーム「RoomClip」を運営しています。同プラットフォームでは、ユーザーが投稿した「住生活の実例写真」から欲しいアイテムや好きなブランドと繋がることができます。

同社で投稿された部屋写真を自動で解析して類似商品のリンクを記載する機能を実装しました。これによりユーザーは投稿された写真に写る家具を取り扱う EC サイトに遷移したり、一部は Roomclip 内で直接購入できるため、シームレスな購買体験が得られます。この機能のコアとなる家具の検出システムに軽量な基盤モデルを採用し AWS Lambda 上で実行した事例を紹介いたします。

課題

家具の検出システムの実装には要件が 2 つあり、1) ある写真ではカーテンにリンクを付与するが、ある写真では付与しないというような、細やかな運用のドメイン知識を反映できること。2) 今までリンクが付けられていなかったコーヒーメーカーにもリンクを付与したいというような、追加のニーズに柔軟に対応できることが求められます。

まずは、家具検出システム構築に必要な要素であるセグメンテーション、家具の認識、座標の取得を、既存の仕組みを用いて検討しました。しかし、既存の API サービスを利用する場合、新たに検出したい家具を追加するには追加学習が必要で、ニーズに即座に応えるのが難しいこと。さらに過剰に家具を検出してしまうという課題があり、柔軟なリンク付与対象の調整が難しいことが分かりました。また、自社で機械学習モデルを開発する場合は GPU の利用コストと学習時間がかかるという課題がありました。

ソリューション

ルームクリップ社では課題解決のために、軽量な基盤モデルを利用して自然言語で指定した家具のみを検出させる以下のようなアプローチを取りました。

  • FastSAM による物体のセグメンテーションと座標取得
  • 基盤モデルの CLIP による自然言語で指定した家具の認識
  • FastSAM と CLIP を組み合わせた物体検出のフローを AWS Lambda 上で構築

FastSAM のセグメント範囲の大小を調整できるカスタム性と、CLIP を利用した自然言語で指定した家具のみを抽出するフィルターを組み合わせることで、細やかなビジネスニーズに応える柔軟な家具検出システムを実現しました。投稿された写真が Amazon Simple Storage Service (Amazon S3) に保存されたことをトリガーに AWS Lambda 上の家具検出システムが実行され、処理結果が Amazon Relational Database Service (Amazon RDS) に保存されるというシンプルな構成です。ここで注目すべきは家具検出システムは CPU で動作し、 AWS Lambda のメモリは 4 GB 程度で、写真 1 枚あたりの計算は 60 秒以下で完了する高速かつ低コストなシステムであることです。検出すべき家具が追加された場合でも、追加学習不要でプロンプトを変更するだけで対応可能です。

導入効果

生成 AI を活用したことにより独自のニーズに即座に応えられる家具検出システムの構築を実現しました。プロンプトで認識すべき家具を指定できるため、非エンジニアでも仕様を変更できる柔軟なシステムとなりました。新たに認識したい家具が増えた場合でも、追加学習不要でプロンプトの修正のみで対応可能です。ビジネス的な効果としては、導入前と比較して商品ページの閲覧数がおよそ 2 倍に増加する大きな効果が得られました。また基盤モデルを AWS Lambda 上で実行することで、コストと運用負荷を大幅に削減できました。ルームクリップ社は、今後も AI やクラウドサービスの活用を推進し、住生活の領域でイノベーションを続けていく考えです。

ソリューションアーキテクト 長友 健人