Amazon Web Services ブログ

【開催報告】テキストから画像への生成系AIによる革新的技術の紹介

アマゾン ウェブ サービス ジャパン合同会社 ソリューションアーキテクトの濱野谷です。2023年7月28日にオンラインで開催された「テキストから画像への生成系AIによる革新的技術の紹介」では、生成系 AI によるテキストからの画像生成について3つのセッションをお届けしました。

オープニングで、AWS の AIML GTM スペシャリストの浅倉より、AWS の AI/ML 関連のサービスの一覧の中で、AI による画像生成に関係するサービスの位置づけをご紹介しました。その後、Stability AI Japan の Jerry Chi 様より、画像生成 AI モデルを提供する立場から画像生成 AI 技術の進化と活用事例についてご紹介いただきました。次に株式会社リコーの梅津様より、生成系 AI を活用したソリューションを提供し、顧客価値を創造する取り組みについてご紹介いただきました。最後に、AWS の機械学習ソリューションアーキテクトの呉より、Amazon SageMaker JumpStart を利用した生成系 AI の利用と Fine Tune について紹介いたしました。

「画像生成 AI 技術の進化と活用事例」

Stability AI Japan 株式会社
Head of Japan
Jerry Chi 様

Jerry Chi 様からは、Stability AI Japan 様が提供する画像生成モデルである Stable Diffusion についてご紹介いただきました。Stable Diffusion は2022年8月のリリース以降、日本でも多くのユーザに利用されている、画像生成の人気モデルです。2023年6月23日に最新バージョンの Stable Diffusion XL 1.0 がリリースされました。Stable Diffusion を使用する方法は、1.Stability Platform API を使用する、2.Amazon SageMaker JumpStart のソリューションテンプレートを使用してモデルをデプロイする、3.Amazon Bedrock を使用してAPI経由で使用する、の3つの選択肢から選択できます。
Stable Diffusionは様々な機能を有しています。画像の一部をAIで塗りつぶす inpainting 、写真を枠外に拡張して描画する Uncrop 、1枚の画像から被写体の向きや背景のバリエーションを作成する Reimagine 、ラフスケッチから画像を生成する Stable Doodle などの拡張機能や改造を、Stability AI 様が Web 上で公開している画像編集 AI ツールの Clipdrop で無料で体験することができます。
これらの機能の活用事例として、広告やプロモーションの画像や動画の作成、アニメ制作におけるキャラクター描画や背景の生成、プロダクトや建築・インテリアのデザイン、画像認識モデルの訓練のためのシンセティックデータ(合成データ)生成など幅広い分野での事例もご紹介いただきました。特に、シンセティックデータの生成では、異常検知などデータの収集にお金と時間をかけても集めにくいデータを、早く安く生成することが可能になります。事例では、違法漁業検知 AI の訓練データとして、本物の船の写真を68枚だけ用意し、Stable Diffusion でシンセティックデータを生成した例をお話しいただきました。
まとめとして、今後も生成系 AI の活用は拡大していき誰でもクリエイターになれる時代が来る、それを使いこなすためには、生成される多くの画像をキュレーションしたりプロデュースするスキルが必要になってくる、とのメッセージをいただきました。

「生成系 AI を活用した商品・サービス提供による顧客価値の創造 生成系 AI のソリューション活用に向けて ~リコーの取り組み~」

株式会社リコー
デジタル戦略部 デジタル技術開発センター 所長
梅津 良昭 様

株式会社リコーの梅津様からは、生成 AI を活用した顧客価値の創造の事例として、「働く現場での AI 活用」と、「オフィス領域での高度な AI 活用」の2つの取り組みについてご紹介いただきました。
まず、「働く現場での生成 AI 」では、工場設備などのインフラ点検、屋内物流、加工現場などで、画像や映像生成の AI を活用しています。その一例として、工場の配管やメーターをチェックする自動走行式ロボットについてお話しいただきました。ロボットは敷地内のメーターや設備をカメラを使って確認し、異常が有った場合のみ通知を送ります。サビや煙が発生した異常な状態は画像を使ってトレーニングを行う必要が有りますが、実際に異常な状態になった画像を多く集めるのは困難です。そこで、画像生成 AI を使ってトレーニング用の異常系データのバリエーションを生成し、ロボットのトレーニングに活用しているとのことでした。また、ロボットの自動走行のトレーニングにも、走行経路の画像にトラックや荷物などの障害物を追加した画像を生成しているとのことでした。この他にも、VSLAM 技術や振動モニタリング技術などのリコーが得意とするセンシング技術と、AI 技術を組み合わせることで、向上・設備稼働の自動化や、自動点検、警備等のソリューションの提供を目指していくとのメッセージをいただきました。
続いて紹介いただいた「オフィス領域での高度な AI 活用」では、言語系 AI を中心として AI を活用してオフィス領域での業務に価値を提供しています。この領域については、2023 年 4 月の AWS Summit Tokyo でも事例セッションに登壇いただいています。この領域では、Transformer を用いた LLMの OSS の言語モデルをベースとして、お客様データの追加学習や FineTuning を行う事で、企業に特化したモデルを作成し、業務に活用するソリューションを提供しています。業務活用の事例としては、生成 AI を使い始めるきっかけやユースケースの掘り起こしを目的とした RICHO Chatbot Service からはじまり、企業のドキュメントを使って高度な検索を実現するベクトル検索や、お客様ドキュメントを追加学習したカスタム GPT3 の開発、将来的にはより高度な業務への AI インテグレーションも対応可能とのことです。開発中の AI インテグレーションの例として、眼鏡型ヒアラブル端末を使って、AO 機器の保守エンジニアがトラブル対応時にリコー製 カスタム GPT3 から解決方法の情報を得る例と、対話型サイネージ等でユーザーと対話するデジタルヒューマンの例をお話しいただきました。
最後に、AI を使いたい企業向けにノーコード AI 開発や運用を行える環境の提供を開始したというアナウンスと、使ってみたい企業がいらっしゃれば是非一緒にやっていきたいとのメッセージをいただきました。

「Amazon SageMaker を活用した生成系 AI への第一歩と第二歩の Tuner へのガイド」 [Slides]

アマゾン ウェブ サービス ジャパン合同会社
機械学習ソリューションアーキテクト
呉 和仁

最後のセッションでは、Amazon SageMaker を使い、第一歩として基盤モデルのデプロイ、第二歩として FineTune を実施する方法を、デモを使って紹介しました。

<【デモ】生成系AIを使ってみる>

第一歩のデモの中では、最初のセッションでも紹介された Stable Diffusion を利用した画像生成と、rinna 社の提供する日本語の生成系 AI である japanese-gpt-neo-x-3.6b を利用した言語生成をそれぞれ実施しています。
画像生成では、「印象派風のコテージ」「仕事をしている風景」といった一般的なテキストには、それらしい画像が生成されました。一方で、「呉和仁」という特定の人物を指すテキストには、なんとなく人間のような画像は生成されましたが、本人とは似ていないという課題が発生しました。
テキスト生成では、AIと連歌を嗜もうとしました。最初に、連歌の定義を質問したところ、誤った情報であるハルシネーションを回答するという課題が発生しました。続けて藤原道長の短歌の上の句(五・七・五)「この世をば わが世とぞ思ふ 望月の」を入力し、下の句(七・七)を詠むように指示を出すと、本来の下の句である「かけたることも なしと思へば」でも、七・七調でもない句が出力されてしまい、連化にならないという課題が発生しました。これらの課題を解決するのが、後半のデモで実施する Fine Tuneです。
また、デモの中では、Amazon SageMaker Jump Start を使って提供されるモデルをデプロイしたり、Amazon SageMaker Studio を使って、公開されている Jupiter Notebook 形式のファイルから簡単に生成系AIの利用を開始していました。このように、AWS のサービスを使うと、アルゴリズムの選定やモデルを動かすまでのトレーニングなどの機械学習の開始に必要な膨大な苦労を回避して、生成系 AI の利用を開始することができます。

<【デモ】生成系AIを Fine Tuneする>

第二歩のデモとして、公開されている学習済みモデルで要件を満たせない場合に、少量のデータで再学習しモデルを微調整する FineTune を実演しました。
画像生成では、第一歩のデモで生成できなかった「呉和仁」の6枚の画像と、プロンプトをS3にアップロードし、Amazon SageMaker JumpStart の Train Model を使って学習します。Fine Tune 後のモデルを使うと、オフィスにいるような画像を生成することが出来ました。
テキスト生成では、古今和歌集、新古今和歌集のデータをクロールしたデータや、現代文の短歌をアップロードし、短歌の特徴に合わせて Fine Tune します。Fine Tune 後のモデルでは、ほぼ七・七調で古文独特の言い回しを用いた下の句を生成することができました。また、このデモの関連記事が builders.flash に掲載されています。
デモを通してお伝えしたように、現在では、多くの企業がモデルを公開しており自由に使うことができます。一方で、同じようなモデルを使う他社と差別化するには、用途に合わせたデータを溜めて Fine Tune することが必要です。そのために、良いデータを溜め続け、顧客体験を改善していくことが差別化の重要要素となります。
最後に、API からサーバレスで基盤モデルを使用できる Amazon Bedrock についても言及が有りました。Amazon Bedrock でも Amazon SageMaker と同様 Fine Tune が可能です。そのため、どのようなサービスで生成系AIモデルを使う場合でも、集めたデータは無駄にならないので、データを集める仕組みを今から検討しましょう、というメッセージを伝えさせていただきました。

質問

セミナーを通して参加者から多くのご質問をいただきました。その中から、ピックアップして回答いたします。

Q. Stable Diffusionで同じ prompt で複数回画像を生成すると、異なる画像が生成されますが、どのような仕組みでしょうか?
Stable Diffusionでは、ランダムノイズを使用して元の画像を生成し、ノイズを除去していくことによって画像を生成します。元のランダムノイズが異なるので、異なる画像が表示されます。
一方で、seed と呼ばれる値で画像の生成を制御することが可能です。デフォルトではランダムな画像が生成されるように設定されていますが、seed に固定値を設定して同じ画像を生成することが可能です。

Q. AWS の SageMaker や Bedrock などのサービスで、入力したプロンプトや FineTune の学習データが公開モデルの学習に使われるということはあるでしょうか?
ありません。お客様の推論およびトレーニングデータは、AWS が提供する基盤モデルの更新やトレーニングに使用、共有されることは有りません。

Q. 初心者が最短で生成系 AI を試すには、どの方法が良いでしょうか?
Amazon SageMaker JumpStart がおすすめです。事前トレーニング済みのモデルが複数公開されており、用途に合ったものを選択して簡単にデプロイできます。

Q. デモの中で、6 画像の Fine Tune の所要時間が14分でしたが、Fine Tuneにかかる時間を短縮できるオプションはありますか?
Jobの起動オーバーヘッドが10分くらい占めるので、実時間は4分程度です。また、Epoch 数やバッチサイズなどハイパーパラメータを調整することでも学習時間を変えられます。

Q. デモの読み上げ音声はどのように実装していたのでしょうか?
Amazon Polly を使って音声を生成しています。

Q. FIne Tune したモデルはどのような費用がかかりますか?使用中の他に、使わない場合も費用が発生しますか?
モデル使用中の料金は、選択するインスタンスのサイズによって料金は異なります。詳しくは、Amazon SageMaker の料金のJumpStartの料金をご参照ください。
モデルを Amazon S3 に保存するため、モデルを使用しない間もリージョンの S3 標準タイプの料金が発生します。S3 の料金はリージョンにより異なりますが、一例として、バージニア北部の S3 標準の料金は、0.023 USD / GB / 月ですので、200MB程度の rinna の Fine Tune 済みモデルを保存すると、月に0.0005 USD 程度の料金が発生します。

まとめ

今回は、「テキストから画像への生成系 AI による革新的技術の紹介」というテーマで、生成系AI によるテキストから画像への生成の基本原理とそのメカニズム紹介いたしました。画像生成 AI モデルを提供する Sitability AI 様と、生成系AIをビジネスに活用するソリューションを提供するリコー様と、それぞれ異なる立場から活用例をご紹介いただき、非常に学びの多いイベントとなりました。また、AWS からは、AWS 上で生成系 AI モデルを動かす方法と、公開されているモデルを Fine Tune して差別化を行っていくためにデータ収集をする重要性をお話しさせていただきました。

これまでの AI/ML 関連イベントの開催報告と登壇スライドは、以下のリンクからご覧いただけます。
AWS AI/ML@Tokyo 開催報告まとめ

TAGS: AI/ML@Tokyo , Artificial Intelligence , Generative AI , Amazon SageMaker , AI/ML