Amazon Web Services ブログ

Canva が Amazon SageMaker と Amazon Rekognition を使用し 1 億ユーザーにテキストから画像を生成する AI を提供した方法

Canva はプレゼンテーションやソーシャルメディアの投稿、ビデオ、ウェブサイトまで、あらゆるデザインを作成および編集するツールを提供しています。ツールを提供しコンテンツ作成を民主化することで、企業から小さなブロガーまで誰もが図やイラストによる高度な視覚的コミュニケーションができる世界を目指しています。
Canva が 1 億人の月間アクティブユーザーにテキストから画像を生成する AI を提供したいと考えたのは、世界中の誰もがどんなデバイスからでも視覚的コミュニケーションができるようにすることが 2013 年の創業以来からの目標だったからです。


Generate Image on Canva翻訳者が実際に Canva で “パンフレットに使用する画像で、たくさんの種類のパンがテーブルに乗っている。”というテキストから画像を生成しパンフレットのデザインに入れている様子。

Canva は機械学習の実装に Amazon Web Services (AWS) をすでに利用していました。 Amazon SageMaker は、どのような用途の機械学習モデルでも構築、学習、デプロイできるツール、ワークフローを提供する AWS のマネージドサービスです。ユーザーのテキスト入力から画像を生成する機能を実装するために、 Canva は専任のエンジニアが少なくとも 6 ヶ月作業することと膨大な数の GPU が必要と見積もっていました。また、AI による攻撃的な画像の生成をチェックするため 24 時間体制で数百人のモデレーターを雇う必要があると考えていました。 Amazon SageMaker の Real-time inferenceAmazon Rekognitionコンテンツモデレーション機能使用することで、 Canva は 3 週間以下で 1 億人のユーザーへ画像生成機能を提供することができました

課題: 1 億のユーザーにスケールする安全な画像生成 AI を構築する

Canva がテキストから画像を作成する機能を開発することは、創造性を刺激し、デザインを可能な限りシンプルにする会社の目標に合致しています。 Canva の機械学習部門のディレクターである Glen Pink 氏は、「 AI で生成されるコンテンツは急増しています」と語ります。「 AI による画像生成は最近までおもちゃ以上のものではありませんでしたが、創造的なデザインプロセスの一部として実際使えるようになりました」と述べています。

Canva のエンジニアがオープンソースの機械学習モデル Stable Diffusion (※) を用いてデモを作成したとき、 Canva はこの機能をサービスに統合する投資を決定しました。 Pink 氏の最初のステップは、 Canva がほぼすべてのサービスの実装で使用する AWS に相談することでした。「独自に実装するにはおそらく 6 ヶ月かかったでしょう」と Pink 氏は語ります。「ハードウェアの観点からスケーリングにどう取り組むかさえわかりませんでした。」実際、 Canva にとってビジネスの要求に合わせ十分な数の GPU をセットアップしてテキストから画像に変換する機能をリリースすることは時間的に不可能でした。

※ Stable Diffusion はテキストから画像の生成を行う深層学習技術を用いた機械学習モデルで、 2022 年に Stability AI よりオープンソースで公開されました。

Canva にとって、リリースするスピードだけでなく、ユーザーの信頼と安全性も重要な問題でした。 AI による画像生成は、ユーザーが問題のあるコンテンツを作成する新たな方法でもあります。一部のユーザーは、 AI により攻撃的な画像を作成することさえあります。すべての画像を手動でチェックするには、 24 時間体制で数百人のモデレーターを雇う必要がありました。

解決策: Amazon SageMaker Real-time inference によるスケーラビリティと Amazon Rekognition によるモデレーション

Amazon SageMaker を使用することで、 Canva はテキストから画像を生成する新しい機能を 3 週間以内にユーザーへ提供することができました。「これは重要な取り組みであり、最先端のものです」と Pink 氏は語ります。「一部のモデルにとっては通常のリリース速度ですが、今回の機能を同じ速度でリリースするのは大変な作業です。 AWS を使わずに、 Canva は大規模でモダンな最先端モデルを迅速に提供することができませんでした。」

「 AWS を使用することで、 Canva の機械学習環境は非常に多くのユーザーに対しスケーラブルになりました」
Glen Pink. Director of ML, Canva

Canva は生成された画像をチェックするため Amazon Rekognition を利用しました。 Amazon Rekognition は画像や動画から情報と洞察を抽出するための事前トレーニング済みかつカスタマイズ可能な機械学習機能を提供します。「 Amazon Rekognition は本当に役立ちました」と Pink 氏は語ります。「ユーザーが悪意のあるコンテンツを生成する可能性のあるプロンプトを入力することを許可していませんし、モデルが生成する不適切な画像を特定するために Amazon Rekognition を使用しています。ユーザーが攻撃的な画像のプロンプトを入力した場合、 Canva は単にユーザーに結果を返しません。また、ユーザーが攻撃的と判断した生成画像を報告するオプションもあります。」

Canva は画像生成を行う一連の処理を実装しており、まずユーザーがテキストを入力した後に Amazon SageMaker Real-Time Inference エンドポイントで画像を生成します。次に、生成された画像を Amazon Rekognition でフィルタリングします。最後に、 Canva はエンドユーザーに画像の候補をいくつか表示します。最先端のテキストから画像を生成する技術により、ユーザーは何時間も何日も待つことなく、数秒で独自の高品質な画像を作成することができます(※)

Canva は現在 60 以上の機械学習モデルの開発と運用に Amazon SageMaker を使用しており、画像を作成する機能のほぼすべてに使用しています。「機械学習モデルを顧客の手に届け、利用を勢いづけることは非常に重要です。これらを行うためには、 AWS は私たちにとって絶対に不可欠です」と Pink 氏は述べています。 Canva は AWS を使用することで、従業員の作業時間を大幅に節約し、革新的な新機能をユーザーに迅速に展開することができました。ハードウェアを事前に調達する高額な投資を回避することでコストも削減されました。「 AWS は、効果的かつ迅速にデプロイできるため、投資対効果の観点から、堅牢なスケーリングには非常に良い選択肢です。」と Pink 氏は述べています。

※翻訳者注 : Canva は画像生成 AI が安全かつ責任ある方法で用いられるよう何重もの安全対策を講じると同時に、ユーザーに対し有害なコンテンツを作成したり、第三者の権利(著作権や商標など)を侵害しないこと、 AI が生成した画像が含まれていることをコンテンツの閲覧者に必ず知らせるよう利用規約で求めています。違反している用途を発見した場合、本文中にある通り Canva 上で通報が可能です。

成果 : 将来の成長をスケールする

月間アクティブユーザー数 1 億人以上を抱える Canva は、グローバルな顧客層へ AI を活用したサービスの提供を拡大しようとしています。拡大する Canva for Teams のユーザーに対応するために必要な規模でツールを構築していくためにも、引き続き AWS を利用する予定です。 Amazon SageMaker の使用により、 Canva の機械学習エンジニアは迅速にイノベーションを行い、チームのコラボレーションの未来を形成できます。「 AWS は基盤モデルのようなパラメーター数の多い機械学習モデルをサポートするインフラを提供するため、積極的に投資しています」と Pink 氏は語ります。

「 AWS を使用することで、 Canva の 機械学習環境は大勢のユーザーに対して非常に良くスケーリングします」と Pink 氏は語ります。
「 AWS の上に構築するものは、スケーリングが行われることを確信できます。」

Canva について

2013 年に設立された Canva は、世界中の誰もがデザインを行えるようにするという使命を持つ視覚的コミュニケーションと協調のための無料のプラットフォームです。

活用された AWS のサービス

Amazon SageMaker : Amazon SageMaker は、 Amazon が実世界の機械学習アプリケーションの開発で 20 年以上の経験を持つことに基づいて構築されており、製品の推薦、顧客へのパーソナライゼーション、インテリジェントショッピング、ロボティクス、音声アシストデバイスなどに使用されています。

Amazon Rekognition : Amazon Rekognition は、事前にトレーニングされたカスタマイズ可能なコンピュータビジョン(CV)機能を提供し、画像とビデオから情報と洞察を抽出します。

この記事は “Canva Scales Text to Image to 100 Million Users Quickly Using Amazon SageMaker” を機械学習 Developer Relations の久保が翻訳しました。