合成データとは?

合成データは、現実世界のデータを模倣した、人間が作成したデータではありません。生成型人工知能技術に基づく計算アルゴリズムとシミュレーションによって作成されます。合成データセットには、基になる実際のデータと同じ数学的特性がありますが、同じ情報は含まれていません。組織は、研究、テスト、新規開発、機械学習の研究に合成データを使用しています。人工知能の最近の革新により、合成データの生成は効率的かつ高速になりましたが、データ規制上の懸念事項におけるその重要性も高まっています。

合成データにはどのようなメリットがありますか?

合成データは組織にいくつかのメリットをもたらします。これらのいくつかを以下で説明します。

無制限のデータ生成

合成データは、オンデマンドで、ほぼ無制限のスケールで生成できます。合成データ生成ツールは、より多くのデータを取得するための費用対効果の高い方法です。また、機械学習のユースケース用に生成したデータに事前にラベルを付ける (分類またはマークを付ける) こともできます。ローデータをゼロから変換するプロセスを経なくても、構造化されラベル付けされたデータにアクセスできます。また、所有しているデータの総量に合成データを追加して、分析用のトレーニングデータを増やすこともできます。

プライバシー保護

医療、金融、法務などの分野には、機密データを保護するためのプライバシー、著作権、コンプライアンスに関する多くの規制があります。しかし、分析や研究にはデータを使用する必要があり、最大限活用するためにはデータを第三者にアウトソーシングしなければならないことがよくあります。個人データの代わりに、合成データを使用して、これらのプライベートデータセットと同じ目的を果たすことができます。個人データや機密データを公開することなく、統計的に関連性の高い同じ情報を示す類似データを作成します。ライブデータセットから合成データを作成する医学研究を考えてみましょう。合成データには、元のデータセットと同じ割合の生物学的特徴と遺伝子マーカーが保持されていますが、名前、住所、その他の患者の個人情報はすべて偽物です。

バイアス低減

合成データを使用して、AI トレーニングモデルの偏りを減らすことができます。大規模なモデルは通常、公開されているデータに基づいてトレーニングを行うため、テキストに偏りがある可能性があります。研究者は合成データを使用して、AI モデルが収集する偏った言語や情報との対比を示すことができます。たとえば、意見に基づく特定のコンテンツが特定のグループに有利な場合は、合成データを作成してデータセット全体のバランスを取ることができます。

合成データにはどのような種類がありますか?

合成データには、主に「部分的」と「完全」の 2 種類があります。

部分合成データ

部分的に合成されたデータは、実際のデータセットのごく一部を合成情報に置き換えます。これを使用して、データセットの機密部分を保護できます。たとえば、顧客固有のデータを分析する必要がある場合、名前、連絡先の詳細、その他の現実世界の情報など、特定の個人まで追跡できる属性を統合できます。  

完全合成データ

完全合成データとは、完全に新しいデータを生成する場所です。完全に合成されたデータセットには、実際のデータは含まれません。ただし、実際のデータと同じ関係、プロット分布、統計プロパティを使用します。このデータは実際に記録されたデータから得られたものではありませんが、同じ結論を出すことができます。

機械学習モデルをテストする際には、完全に合成されたデータを使用できます。新しいモデルをテストまたは作成したいが、機械学習の精度を向上させるための十分な実世界のトレーニングデータがない場合に役立ちます。

合成データはどのように生成されますか?

合成データの生成には、計算手法とシミュレーションを使用してデータを作成します。結果は現実世界のデータの統計的特性を模倣していますが、実際の実際の観測値は含まれていません。この生成されたデータには、テキスト、数字、表のほか、画像や動画などのより複雑なタイプなど、さまざまな形式があります。合成データを生成するには主に 3 つの方法があり、それぞれデータの精度とタイプが異なります。 

統計的分布

このアプローチでは、まず実データを分析して、正規分布、指数分布、カイ二乗分布などの基礎となる統計的分布を特定します。次に、データサイエンティストは、識別されたこれらの分布から合成サンプルを生成して、統計的に元のデータセットに似たデータセットを作成します。

モデルベース

このアプローチでは、実際のデータの特性を理解して再現するように機械学習モデルをトレーニングします。モデルがトレーニングされると、実際のデータと同じ統計的分布に従う人工データを生成できます。このアプローチは、実際のデータの統計的特性と追加の合成要素を組み合わせたハイブリッドデータセットを作成する場合に特に役立ちます。

ディープラーニング手法

敵対的生成ネットワーク (GAN)、変分オートエンコーダー (VAE) などの高度な技術を使用して合成データを生成できます。これらの方法は、画像や時系列データなど、より複雑なデータタイプによく使用され、高品質の合成データセットを作成できます。
 

合成データ生成技術とは?

合成データ生成に使用できるいくつかの高度なテクノロジーの概要を以下に示します。

敵対的生成ネットワーク

敵対的生成ネットワーク (GAN) モデルでは、連携して新しいデータを生成および分類する 2 つのニューラルネットワークを使用します。一方は生データを使用して合成データを生成し、もう一方はその情報を評価、特性評価、分類します。評価側のネットワークが合成データと元のデータを区別できなくなるまで、両方のネットワークは互いに競合します。 

GAN を使用すると、非常に自然的で、現実的な見た目のビデオや画像など、現実世界のデータのバリエーションを忠実に表現した人工的に生成されたデータを作成できます。

敵対的生成ネットワーク (GAN) について読む »

変分オートエンコーダー

変分オートエンコーダー (VAE) は、元のデータの表現に基づいて新しいデータを生成するアルゴリズムです。教師なしアルゴリズムは生データの分布を学習し、エンコーダー/デコーダーアーキテクチャを使用して二重変換によって新しいデータを生成します。エンコーダーは入力データを低次元表現に圧縮し、デコーダーはこの潜在表現から新しいデータを再構築します。モデルは確率計算を使用してスムーズに再現します。

VAE は、バリエーションのある非常に類似した合成データを生成する場合に最も役立ちます。たとえば、新しいイメージを生成するときに VAE を使用できます。 

トランスフォーマーベースのモデル

事前学習済みの生成型トランスフォーマーまたは GPT ベースのモデルは、大量のオリジナルデータセットを使用してデータの構造と一般的な分布を理解します。主に自然言語処理 (NLP) 生成で使用します。たとえば、トランスフォーマーベースのテキストモデルを英語テキストの大規模なデータセットでトレーニングすると、言語の構造、文法、さらにはニュアンスまで学習します。合成データを生成する場合、モデルはシードテキスト (またはプロンプト) から始め、学習した確率に基づいて次の単語を予測し、完全なシーケンスを生成します。

GPT について読む »

合成データ生成の課題は何か?

合成データを作成する場合、いくつかの課題があります。合成データで発生する可能性のある一般的な制限と課題を以下に示します。

品質管理

統計と分析にはデータ品質が不可欠です。合成データを学習モデルに組み込む前に、それが正確で、データ品質が最低限であることを確認する必要があります。ただし、合成データポイントを実際の情報まで追跡できないようにするには、精度を低下させる必要がある場合があります。プライバシーと正確性のトレードオフは、品質に影響を与える可能性があります。

合成データを使用する前に手動でチェックできるため、この問題を解決できます。ただし、大量の合成データを生成する必要がある場合、手動で確認すると時間がかかることがあります。

技術的な課題

合成データの作成は困難です。正確性と有用性を確保するには、手法、規則、現在の方法を理解する必要があります。有用な合成データを生成するには、この分野に関する高度な専門知識が必要です。

どんなに専門知識があっても、現実世界のデータを完全に模倣した合成データを生成することは困難です。たとえば、現実世界のデータには、合成データ生成アルゴリズムではほとんど再現できない外れ値や異常が含まれていることがよくあります。

利害関係者の混乱

合成データは有用な補足ツールですが、すべての利害関係者がその重要性を理解しているわけではありません。最近のテクノロジーとして、一部のビジネスユーザーは、合成データ分析が現実世界に関連しているとは考えていないかもしれません。反対に、生成の制御された側面のため、結果を強調しすぎている人もいます。このテクノロジーの限界とその結果を利害関係者に伝え、利害関係者が利点と欠点の両方を理解していることを確認します。

AWS は合成データ生成の取り組みをどのようにサポートできますか?

Amazon SageMaker は、データの準備、機械学習 (ML) モデルの構築、トレーニング、デプロイに利用できるフルマネージドサービスです。フルマネージドインフラストラクチャ、ツール、ワークフローを備えたあらゆるユースケースに適しています。Amazon SageMaker は、画像、テキストファイル、動画などの未加工データにラベルを追加し、ラベル付き合成データを生成して、機械学習 (ML) モデルのトレーニング用の高品質なデータセットを作成できます。

  • Amazon SageMaker Ground Truth は、データに簡単にラベルを付けることができるセルフサービス製品です。Amazon Mechanical Turk、サードパーティベンダー、または個人の従業員を通じて人間のアノテーターを使用するオプションが用意されています。
  • Amazon SageMaker Ground Truth Plus は、高品質のトレーニングデータセットを作成できる完全マネージド型サービスです。ラベル作成アプリケーションを構築したり、ラベル作成担当者を自分で管理したりする必要はありません。

まず、お客様が画像要件を指定するか、3D アセットやコンピュータ支援設計 (CAD) 画像などのベースライン画像を提供します。その後、AWS デジタルアーティストは画像をゼロから作成するか、顧客から提供されたアセットを使用します。生成される画像は、オブジェクトのポーズと配置を模倣し、オブジェクトやシーンのバリエーションを取り入れたものです。オプションで、機械学習トレーニングのデータセットに含まれないことが多い傷やへこみ、その他の変化などの特定の要素も追加されます。これにより、時間のかかるデータ収集プロセスや、画像を取得するために部品を損傷する必要がなくなります。高精度で自動的にラベル付けされた何十万もの合成画像を生成することができます。

今すぐ無料のアカウントを作成して、AWS でのデータの視覚化を開始しましょう。

AWS での次のステップ

無料のアカウントにサインアップ

AWS 無料利用枠にすぐにアクセスできます。

サインアップ 
コンソールで構築を開始する

AWS マネジメントコンソールで構築を始めましょう。

サインイン