データ拡張とは?

データ拡張は、主に新しい機械学習 (ML) モデルをトレーニングするために、既存のデータから新しいデータを人為的に生成するプロセスです。ML モデルでは、初期トレーニングには大規模で多様なデータセットが必要ですが、データサイロや規制、その他の制限により、十分に多様な現実世界のデータセットを調達することは困難な場合があります。データ拡張は、元のデータに小さな変更を加えることで、データセットを人為的に増やします。生成系人工知能 (AI) ソリューションは現在、さまざまな業界で高品質で高速なデータ拡張に使用されています。

機械学習について読む

生成系 AI について読む

データ拡張が重要な理由とは?

深層学習モデルは、さまざまな状況で正確な予測を行うために、大量の多様なデータに依存しています。データ拡張は、モデルの予測精度を向上させるのに役立つデータバリエーションの作成を補完します。拡張データはトレーニングに不可欠です。

データ拡張のメリットをいくつかご紹介します。

モデル性能の強化

データ拡張手法は、既存のデータのさまざまなバリエーションを作成することでデータセットを充実させるのに役立ちます。これにより、トレーニング用のデータセットが大きくなり、モデルがより多様な特徴に対応できるようになります。拡張データにより、モデルは目に見えないデータに対してより一般化し、実際の環境での全体的なパフォーマンスを向上させることができます。 

データへの依存性の軽減

トレーニングのために大量のデータを収集して準備することは、コストと時間がかかる場合があります。データ拡張技術は小規模なデータセットの有効性を高め、トレーニング環境における大規模なデータセットへの依存度を大幅に軽減します。より小さなデータセットを使用して、合成データポイントでセットを補うことができます。

トレーニングデータのオーバーフィッティングを軽減

データ拡張は、ML モデルをトレーニングする際のオーバーフィッティングを防ぐのに役立ちます。オーバーフィッティングは、モデルがトレーニングデータの予測を正確に提供できるが、新しいデータでは苦労する、望ましくない ML 動作です。モデルが狭いデータセットでのみトレーニングを行うと、オーバーフィットになり、その特定のデータ型のみに関連する予測を行う可能性があります。これとは対照的に、データ拡張は、モデルトレーニング用の、はるかに大規模で包括的なデータセットを提供します。これにより、トレーニングセットはディープニューラルネットワークに特有のように見え、特定の特性だけを扱うことを学習できなくなります。 

オーバーフィットについて読む

ニューラルネットワークについて読む

データプライバシーの向上

機密データで深層学習モデルをトレーニングする必要がある場合は、既存のデータに対して拡張技術を使用して合成データを作成できます。この拡張データは、入力データの統計的特性と重みを維持しながら、元のデータへのアクセスを保持および制限します。

データ拡張のユースケースにはどのようなものがありますか?

データ拡張は、さまざまな業界でさまざまな用途に使用でき、さまざまな分野で ML モデルのパフォーマンスを向上させます。

医療

データ拡張は、画像に基づいて疾患を検出、認識、診断する診断モデルの改善に役立つため、医療画像処理において有用な技術です。拡張画像を作成することで、特にソースデータのばらつきがない希少疾患の場合、モデルのトレーニングデータが増えます。合成患者データの作成と使用は、データプライバシーに関するすべての考慮事項を尊重しながら、医学研究を進展させます。 

金融

オーグメンテーションは不正行為のインスタンスを生成するのに役立ち、現実世界のシナリオで不正をより正確に検出するようにモデルをトレーニングできるようになります。トレーニングデータのプールが大きくなると、リスク評価シナリオに役立ち、リスクを正確に評価して将来の傾向を予測する深層学習モデルの可能性が高まります。 

製造

製造業では、ML モデルを使用して製品の外観上の欠陥を特定しています。現実世界のデータを拡張画像で補うことで、モデルは画像認識能力を向上させ、潜在的な欠陥を特定できます。この戦略により、損傷または欠陥のあるプロジェクトを工場や生産ラインに出荷する可能性も低くなります。

小売業

小売環境では、モデルを使用して製品を識別し、視覚的要因に基づいて製品をカテゴリに割り当てます。データ拡張により、製品画像の合成データバリエーションが生成され、照明条件、画像の背景、製品アングルの点でよりばらつきのあるトレーニングセットを作成できます。

データ拡張の仕組みとは?

データ拡張は、既存のデータを変換、編集、または変更してバリエーションを作成します。次に、プロセスの概要を示します。

データセットの探索

データ拡張の最初の段階は、既存のデータセットを分析し、その特性を理解することです。入力画像のサイズ、データの分布、テキスト構造などの機能はすべて、拡張のためのさらなるコンテキストを提供します。 

基礎となるデータタイプと目的の結果に基づいて、さまざまなデータ拡張手法を選択できます。たとえば、多くの画像を含むデータセットを拡張するには、画像にノイズを追加したり、拡大縮小したり、トリミングしたりすることが含まれます。あるいは、テキストデータセットを自然言語処理 (NLP) 用に拡張することで、同義語を置き換えたり、抜粋を言い換えたりすることもできます。 

自然言語処理について読む

既存データの拡張

目的の目標に最も適したデータ拡張手法を選択したら、さまざまな変換を適用し始めます。データセット内のデータポイントまたは画像サンプルは、選択した拡張方法を使用して変換され、さまざまな新しい拡張サンプルが得られます。 

拡張プロセスでは、データ整合性を保つために同じラベル付けルールを維持し、合成データにソースデータに対応する同じラベルが含まれるようにします。

通常、合成画像を確認して、変換が成功したかどうかを判断します。この追加の人間主導のステップは、より高いデータ品質を維持するのに役立ちます。 

データフォームを統合

次に、新しい拡張データを元のデータと組み合わせて、ML モデル用のより大きなトレーニングデータセットを作成します。モデルをトレーニングするときは、この両方の種類のデータの複合データセットを使用します。

合成データ拡張によって作成された新しいデータポイントには、元の入力データと同じバイアスがあることに注意することが重要です。バイアスが新しいデータに移らないようにするには、データ拡張プロセスを開始する前に、ソースデータのバイアスに対処してください。

データ拡張技術にはどのようなものがありますか?

データ拡張手法は、データタイプやビジネスコンテキストによって異なります。

コンピュータビジョン

データ拡張は、コンピュータービジョンのタスクの中心的な手法です。多様なデータ表現を作成し、トレーニングデータセット内のクラスの不均衡に対処するのに役立ちます。 

コンピュータビジョンにおけるオーグメンテーションの最初の用途は、位置拡張によるものです。この戦略では、入力画像を切り抜いたり、反転、回転させたりして、拡張画像を作成します。切り抜きを行うと、画像のサイズが変更されるか、元の画像の一部が切り取られ、新しい画像が作成されます。回転、反転、サイズ変更などの変形により、元の画像が一定の確率でランダムに変更され、新しい画像が生成されます。

コンピュータビジョンにおけるオーグメンテーションのもう 1 つの用途は、カラーオーグメンテーションです。この戦略は、明るさ、コントラストの度合い、彩度など、トレーニング画像の基本要素を調整します。このような一般的な画像変換により、色相、暗い部分と明るい部分のバランス、画像の最も暗い部分と最も明るい部分の区別が変わり、拡張画像が作成されます。

コンピュータビジョンについて読む

オーディオデータ拡張

音声録音などのオーディオファイルも、データ拡張を使用できる一般的なフィールドです。オーディオトランスフォーメーションには、通常、一部のオーディオにランダムノイズやガウスノイズを注入したり、パートを早送りしたり、パーツの速度を固定レートで変更したり、ピッチを変更したりすることが含まれます。

テキストデータ拡張

テキスト拡張は、ML の NLP やその他のテキスト関連分野にとって不可欠なデータ拡張技術です。テキストデータの変換には、文章のシャッフル、単語の位置の変更、同義語に近い単語の置換、ランダムな単語の挿入、ランダムな単語の削除が含まれます。

ニューラルスタイル転送

ニューラルスタイル転送は、画像を小さな部分に分解する高度なデータ拡張形式です。画像のスタイルとコンテキストを分離する一連の畳み込みレイヤーを使用して、1 つの画像から多数の画像を生成します。 

敵対的訓練

ピクセルレベルの変更は、ML モデルにとって課題となります。一部のサンプルでは、モデルがその下にある画像を知覚する能力をテストするために、画像上に感知できないようなノイズの層が含まれています。この戦略は、現実世界における不正アクセスの可能性に焦点を当てた予防的なデータ拡張です。

データ拡張における生成系 AI の役割とは?

生成系 AI は、合成データの生成を容易にするため、データ拡張に不可欠です。データの多様性を高め、現実的なデータの作成を合理化し、データプライバシーを保護するのに役立ちます。 

敵対的生成ネットワーク

敵対的生成ネットワーク (GAN) は、対立して機能する 2 つの中央ニューラルネットワークのフレームワークです。ジェネレーターは合成データのサンプルを生成し、ディスクリミネーターは実際のデータと合成サンプルを区別します。

時間が経つにつれて、GAN はディスクリミネータを欺くことに重点を置いて、ジェネレータの出力を継続的に改善します。識別子を欺くことができるデータは高品質の合成データとしてカウントされ、元のデータ分布を忠実に再現する信頼性の高いサンプルでデータを拡張できます。

変分オートエンコーダー

変分オートエンコーダー (VAE) は、コアデータのサンプルサイズを増やし、時間のかかるデータ収集の必要性を減らすのに役立つニューラルネットワークの一種です。VAE には、デコーダーとエンコーダーの 2 つのネットワークが接続されています。エンコーダーはサンプル画像を取得し、それらを中間表現に変換します。デコーダーはその表現を取得し、初期サンプルの理解に基づいて類似の画像を再作成します。VAE は、サンプルデータと非常によく似たデータを作成できるため、元のデータ分布を維持しながら多様性を追加できるので便利です。

AWS はお客様のデータ拡張要件をどのようにサポートできますか?

Amazon Web Services (AWS) 上の生成系 AI は、あらゆる規模の組織がカスタムユースケース向けにカスタマイズされたデータを使用して生成系 AI アプリケーションを構築およびスケーリングするために使用できる一連のテクノロジーです。新機能、業界をリードする基盤モデル (FM) の選択、最も費用対効果の高いインフラストラクチャにより、より迅速なイノベーションを実現。AWS での生成系 AI サービスの例を以下に示します。

Amazon Bedrock は、主要な AI 企業が提供する高性能な基盤モデル (FM) を選択できるフルマネージド型サービスです。インフラストラクチャを管理することなく、データ拡張のための生成系 AI 機能を安全に統合してデプロイできます。

Amazon Rekognition は、画像と動画から情報と洞察を抽出するために、事前にトレーニングされたカスタマイズ可能なコンピュータビジョン (CV) 機能です。画像を分析するためのカスタムモデルの開発は、時間、専門知識、リソースを必要とする大変な作業です。さらに、多くの場合、モデルが正確な判断を下すことができるようなデータを提供するには、人間がラベル付けした画像が数千または数万必要です。 

Amazon Rekognition Custom Labels では、画像のランダムクロッピング、色の揺れ、ランダムなガウスノイズなど、さまざまなデータ拡張がモデルトレーニングで実行されます。数千枚の画像ではなく、ユースケースに特化した少数のトレーニング画像 (通常は数百枚以下) だけを、使いやすいコンソールにアップロードするだけで済みます。

今すぐアカウントを作成して、AWS でデータ移行を開始しましょう。

AWS での次のステップ

無料のアカウントにサインアップする

AWS 無料利用枠にすぐにアクセスできます。

サインアップ 
コンソールで構築を開始する

AWS マネジメントコンソールで構築を始めましょう。

サインイン