特徴量エンジニアリングとは何ですか?

モデルの特徴量とは、機械学習 (ML) モデルが予測を行うためにトレーニングおよび推論中に使用する入力値です。機械学習モデルの精度は、特徴量のセットの正確さと、それがどのように構成されているかによって決まります。例えば、音楽のプレイリストを推奨する機械学習アプリケーションは、曲の評価、以前に聴いた曲、曲を聴いている時間を特徴量として持っている可能性があります。特徴量を作成するには、多大なエンジニアリング作業が必要になる場合があります。特徴量エンジニアリングでは、料金表、製品の説明、販売量などの生データから変数を抽出して変換し、トレーニングや予測に特徴量を使用できるようにします。特徴量エンジニアリングに必要なステップには、データの抽出とクレンジング、そして特徴量の作成と保存が含まれます。

特徴量エンジニアリングにはどのような課題がありますか?

特徴量エンジニアリングは、データ分析、ビジネスドメインの知識、ある程度の直感という要素の組み合わせが必要となるため、困難です。特徴量を作成するときは、すぐに利用可能なデータに手を伸ばしたくなりますが、多くの場合、エキスパートと話し、ブレーンストーミングを行い、サードパーティーの調査を行って、どのデータが必要かを検討することから始めるべきです。このステップを踏まないと、重要な予測変数を見逃す可能性があります。

データ抽出

データの収集は、機械学習に必要なすべてのデータを集めるプロセスです。データはラップトップ、データウェアハウス、クラウド、アプリケーション内部、デバイスなど、多くのデータソースに存在するため、データ収集は面倒なものです。さまざまなデータソースに接続する方法を見つけるのは困難です。また、データボリュームは指数関数的に増加しているため、検索対象となるデータも膨大になります。さらに、データはソースによってフォーマットや種類が大きく異なります。例えば、動画データと表データを一緒に使うのは簡単ではありません。

特徴量の作成

データラベリングによって、生データ (画像、テキストファイル、動画など) を識別し、コンテキストがわかる意味と情報を持つ 1 つ以上のラベルを追加します。機械学習モデルはラベルを基に学習します。例えば、ラベルは、写真に鳥や車が含まれているかどうか、音声録音でどの単語が使われているか、X 線検査で異常が発見されたかどうかを示すことがあります。データラベリングは、コンピュータビジョン、自然言語処理、音声認識など、さまざまなユースケースで必要になります。

特徴量ストレージ

データのクリーニングとラベル付けが終わると、データが正しく、機械学習に適したものであることを確認するため、通常は機械学習チームがデータを調査します。ヒストグラム、散布図、箱ひげ図、折れ線グラフ、棒グラフなどの可視化は全て、データが正しいかどうかを確認するのに有効なツールです。さらに、可視化は、データサイエンスチームが探索的データ分析を行う際にも役立ちます。このプロセスは、パターンの発見、異常の発見、仮説の検証、仮定の確認に可視化データを使用します。探索的データ分析では、正式なモデリングは必要ありません。その代わりに、データサイエンスチームは、データを解読するために可視化を使用することができます。 

AWS は特徴量エンジニアリングをどのようにサポートしますか?

Amazon SageMaker Data Wrangler を使用すると、単一のビジュアルインターフェイスを使用して特徴量エンジニアリングプロセスを簡素化できます。SageMaker Data Wrangler のデータ選択ツールを使用すると、さまざまなデータソースから必要な生データを選択し、シングルクリックでインポートできます。SageMaker Data Wrangler には 300 を超える組み込みのデータ変換が含まれているため、コードを記述しなくても、特徴量をすばやく正規化、変換、結合できます。データの準備ができたら、Amazon SageMaker Pipelines を使用して完全に自動化された機械学習ワークフローを構築し、Amazon SageMaker Feature Store で再利用できるように保存できます。SageMaker Feature Store は、特徴量を保存してアクセスできる専用のリポジトリであるため、チーム間で特徴量に名前を付けたり、整理したり、再利用したりする作業を簡単に行えます。トレーニング中およびリアルタイム推論中、SageMaker Feature Store で作成される統一の特徴量ストアを利用できます。特徴量の一貫性を保つために、追加のコードを記述したり手動プロセスを作成したりする必要はありません。

AWS での次のステップ

追加の製品関連リソースを確認する
特徴量エンジニアリングに関する AWS サポート 
無料のアカウントにサインアップ

AWS 無料利用枠にすぐにアクセスできます。

サインアップ 
コンソールで構築を開始する

AWS マネジメントコンソールで構築を始めましょう。

サインイン