投稿日: Jan 28, 2022

Amazon SageMaker Autopilot は、完全な制御と可視性を維持しながら、データに基づいて最適な機械学習モデルを自動的に構築、トレーニング、および調整します。本日より、SageMaker Autopilot は Apache Parquet ファイル形式のサポートを開始します。Apache Parquet は、Apache Hadoop エコシステム向けの無料のオープンソース列指向データストレージ形式です。パフォーマンスが向上した効率的なデータ圧縮およびエンコード方式を提供します。この新機能により、Apache Parquet ファイル形式で保存されたファイルを使用して SageMaker Autopilot 実験を作成できます。 

このリリースで Autopilot 実験を作成する場合、単一の parquet ファイルまたはメタデータを含み複数の parquet ファイルを参照するマニフェストファイルのいずれかをポイントする入力 parquet データの Amazon S3 の場所を指定できます。Autopilot は、入力場所またはマニフェストの Parquet ファイルごとに最大 2 GB までの圧縮データを受け入れることができます。AWS Support Center コンソールでサービス制限の引き上げリクエストを提出することで、圧縮された parquet フォーマットのファイルのデフォルトの 2 GB のサービス制限を引き上げることができます。入力として複数の parquet ファイルを含む Amazon S3 フォルダまたはマニフェストファイルを指定すると、デフォルトの 2 GB の制限が各 Parquet ファイルに個別に適用されます。今回のリリースには、大きな parquet データセットの処理のサポートも含まれています。SageMaker Autopilot は、クラスの不均衡を考慮し、まれなクラスラベルを保持しながら、サポートされている最大制限に適合するように、parquet ファイルに保存されている非圧縮データを自動的にサブサンプリングします。

Parquet ファイル形式は、SageMaker Autopilot が利用可能なすべての AWS リージョンでサポートされています。詳細については、Amazon SageMaker Autopilot デベロッパーガイドのデータと問題のタイプおよびクォータのトピックや、AutoMLChannel API リファレンスContentType を参照してください。深く掘り下げるには、この機能のリリースをプレビューするブログ投稿サンプルノートブックを確認してください。SageMaker Autopilot の使用を開始するには、開始方法を参照するか、SageMaker Studio 内の Autopilot にアクセスしてください。