投稿日: Jun 30, 2023
Amazon SageMaker Canvas は Apache Parquet ファイル形式をサポートするようになりました。これにより、表形式、時系列予測、および NLP データセット用の追加ファイル形式あが有効になります。SageMaker Canvas はビジュアルインターフェイスであり、ビジネスアナリストが機械学習を使用した経験がなくても、あるいはコードを 1 行も記述することなく、正確な ML 予測を自身で生成できます。
本日より、Canvas は、データの効率的なデータストレージと取得を目的として設計されたオープンソースの列指向データファイル形式である Apache Parquet をサポートいたします。 この新機能により、表形式、時系列予測、NLP ユースケース用の CSV ファイルに加えて、Parquet ファイル形式を使用してデータをインポートできるため、より柔軟性が高まります。Canvas でデータセットを作成する際、ローカルディスクまたは Amazon S3 バケットから複数の Parquet ファイルを選択できます。各 Parquet ファイルのサイズは最大 5 GB です。効率的な圧縮とエンコードスキームにより、Parquet ファイルは Canvas でのデータ使用の効率を最大化し、データのインポート、ML モデルの構築、予測の生成を行います。
Apache Parquet のサポートは、現在 SageMaker Canvas がサポートされているすべての AWS リージョンで利用が可能です。詳細については、製品ドキュメントを参照してください。