AWS DMS を使用して Parquet 形式で Amazon S3 にデータを移行する方法を教えてください。

所要時間1分
0

AWS Database Migration Service (AWS DMS) を使用して、Apache Parquet (.parquet) 形式のデータを Amazon Simple Storage Service (Amazon S3) に移行したいと考えています。

解決策

**注:**AWS コマンドラインインターフェイス (AWS CLI) コマンドの実行中にエラーが発生した場合は、「AWS CLI エラーのトラブルシューティング」を参照してください。また、AWS CLI の最新バージョンを使用していることを確認してください。

レプリケーションバージョン 3.1.3 以降を使用する場合は、AWS DMS を使用して Apache Parquet 形式で S3 バケットにデータを移行します。デフォルトの Parquet バージョンは Parquet 1.0 です。

1.    AWS DMS コンソールからターゲット Amazon S3 エンドポイントを作成し、追加の接続属性を追加します。また、S3 ターゲットで Parquet オブジェクトの保存に使用できるその他の追加の接続属性を確認します。

dataFormat=parquet;

または、AWS CLI で create-endpoint コマンドを実行して、ターゲット Amazon S3 エンドポイントを作成します。

aws dms create-endpoint --endpoint-identifier s3-target-parque --engine-name s3 --endpoint-type target --s3-settings '{"ServiceAccessRoleArn": <IAM role ARN for S3 endpoint>, "BucketName": <S3 bucket name to migrate to>, "DataFormat": "parquet"}'

2.    .parquet 出力ファイルを指定するには、以下の追加の接続属性を使用します。

parquetVersion=PARQUET_2_0;

3.    describe-endpoints コマンドを実行して、S3 エンドポイントで、S3 設定の DataFormat、または追加の接続属性 dataFormatparquet に設定されているかどうかを確認します。

aws dms describe-endpoints --filters Name=endpoint-arn,Values=<S3 target endpoint ARN> --query "Endpoints[].S3Settings.DataFormat"
[
    "parquet"
]

4.    DataFormat パラメーターの値が CSV の場合は、エンドポイントを再作成します。

5.    Apache Parquet コマンドラインツールをインストールして、出力ファイルを解析します。

pip install parquet-cli --user

6.    ファイル形式を調べます。

parq LOAD00000001.parquet  # Metadata
  <pyarrow._parquet.FileMetaData object at 0x10e948aa0>
  created_by: AWS
  num_columns: 2
  num_rows: 2
  num_row_groups: 1
  format_version: 1.0
  serialized_size: 169

7.    ファイルの内容を印刷します。

parq LOAD00000001.parquet --head   i        c
0  1  insert1
1  2  insert2

関連情報

AWS Database Migration Service のターゲットとしての Amazon S3 の使用

AWS公式
AWS公式更新しました 6ヶ月前
コメントはありません

関連するコンテンツ