AWS DMS를 사용해 Parquet 형식의 데이터를 Amazon S3로 마이그레이션하려면 어떻게 해야 하나요?

2분 분량

AWS Database Migration Service(AWS DMS)를 사용해 Apache Parquet(.parquet) 형식의 데이터를 Amazon Simple Storage Service(S3)로 마이그레이션하려고 합니다.

해결 방법

참고: AWS Command Line Interface(AWS CLI) 명령을 실행할 때 오류가 발생할 경우 AWS CLI 오류 해결을 참고하세요. 또 최신 AWS CLI 버전을 사용하고 있는지 확인하세요.

복제 버전 3.1.3 이상을 사용하는 경우, AWS DMS를 사용해 Apache Parquet 형식의 데이터를 S3 버킷으로 마이그레이션하세요. 기본 Parquet 버전은 Parquet 1.0입니다.

1. AWS DMS 콘솔에서 대상 Amazon S3 엔드포인트를 생성한 다음 추가 연결 속성을 추가합니다. 그리고 S3 대상에 Parquet 개체를 저장하는 데 사용할 수 있는 다른 추가 연결 속성을 확인합니다.

dataFormat=parquet;

또는 AWS CLI에서 create-endpoint 명령을 실행해 대상 Amazon S3 엔드포인트를 생성합니다.

aws dms create-endpoint --endpoint-identifier s3-target-parque --engine-name s3 --endpoint-type target --s3-settings '{"ServiceAccessRoleArn": <IAM role ARN for S3 endpoint>, "BucketName": <S3 bucket name to migrate to>, "DataFormat": "parquet"}'

2. .parquet 출력 파일을 지정하려면 다음과 같은 추가 연결 속성을 사용합니다.

parquetVersion=PARQUET_2_0;

3. describe-endpoints 명령을 실행해 S3 엔드포인트에서 S3 설정 DataFormat 또는 추가 연결 속성 dataFormat이 parquet으로 설정되어 있는지 확인합니다.

aws dms describe-endpoints --filters Name=endpoint-arn,Values=<S3 target endpoint ARN> --query "Endpoints[].S3Settings.DataFormat"
[
    "parquet"
]

4. DataFormat 파라미터의 값이 CSV인 경우 엔드포인트를 다시 생성합니다.

5. Apache Parquet 명령줄 도구를 설치하여 출력 파일을 구문 분석합니다.

pip install parquet-cli --user

6. 파일 형식을 검사합니다.

parq LOAD00000001.parquet  # Metadata
  <pyarrow._parquet.FileMetaData object at 0x10e948aa0>
  created_by: AWS
  num_columns: 2
  num_rows: 2
  num_row_groups: 1
  format_version: 1.0
  serialized_size: 169

7. 파일 내용을 인쇄합니다.

parq LOAD00000001.parquet --head   i        c
0  1  insert1
1  2  insert2

AWS DMS를 사용해 Parquet 형식의 데이터를 Amazon S3로 마이그레이션하려면 어떻게 해야 하나요?

해결 방법

관련 정보

관련 콘텐츠