簡短描述
------------------



[S3DistCp](https://docs.aws.amazon.com/emr/latest/ReleaseGuide/UsingEMR_s3distcp.html) 不支援 Parquet 檔案的連接。請改用 [PySpark](https://spark.apache.org/docs/0.9.0/python-programming-guide.html)。



解決方法
-----------



您無法在 PySpark 中指定目標檔案大小，但可以指定分割區的數量。Spark 將每個分割區儲存到一個單獨的輸出檔案。若要估計所需的分割區數目，請用資料集的大小除以目標個別檔案大小。


1.    [建立安裝了 Apache Spark 的 Amazon EMR 叢集](https://docs.aws.amazon.com/emr/latest/ReleaseGuide/emr-spark-launch.html)。


2.    指定您需要多少個執行程式。這取決於叢集容量和資料集大小。如需詳細資訊，請參閱[在 Amazon EMR 上成功管理 Apache Spark 應用程式記憶體的最佳做法](https://aws.amazon.com/blogs/big-data/best-practices-for-successfully-managing-memory-for-apache-spark-applications-on-amazon-emr/)。





```plaintext
$  pyspark --num-executors number_of_executors
```



3.    將來源 Parquet 檔案載入到 Spark DataFrame。這可以是 Amazon Simple Storage Service (Amazon S3) 路徑或 HDFS 路徑。例如：





```plaintext
df=sqlContext.read.parquet("s3://awsdoc-example-bucket/parquet-data/")
```



HDFS：





```plaintext
df=sqlContext.read.parquet("hdfs:///tmp/parquet-data/")
```



4.    重新分割 DataFrame。在下面的例子中，**n** 是分割區的數量。





```plaintext
df_output=df.coalesce(n)
```



5.    將 DataFrame 儲存到目標。這可以是 Amazon S3 路徑或 HDFS 路徑。例如：





```plaintext
df_output.write.parquet("URI:s3://awsdoc-example-bucket1/destination/")
```



HDFS：





```plaintext
df=sqlContext.write.parquet("hdfs:///tmp/destination/")
```



6.    驗證目標目錄中現在有多少個檔案：





```plaintext
hadoop fs -ls "URI:s3://awsdoc-example-bucket1/destination/ | wc -l"
```



檔案總數應為步驟 4 中的 **n** 值再加上一。Parquet 輸出提交程式會寫入額外檔案，稱為 **\_SUCCESS**。





---








我使用 S3DistCp (s3-dist-cp) 透過 --groupBy 和 --targetSize 選項連接 Apache Parquet 格式的檔案。s3-dist-cp 作業完成，沒有錯誤，但產生的 Parquet 檔案已損壞。當我嘗試讀取應用程式中的 Parquet 檔案時，收到類似如下的錯誤訊息： 「預期在 /path/to/concerned/parquet/file 偏移 m 處的欄塊中獲得 n 值，但在檔案偏移 z 處結束的 y 頁上獲得 x 值」

如何在 Amazon EMR 中連接 Parquet 檔案？

分析

如何解決在使用 Sqoop 以 Parquet 格式將 Amazon RDS 資料匯出到 Amazon S3 時發生的錯誤「未知的資料集 URI 模式：資料集」？

如何使用 AWS DMS 以 Parquet 格式將資料遷移至 Amazon S3？

如何在 Amazon EMR 中設定自動擴展？

如何在 Windows 和 Linux 上將 .pem 檔案轉換為 .ppk 檔案，或者從 .ppk 檔案轉換為 .pem 檔案？

amazon polly使用字數異常增加(The characters increased for no reason)

我原本的 Windows Server 授權可以帶到雲上面嗎？

[Glue Studio] Data target 選了 partition key，執行 job 卻說 Partition column not found in schema

aws如何向大陸發送短簡訊，是否可導入人工機器人技術。

EC2 執行個體停止多久後會開始收取彈性IP費用?

如何在 Amazon EMR 中連接 Parquet 檔案？

簡短描述

解決方法

相關內容