发布于: Apr 1, 2022

AWS Glue DataBrew 客户现在能够清理和转换以 Optimized Row Columnar(ORC)文件格式存储的数据,这种数据格式在存储 Hive 数据时广泛使用。现在,在 AWS Glue DataBrew 中创建数据集时,您可以使用 ORC 文件及已受支持的 Apache Parquet、Microsoft Excel、CSV 和 JSON 文件格式。 

有关受支持的输入格式列表,请参阅《AWS Glue DataBrew 开发人员指南》中的受支持的数据源文件类型

2022 年 4 月 11 日更新 - 这篇文章错误地将 Apache Avro 列为受支持的输入格式。到目前为止,AWS Glue DataBrew 还不支持 Apache Avro 作为输入格式。