发布于: Oct 13, 2021
Amazon Virtual Public Cloud(VPC)推出了三项新功能,以便用户更快、更轻松、更具成本效益地在 Amazon VPC 流日志上存储和运行分析。首先,VPC 流日志现在可以以 Apache Parquet 文件格式传送到 Amazon S3。其次,可以使用 Hive 兼容的前缀将其存储在 S3 中。第三,您的 VPC 流日志可以作为每小时分区的文件进行交付。当您选择将 S3 作为 VPC 流日志的目标,所有这些功能便均可用。
由于 Parquet 文件采用紧凑的列式格式,因此对以 Apache Parquet 格式存储的 VPC 流日志的查询效率更高。此外,您可以使用 Amazon Athena 和 Amazon Elastic Map Reduce (EMR)等工具节省查询成本,因为您的查询运行速度更快,并且需要使用 Parquet 文件扫描更少的数据量。由于 Parquet 格式文件的压缩效果更好,您可以节省高达 25% 的 S3 存储成本,并且无需构建和管理 Apache Parquet 转换应用程序。与 Hive 兼容的前缀使用户可以更轻松地发现新数据并将其加载到您的 Hive 工具中,并且按小时分区的日志文件可以更有效地查询特定时间间隔内的日志。
要开始使用,请创建一个以 S3 作为目标的新 VPC 流日志订阅,并指定 Parquet 格式、Hive 兼容前缀和/或每小时分区文件的交付选项。此功能可通过 Amazon Web Services 管理控制台、Amazon 命令行界面(AWS CLI)或 Amazon 软件开发工具包(Amazon SDK)使用。要了解详情,请参阅文档并阅读博客文章。请参阅 CloudWatch Logs 定价页面,了解 VPC 流日志的 Apache Parquet 格式的日志传输定价。