亚马逊AWS官方博客

Tag: Apache Spark

深度解析 Amazon Retail System 用户倾向预测模型以及使用 DJL 在 Apache Spark 进行深度学习推理任务

在亚马逊,我们使用Apache MXNet构造了一个多标签分类模型用于在数千类别里预测用户倾向。通过预测的结果,我们可以创造一种个性化的内容,帮助用户去选择最好的商品。这个文章将通过准备数据,模型构造和模型部署三个步骤来介绍在构造模型中我们遇到的各种挑战以及使用Deep Java Library (DJL) 在Apache Spark上进行大规模的深度学习推理任务。因为使用的工具完全开源,你也可以尝试去构建类似的应用。

AWS Glue 扩展 Apache Spark 作业以及数据分区的最佳实践

本博文讨论管理数据处理作业扩展的两项关键的 AWS Glue 功能,还将介绍在 AWS Glue中,针对采用 Amazon Kinesis Data Firehose 的流应用程序中提取的大量小文件,如何来扩展 Apache Spark 应用程序。此外,文章将介绍对 AWS Glue 作业如何利用在 Amazon S3 上大型数据集的分区结构,来缩短 Apache Spark 应用程序的执行时间。