亚马逊AWS官方博客

使用 Amazon EMR 和 Apache Paimon 构建流式数据湖

Apache Paimon 是近年来发展起来的一个流式数据湖平台,相比于其它的开源数据湖组件,其更加侧重数据湖上的流式数据处理。由于其流批统一的设计理念、基于 LSM 的底层数据存储、高速流式数据摄取与分析能力以及很好的系统稳定性,已经被一些企业用在生产环境中。结合 Apache Paimon 的特性,本文将使用 Amazon EMR 在 Amazon S3 上构建流式数据湖,验证 Apache Paimon 与 Amazon EMR 服务的适配性。

高性能大规模机器学习分布式训练 – EFA(Elastic Fabric Adapter)最佳实践

大语言模型 LLM 和生成式人工智能进一步推动了新一代机器学习的大规模普及和应用,同时也有越来越多的团队选择构建自己的大(语言)模型,以实现更好的生成效果。但是,高效地训练这些包含数十亿甚至数千亿参数的模型是一个非常大的挑战,因为模型越大,理论上所需要的计算资源就越多,如何设计一个高性能的基础设施来支持这些密集型的分布式工作负载,已经成为一个关键性的问题。为了解决这个难题,在亚马逊云科技平台上可以使用面向大规模机器学习(以及高性能计算 HPC)场景下的 Elastic Fabric Adapter(下文称 EFA),它是一种 Amazon EC2 实例上创新的网络接口,可以显著提高机器学习和高性能计算应用程序的网络性能。

云端生成式 AI – 基于 Amazon EKS 的 Stable Diffusion 图像生成方案

在生成式 AI 的图像生成场景下,我们基于 Amazon EKS,实现了一种更加适合 toC 场景的解决方案,它将帮助客户从容应对大并发量的请求,达到分钟级冷启动;使用更简单的控制平面,为客户提供更灵活的架构,轻松实现各种功能模块设计;同时,它还利用 Amazon Spot instances,帮助客户有效控制成本。

Amazon Managed Streaming for Apache Kafka 故障转移和扩容时间测试报告

为了测试 Amazon MSK 的扩容性能,我们对其进行了一系列的测试,包括扩容分区数量、扩容代理数量和扩容磁盘容量等方面的测试。此外,我们还模拟了故障转移场景,观察了集群在故障转移过程中的性能表现和响应时间,以评估 Amazon MSK 在故障发生时的自动恢复能力。这些测试旨在评估 Amazon MSK 在扩容过程中的性能表现和响应时间,并为用户提供参考,以便他们更好地了解 Amazon MSK 的扩容能力,并做出更好的决策。在本测试报告中,我们将详细介绍测试的环境和方法,并分析测试结果。

使用 Rolling Batch 加速 SageMaker LLM 模型推理性能

本文介绍了近期业界新的 Rolling Batch(continually batch)的批处理推理优化技术原理,并给出了在 Amazon SageMaker 上使用 vLLM 框架进行 Rolling Batch 推理优化的实践和测试对比,可以帮助客户在实际生产场景中通过简单配置,立竿见影地提升线上部署的 LLM 的推理吞吐量,降低响应时延,节省资源。

利用 StarRocks on AWS 实现高性能实时数据分析

StarRocks 是专为所有数据分析场景而设计的下一代亚秒级 MPP 数据库,旨在提供任何规模的简单快速的数据分析。结合易于使用的数据加载管道和对数据源的丰富支持,StarRocks on AWS 可以帮助用户实现他们的目标。StarRocks Flink CDC 连接器的推出是为了简化实时数据加载管道,成为 StarRocks 数据加载领域的新成员。