亚马逊AWS官方博客

Data-centric AI之数据集质量

数据集的质量再如何强调都不过分,我认为在数据这个领域,数据集的质量就是第一要务。对于机器学习来说,没有高质量的数据集作为前提,模型就学习不到有用的知识,也就是所谓的“垃圾进,垃圾出”。数据集的质量是个很大的话题,本文根据我在多个计算广告和推荐系统的项目中的实战经验尝试总结一下,其实对于结构化数据建模来说,基本上下面谈到的内容都是通用的。

Read More

优化 Amazon ElastiCache for Redis 和 Amazon MemoryDB for Redis 上的应用程序内存使用情况

Redis 作为内存中数据引擎有着广泛受众。随着使用和访问的数据呈指数级增长,充分利用可用内存变得越来越重要。在这篇博文中,我提供了多种策略以及代码片段,以帮助您在使用 MemoryDB for Redis 和 ElastiCache for Redis 时减少应用程序的内存消耗。这有助于优化成本,并允许您在现有集群的实例中容纳更多数据。

Read More

使用 Amazon Redshift 构建用于批量和实时分析的大数据 Lambda 架构

借助 Amazon Redshift,您可以使用标准 SQL 轻松分析数据仓库、运营数据库和数据湖中的所有数据类型。在这篇博文中,我们将实时收集、处理和分析数据流。通过数据共享,您可以在 Amazon Redshift 集群之间共享实时数据以进行读取,同时具有相对的安全性和开箱即用性。在这篇博文中,我们将讨论如何利用 Amazon Redshift 的数据共享功能来设置大数据 Lambda 架构,以支持批量分析和近实时分析。

Read More