亚马逊AWS官方博客
Category: Analytics
使用JDWP远程debug Amazon EMR上离线&在线应用
在AWS的云上大数据服务平台Amazon EMR上,我们可以使用JAVA技术栈的JDWP技术,对Spark,Flink两大最流行的离线、实时计算框架应用,在on yarn的hadoop集群上进行远程debug,这样开发的小伙伴能快速调试和定位生产环境中遇到的各种问题,而不用下载业务数据并在本地,或者只能依赖输出日志去推断问题,简化整个业务敏捷开发的运维和调优
使用AWS Opensearch KNN插件实现向量检索
Amazon Opensearch的KNN插件可以方便的进行向量的ingestion,storage和TopN 检索,并很好的利用了Opensearch的分布式特性,对于海量向量数据的检索可以实现并行计算,性能能随集群size扩缩而线性增长
消除复杂性以提高业务绩效:Bridgewater Associates 如何在 AWS 上构建安全、可扩展且基于 Spark 的研究服务
Bridgewater 的核心使命是通过分析市场驱动因素来理解世界的运作方式,并将这种理解转化为高质量的投资组合,为我们的客户提供投资建议。在 Bridgewater Technology 内,我们努力使我们的研究人员在他们最擅长的领域尽可能提高工作效率:建立对全球市场的基本理解。这意味着不再需要处理底层 IT 基础设施,而是专注于构建和改进他们的投资理念。
使用 Amazon Athena 和 Amazon Managed Grafana 直观地呈现 Amazon S3 数据
Grafana 是一个热门的开源分析平台,您可以使用该平台,通过灵活的控制面板创建、浏览和分享数据。其使用案例 […]
Fannie Mae 如何利用 Amazon Redshift 数据共享构建数据网格架构以实现自助服务
Amazon Redshift 数据分享支持跨 Amazon Redshift 集群的即时、精细和快速数据访问,而无需复制或移动数据。数据共享提供了对数据的实时访问,因此当创建者更新数据时,用户始终可以看到所有使用者的最新且事务一致的数据视图。您可以跨区域与相同或不同 AWS 账户中的 Amazon Redshift 集群安全地共享实时数据。通过数据共享,可以在组织内部和组织之间以及外部各方之间实现安全且受管控的协作。
使用AWS Glue在Amazon S3上构建数据湖实战
此文整体采用无服务器的架构,利用AWS Glue加载并转换应用日志和JDBC数据源,并以目标格式写到以S3构建的数据湖中,该技术可以有效的打通因为不同摄入/获取数据方式形成的数据孤岛,以数据为基石更好的帮助业务部门做业务决策。
通过 Amazon Redshift 中的行级访问控制实现精细的数据安全性
Amazon Redshift 是一项完全托管的 PB 级云数据仓库服务。借助 Amazon Redshift […]
利用自动实体化视图优化您的 Amazon Redshift 查询性能
Amazon Redshift 是一个快速、完全托管式云数据仓库数据库,可使通过标准 SQL 和商业智能工具对 […]
使用 AWS SCT 将大型数据仓库从 Greenplum 迁移到 Amazon Redshift – 第 1 部分
数据仓库收集和整合组织内各种来源的数据。它被用作分析和商业智能的集中式数据存储库。 使用本地旧版数据仓库时,扩 […]
使用 AWS SCT 将大型数据仓库从 Greenplum 迁移到 Amazon Redshift – 第 2 部分
在这个由多部分组成的系列的第二篇文章中,我们将分享选择最佳 Amazon Redshift 集群、数据架构、转 […]