Analytics | 亚马逊AWS官方博客

使用JDWP远程debug Amazon EMR上离线&在线应用

在AWS的云上大数据服务平台Amazon EMR上，我们可以使用JAVA技术栈的JDWP技术，对Spark，Flink两大最流行的离线、实时计算框架应用，在on yarn的hadoop集群上进行远程debug，这样开发的小伙伴能快速调试和定位生产环境中遇到的各种问题，而不用下载业务数据并在本地，或者只能依赖输出日志去推断问题，简化整个业务敏捷开发的运维和调优

使用AWS Opensearch KNN插件实现向量检索

Amazon Opensearch 的 KNN 插件可以方便地进行向量的 ingestion，storage 和 TopN 检索，并很好地利用 Opensearch 的分布式特性，对于海量向量数据的检索可以实现并行计算，性能能随集群 size 扩缩而线性增长。

消除复杂性以提高业务绩效：Bridgewater Associates 如何在 AWS 上构建安全、可扩展且基于 Spark 的研究服务

Bridgewater 的核心使命是通过分析市场驱动因素来理解世界的运作方式，并将这种理解转化为高质量的投资组合，为我们的客户提供投资建议。在 Bridgewater Technology 内，我们努力使我们的研究人员在他们最擅长的领域尽可能提高工作效率：建立对全球市场的基本理解。这意味着不再需要处理底层 IT 基础设施，而是专注于构建和改进他们的投资理念。

使用 Amazon Athena 和 Amazon Managed Grafana 直观地呈现 Amazon S3 数据

Grafana 是一个热门的开源分析平台，您可以使用该平台，通过灵活的控制面板创建、浏览和分享数据。其使用案例 […]

Fannie Mae 如何利用 Amazon Redshift 数据共享构建数据网格架构以实现自助服务

Amazon Redshift 数据分享支持跨 Amazon Redshift 集群的即时、精细和快速数据访问，而无需复制或移动数据。数据共享提供了对数据的实时访问，因此当创建者更新数据时，用户始终可以看到所有使用者的最新且事务一致的数据视图。您可以跨区域与相同或不同 AWS 账户中的 Amazon Redshift 集群安全地共享实时数据。通过数据共享，可以在组织内部和组织之间以及外部各方之间实现安全且受管控的协作。