亚马逊AWS官方博客
Category: Analytics
AWS 一周综述 — 农历新年快乐、IaC 生成器、NFL 的数字运动员、AWS Cloud 俱乐部等 — 2024 年 2 月 12 日
农历新年快乐! 祝您在新的一年欢乐多多、事事顺利,机会满满! 祝您在龙年能获得源源不断的业务联系,并实现无 […]
字节跳动 ByteHouse 云原生之路 – 计算存储分离与性能优化
本文介绍了 ByteHouse 在亚马逊云科技平台上云原生之路过程中遇到的问题,进据此进行了架构升级和改造,通过计算存储分离架构以及深度的优化,完成了 ByteHouse 整体数据分析性能上的巨大提升。
Amazon OpenSearch 拼音插件使用实践
本文详述了在 Amazon OpenSearch Service 中安装拼音插件的步骤,展示了如何设置默认和自定义拼音分析器,并验证了其效果。同时,还探讨了拼音插件与 IK 中文插件结合使用,以实现优化的中文拼音分词,从而提升 OpenSearch 处理中文搜索需求的能力。
使用 Alluxio 加速数据湖 ODS 写后读及 DWD 宽表性能
本文引入 Alluxio 集群缓存,对 S3,hdfs 等数据进行 warm up 或直写缓存透传,加速 ODS 数据入湖的写后读,以及 DWD 宽表的查询性能,通过测试比对,在实时数据湖场景中,通过引入 Alluxio 集群缓存,缩短了数据入湖时间,并大幅提升了数仓查询效率,本文中的示例脚本和代码,可以供感兴趣的小伙伴根据自己业务场景进行 Alluxio 的集成实施和优化。
DolphinScheduler + EMR Serverless 的集成实践
本文通过对 EMR on EC2 与 EMRServerless 中 Spark 任务的提交、监控、下载日志过程进行抽象并封装成 Python 类库,极大地简化了使用 Spark 的门槛,以及从 EMR on EC2 切换至 EMRServerless 的改造成本。
StarRocks 3.0 存算分离版基于亚马逊云科技的最佳实践
StarRocks 致力于构建新一代极速全场景 MPP (Massively Parallel Processing)数据库,致力于帮助企业构建极速统一的湖仓分析新范式。从初创公司到企业,组织都在使用 StarRocks on AWS 解决方案进行数据分析和治理。 StarRocks on AWS 让我们的客户可以在全球各地快速可靠地构建自己的数据分析中心。现在,为了让更多用户以更低廉的成本进行数据分析和治理,我们推出了存算分离版本。让我们的用户可以提高资源利用率的同时优化成本。
通过 Amazon Clean Rooms 助力广告行业实现隐私保护的数据协作
本文介绍了 Clean Rooms 在面临广告行业隐私数据保护需求挑战时提供的解决方案,以及 Clean Rooms 中的分析规则、数据连接和最佳实践等。可以看到,Clean Rooms 为广告行业实现隐私保护的数据协作提供了重要支持,而随着服务的不断完善和新功能的增添,相信它将为企业开启更多高效、安全的协作新模式,实现隐私保护和商业价值的双赢。
尝试使用 Amazon OpenSearch Service 向量引擎进行语义搜索
Amazon OpenSearch Service 自 2020 年推出 kNN 插件以来,一直支持词法和向量 […]
数据自由、分析无忧 – 字节跳动 ByteHouse 数据融合指南之对象存储 S3
通过与亚马逊云科技的无缝对接,ByteHouse 可以实现海量数据的弹性存储,并支持按需自动扩展计算资源。这种云原生的数据仓库架构,可帮助企业快速建立一个统一的、高性能的数据分析平台,以 SaaS 形式降低企业数字化国际化的门槛。
AWS re:Invent 2023 上的 AWS Analytics 指南
在今年的 AWS re:Invent 上加入 AWS Analytics 团队的行列,在这里,新思路和令人兴奋 […]