亚马逊AWS官方博客

Tag: Amazon S3

探索ClickHouse与Amazon S3结合使用的三种方法

本文首先简单介绍了ClickHouse及其特性和使用场景,然后介绍了通过与Amazon S3存储的结合,可以为数据分析系统带来的优势:成本优化以及数据湖的应用。接下来,我们又介绍了ClickHouse和S3集成的三种方案,并通过具体示例来展示了各方案的具体实现方法和优劣势。

使用 AWS DMS 将数据从 Amazon S3 流式传输至 Amazon Kinesis Data

本文介绍了如何使用AWS DMS,将批处理方案转换为近实时解决方案。这套解决方案大大简化了将记录由Amazon S3迁移至Kinesis并加以分析的过程。Kinesis作为AWS DMS指定的目标,可为多种其他系统提供数据资源。这样一条近实时管道将帮助您快速了解系统内的各类变化,最终提升组织的实际决策能力。

在 AWS 上构建自动驾驶和 ADAS 数据湖

本博客介绍了如何使用此参考架构构建自动驾驶数据湖。我们讨论的工作流范围从如何提取数据、为机器学习准备数据、将 ADAS 系统和车辆传感器的输出进行编目、对其进行标注、自动检测场景,到管理那些将其移动到有组织的数据湖构造所需的各种工作流。开发 AWS 自动驾驶和 ADAS 数据湖参考架构之前,我们曾与众多客户合作应对实现这一目标所面临的挑战。

利用 AWS SageMaker BlazingText 对不均衡文本进行多分类

本文使用了 SageMaker BlazingText 实现了文本多分类。在样本不均衡问题上,使用了回译和 EDA 两个方法对少类别样本进行了过采样处理,其中回译方法调用了 AWS Translate 服务进行了翻译再翻译,而 EDA 方法主要使用同义词替换、随机插入、随机交换、随机删除对文本数据进行处理。 本文也使用了AWS SageMaker 的自动超参数优化来为 BlazingText 的文本分类算法找到最优超参数。

使用 AWS Batch 轻松玩转遥感计算

随着卫星发射技术的成熟,以及大数据和人工智能技术的发展,遥感数据应用越来越多。AWS Open Data以及以AWS Batch 为代表的批量计算服务可以帮助客户随时启动数千台计算节点,帮助客户缩短项目周期,降低运维成本。本Blog旨在给客户使用AWS Open Data 以及AWS Batch 提供使用引导,降低他们的学习门槛。

使用 AWS Glue 和 Amazon Redshift 分析您的 Amazon S3 支出

AWS 成本和使用情况报告 (CUR) 会追踪您的 AWS 使用情况,并提供与之相关联的预计费用。您可以配置此报告为以小时或日为间隔显示数据;在账单收费期最后结束前,它至少每天会更新一次。成本和使用情况报告会自动发送到由您指定的 Amazon S3 存储桶,可以在那里直接下载。您还可以将该报告整合到 Amazon Redshift,也可以通过 Amazon Athena 进行查询,或者把它上传到 Amazon QuickSight。

使用 HBase on Amazon S3 设置只读副本集群

许多客户已经在享受使用HBase on Amazon S3的众多好处,包括更低的成本、更好的数据持久性和更便捷的可扩展性。美国金融业监管局 (FINRA) 已通过迁移到 HBase on Amazon S3架构将成本降低了 60%,并通过将存储与计算解耦以及将 S3 用作存储层获得了众多运营优势。HBase on Amazon S3允许您启动集群并立即开始对 S3 中的数据进行查询,而不必执行冗长的快照还原过程。