跳至主要内容

什么是数据挖掘技术?

数据挖掘技术让组织能够发现其数据中的细微模式和关系。他们将原始数据转化为实用知识,这些知识可用于解决问题、分析业务决策的未来影响并提高利润率。本指南探讨了各种数据挖掘技术以及如何在 AWS 上实现这些技术。

各组织需存储和处理来自各种业务流程的大量信息。数据挖掘通过数据建模和预测分析,帮助他们从历史数据中获得宝贵洞察。现代数据挖掘通常使用人工智能和机器学习(AI/ML)技术来加速获得业务洞察并推动取得更佳结果。

但是,企业在使用本地基础设施进行知识发现时面临诸多挑战。具体而言,他们需要将数据挖掘工具与不同的数据来源整合,连接第三方应用程序,并将结果告知各利益相关者,而传统基础设施却要付出昂贵的成本才能做到这一点。

AWS 提供托管服务,帮助组织在云端扩展其数据挖掘流程。我们将强大的数据挖掘能力、生成式人工智能专业知识和数据治理最佳实践与 Amazon SageMaker 相结合。这让数据科学家能够统一来自不同来源的数据,运行复杂的数据分析查询,并根据安全策略更有效地监控数据。

除了改进数据流外,组织还可以更经济地提供高级分析,而无需预置自己的基础设施。例如,Lennar 使用 Amazon SageMaker 融通式合作开发工作室Amazon SageMaker 智能湖仓改造了其数据基础,使其数据团队能够更有效地获得业务洞察。

接下来将介绍各种数据挖掘技术,以及 AWS 工具如何就这些技术提供帮助。

如何在数据挖掘中使用数据预处理?

数据预处理将原始数据转换为数据挖掘神经网络可以理解的格式。该预处理会显著影响数据模型的性能,因此是数据挖掘的关键部分。通常,原始数据可能包含错误、重复项和缺失信息,这些问题可能会对模型的结果产生负面影响。通过数据预处理,您可以清理数据并删除此类异常。此外,数据科学家可以选择有助于获得业务洞察并消除不必要信息的特定功能。例如,在预测客户流失时,您可以选择平均每月使用量、上次登录日期和支持请求频率等功能。我们将此功能称为工程功能,该功能让您能够减少数据挖掘所需的计算资源。

Amazon SageMaker Data Wrangler 是一款数据准备工具,可帮助您提高数据质量,进而改善分析结果。您可以在与数据管道连接的各种数据来源中使用 Amazon SageMaker Data Wrangler。得益于其无代码方法,Amazon SageMaker Data Wrangler 仅需几分钟就能完成数据清理,而不用花费数小时之久。以下是使用 SageMaker Data Wrangler 为机器学习模型准备数据的方法。

第 1 步:选择和查询

使用可视化查询生成器在 AWS 和第三方存储中访问和检索文本、图像以及表格数据。然后,应用数据质量报告中的调查发现来检测异常值、类别不平衡和数据泄露等异常。

第 2 步:清理和扩充

使用预建的 PySpark 转换和自然语言界面转换您的数据。Amazon SageMaker Data Wrangler 支持常见的数据转换,包括向量化文本、特征化日期时间数据、编码和平衡数据。此外,您可以轻松创建自定义转换以支持您的使用案例。

第 3 步:可视化和理解

验证使用图表、示意图和其他可视化工具准备的数据。然后,在实际训练模型之前,进行快速分析以预测模型的结果。

什么是探索性数据分析?

探索性数据分析(EDA)是一种数据科学技术,让数据科学家能够发现隐藏的模式、识别有意义的关系并检测数据中的异常。EDA 通常由直方图、图表和图形等可视化工具指导。EDA 的目的核心在于为后续数据分析提供指导。此外,它有助于数据科学家将判断从假设和偏差中解放出来。

简而言之,EDA 提供的证据可以通过统计建模和技术(例如时间序列分析、空间分析和散点图)进行观察。但是,执行 EDA 需要一套数据挖掘工具,这些工具必须以集成方式协同工作。安装可能费用高昂。 

Amazon SageMaker 融通式合作开发工作室是一个单一人工智能和数据平台,您的团队可以在该平台上构建、部署和共享数据分析工作负载。您可以通过它来使用熟悉的 AWS 人工智能/机器学习工具、存储和分析,包括 Amazon EMRAWS GlueAmazon AthenaAmazon RedshiftAmazon BedrockAmazon SageMaker AI

以下是使用 Amazon SageMaker 融通式合作开发工作室加速探索性数据分析(EDA)的方法。

  • 为要在训练数据分析模型中使用的数据资产订阅、管理和设置规则。
  • 查询存储在数据湖、数据仓库和其他来源中的数据。
  • 使用内置可视化界面创建工作流程,在数据来源和目标之间添加转换模块。

数据挖掘中的预测分析是什么?

数据挖掘中的预测分析利用已发现的数据模式预测未来的结果。为此,将数据输入到机器学习模型中,机器学习模型根据他们学到的知识做出预测,帮助企业支持他们的决策。例如,金融公司使用预测分析来预测市场趋势、检测欺诈和评测信贷风险。

Amazon SageMaker Canvas 是一款可视化开发工具,让您可以大规模训练、测试和部署预测模型。它提供对基础模型和自定义机器学习(ML)算法的访问权限,能够为各种使用案例生成准确的预测。

此外,您可以通过 Amazon Q 开发者版使用对话语言构建整个数据工作流程。这是一款生成式人工智能助手,让您能够用日常语言描述机器学习和数据分析任务。然后,该助手会将您的描述转换为查询、SQL 脚本、可行的步骤、代码建议等,帮助您更高效地使用 AI 和数据。

以下是您可以使用 Amazon SageMaker Canvas 构建和部署的模型,以实现预测分析。

分类

分类模型可以根据它们学到的特征为以前看不见的数据分配标签。例如,人工智能驱动的客户支持系统可以通过分析对话中的词语,将反馈归类为正面、负面或中性。Amazon SageMaker Canvas 支持各种问题类型的分类模型,包括文本分类、图像分类、异常检测和对象检测。

关联规则挖掘

关联规则挖掘(ARM)可发现数据点之间的关系,并可用于增强预测分析管道。例如,您可以使用 ARM 进行购物篮分析,找出哪些商品经常在超市一起购买。您可以借助 Amazon SageMaker 使用 Python 等框架创建自己的自定义 ARM 算法,并将其部署在 AWS 上的人工智能/机器学习工作流程中。

聚类

聚类通过将基于相似属性的数据分组在一起来间接支持预测分析。例如,您可以根据平均支出价值对客户进行聚类。然后,将细分客户用作预测模型中的特征之一。数据科学家通常使用 K 均值算法对数据进行聚类。Amazon SageMaker 使用了经修改的 K 均值算法版本,该算法可以产生更准确的结果并增强可扩展性。

异常检测

可以训练机器学习模型以检测数据模式中的异常值。例如,工厂利用预测模型来识别机器中的潜在故障。异常检测支持主动缓解措施,例如进行预防性维护以防止运营中断。

借助 Amazon SageMaker,您可以使用 Random Cut Forest 算法检测异常模式,该算法为数据分配低(正常)和高(异常)分数。

什么是文档挖掘?

文档挖掘是一种机器学习技术,用于发现、提取和分析文档中的文本、图像或表格数据。组织可以通过将数据挖掘技术应用于其存储的文档,降低成本、增强客户体验并提高运营效率。例如,律师事务所可以使用文件挖掘自动从合同中提取特定条款。

您可以通过 Amazon SageMaker Canvas 应用即用型文档挖掘模型。这些模型经过预训练,这表示您无需额外微调即可将它们集成到数据挖掘工作流程中。设置完成后,模型会分析文档中的原始数据以发现有意义的模式。然后,它会相应地对其进行提取、分类或标记。

例如,个人信息检测模型支持从文本数据中检测地址、银行账号和电话号码等信息。同时,费用分析模型可从收据和发票中检索金额、日期和项目等信息。

下面介绍了如何通过 Amazon SageMaker Canvas 应用文档挖掘技术。

  1. 创建 SageMaker 人工智能域并开启 Canvas 即用型模型。
  2. 导入要分析的文档数据集。您可以借此创建数据流。
  3. 选择数据挖掘模型以生成预测。您可以根据设置进行单一或批量预测。

AWS 如何为数据挖掘技术提供帮助?

数据挖掘技术让企业能够从生成的数据中发现宝贵洞察,从而做出明智的决策。成功的数据挖掘需要简化的数据管道,将不同来源的原始数据连接到强大的人工智能/机器学习模型。

数据管道可自动执行数据提取、存储、清理和转换,确保后续模型收到高质量的准确数据。然后,您可以应用各种类型的数据挖掘技术来获得有意义的洞察。

探索 Amazon SageMaker 以简化复杂的数据工作流程并获得预测性洞察,从而取得更佳的业务成果。