什么是数据挖掘?

数据挖掘是一种计算机辅助技术,用于分析以处理和探索大型数据集。借助数据挖掘工具和方法,组织可以发现其数据中隐藏的模式和关系。数据挖掘将原始数据转化为实用的知识。公司利用这些知识来解决问题、分析业务决策对未来的影响以及提高利润率。

术语数据挖掘是什么意思?

“数据挖掘”是误称,因为数据挖掘的目标不是提取或挖掘数据本身。而是已经有了大量数据,数据挖掘要从中提取有意义或有价值的知识。下面概述了数据收集、存储、分析和挖掘的典型流程。

  • 数据收集是从不同来源(如客户反馈、付款和采购订单)捕获数据。
  • 数据仓库是将数据存储在大型数据库或数据仓库中的流程。
  • 数据分析使用复杂的软件和算法进一步处理、存储和分析数据。
  • 数据挖掘是数据分析的一个分支或一种分析策略,用于发现数据中隐藏的或以前未知的模式。

为什么数据挖掘如此重要?

数据挖掘是任何成功的分析计划的关键部分。企业可以使用知识发现流程来增加客户信任,寻找新的收入来源,并保持客户回头率。有效的数据挖掘有助于业务规划和运营管理的各个方面。以下是不同行业如何使用数据挖掘的一些示例。

电信、媒体和技术

电信、媒体和技术等竞争激烈的垂直行业使用数据挖掘,通过发现客户行为模式来改进客户服务。例如,公司可以分析带宽使用模式并提供定制的服务升级或建议。

银行和保险

金融服务可以使用数据挖掘应用程序来解决复杂的欺诈、合规、风险管理和客户流失问题。例如,保险公司可以通过比较过去的产品性能和竞争对手的定价来发现最佳产品定价。

教育

教育机构可以使用数据挖掘算法来测试学生、定制课程和增加学习趣味。对学生进步的统一、数据驱动的观点可以帮助教育工作者了解学生需要什么,并更好地支持他们。

制造业

制造业服务可以使用数据挖掘技术,为整体设备效率、服务水平、产品质量和供应链效率提供实时和预测分析。例如,制造商可以使用历史数据来预测生产机械的磨损并预测维护情况。因此,他们可以优化生产计划并减少停机时间。

零售

零售公司拥有大型客户数据库,其中包含有关客户购买行为的原始数据。数据挖掘可以处理这些数据,以获得营销活动和销售预测的相关见解。通过更精确的数据模型,零售公司可以优化销售和物流,以提升客户满意度。例如,数据挖掘可以揭示流行的季节性产品,这些产品可以提前贮备,以避免在紧急关头出现短缺。

数据挖掘的工作原理是什么?

跨行业数据挖掘标准流程(CRISP-DM)是启动数据挖掘流程的优秀指导原则。CRISP-DM 既是一种方法论,也是一种与行业、工具和应用程序分离的流程模型。

  • 作为一种方法,它描述了数据挖掘项目的典型阶段,概述了每个阶段涉及的任务,并解释了这些任务之间的关系。
  • 作为一个流程模型,CRISP-DM 提供了数据挖掘生命周期的概述。

数据挖掘流程的六个阶段是什么?

使用灵活的 CRISP-DM 阶段,数据团队可以根据需要在阶段之间来回移动。此外,软件技术可以完成或支持其中的一些任务。

1.业务了解

数据科学家或数据挖掘者从确定项目目标和范围开始。他们与业务的利益相关者合作,以识别某些信息。

  • 需要解决的问题
  • 项目约束或限制
  • 潜在解决方案的业务影响

然后,他们使用这些信息来定义数据挖掘目标,并确定知识发现所需的资源。

2.数据了解

数据科学家一旦了解了业务问题,就开始对数据进行初步分析。他们从各种来源收集数据集,获得访问权限,并准备数据描述报告。报告包括数据类型、数量以及数据处理的硬件和软件要求。一旦企业批准了他们的计划,他们就开始探索和验证数据。他们使用基本统计技术处理数据,评估数据质量,并为下一阶段选择最终数据集。

3.数据准备

数据挖掘者在这一阶段花费的时间最多,因为数据挖掘软件需要高质量的数据。业务流程出于挖掘以外的原因收集和存储数据,数据挖掘者必须在将其用于建模之前对其进行优化。数据准备包括以下流程。

清理数据

例如,处理丢失的数据、数据错误、默认值和数据更正。

集成数据

例如,将两个完全不同的数据集组合起来以获得最终的目标数据集。

设置数据格式

例如,为正在使用的特定挖掘技术转换数据类型或配置数据。

4.数据建模

数据挖掘者将准备好的数据输入数据挖掘软件并研究结果。为实现此目的,他们可以选择多种数据挖掘技术和工具。他们还必须编写测试来评估数据挖掘结果的质量。为了对数据建模,数据科学家可以:

  • 在具有已知结果的较小数据集上训练机器学习(ML)模型
  • 使用模型进一步分析未知数据集
  • 调整并重新配置数据挖掘软件,直到结果令人满意

5.评估

创建模型后,数据挖掘者开始对照原业务目标对其进行衡量。他们与业务分析师分享结果并收集反馈。模型可能很好地回答了原来的问题,或者显示出以前未知的新模式。数据挖掘者可以根据业务反馈更改模型、调整业务目标或重访数据。持续评估、反馈和修改是知识发现过程的一部分。

6.部署

在部署期间,其他利益相关者使用工作模型生成商业智能。数据科学家计划部署流程,包括向其他人传授模型功能、持续监控和维护数据挖掘应用程序。业务分析师使用该应用程序创建管理报告,与客户共享结果,并改进业务流程。

数据挖掘的技术有哪些?

数据挖掘技术来自不同的学习领域,它们相互重叠,包括统计分析、机器学习(ML)和数学。下面给出了一些示例。

关联规则挖掘

关联规则挖掘是查找两个不同的、看似无关的数据集之间关系的过程。If-then 语句证明了两个数据点之间存在关系的可能性。数据科学家使用支持度和置信度标准来衡量结果的准确性。支持度衡量相关元素在数据集中出现的频率,而置信度表示 if-then 语句准确的次数。

例如,当顾客购买一件商品时,他们也经常会购买第二件相关的商品。零售商可以通过对过去购买数据的关联挖掘来识别新客户的兴趣。他们使用数据挖掘结果填充在线商店的推荐部分。

分类

分类是一种复杂的数据挖掘技术,它训练 ML 算法将数据分类为不同的类别。它使用决策树和最近邻等统计方法来识别类别。在所有这些方法中,算法都是用已知的数据分类进行预先编程,以猜测新数据元素的类型。

例如,分析师可以通过使用苹果和芒果的已标图像来训练数据挖掘软件。软件可以准确地预测新图片是苹果、芒果还是其他水果。

集群

集群是根据多个数据点的相似性将其分在一组。它不同于分类,因为它不能按特定类别区分数据,但可以从它们的相似性中找到模式。数据挖掘结果是一组集群,其中每个集合都不同于其他组,但每个集群中的对象在某些方面是相似的。

例如,在处理调查的多元数据时,集群分析可以帮助进行市场研究。市场研究人员使用集群分析将消费者划分为不同的细分市场,并更好地了解不同群体之间的关系。

序列和路径分析

数据挖掘软件还可以寻找导致后续事件的特定事件或值集的模式。它可以识别定期发生的数据变化或随时间起伏的数据点。

例如,一家企业可能会使用路径分析来发现某些产品的销售在节假日前猛增,或者注意到天气变暖会使更多人访问其网站。

数据挖掘有哪些类型?

根据数据和挖掘的目的,数据挖掘可以有不同的分支或专业。我们来看看一些数据挖掘的示例。

流程挖掘

流程挖掘是数据挖掘的一个分支,旨在发现、监控和改进业务流程。它从信息系统中可用的事件日志中提取知识。它帮助组织了解这些流程中每天发生的事情。

例如,电子商务企业有许多流程,如采购、销售、付款、收款和发货。通过挖掘采购数据日志,他们可能会发现其供应商交付可靠性为 54%,或有 12% 的供应商始终提前交付。他们可以利用这些信息优化与供应商的关系。

文本挖掘

文本挖掘或文本数据挖掘使用数据挖掘软件来阅读和理解文本。数据科学家通过文本挖掘自动发现书面资源中的知识,如网站、书籍、电子邮件、评论和文章。

例如,数字媒体公司可以借助文本挖掘自动读取其在线视频上的评论,并将观众评论分为正面和负面。

预测挖掘

预测数据挖掘使用商业智能来预测趋势。它可以帮助企业领导者研究其决策对公司未来的影响,并做出有效的选择。

例如,公司可能会查看过去的产品退货数据,设计不会导致损失的保修方案。利用预测挖掘,他们会预测未来一年的潜在退货数量,并在确定产品价格时制定考虑到损失的一年保修计划。

AWS 如何为数据挖掘提供帮助?

Amazon SageMaker 是领先的数据挖掘软件平台。它能帮助数据挖掘者和开发人员快速地准备、构建、训练和部署高质量的机器学习(ML)模型。它包含用于数据挖掘流程的多种工具。

  • Amazon SageMaker Data Wrangler 可将汇总和准备挖掘数据所需的时间从数周缩短至几分钟。
  • Amazon SageMaker Studio 提供基于网络的可视化界面,数据科学家可以在该界面中执行机器学习开发步骤,提高了数据科学团队的生产率。借助 SageMaker Studio,您可以像数据科学家那样全面掌控和了解构建、训练和部署模型的每个步骤。
  • 分布式训练库使用分区算法自动分割大型模型和训练数据集进行建模。
  • Amazon SageMaker Debugger 通过捕获实时训练指标(例如在检测到异常时发送警报)来优化 ML 模型。这有助于立即修复不准确的模型预测。

立即创建免费 AWS 账户,开始进行数据挖掘。

使用 AWS 进行数据挖掘的后续步骤

查看其他与产品相关的资源
了解有关分析服务的更多信息 
注册免费账户

立即享受 AWS 免费套餐。 

注册 
开始在控制台中构建

在 AWS 管理控制台中,使用 AWS 开始构建。

登录