什么是机器学习？— 机器学习技术详解

什么是机器学习？

机器学习是一种无需明确指令即可执行数据分析任务的人工智能。机器学习技术可以处理大量历史数据，识别模式，并预测以前未知的数据之间的新关系。您可以对文档、图像、数字和其他数据类型执行分类和预测任务。

例如，金融组织可以训练机器学习系统来对欺诈和真实交易进行分类。该系统识别已知数据中的模式，以准确猜测或预测新交易是否真实。

简而言之，什么是机器学习？

ML 是机器学习的缩写，机器学习是人工智能（AI）和计算机科学的一个分支，它利用数据和算法使人工智能系统能够以与人类相似的方式进行学习和改进，从而随着时间的推移逐渐提高其准确性。

机器学习和人工智能有什么区别？

机器学习和人工智能（AI）两个术语可以互换使用，但两者并不相同。机器学习是人工智能的众多分支之一。虽然机器学习是一种人工智能，但不是所有人工智能活动都能称为机器学习。

人工智能是使机器更像人类的一个更广泛概念，而机器学习是一个子集，侧重于教计算机在没有明确编程的情况下从数据中学习。人工智能涵盖范围非常广，例如 Alexa 这样的智能助手、聊天机器人、图像生成器，以及机器人吸尘器和自动驾驶汽车。

相比之下，机器学习模型执行更具体的数据分析任务，例如将文档归类、标注图像或预测工厂设备的维护计划。机器学习技术主要基于数学和统计学，而其他类型的人工智能则更为复杂。本质上，机器学习是一种实现人工智能的方法。

了解有关机器学习与人工智能的更多信息

机器学习与深度学习之间有什么区别？

深度学习是一种特殊形式的机器学习，它使用人工神经网络来模仿人脑。它是一种用于处理图像和语音识别等复杂任务的高级技术。深度学习为生成式人工智能的发展奠定了基础。

机器学习的工作原理是什么？

机器学习的核心思想是任意输入和输出数据组合之间的现有数学关系。机器学习模型事先不知道这种关系，但如果给出足够的输入-输出数据集示例，它可以猜测出来。这意味着每个机器学习算法都是围绕一个可修改的数学函数构建的。基本原理可以这样理解：

我们为算法提供了以下输入/输出 (i,o) 组合来“训练”算法 – (2,10)、(5,19) 和 (9,31)
算法计算出输入和输出之间的关系为：o=3*i+4
我们为算法提供输入 7，并要求算法预测输出。算法会自动确定输出为 25。

虽然这只是机器学习的基本理解，但机器学习关注的是一个原则，即计算机系统可以对所有复杂的数据点建立数学关联，只要它们有足够的数据和计算能力来处理这些数据点。因此，输出的准确度与给定的输入大小直接相关。机器学习阶段如下所示。

数据预处理

原始数据经过清理和转换以训练机器学习模型。这涉及诸如处理缺失值、将数据标准化为通用比例或将文本数据编码为数字格式等任务。还可以增强或操作数据，以提高模型处理给定使用案例的能力。预处理可确保输入到模型中的数据具有相关性且结构合理。

训练模型

预处理数据用于训练机器学习算法。该算法尝试以迭代方式识别训练数据的输入和预期输出之间的数学相关性。模型学习数据中的模式和关系，并将这些知识封装在其参数中。然后调整参数，以最大限度地减少其预测与训练数据中已知的实际结果之间的差异。

评估模型

目标是确保能够在训练数据集之外推广该模型。为此，使用了被称为验证集的单独数据集。模型输出是使用不同的指标和基准来衡量的。例如，假设一个经过训练的模型可以识别购物篮里的苹果和香蕉等水果的照片。评估检查该模型能否从显示放在桌子上或某人手中的水果的图像中正确识别出相同的水果。

优化

优化包括完善模型以提高其性能。根据模型类型，数据科学家可以重新配置学习过程或执行特征工程，从而根据现有数据创建新的输入特征。目标是提高模型的准确性、效率和对新数据进行有效推广的能力。

什么是机器学习的优势？

数据是业务决策背后的关键驱动力。现代组织从数千个来源生成数据，包括智能传感器、客户门户、社交媒体和应用程序日志。机器学习可以自动化和优化数据收集、分类和分析的过程。企业可以推动增长，开拓新的收入来源，并且更快地解决具有挑战性的问题。

机器学习的优势包括：

更好地做出决策

机器学习系统可以快速准确地处理和分析海量数据。它们可以实时识别动态和复杂数据中不可预见的模式。组织可以在运行时做出数据驱动型决策，并更有效地应对不断变化的情况。它们可以自信地优化运营并降低风险。

日常任务的自动化

机器学习算法无需人工干预即可对数据进行筛选、排序和分类。它们可以汇总报告、扫描文档、转录音频和标记内容，而人工处理这些任务既繁琐又耗时。自动执行日常和重复性任务可以显著提高工作效率并降低成本。还可以提高准确性和效率。

改善客户体验

机器学习通过个性化转变客户体验。例如，零售商根据过往的购买、浏览历史和搜索模式向客户推荐产品。流媒体服务可自定义娱乐行业的观看建议。个性化方法提高了客户留存率和品牌忠诚度。

主动资源管理

组织使用机器学习来高精度地预测趋势和行为。例如，预测分析可以预测库存需求并优化库存水平，从而降低管理开销。预测性洞察对于规划和资源分配至关重要，这使组织变得更加积极主动而非被动。

持续改进

机器学习的一个显著优势在于，它能够随着处理数据的增加而不断改进。机器学习系统适应新数据并从中学习。它们会调整和提高性能，以便随着时间的推移保持实用性和相关性。

什么是机器学习使用案例？

我们来了解一下机器学习应用程序应用的一些主要行业：

制造业

机器学习可以为制造业的预测性维护、质量控制和创新研究提供支持。机器学习技术还可以帮助公司改进物流解决方案，包括资产、供应链以及库存管理。例如，制造业巨头 3M 利用机器学习创新砂纸。机器学习算法使 3M 研究人员能够分析形状、大小和方向上的细微变化将如何改进研磨性和耐用性。这些建议也会提供制造过程改进信息。

医疗保健及生命科学

可穿戴传感器和设备的激增产生了重要的健康数据。机器学习程序分析此信息，并为医生的实时诊断和治疗提供支持。机器学习研究人员正在开发发现癌症肿瘤并诊断眼睛疾病的解决方案，这会对人类健康结果产生巨大影响。例如，Cambia Health Solutions 使用机器学习为孕妇提供自动化的定制治疗方案。

金融服务

金融机器学习方案改进了风险分析和监管程序。机器学习技术使投资者能够分析股市走势、评估对冲基金或校准金融服务产品组合，从而发现新的机会。此外，它还有助于识别高风险贷款客户，减少欺诈问题。例如，个人理财公司 NerdWallet 使用机器学习来比较信用卡、银行业务和贷款等金融产品。

零售

零售业可以使用机器学习来改进客户服务、库存管理、追加销售和跨渠道营销。例如，Amazon Fulfillment（AFT）使用机器学习模型识别错放的库存，将基础设施成本削减了 40％。这有助于他们履行亚马逊的承诺，尽管他们每年处理数百万次全球货运，但商品仍将很快提供给客户并准时到达。

媒体和娱乐

娱乐公司转向使用机器学习，希望更好地了解他们的目标受众，并根据受众需求提供沉浸式的个性化内容。部署机器学习算法有助于设计预告片和其他广告，为消费者提供个性化的内容建议，甚至还可以简化生产。

例如，Disney 利用机器学习来存档其媒体库。机器学习工具可自动为媒体内容贴标签、提供描述并进行分类，这使得 Disney 编剧和动画师能够快速搜索并熟悉 Disney 角色。

计算机视觉

计算机视觉是自动识别图像并准确、高效地描述这些图像的一项技术。如今，计算机系统可以访问来自智能手机、交通摄像头、安全系统和其他设备的许多图像和视频。计算机视觉应用程序利用机器学习准确地处理这些数据，以进行对象识别和面部识别以及分类、推荐、监控和检测。

例如，CampSite 是面向夏令营的领先软件平台。他们的营地每天上传数千张照片，让父母能够了解孩子的夏令营生活。找到营员的照片对父母来说成为一项耗时又棘手的任务。CampSite 使用机器学习自动识别图像，并在上传孩子的新照片时通知家长。

机器学习算法有哪些类型？

根据预期输出和输入类型，机器学习算法可以分为 4 种不同的学习风格。

有监督机器学习

数据科学家为算法提供标注和定义的训练数据，以评估相关性。样本数据指定了算法的输入和输出。数据标注是根据相应的定义输出值对输入数据进行归类。例如，数百万张苹果和香蕉图片需要贴上“苹果”或“香蕉”的标签。然后，机器学习应用程序可以使用这些训练数据在给定水果图像时猜测水果的名称。

有监督学习的优点是设计简单易行。它在预测可能的有限结果集、将数据划分为类别，或组合其他两种机器学习算法的结果时非常有用。但是，为数百万个未标注的数据集添加标注是一项难题。

无监督机器学习

无监督学习算法会使用未标注的数据进行训练。该算法会扫描新数据，从而在输入和预先确定的输出之间建立有意义的连接。它们可以发现模式并对数据进行分类。例如，无监督算法可以将来自不同新闻网站的新闻文章分为体育、犯罪等常见类别。该算法可以利用自然语言处理来理解文章的意义和感情。在零售业，无监督学习可以发现客户购买模式并提供数据分析结果。例如，如果顾客购买了黄油，那再购买面包的可能性最大。

无监督学习在模式识别、异常检测、数据自动归类方面十分有用。训练数据不需要添加标注，因此设置十分简单。这些算法还可用于清理和处理数据，以供自动建模。这种方法的局限性在于无法提供精确的预测，也无法独立选出特定的数据结果。

半监督学习

顾名思义，该方法结合了有监督学习和无监督学习。该技术使用少量已标注数据和大量未标注数据来训练系统。首先，标注数据用于部分训练机器学习算法。然后，部分训练后的算法会为未标注数据添加标注。此流程被称为伪标注。然后，该模型在没有明确编程的情况下，根据生成的数据组合进行重新训练。

这种方法的优点是它不需要大量的标注数据。当处理像长文档这样的数据时，这种方法非常方便，因为人工处理这些数据太费时了，难以阅读和标注。

强化学习

强化学习是在算法必经的多个阶段附加奖励值的方法。因此，该模型的目标是积累尽可能多的奖励积分，并实现最终目标。在过去的 10 年间，强化学习的大多实际应用都在电子游戏中。先进的强化学习算法在经典和现代游戏中都取得了令人印象深刻的结果，往往大大超越人类的能力。

强化学习面临的挑战在于，现实世界的环境经常发生显著变化，而且警告有限。这可能会使算法在实践中难以发挥作用。开发人员的偏向也会影响结果。这是因为数据科学家设计了奖励，它们可以影响结果。

深度学习

深度学习是一种以人脑为模型的机器学习技术。深度学习算法使用与人类类似的逻辑结构来分析数据。它们使用人工神经网络来分层处理信息。人工神经网络（ANN）由称为人工神经元的软件节点组成，这些节点共同处理数据。数据从神经元输入层经过多个“深度”隐藏的神经网络层，然后进入输出层。额外的隐藏层支持比标准机器学习模型更强大的学习能力。

阅读有关神经网络的更多信息

了解有关深度学习与机器学习的更多信息

机器学习模型具有确定性吗？

如果系统的输出可预测，那么它就可以说具有确定性。大多数软件应用程序对用户操作的反应都是可预测的，因此您可以说“如果用户这样做，他就能得到确定的结果”。但是，机器学习算法通过观察和经验来学习。因此，它们本质上具有概率性。上述语句现在更改为：“如果用户这样做，他有 X% 的几率得到确定的结果。”

在机器学习中，决定论是应用上述学习方法时使用的一种策略。有监督、无监督及其他训练方法均可以根据企业想要的结果决定。研究问题、数据检索、结构和存储决策决定了采用的是确定性策略还是非确定性策略。

确定性方法与概率性方法

确定性方法注重准确性和收集的数据量，因此效率优先于不确定性。另一方面，非决定性（或概率性）流程旨在管理机会因素。机器学习算法中集成了内置工具，有助于量化、识别和衡量学习和观察过程中的不确定性。

如何在您的组织中实施机器学习？

开始使用机器学习需要实施机器学习生命周期。它包含以下阶段。

业务目标

考虑使用机器学习的组织应首先确定其需要解决的问题。确定在问题解决过程中使用机器学习获得的商业价值。能否依据针对业务目标的特定成功标准来衡量商业价值？以目标为导向的方法可以帮助您证明支出合理性并说服关键利益相关者。

问题推敲

接下来，将业务问题视为机器学习问题进行推敲。确定观察到的内容和应该预测的内容。此阶段的关键步骤是确定要预测的内容以及如何优化相关的性能和错误指标。

数据处理

数据处理使用机器学习算法将数据转换为可用格式。这包括识别、收集和预处理数据以及特征工程。您可以从数据中创建、转换、提取和选择机器学习变量。

模型开发和部署

如上一部分所述，这是训练、调优和评估模型的核心过程。它包括建立 MLOps。机器学习运维（MLOps）是一组用于自动化和简化机器学习（ML）工作流程和部署的实践。从而将机器学习开发与部署和运维统一起来。例如，您可以创建一个 CI/CD 管道，以自动构建、训练和发布到暂存和生产环境。

监控

模型监控系统通过早期检测和缓解，确保您的模型保持所需的性能水平。这包括收集用户反馈以维护和改进模型，使模型随着时间的推移保持相关性。

机器学习实施面临哪些挑战？

机器学习实施中的挑战如下所示。

数据质量

机器学习模型的性能取决于用于训练的数据质量。缺失值、数据输入不一致和噪点等问题会显著降低模型的准确性。此外，缺乏足够大的数据集会使模型无法有效学习。在不影响质量的情况下确保数据完整性和扩大数据收集规模是始终存在的挑战。

过拟合与欠拟合

当机器学习模型学习训练数据中的细节和噪点，而导致对模型在新数据上的性能产生负面影响时，就会发生过拟合。该模型捕获的模式无法推广到其他数据集。另一方面，当模型无法学习数据的底层模式，而导致训练和测试数据性能不佳时，就会发生欠拟合。平衡模型的复杂性及其泛化能力是一项关键挑战。

偏差

在许多实际应用中，数据可能不平衡，这意味着部分数据类型的使用频率要比其他类型高得多。这种不平衡会使训练过程产生偏差，导致模型在大多数数据类型中表现良好，但却无法准确预测少数类型。例如，如果历史数据优先考虑特定人群，则人力资源应用程序中使用的机器学习算法可能会继续优先考虑这些人群。数据重采样、使用不同的评估指标或应用异常检测算法等技术在一定程度上缓解了这个问题。

模型的可解释性

随着机器学习模型，尤其是深度学习模型变得越来越复杂，它们的决策变得越来越难以解释。开发在不牺牲性能的情况下使模型更易于解释的方法是一项重要挑战。这会影响机器学习系统部署的可用性、可信度和道德考量。

可扩展性

机器学习模型，尤其是涉及大型数据集或复杂算法（例如深度学习）的模型，需要大量的计算资源。训练这些模型可能既耗时又昂贵。优化算法以减少计算需求涉及算法设计所面临的挑战。AWS 基于云的服务可以支持经济高效的大规模实施。

什么是面向初学者的机器学习培训？

机器学习需要在数学、统计、编码和数据技术方面具有坚实的基础。那些希望在机器学习领域取得进步的人应该考虑完成人工智能或数据科学的硕士学位。这些项目通常涉及神经网络、自然语言处理和计算机视觉深度等主题。

但是，正规教育不是唯一的途径。您可以使用在线课程按照自己的节奏学习并掌握特定技能。AWS 上的机器学习培训包括 AWS 专家就以下主题提供的认证：

AWS 机器学习如何提供帮助？

AWS 让机器学习掌握在每位开发人员、数据科学家和企业用户的手中。AWS 机器学习服务提供高性能、经济高效且可扩展的基础设施，满足业务需求。

刚接触这一方面？ 通过我们的实践教育设备（如 AWS DeepRacer 和 AWS DeepComposer）来学习机器学习。
已有数据存档？ 使用 Amazon SageMaker Ground Truth，获享支持视频、图片和文本的内置数据标注工作流程。
已有机器学习系统？ 使用 Amazon SageMaker Clarify 检测偏差和 Amazon SageMaker 模型训练监控和优化性能。
想实施深度学习？ 使用 Amazon SageMaker 模型训练自动训练大型深度学习模型。

立即创建免费账户，开始使用 AWS 上的机器学习功能！

什么是机器学习？

页面主题