什么是计算机视觉？- 图像识别 AI/ML 简介

什么是计算机视觉？

计算机利用计算机视觉这项技术自动识别图像，并准确、高效地描述这些图像。如今，计算机系统可以访问来自智能手机、交通摄像头、安全系统和其他设备或由它们创建的大量图像和视频数据。计算机视觉应用程序利用人工智能和机器学习（AI/ML）准确地处理这些数据，以进行对象识别和面部识别以及分类、推荐、监控和检测。

计算机视觉为何如此重要？

尽管视觉信息处理技术已经存在了一段时间，但这一过程的很大一部分需要人工干预，而且既耗时，又容易出错。例如，以前在实施面部识别系统时，开发人员需要利用关键数据点（例如鼻梁的宽度和双眼之间的距离）手动标记数以千计的图像。要将这些任务自动化，需要投入大量的计算能力，原因在于图像数据是非结构化的，而且非常复杂，因此计算机很难整理这些数据。因此，对大多数组织而言，视觉应用程序代价不菲，可望而不可及。

如今，随着这一领域的不断进步和计算能力的显著提高，图像数据处理的规模和准确性都得到了提升。现在，每个人都可以使用由云计算资源提供支持的计算机视觉系统。任何组织都可以利用这项技术进行身份验证、内容审核、流式处理视频分析、故障检测等等。

计算机视觉有哪些使用案例？

很多计算机视觉应用程序广泛应用于娱乐、商业、医疗保健、交通运输以及人们的日常生活中。下面，我们将介绍一些使用案例：

安保和安全

政府和企业利用计算机视觉提高资产、场地和设施的安全性。例如，摄像头和传感器可监控公共空间、工业场所和注重安全的环境。一旦发生异常情况，例如未经授权的个人进入限制区域，它们就会自动发出警报。

同样，计算机视觉可以改善家庭和工作场所的人身安全。例如，识别技术可以监控很多安全相关问题。这些技术包括利用住宅实时数据流检测宠物，或者利用实时前门摄像头检测访客或送达的包裹。在工作场所，此类监控包括工作人员佩戴适当的个人防护设备、通知警报系统或生成报告。

运营效率

计算机视觉可以分析图像并提取元数据，以获得商业智能，从而开辟新的创收机会以及提高运营效率。例如，它可以：

在产品出厂之前自动识别质量缺陷
检测机器维护和安全问题
分析社交媒体图像，以发现客户行为的趋势和模式
利用自动面部识别对员工进行身份验证

医疗保健

医疗保健是率先采用计算机视觉技术的行业之一。尤其是，医疗影像分析能够将器官和组织可视化，以帮助医疗专业人员快速、准确地进行诊断，从而实现更好的治疗结果和更长的预期寿命。例如：

通过分析痣和皮肤病变进行肿瘤检测
自动 X 线分析
通过磁共振成像（MRI）扫描发现症状

自动驾驶汽车

自动驾驶汽车技术利用计算机视觉识别实时影像，并通过安装在自动驾驶车辆上的多个摄像头构建 3D 地图。它可以分析影像并识别其他道路使用者、路标、行人或障碍物。

在半自动驾驶车辆中，计算机视觉利用机器学习（ML）监控驾驶员的行为。例如，它会根据驾驶员的头部位置、眼动追踪和上半身的动作来寻找注意力分散、疲劳和困倦的迹象。一旦检测到某些预警信号，这项技术就会提醒驾驶员，从而降低发生行车事故的几率。

农业

从提高生产力到利用智能自动化降低成本，计算机视觉应用程序改善了农业部门的整体运作。卫星成像和无人机（UAV）影像有助于分析大片土地和改进耕作方式。计算机视觉应用程序可自动执行很多任务，例如监测田间状况、识别作物病害、检查土壤湿度以及预测天气和作物产量。利用计算机视觉进行动物监测是智能农业的另一个关键策略。

计算机视觉的工作原理是什么？

计算机视觉系统利用人工智能（AI）技术模仿负责对象识别和对象分类的人脑能力。计算机科学家训练计算机，以通过输入大量信息来识别视觉数据。机器学习（ML）算法可识别这些图像或视频中的常见模式，并利用这些知识准确地识别未知的图像。例如，在计算机处理数百万张汽车图像之后，它们将开始建立身份模式，这样就可以准确地检测图像中的车辆。下面列举了计算机视觉采用的一些技术。

深度学习

深度学习是一种使用神经网络的 ML。深度学习神经网络是由在计算机内部协同工作的多层软件模块（称为“人工神经元”）组成的。它们利用数学计算来自动处理图像数据的不同方面，并逐渐形成对图像的综合理解。

卷积神经网络

卷积神经网络（CNN）利用标签系统对视觉数据进行分类并理解整个图像。它们将图像作为像素进行分析，并为每个像素赋予一个标签值。输入此值是为了执行被称为“卷积”的数学运算，并对图像进行预测。就像人类尝试识别远处的对象那样，CNN 会首先识别轮廓和简单形状，然后填充颜色、内部形状和纹理等其他细节。最后，它会在多次迭代中反复执行预测过程，以提高准确性。

循环神经网络

循环神经网络（RNN）与 CNN 类似，但可以处理一系列图像，以找到它们之间的联系。CNN 用来分析单张图像，而 RNN 可以分析视频并了解图像之间的关系。

计算机视觉可以执行哪些常见任务？

下面我们来了解组织可以实现的计算机视觉任务的一些示例。

图像分类

利用图像分类，计算机可以查看图像并准确地对其进行分类。计算机视觉可以理解类别并对其进行标记，例如树木、飞机或建筑。一个示例是，摄像头能够识别并聚焦于照片中的人脸。

对象检测

对象检测是一项用来检测和定位图像的计算机视觉任务。它利用分类来识别、排序和组织图像。工业流程和制造流程利用对象检测来控制自主应用程序和监控生产线。联网家用摄像头制造商和服务提供商同样依靠对象检测来处理摄像头提供的实时视频流，以便实时检测人员和对象，并为他们的最终用户提供可操作的警报。

对象跟踪

对象跟踪利用深度学习模型来识别和跟踪属于不同类别的对象。该技术实际应用于很多行业。对象跟踪的第一个元素是对象检测；在对象的周围创建一个边界框，为其赋予一个对象 ID，并能够通过边界框来跟踪对象。例如，可以利用对象跟踪进行城市环境交通监控、人员监控和医学成像。

分割

分割是一种计算机视觉算法，它根据所发现的像素将对象的图像分成不同的区域，从而识别对象。分割还可以简化图像，例如放置对象的形状或轮廓，以确定对象是什么。这样，分割还可以识别图像或边界框中是否存在多个对象。

例如，如果图像中有一只猫和一只狗，则可以利用分割来识别这两只动物。与在对象周围构建边界框的对象检测不同，分割会跟踪像素，以确定对象的形状，使其更易于分析和标记。

基于内容的图像检索

基于内容的图像检索是计算机视觉技术的一种应用，可以在大型数据库中搜索特定的数字图像。它会分析标签、描述、标识和关键字等元数据。语义检索利用“查找建筑图像”之类的命令来检索相应的内容。

计算机视觉与图像处理之间有什么区别？

图像处理利用算法来更改图像，包括锐化、平滑、过滤或增强。但计算机视觉不同，因为它并不更改图像，而是理解它所发现的内容并执行任务，例如进行标记。在某些情况下，可以利用图像处理来修改图像，以使计算机视觉系统能够更好地理解图像。在其他情况下，可以利用计算机视觉来识别图像或图像的某些部分，然后利用图像处理进一步修改图像。

AWS 如何帮助您执行计算机视觉任务？

AWS 提供了最广泛、最齐全的一套人工智能和机器学习（AI/ML）服务，无论拥有何种专业知识水平，客户都可以连接到一组全面的数据来源。

对于基于框架进行构建并管理自己的基础设施的客户，我们会优化最受欢迎的深度学习框架的各个版本，包括 PyTorch、MXNet 和 TensorFlow。AWS 提供了广泛、深入的计算、联网和存储基础设施 ML 服务组合，并提供了多种处理器和加速器，以满足您对性能和预算的独特需求。

对于希望在整个企业中创建标准计算机视觉解决方案的客户，Amazon SageMaker 可通过完全托管的基础设施、工具和工作流（包括面向业务分析师的无代码产品）轻松为任何使用案例准备数据并构建、训练和部署 ML 模型。

对于缺乏 ML 技能、需要缩短上市时间或者希望为现有流程或应用程序增添智能的客户，AWS 提供了一系列基于 ML 的计算机视觉服务。使用这些服务，您可以通过预先训练的 API 轻松为 AI 应用程序增添智能。Amazon Rekognition 利用 ML 自动执行图像和视频分析，并能够在几秒钟内分析数百万个图像、实时流和存储的视频。Amazon Deep Lens 是世界上的首款由深度学习提供支持的摄像机，开发人员可以通过计算机视觉项目、教程和利用物理设备进行的实际动手探索，了解深度学习的基础知识。

立即创建免费的 AWS 账户，以开始使用计算机视觉。

什么是计算机视觉？