什么是计算机视觉？- 图像识别 AI/ML 简介

什么是计算机视觉？

计算机利用计算机视觉这项技术自动识别图像，并准确、高效地描述这些图像。如今，计算机系统可以访问来自智能手机、交通摄像头、安全系统和其他设备或由它们创建的大量图像和视频数据。计算机视觉应用程序使用人工智能和机器学习 (AI/ML) 来准确处理这些数据，以进行对象识别和面部识别，以及分类、推荐、监控和检测。

使用案例

安保和安全

政府和企业使用计算机视觉来提高资产、场地和设施的安全性。例如，摄像头和传感器可监控公共空间、工业场所和注重安全的环境。如果发生异常情况，例如未经授权的人员进入禁区，他们会自动发送警报。

同样，计算机视觉可以改善家中和工作场所的人身安全。例如，识别技术可以监控很多安全相关问题。这些技术包括利用住宅实时数据流检测宠物，或者利用实时前门摄像头检测访客或送达的包裹。在工作场所，此类监测包括工人佩戴适当的个人防护设备、通知警报系统或生成报告。

运营效率

计算机视觉可以分析图像和提取商业智能的元数据，从而创造新的收入机会和运营效率。例如，它可以：

在产品出厂之前自动识别质量缺陷
检测机器维护和安全问题
分析社交媒体图像，以发现客户行为的趋势和模式
利用自动面部识别对员工进行身份验证

自动驾驶汽车

自动驾驶汽车技术使用计算机视觉识别实时图像，并使用安装在自动驾驶车辆上的多台摄像机构建 3D 地图。它可以分析图像并识别其他道路使用者、路标、行人或障碍物。

在半自动驾驶汽车中，计算机视觉使用机器学习 (ML) 来监控驾驶员的行为。例如，它会根据驾驶员的头部位置、眼动追踪和上半身的动作来寻找注意力分散、疲劳和困倦的迹象。如果该技术发现某些警告标志，它会提醒驾驶员并减少发生驾驶事故的机会。

农业

从提高生产率到通过智能自动化降低成本，计算机视觉应用程序增强了农业部门的整体运作。卫星成像和无人机（UAV）影像有助于分析大片土地和改进耕作方式。计算机视觉应用程序可自动执行很多任务，例如监测田间状况、识别作物病害、检查土壤湿度以及预测天气和作物产量。使用计算机视觉进行动物监测是智能农业的另一项关键策略。

医疗保健

医疗保健是应用计算机视觉技术的主要行业之一。尤其是，医疗影像分析能够将器官和组织可视化，以帮助医疗专业人员快速、准确地进行诊断，从而实现更好的治疗结果和更长的预期寿命。例如：

通过分析痣和皮肤病变进行肿瘤检测
自动 X 线分析
通过磁共振成像（MRI）扫描发现症状

计算机视觉的工作原理是什么？

计算机视觉系统使用人工智能 (AI) 技术来模仿人脑负责物体识别和物体分类的能力。计算机科学家训练计算机，以通过输入大量信息来识别视觉数据。机器学习（ML）算法可识别这些图像或视频中的常见模式，并利用这些知识准确地识别未知的图像。例如，在计算机处理数百万张汽车图像之后，它们将开始建立身份模式，这样就可以准确地检测图像中的车辆。计算机视觉使用如下所示的技术。

深度学习

深度学习是一种使用神经网络的机器学习。深度学习神经网络是由在计算机内部协同工作的多层软件模块（称为“人工神经元”）组成的。它们利用数学计算来自动处理图像数据的不同方面，并逐渐形成对图像的综合理解。

卷积神经网络

卷积神经网络 (CNN) 利用标签系统对视觉数据进行分类并理解整个图像。它们将图像作为像素进行分析，并为每个像素赋予一个标签值。输入此值是为了执行被称为“卷积”的数学运算，并对图像进行预测。就像人类尝试识别远处的对象那样，CNN 会首先识别轮廓和简单形状，然后填充颜色、内部形状和纹理等其他细节。最后，它会在多次迭代中反复执行预测过程，以提高准确性。

循环神经网络

循环神经网络（RNN）与 CNN 类似，但可以处理一系列图像，以找到它们之间的联系。CNN 用来分析单张图像，而 RNN 可以分析视频并了解图像之间的关系。

计算机视觉与图像处理之间有什么区别？

图像处理使用算法来改变图像，包括锐化、平滑、过滤或增强。但计算机视觉不同，因为它并不更改图像，而是理解它所发现的内容并执行任务，例如进行标记。在某些情况下，可以利用图像处理来修改图像，以使计算机视觉系统能够更好地理解图像。在其他情况下，您可以使用计算机视觉来识别图像或图像的一部分，然后使用图像处理来进一步修改图像。

计算机视觉可以执行哪些常见任务？

图像分类

利用图像分类，计算机可以查看图像并准确地对其进行分类。计算机视觉可以理解类别并对其进行标记，例如树木、飞机或建筑。一个示例是，摄像头能够识别并聚焦于照片中的人脸。

对象检测

对象检测是一项用来检测和定位图像的计算机视觉任务。它利用分类来识别、排序和组织图像。工业流程和制造流程利用对象检测来控制自主应用程序和监控生产线。联网家用摄像头制造商和服务提供商同样依靠对象检测来处理摄像头提供的实时视频流，以便实时检测人员和对象，并为他们的最终用户提供可操作的警报。

对象跟踪

对象跟踪利用深度学习模型来识别和跟踪属于不同类别的对象。该技术实际应用于很多行业。对象跟踪的第一个元素是对象检测；在对象的周围创建一个边界框，为其赋予一个对象 ID，并能够通过边界框来跟踪对象。例如，可以利用对象跟踪进行城市环境交通监控、人员监控和医学成像。

分割

分割是一种计算机视觉算法，它根据所发现的像素将对象的图像分成不同的区域，从而识别对象。分割还可以简化图像，例如放置对象的形状或轮廓，以确定对象是什么。这样，分割还可以识别图像或边界框中是否存在多个对象。

例如，如果图像中有一只猫和一只狗，则可以利用分割来识别这两只动物。与在对象周围构建边界框的对象检测不同，分割会跟踪像素，以确定对象的形状，使其更易于分析和标记。

AWS 如何帮助您执行计算机视觉任务？

AWS 提供了最广泛、最齐全的一套人工智能和机器学习（AI/ML）服务，无论拥有何种专业知识水平，客户都可以连接到一组全面的数据来源。

对于在框架上构建和管理自己的基础设施的客户，我们会优化最受欢迎的深度学习框架的版本，包括 PyTorch 、 MXNet 和 TensorFlow。 AWS 提供广泛而深入的计算、网络和存储基础设施机器学习服务组合，可选择处理器和加速器，以满足独特的性能和预算需求。

对于想要在整个业务中创建标准计算机视觉解决方案的客户，Amazon SageMaker 可利用完全托管的基础架构、工具和工作流程（包括为业务分析师提供的无代码产品），轻松准备数据并针对任何用例构建、训练和部署机器学习模型。

对于缺乏 ML 技能、需要缩短上市时间或者希望为现有流程或应用程序增添智能的客户，AWS 提供了一系列基于 ML 的计算机视觉服务。使用这些服务，您可以通过预先训练的 API 轻松为 AI 应用程序增添智能。 Amazon Rekognition 使用机器学习自动分析图像和视频，并在几秒钟内分析数百万张图像、直播和存储的视频。

立即创建免费的 AWS 账户，开始使用计算机视觉。

什么是计算机视觉？