Что такое машинное зрение?

Машинное зрение — это технология, которую машины используют для автоматического распознавания изображений и их точного и эффективного описания. Сегодня компьютерные системы имеют доступ к большому объему изображений и источников данных, полученных со смартфонов, дорожных камер, систем безопасности и других устройств или созданных ими. Приложения компьютерного зрения используют искусственный интеллект и машинное обучение (AI/ML) для точной обработки этих данных для идентификации объектов и распознавания лиц, а также для классификации, рекомендаций, мониторинга и обнаружения.

Примеры использования

Охрана и безопасность

Правительства и предприятия используют компьютерное зрение для повышения безопасности активов, объектов и объектов. Например, камеры и датчики следят за общественными пространствами, промышленными объектами и местами повышенной безопасности. Они отправляют автоматические оповещения, если происходит что-то необычное, например, несанкционированное проникновение человека в зону ограниченного доступа.

Аналогичным образом, компьютерное зрение может повысить личную безопасность как дома, так и на рабочем месте. Например, технология распознавания позволяет отслеживать множество проблем, связанных с безопасностью. К ним относятся домашние камеры, работающие в режиме реального времени и обнаруживающие домашних животных, или камеры, работающие в режиме реального времени и обнаруживающие посетителей или доставленные посылки. На рабочем месте такой контроль включает ношение работниками соответствующих средств индивидуальной защиты , информирование систем предупреждения или составление отчетов.

Эффективность работы

Компьютерное зрение позволяет анализировать изображения и извлекать метаданные для бизнес-аналитики, создавая новые возможности для получения дохода и повышения операционной эффективности. Например, оно может:

Осуществлять автоматическую идентификацию дефектов качества до того, как продукция покинет завод
Выявлять проблемы с техническим обслуживанием и безопасностью оборудования
Анализировать изображения в социальных сетях, чтобы выявить тенденции и закономерности в поведении клиентов
Проверять личность сотрудников с помощью автоматического распознавания лиц

Автономные транспортные средства

Технология автономных транспортных средств использует компьютерное зрение для распознавания изображений в реальном времени и создания 3D-карт с помощью нескольких камер, установленных на автономном транспорте. Он может анализировать изображения и идентифицировать других участников дорожного движения, дорожные знаки, пешеходов или препятствия.

В полуавтономных транспортных средствах компьютерное зрение использует машинное обучение (ML) для мониторинга поведения водителя. Например, оно ищет признаки рассеянности, усталости и сонливости в зависимости от положения головы водителя, движения глаз и движения верхней части тела. Если технология обнаруживает определенные предупреждающие знаки, она предупреждает водителя и снижает вероятность дорожно-транспортного происшествия.

Сельское хозяйство

Приложения компьютерного зрения улучшают общее функционирование сельскохозяйственного сектора, начиная с повышения производительности и заканчивая снижением затрат с помощью интеллектуальной автоматизации. Спутниковые снимки, а также кадры с БПЛА помогают анализировать обширные участки земли и совершенствовать методы ведения сельского хозяйства. Приложения машинного зрения автоматизируют такие задачи, как мониторинг полевых условий, выявление заболеваний сельскохозяйственных культур, проверку влажности почвы и прогнозирование погоды и урожайности. Мониторинг животных с помощью компьютерного зрения — еще одна ключевая стратегия умного фермерства.

Здравоохранение

Здравоохранение — одна из ведущих отраслей, применяющих технологии компьютерного зрения. В частности, анализ медицинских снимков создает визуализацию органов и тканей, помогая медицинским работникам быстро и точно ставить диагнозы, что приводит к улучшению результатов лечения и увеличению продолжительности жизни. Например:

Обнаружение опухолей путем анализа родинок и повреждений кожи
Автоматический рентгеновский анализ
Обнаружение симптомов с помощью МРТ

Как работает машинное зрение?

Системы компьютерного зрения используют технологию искусственного интеллекта (ИИ) для имитации возможностей человеческого мозга, отвечающих за распознавание и классификацию объектов. Специалисты по информатике обучают компьютеры распознавать визуальные данные, вводя огромное количество информации. Алгоритмы машинного обучения (ML) выявляют общие закономерности на этих изображениях или видео и применяют полученные знания для точной идентификации неизвестных изображений. Например, если компьютеры обработают миллионы изображений автомобилей, они начнут создавать идентичные шаблоны, которые позволят точно определить автомобиль на изображении. В компьютерном зрении используются технологии, подобные приведенным ниже.

Глубокое обучение

Глубокое обучение — это тип машинного обучения, в котором используются нейронные сети. Нейронные сети глубокого обучения состоят из множества слоев программных модулей, называемых искусственными нейронами, которые работают вместе внутри компьютера. Они используют математические расчеты для автоматической обработки различных аспектов данных изображения и постепенно вырабатывают комбинированное понимание изображения.

Сверточные нейронные сети

Сверточные нейронные сети (CNN) используют систему маркировки для классификации визуальных данных и понимания всего изображения. Они анализируют изображения в пикселях и присваивают каждому пикселю метку. Это значение вводится, чтобы выполнить математическую операцию, называемую сверткой, и сделать прогнозы относительно изображения. Подобно человеку, пытающемуся распознать объект на расстоянии, CNN сначала определяет контуры и простые формы, а затем заполняет их дополнительными деталями, такими как цвет, внутренние формы и текстура. Наконец, он повторяет процесс прогнозирования в течение нескольких итераций для повышения точности.

Рекуррентные нейронные сети

Рекуррентные нейронные сети (RNN) похожи на CNN, но могут обрабатывать серию изображений для поиска связей между ними. В то время как CNN используются для анализа отдельных изображений, RNN могут анализировать видео и понимать взаимосвязи между изображениями.

В чем разница между машинным зрением и обработкой изображений?

При обработке изображений используются алгоритмы для изменения изображений, включая повышение резкости, сглаживание, фильтрацию или улучшение. Компьютерное зрение отличается тем, что оно не изменяет изображение, а наоборот, осмысливает то, что видит, и выполняет задачу, например, маркировку. В некоторых случаях можно использовать обработку изображений для изменения изображения, чтобы система машинного зрения могла лучше его распознать. В других случаях вы используете компьютерное зрение для идентификации изображений или частей изображения, а затем обрабатываете изображение для дальнейшего изменения изображения.

Какие общие задачи может выполнять машинное зрение?

Классификация изображений

Классификация изображений позволяет компьютерам увидеть изображение и точно определить, к какому классу оно относится. Машинное зрение понимает типы изображений и соответственно маркирует их, например деревья, самолеты или здания. Например, камера может распознавать лица на фотографии и фокусироваться на них.

Обнаружение объектов

Обнаружение объектов — это задача машинного зрения для обнаружения и локализации изображений. Программа использует классификацию для идентификации, сортировки и организации изображений. Обнаружение объектов используется в промышленных и производственных процессах для управления автономными приложениями и мониторинга производственных линий. Производители камер для подключенных домов и поставщики услуг также используют функцию обнаружения объектов для обработки видео потоков с камер в реальном времени, чтобы обнаруживать людей и объекты в режиме реального времени и предоставлять предупреждения конечным пользователям.

Отслеживание объектов

Отслеживание объектов использует модели глубокого обучения для идентификации и отслеживания предметов, входящих в различные категории. Эта технология имеет несколько реальных применений в различных отраслях. Первым элементом процесса отслеживания объектов является обнаружение объекта; вокруг объекта создается ограничивающая рамка, ему присваивается идентификатор объекта, и его можно отслеживать по кадрам. Например, отслеживание объектов можно использовать для мониторинга дорожного движения в городской среде, наблюдения за людьми и медицинской визуализации.

Сегментирование

Сегментирование — это алгоритм машинного зрения, который идентифицирует объект путем разделения его изображений на разные области на основе видимых пикселей. Сегментирование также упрощает изображение, например, размещает форму или контур предмета, чтобы определить, что это такое. При этом сегментирование также распознает наличие нескольких объектов на изображении или в кадре.

Например, если на изображении есть кошка и собака, можно использовать сегментирование для распознавания этих двух животных. В отличие от обнаружения объекта, которое строит рамку вокруг объекта, при сегментировании отслеживаются пиксели для определения формы объекта, что облегчает его анализ и маркировку.

Как AWS помогает в решении задач машинного зрения?

AWS предоставляет самый широкий и полный набор услуг искусственного интеллекта и машинного обучения (AI/ML), подключенных к обширному набору источников данных, для клиентов любого уровня квалификации.

Для клиентов, использующих фреймворки и управляющих собственной инфраструктурой, мы оптимизируем версии самых популярных фреймворков глубокого обучения, включая PyTorch , MXNet и TensorFlow. AWS предоставляет широкий и обширный портфель сервисов машинного обучения для вычислительной, сетевой инфраструктуры и инфраструктуры хранения данных с выбором процессоров и ускорителей для удовлетворения уникальных требований к производительности и бюджету.

Для клиентов, которые хотят создать стандартное решение компьютерного зрения для всего бизнеса, Amazon SageMaker упрощает подготовку данных, создание, обучение и развертывание моделей машинного обучения для любого сценария использования с помощью полностью управляемой инфраструктуры, инструментов и рабочих процессов, включая предложения без кода для бизнес-аналитиков.

Для клиентов, которым не хватает навыков машинного обучения, которым требуется ускорить вывод на рынок или которые хотят добавить интеллект в существующий процесс или приложение, AWS предлагает ряд сервисов машинного зрения на основе ML. Эти сервисы позволяют легко добавлять интеллектуальные данные в приложения искусственного интеллекта с помощью предварительно обученных API. Amazon Rekognition автоматизирует анализ изображений и видео с помощью машинного обучения и анализирует миллионы изображений, прямых трансляций и сохраненных видео за считанные секунды.

Начните работать с компьютерным зрением, создав бесплатный аккаунт AWS уже сегодня.

Дальнейшие шаги

Уровень бесплатного пользования

Дополнительные ресурсы к продукту

Подробнее

Консоль

Начните разработку с AWS в Консоли управления AWS.

Вход

Что такое машинное зрение?