Chuyển đến nội dung chính

Thị giác máy tính là gì?

Thị giác máy tính là gì?

Thị giác máy tính là một công nghệ mà máy sử dụng để tự động nhận biết và mô tả hình ảnh một cách chính xác và hiệu quả. Ngày nay, các hệ thống máy tính có quyền truy cập vào khối lượng lớn hình ảnh và dữ liệu video bắt nguồn từ hoặc được tạo bằng điện thoại thông minh, camera giao thông, hệ thống bảo mật và các thiết bị khác. Các ứng dụng thị giác máy tính sử dụng trí tuệ nhân tạo và học máy (AI/ML) để xử lý dữ liệu này một cách chính xác để nhận dạng đối tượng và nhận dạng khuôn mặt, cũng như phân loại, đề xuất, giám sát và phát hiện.

Trường hợp sử dụng

Bảo mật và an toàn

Chính phủ và doanh nghiệp sử dụng thị giác máy tính để cải thiện tính bảo mật của tài sản, trang web và cơ sở vật chất. Ví dụ: camera và cảm biến giám sát các không gian công cộng, cơ sở công nghiệp và môi trường bảo mật cao. Họ gửi cảnh báo tự động nếu có điều gì đó bất thường xảy ra, chẳng hạn như một cá nhân trái phép vào khu vực hạn chế.

Tương tự, thị giác máy tính có thể cải thiện sự an toàn cá nhân ở nhà cũng như tại nơi làm việc. Ví dụ: công nghệ nhận dạng có thể giám sát vô số các vấn đề liên quan đến an toàn, bao gồm các luồng thời gian thực tại nhà phát hiện thú cưng, hoặc camera trực tiếp trước cửa phát hiện khách ghé thăm hoặc gói hàng được giao. Tại nơi làm việc, việc giám sát như vậy bao gồm việc người lao động đeo thiết bị bảo hộ cá nhân thích hợp , thông báo cho hệ thống cảnh báo hoặc tạo báo cáo.

Hiệu quả hoạt động

Tầm nhìn máy tính có thể phân tích hình ảnh và trích xuất siêu dữ liệu cho trí thông minh kinh doanh, tạo ra cơ hội doanh thu mới và hiệu quả hoạt động. Ví dụ, nó có thể:

  • Tự động xác định các khiếm khuyết về chất lượng trước khi sản phẩm rời khỏi nhà máy

  • Phát hiện các vấn đề an toàn và bảo trì máy móc

  • Phân tích hình ảnh trên các kênh truyền thông xã hội để khám phá các xu hướng và kiểu mẫu trong hành vi của khách hàng

  • Xác thực nhân viên bằng nhận diện khuôn mặt tự động

Phương tiện tự hành

Công nghệ xe tự hành sử dụng tầm nhìn máy tính để nhận dạng hình ảnh thời gian thực và xây dựng bản đồ 3D từ nhiều camera được trang bị cho giao thông tự động. Nó có thể phân tích hình ảnh và xác định những người tham gia giao thông khác, biển báo đường bộ, người đi bộ hoặc chướng ngại vật.

Trong các phương tiện bán tự động, thị giác máy tính sử dụng máy học (ML) để theo dõi hành vi của người lái xe. Ví dụ: nó tìm kiếm các dấu hiệu phân tâm, mệt mỏi và buồn ngủ dựa theo vị trí đầu của người lái xe, theo dõi mắt và chuyển động của phần trên cơ thể. Nếu công nghệ nhận được một số dấu hiệu cảnh báo nhất định, nó sẽ cảnh báo người lái xe và giảm nguy cơ xảy ra sự cố lái xe.

Nông nghiệp

Từ tăng năng suất đến giảm chi phí với tự động hóa thông minh, các ứng dụng thị giác máy tính nâng cao chức năng tổng thể của ngành nông nghiệp. Hình ảnh vệ tinh cũng như cảnh quay UAV giúp phân tích các vùng đất rộng lớn và cải thiện các phương pháp canh tác. Ứng dụng thị giác máy tính tự động hóa các tác vụ như giám sát tình trạng ruộng đồng, xác định bệnh ở cây trồng, kiểm tra độ ẩm của đất và dự đoán thời tiết cũng như năng suất cây trồng. Giám sát động vật bằng thị giác máy tính là một chiến lược quan trọng khác của canh tác thông minh.

Chăm sóc sức khỏe

Chăm sóc sức khỏe là một trong những ngành hàng đầu áp dụng công nghệ thị giác máy tính. Đáng chú ý, phân tích hình ảnh y khoa tạo hiển thị trực quan mô và các cơ quan giúp chuyên gia y tế chẩn đoán nhanh và chính xác, từ đó cải thiện kết quả điều trị và kéo dài tuổi thọ. Ví dụ:

  • Phát hiện khối u thông qua phân tích nốt ruồi và tổn thương trên da

  • Phân tích tia X tự động

  • Phát hiện triệu chứng từ phép chụp MRI

Thị giác máy tính hoạt động như thế nào?

Hệ thống thị giác máy tính sử dụng công nghệ trí tuệ nhân tạo (AI) để bắt chước các khả năng của bộ não con người chịu trách nhiệm nhận dạng đối tượng và phân loại đối tượng. Các nhà khoa học máy tính đào tạo máy tính nhận biết dữ liệu hình ảnh bằng cách nhập khối lượng lớn thông tin. Thuật toán máy học (ML) xác định các kiểu mẫu thông thường trong những hình ảnh hoặc video này và áp dụng kiến thức đó để xác định chính xác những hình ảnh chưa biết. Ví dụ: nếu máy tính xử lý hàng triệu hình ảnh ô tô, chúng sẽ bắt đầu xây dựng kiểu mẫu nhận dạng và có thể phát hiện chính xác phương tiện trong một hình ảnh. Thị giác máy tính sử dụng các công nghệ như những công nghệ được đưa ra dưới đây.

Học sâu

Deep learning là một loại ML sử dụng mạng nơ-ron. Các mạng nơ-ron học sâu được tạo thành từ nhiều lớp mô-đun phần mềm, được gọi là nơ-ron nhân tạo, hoạt động cùng nhau bên trong máy tính. Mạng nơ-ron sử dụng các phép tính toán học để tự động xử lý các khía cạnh khác nhau của dữ liệu hình ảnh và dần dần xây dựng sự hiểu biết kết hợp về hình ảnh.

Mạng nơ-ron tích chập

Mạng thần kinh chập (CNN) sử dụng hệ thống ghi nhãn để phân loại dữ liệu trực quan và hiểu toàn bộ hình ảnh. Mạng nơ-ron này phân tích hình ảnh dưới dạng điểm ảnh và cung cấp cho mỗi điểm ảnh một giá trị nhãn. Giá trị được nhập vào để thực hiện một phép toán gọi là phép nhân chập và đưa ra các dự đoán về hình ảnh. Giống như một người cố gắng nhận biết một đối tượng ở khoảng cách xa, CNN trước tiên sẽ xác định đường nét và hình dạng đơn giản trước khi điền vào các chi tiết bổ sung như màu sắc, hình thức bên trong và kết cấu. Cuối cùng, nó lặp lại quy trình dự đoán qua nhiều lần lặp để nâng cao độ chính xác.

Mạng nơ-ron hồi quy

Mạng nơ-ron hồi quy (RNN) tương tự như CNN, nhưng chúng có thể xử lý một loạt hình ảnh để tìm mối liên kết giữa các ảnh đó. Trong khi CNN được sử dụng để phân tích hình ảnh đơn lẻ, thì RNN có thể phân tích video và hiểu được mối liên hệ giữa các hình ảnh. 

Điểm khác biệt giữa thị giác máy tính và xử lý hình ảnh là gì?

Xử lý hình ảnh sử dụng các thuật toán để thay đổi hình ảnh, bao gồm làm sắc nét, làm mịn, lọc hoặc tăng cường. Thị giác máy tính thì khác vì nó không làm thay đổi hình ảnh, mà thay vào đó hiểu những gì nó nhìn thấy và thực hiện một tác vụ, chẳng hạn như gắn nhãn. Trong một số trường hợp, bạn có thể sử dụng xử lý hình ảnh để sửa đổi hình ảnh sao cho hệ thống thị giác máy tính có thể hiểu rõ hơn về hình ảnh đó. Trong các trường hợp khác, bạn sử dụng thị giác máy tính để xác định hình ảnh hoặc các phần của hình ảnh và sau đó sử dụng xử lý hình ảnh để sửa đổi hình ảnh thêm.

Thị giác máy tính có thể thực hiện những tác vụ phổ biến nào?

Phân loại hình ảnh

Phân loại hình ảnh cho phép máy tính quan sát và phân loại chính xác một hình ảnh thuộc loại nào. Thị giác máy tính hiểu rõ và gắn nhãn các loại, ví dụ như cây cối, máy bay hoặc tòa nhà. Một ví dụ là camera có thể nhận diện khuôn mặt trong ảnh và lấy nét khuôn mặt.

Nhận diện vật thể

Phát hiện đối tượng là một tác vụ thị giác máy tính nhằm phát hiện và bản địa hóa hình ảnh. Tác vụ này sử dụng phân loại để xác định, sắp xếp và tổ chức hình ảnh. Phát hiện đối tượng được sử dụng để điều khiển các ứng dụng tự động và giám sát dây chuyền sản xuất trong các quy trình công nghiệp và sản xuất. Các nhà cung cấp dịch vụ và nhà sản xuất camera gia đình kết nối cũng dựa vào phát hiện đối tượng để xử lý các luồng video trực tiếp từ camera để phát hiện người và vật thể trong thời gian thực cũng như đưa ra các cảnh báo hữu ích cho người dùng cuối.

Theo dõi đối tượng

Theo dõi đối tượng sử dụng mô hình học sâu để xác định và theo dõi các mục thuộc danh mục. Tác vụ này có nhiều ứng dụng thực tế trong nhiều ngành. Yếu tố đầu tiên của theo dõi đối tượng là phát hiện đối tượng; đối tượng có một ô viền quanh được tạo xung quanh, được gán một ID đối tượng và được theo dõi thông qua các khung hình. Ví dụ: có thể sử dụng theo dõi đối tượng để giám sát giao thông trong môi trường đô thị, giám sát con người và chụp ảnh y khoa.

Phân đoạn

Phân đoạn là một thuật toán thị giác máy tính có khả năng xác định đối tượng bằng cách chia hình ảnh đối tượng thành các vùng khác nhau dựa trên các điểm ảnh quan sát được. Phân đoạn cũng đơn giản hóa một hình ảnh, chẳng hạn như đặt một hình dạng hoặc đường nét của một mục để xác định đó là gì. Bằng cách đó, phân đoạn cũng nhận ra nếu có nhiều hơn một đối tượng trong hình ảnh hoặc khung hình.

Ví dụ: nếu có một con mèo và một con chó trong hình ảnh, có thể dùng phân đoạn để nhận biết hai con vật. Không giống như phát hiện đối tượng, trong đó xây dựng một ô xung quanh đối tượng, phân đoạn theo dõi các điểm ảnh để xác định hình dạng của đối tượng, giúp phân tích và gắn nhãn dễ dàng hơn.

AWS giúp bạn thực hiện các tác vụ thị giác máy tính bằng cách nào?

AWS cung cấp bộ dịch vụ trí tuệ nhân tạo và máy học (AI/ML) bao quát nhất và hoàn thiện nhất được kết nối với một tập hợp nguồn dữ liệu toàn diện cho khách hàng ở mọi cấp độ chuyên môn.

Đối với khách hàng xây dựng trên các khung và quản lý cơ sở hạ tầng của riêng họ, chúng tôi tối ưu hóa các phiên bản của các khung học sâu phổ biến nhất, bao gồm PyTorch , MXNet và TensorFlow. AWS cung cấp danh mục đa dạng và sâu rộng các dịch vụ ML cơ sở hạ tầng điện toán, mạng và lưu trữ với nhiều lựa chọn bộ xử lý và bộ tăng tốc để đáp ứng nhu cầu về hiệu suất và ngân sách độc đáo.

Đối với những khách hàng muốn tạo giải pháp thị giác máy tính tiêu chuẩn trong toàn doanh nghiệp của họ, Amazon SageMaker giúp dễ dàng chuẩn bị dữ liệu và xây dựng, đào tạo và triển khai các mô hình ML cho mọi trường hợp sử dụng với cơ sở hạ tầng, công cụ và quy trình công việc được quản lý đầy đủ, bao gồm các dịch vụ không có mã cho các nhà phân tích kinh doanh.

Đối với những khách hàng thiếu kỹ năng ML, cần rút ngắn thời gian tiếp cận thị trường hoặc muốn thêm thông tin vào quy trình hiện có hoặc ứng dụng, AWS cung cấp một loạt các dịch vụ thị giác máy tính dựa trên ML. Các dịch vụ này cho phép bạn dễ dàng thêm thông tin vào ứng dụng AI thông qua các API được đào tạo trước. Amazon Rekognition tự động hóa phân tích hình ảnh và video của bạn với ML và phân tích hàng triệu hình ảnh, phát trực tiếp và video được lưu trữ trong vài giây.

Bắt đầu với thị giác máy tính bằng cách tạo tài khoản AWS miễn phí ngay hôm nay.