Thị giác máy tính Amazon

Thị giác máy tính là gì?

Thị giác máy tính là một công nghệ mà máy sử dụng để tự động nhận biết và mô tả hình ảnh một cách chính xác và hiệu quả. Ngày nay, các hệ thống máy tính có quyền truy cập vào khối lượng lớn hình ảnh và dữ liệu video bắt nguồn từ hoặc được tạo bằng điện thoại thông minh, camera giao thông, hệ thống bảo mật và các thiết bị khác. Ứng dụng thị giác máy tính sử dụng trí tuệ nhân tạo và máy học (AI/ML) để xử lý dữ liệu này một cách chuẩn xác cho việc xác định đối tượng và nhận diện khuôn mặt, cũng như phân loại, đề xuất, giám sát và phát hiện.

Tại sao thị giác máy tính lại quan trọng?

Tuy rằng công nghệ xử lý thông tin hình ảnh đã xuất hiện từ lâu nhưng phần lớn quy trình vẫn đòi hỏi sự can thiệp của con người, tốn nhiều thời giờ và dễ bị lỗi. Ví dụ: việc triển khai hệ thống nhận diện khuôn mặt trước đây yêu cầu nhà phát triển phải gắn thẻ thủ công hàng ngàn hình ảnh bằng các điểm dữ liệu chính, chẳng hạn như chiều rộng sống mũi và khoảng cách giữa hai mắt. Tự động hóa các tác vụ này đòi hỏi sức mạnh điện toán rộng lớn vì dữ liệu hình ảnh không có cấu trúc và phức tạp để máy tính có thể sắp xếp. Do đó, ứng dụng thị giác tốn kém và hầu hết các tổ chức không thể tiếp cận.

Ngày nay, tiến bộ trong lĩnh vực này kết hợp với sự tăng cường đáng kể của sức mạnh điện toán đã cải thiện cả quy mô và độ chính xác của quy trình xử lý dữ liệu hình ảnh. Các hệ thống thị giác máy tính được hỗ trợ bởi tài nguyên điện toán đám mây hiện giờ trở nên dễ tiếp cận với tất cả mọi người. Bất kỳ tổ chức nào cũng có thể sử dụng công nghệ này để xác minh danh tính, kiểm duyệt nội dung, phân tích video phát trực tuyến, phát hiện lỗi và nhiều tính năng khác.

Trường hợp sử dụng

Bảo mật và an toàn

Hiệu quả hoạt động

Phương tiện tự hành

Nông nghiệp

Chăm sóc sức khỏe

Thị giác máy tính hoạt động như thế nào?

Hệ thống thị giác máy tính sử dụng công nghệ trí tuệ nhân tạo (AI) để bắt chước khả năng của não người trong việc nhận biết đối tượng và phân loại đối tượng. Các nhà khoa học máy tính đào tạo máy tính nhận biết dữ liệu hình ảnh bằng cách nhập khối lượng lớn thông tin. Thuật toán máy học (ML) xác định các kiểu mẫu thông thường trong những hình ảnh hoặc video này và áp dụng kiến thức đó để xác định chính xác những hình ảnh chưa biết. Ví dụ: nếu máy tính xử lý hàng triệu hình ảnh ô tô, chúng sẽ bắt đầu xây dựng kiểu mẫu nhận dạng và có thể phát hiện chính xác phương tiện trong một hình ảnh. Thị giác máy tính sử dụng các công nghệ như được đưa ra dưới đây.

Deep learning

Học sâu là một loại ML sử dụng mạng nơ-ron. Các mạng nơ-ron học sâu được tạo thành từ nhiều lớp mô-đun phần mềm, được gọi là nơ-ron nhân tạo, hoạt động cùng nhau bên trong máy tính. Mạng nơ-ron sử dụng các phép tính toán học để tự động xử lý các khía cạnh khác nhau của dữ liệu hình ảnh và dần dần xây dựng sự hiểu biết kết hợp về hình ảnh.

Mạng nơ-ron tích chập

Mạng nơ-ron tích chập (CNN) sử dụng hệ thống ghi nhãn để phân loại dữ liệu hình ảnh và hiểu toàn bộ hình ảnh. Mạng nơ-ron này phân tích hình ảnh dưới dạng điểm ảnh và cung cấp cho mỗi điểm ảnh một giá trị nhãn. Giá trị được nhập vào để thực hiện một phép toán gọi là phép nhân chập và đưa ra các dự đoán về hình ảnh. Giống như một người cố gắng nhận biết một đối tượng ở khoảng cách xa, CNN trước tiên sẽ xác định đường nét và hình dạng đơn giản trước khi điền vào các chi tiết bổ sung như màu sắc, hình thức bên trong và kết cấu. Cuối cùng, nó lặp lại quy trình dự đoán qua nhiều lần lặp để nâng cao độ chính xác.

Mạng nơ-ron hồi quy

Mạng nơ-ron hồi quy (RNN) tương tự như CNN, nhưng chúng có thể xử lý một loạt hình ảnh để tìm mối liên kết giữa các ảnh đó. Trong khi CNN được sử dụng để phân tích hình ảnh đơn lẻ, thì RNN có thể phân tích video và hiểu được mối liên hệ giữa các hình ảnh.

Điểm khác biệt giữa thị giác máy tính và xử lý hình ảnh là gì?

Xử lý hình ảnh sử dụng các thuật toán để chỉnh sửa ảnh, bao gồm làm sắc nét, làm mịn, lọc hoặc tăng cường. Thị giác máy tính thì khác vì nó không làm thay đổi hình ảnh, mà thay vào đó hiểu những gì nó nhìn thấy và thực hiện một tác vụ, chẳng hạn như gắn nhãn. Trong một số trường hợp, bạn có thể sử dụng xử lý hình ảnh để sửa đổi hình ảnh sao cho hệ thống thị giác máy tính có thể hiểu rõ hơn về hình ảnh đó. Trong các trường hợp khác, bạn sử dụng thị giác máy tính để xác định hình ảnh hoặc các phần của một hình ảnh rồi sau đó sử dụng xử lý hình ảnh để sửa đổi hình ảnh.

Thị giác máy tính có thể thực hiện những tác vụ phổ biến nào?

Phân loại hình ảnh

Phân loại hình ảnh cho phép máy tính quan sát và phân loại chính xác một hình ảnh thuộc loại nào. Thị giác máy tính hiểu rõ và gắn nhãn các loại, ví dụ như cây cối, máy bay hoặc tòa nhà. Một ví dụ là camera có thể nhận diện khuôn mặt trong ảnh và lấy nét khuôn mặt.

Nhận diện vật thể

Phát hiện đối tượng là một tác vụ thị giác máy tính nhằm phát hiện và bản địa hóa hình ảnh. Tác vụ này sử dụng phân loại để xác định, sắp xếp và tổ chức hình ảnh. Phát hiện đối tượng được sử dụng để điều khiển các ứng dụng tự động và giám sát dây chuyền sản xuất trong các quy trình công nghiệp và sản xuất. Các nhà cung cấp dịch vụ và nhà sản xuất camera gia đình kết nối cũng dựa vào phát hiện đối tượng để xử lý các luồng video trực tiếp từ camera để phát hiện người và vật thể trong thời gian thực cũng như đưa ra các cảnh báo hữu ích cho người dùng cuối.

Theo dõi đối tượng

Theo dõi đối tượng sử dụng mô hình học sâu để xác định và theo dõi các mục thuộc danh mục. Tác vụ này có nhiều ứng dụng thực tế trong nhiều ngành. Yếu tố đầu tiên của theo dõi đối tượng là phát hiện đối tượng; đối tượng có một ô viền quanh được tạo xung quanh, được gán một ID đối tượng và được theo dõi thông qua các khung hình. Ví dụ: có thể sử dụng theo dõi đối tượng để giám sát giao thông trong môi trường đô thị, giám sát con người và chụp ảnh y khoa.

Phân đoạn

Phân đoạn là một thuật toán thị giác máy tính có khả năng xác định đối tượng bằng cách chia hình ảnh đối tượng thành các vùng khác nhau dựa trên các điểm ảnh quan sát được. Phân đoạn cũng đơn giản hóa một hình ảnh, chẳng hạn như đặt một hình dạng hoặc đường nét của một mục để xác định đó là gì. Bằng cách đó, phân đoạn cũng nhận ra nếu có nhiều hơn một đối tượng trong hình ảnh hoặc khung hình.

Ví dụ: nếu có một con mèo và một con chó trong hình ảnh, có thể dùng phân đoạn để nhận biết hai con vật. Không giống như phát hiện đối tượng, trong đó xây dựng một ô xung quanh đối tượng, phân đoạn theo dõi các điểm ảnh để xác định hình dạng của đối tượng, giúp phân tích và gắn nhãn dễ dàng hơn.

Truy xuất hình ảnh dựa trên nội dung

Truy xuất hình ảnh dựa trên nội dung là một ứng dụng của kỹ thuật thị giác máy tính, có khả năng tìm kiếm các hình ảnh kỹ thuật số cụ thể trong cơ sở dữ liệu lớn. Ứng dụng này phân tích các siêu dữ liệu như thẻ, thông tin mô tả, nhãn và từ khóa. Truy xuất ngữ nghĩa sử dụng các lệnh như ‘tìm ảnh tòa nhà’ để truy xuất nội dung thích hợp.

AWS giúp bạn thực hiện các tác vụ thị giác máy tính bằng cách nào?

AWS cung cấp bộ dịch vụ trí tuệ nhân tạo và máy học (AI/ML) bao quát nhất và hoàn thiện nhất được kết nối với một tập hợp nguồn dữ liệu toàn diện cho khách hàng ở mọi cấp độ chuyên môn.

Đối với khách hàng đang xây dựng trên các khung và quản lý cơ sở hạ tầng riêng, chúng tôi tối ưu hóa các phiên bản khung học sâu phổ biến nhất, bao gồm PyTorch, MXNet và TensorFlow. AWS cung cấp danh mục sâu rộng gồm các dịch vụ ML về cơ sở hạ tầng điện toán, kết nối mạng và lưu trữ cùng lựa chọn về bộ xử lý và trình tăng tốc nhằm đáp ứng nhu cầu về hiệu năng và ngân sách riêng biệt.

Đối với những khách hàng muốn tạo giải pháp thị giác máy tính tiêu chuẩn trong toàn doanh nghiệp của họ, Amazon SageMaker sẽ giúp họ dễ dàng chuẩn bị dữ liệu cũng như xây dựng, đào tạo và triển khai các mô hình ML cho mọi trường hợp sử dụng với cơ sở hạ tầng, công cụ và quy trình làm việc được quản lý toàn phần, bao gồm các dịch vụ không cần mã dành cho các chuyên viên phân tích kinh doanh.

Đối với những khách hàng thiếu kỹ năng ML, cần rút ngắn thời gian tiếp cận thị trường hoặc muốn thêm thông tin vào quy trình hiện có hoặc ứng dụng, AWS cung cấp một loạt các dịch vụ thị giác máy tính dựa trên ML. Các dịch vụ này cho phép bạn dễ dàng thêm thông tin vào ứng dụng AI thông qua các API được đào tạo trước. Amazon Rekognition tự động hóa tác vụ phân tích hình ảnh và video bằng ML và phân tích hàng triệu hình ảnh, luồng trực tiếp và video được lưu trữ trong vài giây.

Bắt đầu sử dụng thị giác máy tính bằng cách tạo tài khoản AWS miễn phí ngay hôm nay.