Điểm khác biệt giữa thuật toán học có giám sát và thuật toán học không có giám sát là gì?


Điểm Khác Biệt Giữa Máy Học Có Giám Sát Và Máy Học Không Có Giám Sát là gì?

Máy học (ML) có giám sát và không có giám sát là hai loại thuật toán ML. Các thuật toán ML xử lý khối lượng lớn dữ liệu lịch sử để xác định các hình mẫu dữ liệu thông qua suy luận. 

Các thuật toán học có giám sát được huấn luyện dựa trên dữ liệu mẫu chỉ định cả đầu vào và đầu ra của thuật toán. Ví dụ: Dữ liệu có thể là hình ảnh của các chữ số viết tay được chú thích để cho biết chúng đại diện cho số nào. Nếu có đủ dữ liệu được gắn nhãn, hệ thống học có giám sát cuối cùng sẽ nhận ra các cụm điểm ảnh và hình dạng liên quan đến mỗi chữ số viết tay. 

Ngược lại, các thuật toán học không có giám sát được huấn luyện dựa trên dữ liệu không gắn nhãn. Các thuật toán này quét qua dữ liệu mới và thiết lập kết nối có ý nghĩa giữa dữ liệu đầu vào chưa xác định và kết quả định sẵn. Ví dụ: Các thuật toán học không có giám sát có thể nhóm các bài báo từ nhiều trang tin tức khác nhau vào các danh mục phổ biến như thể thao và tội phạm.

So sánh các kỹ thuật học có giám sát so với không có giám sát

Trong máy học, bạn dạy máy tính đưa ra các dự đoán hoặc suy luận. Đầu tiên, bạn sử dụng thuật toán và dữ liệu ví dụ để đào tạo một mô hình. Sau đó, bạn tích hợp mô hình đó vào ứng dụng của mình để tạo ra suy luận theo thời gian thực và trên quy mô lớn. Học có giám sát và không có giám sát là hai loại thuật toán khác biệt.

Học có giám sát

Trong học có giám sát, bạn đào tạo mô hình với một tập hợp dữ liệu đầu vào và một tập hợp dữ liệu đầu ra có gắn nhãn được ghép nối tương ứng. Việc gắn nhãn thường được thực hiện thủ công. Tiếp theo là một số loại kỹ thuật máy học có giám sát.

Hồi quy logistic

Hồi quy logistic dự đoán một đầu ra phân loại dựa trên một hoặc nhiều đầu vào. Phân lớp nhị phân là khi đầu ra phù hợp với một trong hai hạng mục, chẳng hạn như có hoặc không và đạt hoặc trượt. Phân loại nhiều lớp là khi đầu ra phù hợp với hơn hai hạng mục, ví dụ như mèo, chó hoặc thỏ.  Một ví dụ về hồi quy logistic là dự đoán một học sinh sẽ đạt hoặc trượt một đơn vị dựa trên số lần đăng nhập của họ vào chương trình dạy học.

Đọc về hồi quy logistic »

Hồi quy tuyến tính

Hồi quy tuyến tính đề cập đến các mô hình học có giám sát, dựa trên một hoặc nhiều đầu vào, dự đoán một giá trị từ thang đo liên tục. Một ví dụ về hồi quy tuyến tính là dự đoán giá nhà. Bạn có thể dự đoán giá của một ngôi nhà dựa trên vị trí, số năm tuổi và số phòng của nó, sau khi bạn đào tạo một mô hình trên một tập hợp dữ liệu đào tạo bán hàng trong lịch sử với các biến số đó.

Đọc về hồi quy tuyến tính »

Cây quyết định

Kỹ thuật máy học có giám sát của cây quyết định lấy một số đầu vào nhất định và áp dụng cấu trúc if-else để dự đoán kết quả. Một ví dụ về vấn đề cây quyết định là dự báo tỷ lệ rời bỏ của khách hàng. Ví dụ: nếu khách hàng không truy cập ứng dụng sau khi đăng ký, mô hình có thể dự báo tỷ lệ rời bỏ. Hoặc nếu khách hàng truy cập ứng dụng trên nhiều thiết bị và thời gian phiên trung bình cao hơn một ngưỡng nhất định, mô hình có thể dự báo khả năng duy trì.

Mạng nơ-ron

Giải pháp mạng nơ-ron là một kỹ thuật học có giám sát phức tạp hơn. Để tạo ra một kết quả nhất định, nó cần một số đầu vào nhất định và thực hiện một hoặc nhiều lớp biến đổi toán học dựa trên việc điều chỉnh trọng số dữ liệu. Một ví dụ về kỹ thuật mạng nơ-ron là dự đoán một chữ số từ một hình ảnh viết tay.

Tìm hiểu về mạng nơ-ron »

Học không có giám sát 

Máy học không có giám sát là khi bạn cung cấp dữ liệu đầu vào thuật toán mà không có bất kỳ dữ liệu đầu ra được gắn nhãn nào. Sau đó, tự nó, thuật toán xác định các mẫu và mối quan hệ trong và giữa dữ liệu. Tiếp theo là một số loại kỹ thuật học không có giám sát.

Phân cụm

Kỹ thuật học không có giám sát phân cụm sẽ nhóm các đầu vào dữ liệu nhất định lại với nhau, vì vậy chúng có thể được phân loại thành một tổng thể. Có nhiều loại thuật toán phân cụm khác nhau phụ thuộc vào dữ liệu đầu vào. Một ví dụ về phân cụm là xác định các loại lưu lượng truy cập mạng khác nhau để dự đoán các sự cố bảo mật tiềm ẩn.

Học quy tắc liên kết

Các kỹ thuật học quy tắc liên kết sẽ khám phá các mối quan hệ dựa trên quy tắc giữa các đầu vào trong tập dữ liệu. Ví dụ, thuật toán Apriori tiến hành phân tích giỏ thị trường để xác định các quy tắc như cà phê và sữa thường được mua cùng nhau.

Mật độ xác suất

Các kỹ thuật mật độ xác suất trong học không có giám sát sẽ dự đoán khả năng hoặc tiềm năng của giá trị đầu ra nằm trong phạm vi của những điều được coi là bình thường đối với đầu vào. Ví dụ, một nhiệt kế trong phòng máy chủ thường ghi dữ liệu giữa một phạm vi mức độ nhất định. Tuy nhiên, nếu nhiệt kế đột ngột đo một số thấp dựa trên phân phối xác suất, nó có thể chỉ ra sự cố thiết bị. 

Giảm kích thước

Giảm kích thước là một kỹ thuật học không có giám sát giúp giảm số lượng các tính năng trong tập dữ liệu. Nó thường được sử dụng để xử lý trước dữ liệu cho các chức năng máy học khác và giảm độ phức tạp và tổng chi phí. Ví dụ: nó có thể làm mờ hoặc cắt các tính năng nền trong ứng dụng nhận dạng hình ảnh.

So sánh về thời điểm nên sử dụng học có giám sát và không có giám sát

Bạn có thể sử dụng các kỹ thuật học có giám sát để giải quyết vấn đề với các kết quả xác định và đã gắn nhãn dữ liệu có sẵn. Các ví dụ bao gồm phân loại email rác, nhận dạng hình ảnh và dự đoán giá cổ phiếu dựa trên dữ liệu lịch sử xác định.

Bạn có thể sử dụng học không có giám sát cho các tình huống mà trong đó dữ liệu không được gắn nhãn và mục tiêu là khám phá các mẫu, nhóm các phiên bản tương tự hoặc phát hiện các điểm bất thường. Bạn cũng có thể sử dụng nó cho các tác vụ khám phá nơi không có dữ liệu được gắn nhãn. Các ví dụ bao gồm bố trí các kho lưu trữ dữ liệu lớn, xây dựng các hệ thống đề xuất và nhóm các khách hàng dựa trên hành vi mua hàng của họ.

Bạn có thể sử dụng học có giám sát và không có giám sát cùng nhau không?

Học bán giám sát là khi bạn áp dụng cả kỹ thuật học có giám sát và học không có giám sát vào một vấn đề chung. Bản thân nó là một hạng mục máy học khác.

Bạn có thể áp dụng học bán giám sát khi khó lấy nhãn cho tập dữ liệu. Bạn có thể có một khối lượng dữ liệu nhỏ được gắn nhãn nhưng có một lượng đáng kể dữ liệu không được gắn nhãn. So với việc chỉ sử dụng tập dữ liệu được gắn nhãn, bạn sẽ có độ chính xác và hiệu quả cao hơn nếu bạn kết hợp các kỹ thuật học có giám sát và không có giám sát.

Sau đây là một vài ví dụ về các ứng dụng học bán giám sát.

Nhận dạng gian lận

Trong một tập hợp lớn các dữ liệu giao dịch, có một tập hợp con các dữ liệu được gắn nhãn nơi các chuyên gia đã xác nhận các giao dịch gian lận. Để có kết quả chính xác hơn, trước hết giải pháp máy học sẽ đào tạo dựa trên dữ liệu không gắn nhãn, sau đó là với dữ liệu có gắn nhãn.

Phân tích cảm xúc

Khi xem xét độ rộng của các tương tác khách hàng dựa trên văn bản của tổ chức, việc phân loại hoặc gắn nhãn cảm xúc trên toàn bộ các kênh có thể không hiệu quả về chi phí. Trước tiên, một tổ chức có thể đào tạo mô hình trên phần dữ liệu không gắn nhãn lớn hơn và sau đó là một mẫu đã được gắn nhãn. Điều này sẽ giúp tổ chức có được lòng tin của khách hàng trong toàn bộ doanh nghiệp.

Phân loại tài liệu

Khi áp dụng các hạng mục cho một cơ sở tài liệu lớn, có thể có quá nhiều tài liệu cần dán nhãn vật lý. Ví dụ: có thể là vô số báo cáo, bản chép lời hoặc các thông số. Đào tạo về dữ liệu không gắn nhãn để bắt đầu giúp xác định các tài liệu tương tự để gắn nhãn. 

Tóm tắt các điểm khác biệt giữa học có giám sát so với học không có giám sát

 

Học có giám sát

Học không giám sát

Đó là gì?

Bạn đào tạo mô hình với một tập hợp dữ liệu đầu vào và một tập hợp dữ liệu đầu ra có gắn nhãn được ghép nối tương ứng.

Bạn đào tạo mô hình để khám phá các mẫu ẩn trong dữ liệu không gắn nhãn.

Kỹ thuật

Hồi quy logistic, hồi quy tuyến tính, cây quyết định và mạng nơ-ron.

Phân cụm, học quy tắc liên kết, mật độ xác suất và giảm kích thước.

Mục tiêu

Dự đoán đầu ra dựa trên các đầu vào xác định.

Xác định thông tin mối quan hệ có giá trị giữa các điểm dữ liệu đầu vào. Điều này sau đó có thể được áp dụng cho đầu vào mới để phác họa các thông tin chi tiết tương tự.

Cách tiếp cận

Giảm thiểu lỗi giữa các đầu ra đã dự đoán và các nhãn đúng.

Tìm các mẫu, các điểm tương đồng hoặc bất thường trong dữ liệu.

AWS có thể hỗ trợ học có giám sát và không có giám sát như thế nào?

Amazon Web Services (AWS) cung cấp một loạt các dịch vụ để hỗ trợ bạn về máy học (ML) có giám sát, không giám sát và nửa giám sát. Bạn có thể xây dựng, chạy và tích hợp các giải pháp với bất kỳ kích thước, độ phức tạp hoặc trường hợp sử dụng nào.

Amazon SageMaker là một nền tảng hoàn chỉnh để xây dựng các giải pháp ML của bạn ngay từ đầu. SageMaker có một bộ đầy đủ các mô hình học có giám sát và không có giám sát xây dựng sẵn, khả năng lưu trữ và tính toán và một môi trường được quản trị hoàn toàn.

Ví dụ: đây là các tính năng SageMaker mà bạn có thể sử dụng trong công việc của mình:

  • Sử dụng Tính năng tự động của Amazon SageMaker để tự động khám phá các giải pháp khác nhau và tìm ra mô hình tốt nhất cho tập dữ liệu của bạn.
  • Sử dụng Amazon SageMaker Data Wrangler để chọn dữ liệu, hiểu thông tin chi tiết về dữ liệu và chuyển đổi dữ liệu để chuẩn bị cho ML.
  • Sử dụng Thử nghiệm của Amazon SageMaker khi phân tích và so sánh các lần lặp lại đào tạo ML để chọn mô hình hoạt động tốt nhất.
  • Sử dụng Amazon SageMaker Clarify để phát hiện và đo lường thiên kiến tiềm ẩn. Bằng cách này, các nhà phát triển ML có thể loại bỏ các thiên kiến tiềm ẩn và giải thích các dự đoán mô hình.

Bắt đầu với máy học có giám sát và không giám sát trên AWS bằng cách tạo tài khoản ngay hôm nay.

Các bước tiếp theo để sử dụng AWS

Bắt đầu xây dựng với Máy học có giám sát

Tìm hiểu cách bắt đầu sử dụng Máy học có giám sát trên AWS

Tìm hiểu thêm 
Bắt đầu xây dựng với Máy học không có giám sát

Tìm hiểu cách bắt đầu sử dụng Máy học không có giám sát trên AWS

Tìm hiểu thêm