Overfitting là gì?

Overfitting là một hành vi học máy không mong muốn xảy ra khi mô hình học máy đưa ra dự đoán chính xác cho dữ liệu đào tạo nhưng không cho dữ liệu mới. Khi các nhà khoa học dữ liệu sử dụng các mô hình học máy để đưa ra dự đoán, trước tiên họ đào tạo mô hình trên một tập dữ liệu đã biết. Sau đó, dựa trên thông tin này, mô hình cố gắng dự đoán kết quả cho các tập dữ liệu mới. Một mô hình overfit có thể đưa ra dự đoán không chính xác và không thể thực hiện tốt cho tất cả các loại dữ liệu mới.

Tại sao hiện tượng quá khớp lại xảy ra?

Bạn sẽ chỉ nhận được dự đoán chính xác nếu mô hình máy học khái quát hóa tất cả các loại dữ liệu nằm trong phạm vi của nó. Hiện tượng quá khớp xảy ra khi mô hình không thể khái quát hóa mà thay vào đó, khớp quá sát với tập dữ liệu đào tạo. Hiện tượng quá khớp xảy ra do một số nguyên nhân, chẳng hạn như:
•    Kích thước dữ liệu đào tạo quá nhỏ và không chứa đủ mẫu dữ liệu để thể hiện chính xác tất cả các giá trị dữ liệu đầu vào khả thi.
•    Dữ liệu đào tạo chứa một lượng lớn thông tin không liên quan, được gọi là dữ liệu nhiễu.
•    Mô hình đào tạo quá lâu trên một tập dữ liệu mẫu duy nhất.
•    Do có độ phức tạp cao, mô hình học cả phần nhiễu trong dữ liệu đào tạo.

Ví dụ về hiện tượng quá khớp
Hãy xem xét một trường hợp sử dụng trong đó mô hình máy học phải phân tích hình ảnh và xác định những bức ảnh có hình các chú chó. Nếu được đào tạo trên một tập dữ liệu chứa đa số những bức ảnh về các chú chó ở ngoài công viên, mô hình máy học có thể sẽ học cách sử dụng cỏ làm đặc điểm phân loại và không nhận ra một chú chó ở trong phòng.
Một ví dụ khác về hiện tượng quá khớp là thuật toán máy học dự đoán thành tích học tập và kết quả tốt nghiệp của một sinh viên đại học bằng cách phân tích một số yếu tố như thu nhập gia đình, thành tích học tập trong quá khứ và trình độ học vấn của phụ huynh. Tuy nhiên, dữ liệu kiểm thử chỉ bao gồm các đối tượng thuộc một nhóm giới tính hoặc sắc tộc nhất định. Trong trường hợp này, hiện tượng quá khớp khiến cho độ chính xác của dự đoán do thuật toán đưa ra giảm xuống đối với các đối tượng có giới tính hoặc sắc tộc nằm ngoài tập dữ liệu kiểm thử.

Làm thế nào để phát hiện hiện tượng quá khớp?

Phương thức tốt nhất để phát hiện mô hình quá khớp là kiểm thử các mô hình máy học bằng nhiều dữ liệu đại diện cho tất cả các giá trị và loại dữ liệu đầu vào khả thi. Thông thường, một phần dữ liệu đào tạo được sử dụng làm dữ liệu kiểm thử để kiểm tra hiện tượng quá khớp. Tỷ lệ lỗi cao trong dữ liệu kiểm thử là dấu hiệu cho thấy hiện tượng quá khớp. Dưới đây là một phương thức kiểm thử hiện tượng quá khớp.
Xác thực chéo K lần
Xác thực chéo là một trong những phương thức kiểm thử được sử dụng trong thực tế. Trong phương pháp này, các nhà khoa học dữ liệu chia tập dữ liệu đào tạo thành K tập con hoặc tập mẫu có kích thước bằng nhau, được gọi là nhóm. Quá trình đào tạo bao gồm một chuỗi các lần lặp. Các bước trong mỗi lần lặp như sau:
1.    Giữ một tập con làm dữ liệu xác thực và đào tạo mô hình máy học trên K-1 tập con còn lại.
2.    Quan sát cách mô hình hoạt động với mẫu xác thực.
3.    Đánh giá hiệu năng của mô hình dựa trên chất lượng dữ liệu đầu ra.


Các lần lặp sẽ liên tục lặp lại cho đến khi bạn đã kiểm thử mô hình trên tất cả các tập dữ liệu mẫu. Sau đó, bạn tính kết quả trung bình của tất cả các lần lặp để thu được đánh giá cuối cùng về mô hình dự đoán.

Làm thế nào để ngăn ngừa hiện tượng quá khớp?

Bạn có thể ngăn ngừa hiện tượng quá khớp bằng cách đa dạng hóa và điều chỉnh quy mô tập dữ liệu đào tạo của mình hoặc sử dụng một số chiến lược khoa học dữ liệu khác, ví dụ như những chiến lược dưới đây.
Dừng sớm
Kỹ thuật dừng sớm tạm dừng giai đoạn đào tạo trước khi mô hình máy học học cả phần nhiễu trong dữ liệu. Tuy nhiên, việc dừng đúng thời điểm rất quan trọng, nếu không mô hình vẫn sẽ không đưa ra được kết quả chính xác.
Lược bỏ
Bạn có thể xác định một số đặc điểm hoặc tham số ảnh hưởng đến dự đoán cuối cùng khi xây dựng mô hình. Chọn lọc (hay lược bỏ) đặc điểm xác định các đặc điểm quan trọng nhất trong tập dữ liệu đào tạo và loại bỏ những yếu tố không liên quan. Ví dụ: để dự đoán xem một hình ảnh là động vật hay con người, bạn có thể xem xét các thông số đầu vào khác nhau như hình dạng khuôn mặt, vị trí tai, cấu trúc cơ thể, v.v. Bạn có thể ưu tiên hình dạng khuôn mặt và bỏ qua hình dạng mắt.
Điều chuẩn
Điều chuẩn là tập hợp của các kỹ thuật đào tạo/tối ưu hóa có chức năng giảm bớt hiện tượng quá khớp. Những phương pháp này cố gắng loại bỏ các yếu tố không ảnh hưởng đến kết quả dự đoán bằng cách phân loại các đặc điểm dựa trên mức độ quan trọng. Ví dụ: các phép toán áp dụng một giá trị phạt cho các đặc điểm có ít ảnh hưởng nhất. Hãy xem xét một mô hình thống kê thử dự đoán giá nhà đất của một thành phố trong 20 năm. Kỹ thuật điều chuẩn sẽ gán giá trị phạt thấp hơn cho các đặc điểm như tốc độ tăng dân số và thu nhập trung bình hàng năm và giá trị phạt cao hơn cho nhiệt độ trung bình hàng năm của thành phố.
Tổng hợp
Kỹ thuật tổng hợp kết hợp các dự đoán từ nhiều thuật toán máy học riêng biệt. Một số mô hình được gọi là máy học yếu vì kết quả của chúng thường thiếu chính xác. Các phương pháp tổng hợp kết hợp tất cả các máy học yếu để thu được kết quả chính xác hơn. Chúng sử dụng nhiều mô hình để phân tích dữ liệu mẫu và chọn ra kết quả chính xác nhất. Hai phương pháp tổng hợp chính là đóng bao và tăng cường. Phương pháp tăng cường đào tạo lần lượt từng mô hình máy học khác nhau để thu được kết quả cuối cùng, còn phương pháp đóng bao đào tạo chúng một cách song song.
Tăng cường dữ liệu
Tăng cường dữ liệu là một kỹ thuật máy học, trong đó dữ liệu mẫu sẽ thay đổi đôi chút sau mỗi lần được xử lý bởi mô hình. Bạn có thể thực hiện điều này bằng cách thay đổi dữ liệu đầu vào đi một chút. Khi được thực hiện một cách hợp lý, tăng cường dữ liệu sẽ khiến cho các tập dữ liệu đào tạo trở thành duy nhất đối với mô hình và ngăn mô hình tiếp thu các đặc điểm của chúng. Ví dụ: áp dụng các chuyển đổi như chuyển ngữ, lật và xoay lên những hình ảnh đầu vào.

 

Hiện tượng chưa khớp là gì?

Chưa khớp là một loại lỗi khác xảy ra khi mô hình không thể xác định mối quan hệ có ý nghĩa giữa dữ liệu đầu vào và đầu ra. Bạn sẽ nhận được các mô hình chưa khớp nếu chúng chưa được đào tạo đủ thời gian cần thiết trên một số lượng lớn các điểm dữ liệu.
Chưa khớp so với quá khớp
Các mô hình chưa khớp có độ lệch cao, chúng đưa ra kết quả thiếu chính xác cho cả tập dữ liệu đào tạo và tập kiểm thử. Mặt khác, các mô hình quá khớp lại có phương sai cao, chúng đưa ra kết quả chính xác cho tập dữ liệu đào tạo còn đối với tập kiểm thử thì không. Thêm các kết quả đào tạo mô hình với độ lệch thấp hơn nhưng phương sai có thể tăng. Các nhà khoa học dữ liệu nhắm tới việc tìm được điểm cân bằng giữa chưa khớp và quá khớp khi đào tạo mô hình. Một mô hình vừa khớp có thể nhanh chóng thiết lập xu hướng chính cho các tập dữ liệu đã biết và chưa biết.

AWS có thể giảm thiểu hiện tượng quá khớp trong các mô hình máy học của bạn bằng cách nào?

Bạn có thể sử dụng Amazon SageMaker để xây dựng, đào tạo và triển khai các mô hình máy học cho bất kỳ trường hợp sử dụng nào với cơ sở hạ tầng, công cụ và luồng công việc được quản lý toàn phần. Amazon SageMaker sở hữu một tính năng được tích hợp sẵn với tên gọi Trình gỡ lỗi của Amazon SageMaker có khả năng tự động phân tích dữ liệu được tạo ra trong quá trình đào tạo, chẳng hạn như dữ liệu đầu vào, đầu ra và chuyển đổi. Do đó, dịch vụ này có thể phát hiện và báo cáo hiện tượng quá khớp cũng như những sai lệch khác mà không cần can thiệp thủ công.

Chẳng hạn, bạn có thể:

  • Tự động dừng quá trình đào tạo khi đạt được độ chính xác mong muốn.
  • Thu thập các chỉ số đào tạo theo thời gian thực.
  • Nhận cảnh báo khi hiện tượng quá khớp được phát hiện.

Giảm bớt thời gian và chi phí đào tạo các mô hình máy học. Bắt đầu với máy học trên AWS bằng cách tạo một tài khoản miễn phí ngay hôm nay!

Các bước tiếp theo để sử dụng hành vi Quá khớp trên AWS

Tham khảo các tài nguyên bổ sung liên quan đến sản phẩm
Dịch vụ máy học miễn phí trên AWS 
Đăng ký tài khoản miễn phí

Nhận ngay quyền sử dụng bậc miễn phí của AWS. 

Đăng ký 
Bắt đầu xây dựng trong bảng điều khiển

Bắt đầu xây dựng trong AWS Management Console.

Đăng nhập