Hồi quy tuyến tính là gì?
Hồi quy tuyến tính là một kỹ thuật phân tích dữ liệu dự đoán giá trị của dữ liệu không xác định bằng cách sử dụng một giá trị dữ liệu liên quan và đã biết khác. Nó mô hình toán học biến không xác định hoặc phụ thuộc và biến đã biết hoặc độc lập như một phương trình tuyến tính. Ví dụ, giả sử rằng bạn có dữ liệu về chi phí và thu nhập của bạn trong năm ngoái. Kỹ thuật hồi quy tuyến tính phân tích dữ liệu này và xác định rằng chi phí của bạn là một nửa thu nhập của bạn. Sau đó, họ tính toán một chi phí trong tương lai không rõ bằng cách giảm một nửa thu nhập được biết đến trong tương lai.
Tại sao hồi quy tuyến tính lại quan trọng?
Các mô hình hồi quy tuyến tính tương đối đơn giản và cung cấp một công thức toán học dễ giải thích để đưa ra các dự đoán. Hồi quy tuyến tính là một kỹ thuật thống kê được sử dụng từ lâu và áp dụng dễ dàng cho phần mềm và tính toán. Các doanh nghiệp sử dụng nó để chuyển đổi dữ liệu thô một cách đáng tin cậy và có thể dự đoán được thành nghiệp vụ thông minh và thông tin chuyên sâu hữu ích. Các nhà khoa học trong nhiều lĩnh vực, bao gồm sinh học và các ngành khoa học hành vi, môi trường, và xã hội, sử dụng hồi quy tuyến tính để tiến hành phân tích dữ liệu sơ bộ và dự đoán các xu hướng tương lai. Nhiều phương pháp khoa học dữ liệu, chẳng hạn như máy học và trí tuệ nhân tạo, sử dụng hồi quy tuyến tính để giải quyết các vấn đề phức tạp.
Hồi quy tuyến tính hoạt động như thế nào?
Về bản chất, một kỹ thuật hồi quy tuyến tính đơn giản cố gắng vẽ một đồ thị đường giữa hai biến dữ liệu, x và y. Là biến độc lập, x được vẽ dọc theo trục hoành. Các biến độc lập còn được gọi là biến giải thích hoặc biến dự báo. Biến phụ thuộc, y, được vẽ trên trục tung. Bạn cũng có thể tham chiếu các giá trị y như các biến phản hồi hoặc các biến dự báo.
Các bước trong hồi quy tuyến tính
Để có cái nhìn tổng quan, hãy xem xét dạng đơn giản nhất của phương trình đồ thị đường giữa y và x; y=c*x+m, trong đó c và m là hằng số cho tất cả các giá trị có thể có của x và y. Vì vậy, chẳng hạn giả sử rằng tập dữ liệu đầu vào cho (x,y) là (1,5), (2,8), và (3,11). Để xác định phương pháp hồi quy tuyến tính, bạn sẽ thực hiện các bước sau:
- Vẽ một đường thẳng và đo lường mối tương quan giữa 1 và 5.
- Tiếp tục thay đổi hướng của đường thẳng cho các giá trị mới (2,8) và (3,11) cho đến khi tất cả các giá trị đều phù hợp.
- Xác định phương trình hồi quy tuyến tính là y=3*x+2.
- Ngoại suy hoặc dự đoán y là 14 khi x là
Hồi quy tuyến tính trong máy học là gì?
Trong máy học, các chương trình máy tính gọi là thuật toán phân tích các tập dữ liệu lớn và làm việc ngược từ dữ liệu đó để tính toán phương trình hồi quy tuyến tính. Các nhà khoa học dữ liệu đầu tiên sẽ đào tạo thuật toán trên các tập dữ liệu đã biết hoặc được dán nhãn và sau đó sử dụng thuật toán để dự đoán các giá trị chưa biết. Dữ liệu thực tế phức tạp hơn so với ví dụ trước. Đó là lý do tại sao phân tích hồi quy tuyến tính phải sửa đổi hoặc biến đổi các giá trị dữ liệu về mặt toán học để đáp ứng bốn giả định sau đây.
Mối quan hệ tuyến tính
Mối quan hệ tuyến tính phải tồn tại giữa các biến độc lập và phụ thuộc. Để xác định mối quan hệ này, các nhà khoa học dữ liệu tạo ra một biểu đồ phân tán – một tập hợp ngẫu nhiên các giá trị x và y – để xem liệu chúng có nằm trên một đường thẳng hay không. Nếu không, bạn có thể áp dụng các hàm phi tuyến tính như căn bậc hai hoặc log để tạo ra mối quan hệ tuyến tính giữa hai biến về mặt toán học.
Phần dư độc lập
Các nhà khoa học dữ liệu sử dụng phần dư để đo lường độ chính xác dự đoán. Phần dư là chênh lệch giữa dữ liệu quan sát được và giá trị dự đoán. Phần dư không được có một mô hình nhận dạng được giữa chúng. Ví dụ: bạn không muốn phần dư tăng lên theo thời gian. Bạn có thể sử dụng các bài kiểm tra toán học khác nhau, như kiểm tra Durbin-Watson, để xác định phần dư độc lập. Bạn có thể sử dụng dữ liệu giả để thay thế bất kỳ dữ liệu biến thiên nào, chẳng hạn như dữ liệu theo mùa.
Tính chuẩn
Các kỹ thuật vẽ đồ thị như các biểu đồ Q-Q xác định xem các phần dư có phân bố bình thường hay không. Các phần dư sẽ nằm dọc theo một đường chéo ở trung tâm của đồ thị. Nếu phần dư không được chuẩn hóa, bạn có thể kiểm tra dữ liệu cho các điểm ngoại lai ngẫu nhiên hoặc các giá trị không phải là điển hình. Loại bỏ các điểm ngoại lai hoặc thực hiện phép biến đổi phi tuyến tính có thể khắc phục sự cố.
Phương sai không đổi
Phương sai không đổi giả định rằng phần dư có phương sai cố định hoặc độ lệch chuẩn so với trung bình cho mọi giá trị của x. Nếu không, kết quả phân tích có thể không chính xác. Nếu giả định này chưa được đáp ứng, bạn có thể phải thay đổi biến phụ thuộc. Bởi vì phương sai xuất hiện tự nhiên trong các tập dữ liệu lớn, giải thích được lý do phải thay đổi quy mô của biến phụ thuộc. Ví dụ: thay vì sử dụng quy mô dân số để dự đoán số trạm cứu hỏa trong một thành phố, có thể sử dụng kích thước dân số để dự đoán số trạm cứu hỏa trên mỗi người.
Có những loại hồi quy tuyến tính nào?
Một số loại phân tích hồi quy phù hợp để xử lý các tập dữ liệu phức tạp hơn các loại khác. Sau đây là một số ví dụ.
Hồi quy tuyến tính đơn giản
Hồi quy tuyến tính đơn giản được định nghĩa bằng hàm tuyến tính:
Y= β0*X + β1 + ε
β0 và β1 là hai hằng số chưa biết đại diện cho độ dốc hồi quy, trong khi ε (epsilon) là thuật ngữ sai số.
Bạn có thể sử dụng hồi quy tuyến tính đơn giản để lập mô hình mối quan hệ giữa hai biến, chẳng hạn như sau:
- Lượng mưa và sản lượng cây trồng
- Tuổi và chiều cao ở trẻ em
- Nhiệt độ và sự giãn nở của thủy ngân kim loại trong nhiệt kế
Hồi quy tuyến tính bội
Trong phân tích hồi quy tuyến tính bội, tập dữ liệu chứa một biến phụ thuộc và nhiều biến độc lập. Hàm đường hồi quy tuyến tính thay đổi để bao gồm nhiều yếu tố như sau:
Y= β0*X0 + β1X1 + β2X2+…… βnXn+ ε
Khi số lượng biến dự báo tăng lên, các hằng số β cũng tăng lên tương ứng.
Hồi quy tuyến tính bội lập mô hình nhiều biến và tác động của chúng lên một kết quả:
- Lượng mưa, nhiệt độ và mức độ sử dụng phân bón đối với sản lượng cây trồng
- Chế độ ăn uống và tập thể dục đối với bệnh tim
- Tăng trưởng tiền lương và lạm phát trên lãi suất cho vay gia đình
Hồi quy logistic
Các nhà khoa học dữ liệu sử dụng hồi quy logistic để đo lường xác suất xảy ra một sự kiện. Dự đoán là một giá trị giữa 0 và 1, trong đó 0 thể hiện một sự kiện khó xảy ra, và 1 thể hiện khả năng tối đa rằng sự việc đó sẽ xảy ra. Các phương trình logistic sử dụng các hàm logarit để tính toán đường hồi quy.
Sau đây là một số ví dụ:
- Xác suất thắng hoặc thua trong một trận đấu thể thao
- Xác suất đỗ hoặc trượt một bài kiểm tra
- Xác suất một hình ảnh là trái cây hoặc con vật
AWS có thể giúp bạn giải quyết các vấn đề hồi quy tuyến tính như thế nào?
Amazon SageMaker là một dịch vụ được quản lý hoàn toàn có thể giúp bạn nhanh chóng chuẩn bị, xây dựng, đào tạo và triển khai các mô hình máy học (ML) chất lượng cao. Tính năng tự động của Amazon SageMaker là một giải pháp ML tự động chung cho các vấn đề phân loại và hồi quy, chẳng hạn như phát hiện gian lận, phân tích rời bỏ và tiếp thị có mục tiêu.
Amazon Redshift, một kho dữ liệu đám mây nhanh, được sử dụng rộng rãi, tích hợp gốc với Amazon SageMaker cho ML. Với Amazon Redshift ML, bạn có thể sử dụng các câu lệnh SQL đơn giản để tạo và đào tạo các mô hình ML từ dữ liệu của bạn trong Amazon Redshift. Sau đó, bạn có thể sử dụng các mô hình này để giải quyết tất cả các vấn đề hồi quy tuyến tính.
Bắt đầu với Amazon SageMaker JumpStart hoặc tạo một tài khoản AWS ngay hôm nay.