Mô hình tự hồi quy là gì?

Mô hình tự hồi quy là một lớp mô hình máy học (ML) tự động dự đoán thành phần tiếp theo trong một chuỗi bằng cách lấy các phép đo từ các đầu vào trước đó trong chuỗi. Tự hồi quy là một kỹ thuật thống kê được sử dụng trong phân tích chuỗi thời gian với giả định rằng giá trị hiện tại của chuỗi thời gian là một hàm của các giá trị của chuỗi đó trước đây. Các mô hình tự hồi quy sử dụng các kỹ thuật toán học tương tự để xác định mối tương quan xác suất giữa các phần tử trong một chuỗi. Sau đó, các mô hình này sử dụng kiến thức thu được để đoán phần tử tiếp theo trong một chuỗi chưa xác định. Ví dụ: trong quá trình đào tạo, một mô hình tự hồi quy xử lý một số câu tiếng Anh và xác định rằng từ “is” luôn theo sau từ “there”. Sau đó, mô hình này tạo ra một chuỗi mới kết hợp hai từ “there is” với nhau.

Các mô hình tự hồi quy được sử dụng như thế nào trong AI tạo sinh?

Trí tuệ nhân tạo tạo sinh (AI tạo sinh) là một công nghệ khoa học dữ liệu tiên tiến, có khả năng tạo ra nội dung mới và độc đáo bằng cách học từ dữ liệu đào tạo khổng lồ. Các phần sau đây trình bày về cách lập mô hình tự hồi quy tạo điều kiện cho các ứng dụng AI tạo sinh. 

Xử lý ngôn ngữ tự nhiên (NLP)

Mô hình tự hồi quy là một thành phần quan trọng của các mô hình ngôn ngữ lớn (LLM). LLM được hỗ trợ bởi bộ chuyển đổi được đào tạo trước (GPT), một mạng nơ-ron sâu bắt nguồn từ kiến trúc bộ chuyển đổi. Bộ chuyển đổi bao gồm một bộ mã hóa-giải mã, lần lượt cho phép hiểu ngôn ngữ tự nhiên và tạo ngôn ngữ tự nhiên. GPT chỉ sử dụng bộ giải mã để lập mô hình ngôn ngữ tự hồi quy. Điều này cho phép GPT hiểu các ngôn ngữ tự nhiên và trả lời theo cách mà con người hiểu được. Một mô hình ngôn ngữ lớn được GPT hỗ trợ dự đoán từ tiếp theo bằng cách xem xét phân bố xác suất của kho văn bản dùng để đào tạo mô hình đó.

Tìm hiểu về xử lý ngôn ngữ tự nhiên

Đọc về các mô hình ngôn ngữ lớn (LLM)

Tổng hợp hình ảnh

Tự hồi quy cho phép các mô hình học sâu tạo ra hình ảnh bằng cách phân tích thông tin hạn chế. Các mạng nơ-ron xử lý hình ảnh như PixelRNN và PixelCNN sử dụng phương pháp lập mô hình tự hồi quy để dự đoán dữ liệu trực quan bằng cách kiểm tra thông tin điểm ảnh hiện có. Bạn có thể sử dụng các kỹ thuật tự hồi quy để hình ảnh trở nên sắc nét hơn, nâng cấp và tái tạo hình ảnh trong khi vẫn duy trì chất lượng. 

Dự đoán chuỗi thời gian

Các mô hình tự hồi quy rất hữu ích trong việc dự đoán khả năng xảy ra các sự kiện chuỗi thời gian. Ví dụ: các mô hình học sâu sử dụng các kỹ thuật tự hồi quy để dự báo giá cổ phiếu, thời tiết và điều kiện giao thông dựa trên các giá trị trước đó. 

Tăng cường dữ liệu

Kỹ sư ML đào tạo các mô hình AI bằng các tập dữ liệu được tuyển chọn để cải thiện hiệu năng. Trong một số trường hợp, không có đủ dữ liệu để đào tạo mô hình một cách thỏa đáng. Các kỹ sư sử dụng các mô hình tự hồi quy để tạo ra dữ liệu đào tạo học sâu mới và thực tế. Họ sử dụng dữ liệu được tạo để tăng cường các tập dữ liệu đào tạo hạn chế hiện có.

Mô hình tự hồi quy hoạt động như thế nào?

Mô hình tự hồi quy sử dụng một biến thể của phân tích hồi quy tuyến tính để dự đoán chuỗi tiếp theo từ một khoảng biến cụ thể. Trong phân tích hồi quy, mô hình thống kê được cung cấp và sử dụng một số biến độc lập để dự đoán giá trị của một biến phụ thuộc. 

Hồi quy tuyến tính

Bạn có thể hình dung hồi quy tuyến tính giống như vẽ một đường thẳng thể hiện hiệu quả nhất các giá trị trung bình được phân phối trên biểu đồ hai chiều. Từ đường thẳng đó, mô hình tạo ra một điểm dữ liệu mới tương ứng với sự phân bố có điều kiện của các giá trị trước đó. 

Hãy xem xét dạng đơn giản nhất của phương trình biểu đồ đường giữa y (biến phụ thuộc) và x (biến độc lập) là y=m*x+c, trong đó c và m là hằng số cho tất cả các giá trị có thể có của x và y. Vì vậy, chẳng hạn giả sử tập dữ liệu đầu vào cho (x,y) là (1,5), (2,8) và (3,11). Để xác định phương pháp hồi quy tuyến tính, bạn sẽ thực hiện các bước sau:

  1. Vẽ một đường thẳng và đánh giá mối tương quan giữa 1 và 5.
  2. Thay đổi hướng đường thẳng cho các giá trị mới (2,8) và (3,11) cho đến khi tất cả các giá trị phù hợp.
  3. Xác định phương trình hồi quy tuyến tính là y=3*x+2.
  4. Ngoại suy hoặc dự đoán y bằng 14 khi x bằng 4.

Tự hồi quy

Các mô hình tự hồi quy áp dụng hồi quy tuyến tính với các biến bị trễ của đầu ra được lấy từ các bước trước đó. Không giống như hồi quy tuyến tính, mô hình tự hồi quy không sử dụng các biến độc lập khác ngoại trừ các kết quả được dự đoán trước đó. Hãy xem xét công thức sau. 

Theo thuật ngữ xác suất thì một mô hình tự hồi quy phân phối các biến độc lập trên n bước khả thi, với giả định rằng các biến trước đó ảnh hưởng có điều kiện đến kết quả của biến tiếp theo. 

Chúng ta cũng có thể biểu diễn mô hình tự hồi quy bằng phương trình dưới đây. 

Trong đó, y là kết quả dự đoán từ nhiều bậc của các kết quả trước đó nhân với các hệ số tương ứng là ϕ. Hệ số đại diện cho trọng số hoặc thông số ảnh hưởng đến tầm quan trọng của yếu tố dự đoán đối với kết quả mới. Công thức này cũng xem xét nhiễu ngẫu nhiên có thể ảnh hưởng đến dự đoán, qua đó chỉ ra rằng mô hình không lý tưởng và có thể cải thiện hơn nữa.  

Độ trễ

Các nhà khoa học dữ liệu thêm nhiều giá trị bị trễ hơn để cải thiện độ chính xác của mô hình tự hồi quy. Họ thực hiện điều đó bằng cách tăng giá trị của t, biểu thị số bước trong chuỗi thời gian của dữ liệu. Nếu có nhiều bước hơn, mô hình sẽ ghi lại được nhiều dự đoán trong quá khứ hơn để sử dụng như đầu vào. Ví dụ: bạn có thể mở rộng mô hình tự hồi quy để sử dụng nhiệt độ được dự đoán từ 7 ngày đến 14 ngày qua để có kết quả chính xác hơn. Mặc dù vậy nhưng không phải lúc nào độ chính xác cũng được cải thiện khi tăng bậc trễ của mô hình tự hồi quy. Nếu hệ số gần bằng 0, yếu tố dự báo cụ thể hầu như không ảnh hưởng đến kết quả của mô hình. Hơn nữa, khi mở rộng chuỗi vô thời hạn sẽ dẫn đến một mô hình phức tạp hơn, yêu cầu nhiều tài nguyên điện toán hơn để chạy.

Tự tương quan là gì?

Tự tương quan là phương pháp thống kê đánh giá mức độ ảnh hưởng của các biến bị trễ trong mô hình tự hồi quy đến đầu ra của mô hình. Các nhà khoa học dữ liệu sử dụng tự tương quan để mô tả mối quan hệ giữa đầu ra và đầu vào bị trễ của một mô hình. Mối tương quan càng cao thì dự đoán của mô hình càng chính xác. Sau đây là một số điều cần cân nhắc đối với tự tương quan:

  • Mối tương quan đồng biến có nghĩa là đầu ra tuân theo các xu hướng đã thiết lập trong các giá trị trước đó. Ví dụ: mô hình dự đoán rằng giá cổ phiếu sẽ tăng hôm nay vì đã tăng trong vài ngày qua.
  • Mối tương quan nghịch biến có nghĩa là biến đầu ra ngược lại với các kết quả trước đó. Ví dụ: hệ thống tự hồi quy quan sát thấy trời mưa vài ngày qua nhưng dự đoán ngày mai sẽ nắng.
  • Tương quan số không có thể cho thấy không có các mẫu cụ thể giữa đầu vào và đầu ra.

Các kỹ sư dữ liệu sử dụng tự tương quan để xác định số bước cần đưa vào mô hình để tối ưu hóa tài nguyên điện toán và độ chính xác của phản hồi. Trong một số ứng dụng, mô hình tự hồi quy có thể cho thấy mức tự tương quan mạnh mẽ khi sử dụng các biến vừa qua nhưng mức tự tương quan yếu hơn cho các đầu vào cách xa. Ví dụ: các kỹ sư phát hiện ra rằng một công cụ dự báo thời tiết tự hồi quy sẽ ít nhạy cảm hơn với các dự đoán cũ hơn 30 ngày. Vì vậy, họ đã sửa đổi mô hình để chỉ bao gồm các kết quả bị trễ trong 30 ngày qua. Do đó, họ thu được kết quả chính xác hơn trong khi sử dụng ít tài nguyên điện toán hơn. 

Điểm khác biệt giữa tự hồi quy và các loại kỹ thuật phân tích hồi quy khác là gì?

Ngoài tự hồi quy, một số kỹ thuật hồi quy đã được đưa vào sử dụng để phân tích các biến và các phần phụ thuộc lẫn nhau của các biến. Các phần sau đây trình bày những điểm khác biệt. 

Hồi quy tuyến tính so với tự hồi quy

Cả hai phương pháp hồi quy đều giả định rằng các biến trước đây đều có mối quan hệ tuyến tính với các giá trị trong tương lai. Hồi quy tuyến tính dự đoán một kết quả dựa trên một vài biến độc lập trong cùng một khung thời gian. Trong khi đó, tự hồi quy chỉ sử dụng một loại biến nhưng mở rộng qua nhiều điểm để dự đoán kết quả trong tương lai. Ví dụ: bạn sử dụng hồi quy tuyến tính để dự đoán thời gian đi lại dựa trên thời tiết, lưu lượng giao thông và tốc độ đi bộ. Ngoài ra, mô hình tự hồi quy sử dụng thời gian di chuyển trước đây của bạn để ước tính thời gian đến cho ngày hôm nay.

Hồi quy đa thức so với tự hồi quy

Hồi quy đa thức là một phương pháp thống kê ghi lại mối quan hệ của các biến phi tuyến tính. Một số biến không thể được biểu diễn tuyến tính bằng một đường thẳng và cần số hạng đa thức bổ sung để phản ánh mối quan hệ của các biến chính xác hơn. Ví dụ: các kỹ sư sử dụng hồi quy đa thức để phân tích thu nhập của nhân viên dựa trên trình độ học vấn của họ. Trong khi đó, tự hồi quy phù hợp để dự đoán thu nhập trong tương lai của một nhân viên dựa trên mức lương trước đây của họ. 

Hồi quy logistic so với tự hồi quy

Hồi quy logistic cho phép một mô hình thống kê dự đoán khả năng xảy ra một sự kiện cụ thể theo phương pháp xác suất. Loại hồi quy này biểu diễn kết quả dự đoán theo tỷ lệ phần trăm thay vì một loạt các số. Ví dụ: các nhà phân tích kinh doanh sử dụng mô hình hồi quy logistic để dự đoán khả năng tăng chi phí cung ứng trong tháng tiếp theo là 85 phần trăm. Ngược lại, mô hình tự hồi quy dự đoán giá hàng tồn kho có thể có dựa trên dự đoán trước đây cho các tháng trước. 

Hồi quy Ridge so với tự hồi quy

Hồi quy Ridge là một biến thể của hồi quy tuyến tính, cho phép hạn chế hệ số của một mô hình. Các nhà khoa học dữ liệu có thể điều chỉnh một hệ số phạt, bù đắp cho ảnh hưởng của hệ số đó trong khi lập mô hình kết quả. Hệ số thông số có thể được triệt tiêu xuống gần bằng 0 trong mô hình hồi quy ridge. Điều này rất hữu ích khi thuật toán hồi quy có xu hướng quá khớp. Quá khớp là tình trạng mô hình có thể khái quát hóa tốt với dữ liệu đào tạo nhưng không thể với dữ liệu thực tế chưa được đào tạo. Trong khi đó, mô hình tự hồi quy không có cơ chế phạt hệ số. 

Hồi quy Lasso so với tự hồi quy

Hồi quy Lasso tương tự như hồi quy ridge, có thể hạn chế hệ số của biến bằng một hệ số phạt. Tuy nhiên, hồi quy lasso có thể triệt tiêu hệ số về 0. Điều này cho phép các nhà khoa học dữ liệu đơn giản hóa các mô hình phức tạp bằng cách bỏ qua các thông số không quan trọng. Trong khi đó, các mô hình tự hồi quy không điều tiết dự đoán của mô hình bằng cách thu hẹp hệ số.

AWS có thể hỗ trợ các mô hình tự hồi quy của bạn như thế nào?

Với Amazon Web Services (AWS), các nhóm phần mềm có thể xây dựng, đào tạo, triển khai và điều chỉnh quy mô các mô hình tự hồi quy cho các ứng dụng AI tạo sinh một cách hiệu quả hơn. Với bảo mật cấp doanh nghiệp và cơ sở hạ tầng được quản lý, AWS đơn giản hóa việc phát triển mô hình thế hệ cho các doanh nghiệp và giảm thời gian đưa ra thị trường. Chẳng hạn, bạn có thể sử dụng:

  • Amazon Bedrock là dịch vụ được quản lý cung cấp các mô hình nền tảng mà bạn có thể sử dụng để tùy chỉnh và đổi mới bằng dữ liệu của riêng mình. 
  • Amazon SageMaker để xây dựng, đào tạo và triển khai mô hình ML cho mọi trường hợp sử dụng.
  • AWS TrainiumAWS Inferentia để đào tạo, lưu trữ và điều chỉnh quy mô các ứng dụng AI tạo sinh trên đám mây với năng lực điện toán hiệu năng cao và chi phí thấp. 

Bắt đầu sử dụng các mô hình tự hồi quy trên AWS bằng cách tạo tài khoản ngay hôm nay.

Các bước tiếp theo trên AWS

Tham khảo các tài nguyên bổ sung liên quan đến sản phẩm
Tăng tốc độ đổi mới với các dịch vụ AI tạo sinh của AWS 
Đăng ký tài khoản miễn phí

Nhận ngay quyền sử dụng Bậc miễn phí của AWS.

Đăng ký 
Bắt đầu xây dựng trong bảng điều khiển

Bắt đầu xây dựng trong AWS Management Console.

Đăng nhập