Học tăng cường là gì?

Học tăng cường (RL) là kỹ thuật máy học (ML) giúp đào tạo phần mềm đưa ra quyết định nhằm thu về kết quả tối ưu nhất. Kỹ thuật này bắt chước quy trình học thử và sai mà con người sử dụng để đạt được mục tiêu đã đặt ra. RL giúp phần mềm tăng cường các hành động hướng tới mục tiêu, đồng thời bỏ qua các hành động làm xao lãng mục tiêu. 

Thuật toán RL sử dụng mô hình khen thưởng và trừng phạt trong quy trình xử lý dữ liệu. Các thuật toán này tiếp thu ý kiến phản hồi của từng hành động và tự khám phá ra con đường xử lý tốt nhất để thu về kết quả cuối cùng. Thuật toán RL còn có khả năng trì hoãn khen thưởng. Chiến lược tổng thể tốt nhất có thể đòi hỏi phải đánh đổi một vài lợi ích trước mắt, vì vậy cách tiếp cận tốt nhất mà RL khám phá ra có thể bao gồm một số trừng phạt hoặc giai đoạn quay lui. RL là phương pháp hiệu suất cao giúp hệ thống trí tuệ nhân tạo (AI) đạt kết quả tối ưu trong môi trường chưa biết.

Học tăng cường đem lại những lợi ích gì?

Sử dụng học tăng cường (RL) mang lại rất nhiều lợi ích. Tuy nhiên, lớn nhất phải kể đến ba lợi ích sau đây.

Vượt trội trong môi trường phức tạp

Thuật toán RL có thể được sử dụng trong các môi trường phức tạp với nhiều quy tắc và thành phần phụ thuộc. Trong cùng một môi trường, con người có thể không xác định được hướng đi tốt nhất, ngay cả khi họ có kiến thức vượt trội về môi trường. Thay vào đó, các thuật toán RL không mô hình thích nghi nhanh chóng với môi trường không ngừng thay đổi và tìm ra các chiến lược mới để tối ưu hóa kết quả thu được.

Cần ít thao tác từ con người

Trong các thuật toán ML truyền thống, con người phải ghi nhãn các cặp dữ liệu để chỉ dẫn cho thuật toán. Khi sử dụng thuật toán RL, bạn không cần thực hiện công việc này. Thuật toán này tự học. Đồng thời, nó cũng có các cơ chế để tích hợp phản hồi của con người, cho phép các hệ thống điều chỉnh theo sở thích, chuyên môn và thông tin hiệu chỉnh của con người.

Tối ưu hóa cho mục tiêu dài hạn

RL vốn tập trung vào việc tối đa hóa kết quả dài hạn nên rất phù hợp với các tình huống khi mà hành động mang lại hệ quả kéo dài. Thuật toán này đặc biệt phù hợp với các tình huống trong thế giới thực, nơi không có phản hồi tức thì cho mỗi bước, vì nó có thể học từ khen thưởng trễ.

Ví dụ: các quyết định về tiêu thụ hoặc tích trữ năng lượng có thể có hệ quả lâu dài. RL có thể được sử dụng để tối ưu hóa chi phí và hiệu quả năng lượng trong dài hạn. Với kiến trúc phù hợp, các tác tử RL cũng có thể khái quát hóa các chiến lược đã học được trên các nhiệm vụ tương tự nhưng không hoàn toàn giống nhau.

Có các trường hợp sử dụng học tăng cường nào?

Học tăng cường (RL) có thể áp dụng trong nhiều trường hợp sử dụng khác nhau trong thế giới thực. Sau đây chúng tôi sẽ đưa ra một vài ví dụ.

Cá nhân hóa tiếp thị

Trong các ứng dụng như hệ thống đề xuất, RL có thể tùy chỉnh gợi ý cho người dùng cá nhân dựa theo tương tác của họ. Nhờ đó, người dùng sẽ có được trải nghiệm cá nhân hóa cao hơn. Ví dụ: ứng dụng có thể hiển thị quảng cáo cho người dùng dựa theo một số thông tin nhân khẩu học. Mỗi khi người dùng tương tác với quảng cáo, ứng dụng sẽ học được rằng quảng cáo nào nên hiển thị cho người dùng để tối ưu hóa doanh số sản phẩm.

Thách thức về tối ưu hóa

Những phương pháp tối ưu hóa truyền thống giải quyết vấn đề bằng cách đánh giá và so sánh các giải pháp khả thi dựa trên một số tiêu chí nhất định. Ngược lại, RL có khả năng học từ tương tác để tìm ra giải pháp tốt nhất hoặc gần tốt nhất theo thời gian.

Ví dụ: hệ thống tối ưu hóa chi tiêu cho đám mây sử dụng RL để điều chỉnh theo nhu cầu tài nguyên không ngừng thay đổi và chọn loại phiên bản, số lượng và cấu hình tối ưu. Hệ thống này ra quyết định dựa trên các yếu tố như cơ sở hạ tầng đám mây hiện tại và có sẵn, mức chi tiêu và mức sử dụng.

Dự đoán tài chính

Động lực của thị trường tài chính rất phức tạp với các thuộc tính thống kê thay đổi theo thời gian. Các thuật toán RL có thể tối ưu hóa lợi nhuận dài hạn bằng cách cân nhắc chi phí giao dịch và điều chỉnh theo sự thay đổi của thị trường.

Ví dụ: một thuật toán có thể quan sát các quy luật và mô hình của thị trường chứng khoán trước khi thử nghiệm các hành động và ghi lại thông tin khen thưởng liên quan. Thuật toán này tự động tạo ra một hàm giá trị và phát triển một chiến lược để tối đa hóa lợi nhuận.

Học tăng cường hoạt động như thế nào?

Quá trình học thuật toán học tăng cường (RL) tương tự như học tăng cường ở con người và động vật trong lĩnh vực tâm lý học hành vi. Ví dụ, một đứa trẻ có thể phát hiện ra rằng chúng nhận được lời khen từ cha mẹ khi chúng giúp anh chị em hoặc dọn dẹp nhưng nhận được phản ứng tiêu cực khi chúng ném đồ chơi hoặc la hét. Chẳng mấy chốc, đứa trẻ sẽ nhận ra được sự kết hợp của các hoạt động nào mang đến phần thưởng cuối cùng.

Thuật toán RL bắt chước quá trình học tập tương tự. Thuật toán này thử các hoạt động khác nhau để tìm hiểu các giá trị tiêu cực và tích cực liên quan để đạt được kết quả phần thưởng cuối cùng.

Khái niệm chính

Trong học tăng cường, có một vài khái niệm chính mà bạn cần làm quen:

  • Tác tử là thuật toán ML (hoặc hệ thống tự trị)
  • Môi trường là không gian vấn đề thích ứng với các thuộc tính như biến, giá trị ranh giới, quy tắc và hành động hợp lệ
  • Hành động là một bước mà tác tử RL thực hiện để điều hướng môi trường
  • Trạng thái là môi trường tại một thời điểm nhất định
  • Phần thưởng là giá trị dương, âm hoặc bằng không - nói cách khác là phần thưởng hoặc hình phạt - cho việc thực hiện một hành động
  • Phần thưởng tích lũy là tổng của tất cả các phần thưởng hoặc giá trị cuối cùng

Kiến thức cơ bản về thuật toán

Học tăng cường dựa trên một mô hình toán học về việc ra quyết định gọi là quá trình quyết định Markov. Mô hình này sử dụng các bước thời gian riêng rẽ. Ở mỗi bước, tác tử thực hiện một hành động mới dẫn đến trạng thái môi trường mới. Tương tự, trạng thái hiện tại được quy cho chuỗi các hành động trước đó.

Thông qua thử và sai trong quá trình di chuyển qua môi trường, tác tử xây dựng một tập hợp các quy tắc hoặc chính sách nếu-thì. Các chính sách này giúp tác tử quyết định thực hiện hành động nào tiếp theo để có phần thưởng tích lũy tối ưu. Tác tử cũng phải lựa chọn giữa việc khám phá thêm môi trường để tìm hiểu phần thưởng cho hành động ở trạng thái mới hoặc chọn các hành động có phần thưởng cao đã biết từ một trạng thái nhất định. Điều này được gọi là đánh đổi giữa khám phá và khai thác.

Có các loại thuật toán học tăng cường nào?

Học tăng cường (RL) sử dụng nhiều thuật toán khác nhau, chẳng hạn như Q-learning, phương pháp policy gradient, phương pháp Monte Carlo và học temporal difference. Deep RL là ứng dụng mạng nơ-ron sâu trong học tăng cường. Trust Region Policy Optimization (TRPO) là một ví dụ về thuật toán deep RL.

Tất cả các thuật toán này có thể được nhóm thành hai danh mục lớn.

RL dựa trên mô hình

RL dựa trên mô hình thường được sử dụng trong trường hợp môi trường được xác định rõ ràng và không thay đổi, đồng thời khó có thể kiểm thử môi trường trong thế giới thực.

Đầu tiên, tác tử sẽ dựng đại diện nội bộ (mô hình) của môi trường. Quy trình xây dựng mô hình này như sau:

  1. Tác tử thực hiện các hành động trong môi trường và ghi nhận trạng thái mới cũng như giá trị khen thưởng
  2. Tác tử liên kết quá trình chuyển đổi hành động thành trạng thái với giá trị khen thưởng.

Khi mô hình hoàn tất, tác tử mô phỏng các chuỗi hành động dựa trên xác suất khen thưởng tích lũy tối ưu. Sau đó, tiếp tục gán giá trị cho chính các chuỗi hành động. Từ đó, tác tử phát triển các chiến lược khác nhau trong môi trường để đạt được mục tiêu cuối mong muốn. 

Ví dụ

Hãy xem xét tình huống robot học cách điều hướng tòa nhà mới để đến một phòng cụ thể. Ban đầu, robot tự do khám phá và dựng mô hình nội bộ (hoặc bản đồ) tòa nhà. Ví dụ: robot có thể biết sẽ gặp thang máy sau khi di chuyển về phía trước 10 mét từ lối vào chính. Sau khi dựng bản đồ, robot có thể dựng hàng loạt chuỗi lộ trình ngắn nhất giữa nhiều địa điểm khác nhau thường xuyên lui tới trong tòa nhà.

RL không mô hình 

RL không mô hình là lựa chọn phù hợp nhất để sử dụng cho môi trường lớn, phức tạp và không dễ mô tả. Ngoài ra, RL không mô hình cũng là lựa chọn lý tưởng khi môi trường không xác định và hay thay đổi, đồng thời thử nghiệm dựa trên môi trường không đi kèm với nhược điểm lớn.

Tác tử không dựng mô hình nội bộ của môi trường và động lực, thay vào đó, sử dụng cách tiếp cận thử và sai trong môi trường. Từ đó, ghi điểm và ghi nhận các cặp hành động-trạng thái – và chuỗi các cặp hành động-trạng thái – để phát triển chính sách. 

Ví dụ

Hãy xem xét tình huống một chiếc xe tự hành cần điều hướng giao thông thành phố. Đường xá, mô hình giao thông, hành vi của người đi bộ cùng vô số yếu tố khác có thể khiến môi trường trở nên cực linh hoạt và phức tạp. Đội ngũ AI đào tạo xe trong môi trường mô phỏng ở các giai đoạn ban đầu. Chiếc xe thực hiện hành động dựa trên trạng thái hiện tại và nhận khen thưởng hoặc hình phạt.

Theo thời gian, sau khi lái xe hàng triệu dặm trong vô số tình huống ảo khác nhau, chiếc xe biết được hành động thích hợp nhất cho từng trạng thái mà không cần mô hình hóa rõ ràng toàn bộ động lực giao thông. Khi được đưa vào thế giới thực, ngoài áp dụng chính sách đã học, chiếc xe còn tiếp tục tinh chỉnh với dữ liệu mới.

Điểm khác biệt giữa máy học tăng cường, có giám sát và không có giám sát là gì?

Mặc dù học có giám sát, học không có giám sát và học tăng cường (RL) đều là các thuật toán ML trong lĩnh vực AI, nhưng ba thuật toán này có những khác biệt.

Tìm hiểu về học có giám sát và không có giám sát »

Học tăng cường so với học có giám sát

Thuật toán học có giám sát yêu cầu xác định cả đầu vào và đầu ra liên quan được kỳ vọng. Ví dụ: sau khi được cung cấp tập hợp hình ảnh gắn nhãn chó hoặc mèo, thuật toán sẽ xác định hình ảnh động vật mới là chó hoặc mèo.

Thuật toán học có giám sát nghiên cứu khuôn mẫu và mối quan hệ giữa các cặp đầu vào và đầu ra. Từ đó, dự đoán kết quả dựa trên dữ liệu đầu vào mới. Thuật toán này cần có giám sát viên, thường là con người, để gắn nhãn từng bản ghi dữ liệu trong tập dữ liệu đào tạo với đầu ra. 

Ngược lại, RL có mục tiêu cuối được xác định rõ ràng dưới dạng kết quả mong muốn nhưng không cần giám sát viên gắn nhãn trước dữ liệu liên quan. Trong quá trình đào tạo, RL khớp đầu vào với các kết quả tiềm năng thay vì đầu ra đã xác định. Bằng cách khen thưởng các hành vi mong muốn, thuật toán này giúp bạn tăng khả năng đạt được kết quả tốt nhất. 

Học tăng cường so với học không có giám sát 

Trong quá trình đào tạo, thuật toán học không có giám sát nhận đầu vào không có đầu ra chỉ định. Thuật toán này tìm kiếm các khuôn mẫu và mối quan hệ ẩn trong dữ liệu thông qua phương tiện thống kê. Ví dụ: sau khi được cung cấp tập hợp tài liệu, thuật toán có thể nhóm tập hợp này thành nhiều danh mục xác định dựa trên từ ngữ trong văn bản. Kết quả thu được sẽ không cụ thể mà nằm trong một phạm vi chung. 

Ngược lại, RL có mục tiêu cuối được xác định trước. Dù thuật toán này sử dụng cách tiếp cận thăm dò nhưng liên tục xác thực và cải tiến các khám phá để tăng xác suất đạt mục tiêu cuối. Thuật toán có thể tiến hành tự đào tạo để đạt kết quả rất cụ thể.

Học tăng cường có những thách thức gì?

Mặc dù các ứng dụng học tăng cường (RL) có khả năng thay đổi thế giới, nhưng không dễ triển khai các thuật toán này. 

Tính thực tiễn

Thử nghiệm với các hệ thống thưởng phạt thực tế có thể không mang tính thực tiễn. Ví dụ: thử nghiệm máy bay drone trong thế giới thực mà không thử nghiệm trong trình giả lập trước sẽ dẫn đến nhiều máy bay bị hỏng. Môi trường trong thế giới thực thường xuyên thay đổi lớn mà có rất ít cảnh báo. Điều đó có thể khiến thuật toán khó mang lại hiệu quả trong thực tế.

Khả năng diễn giải

Giống như mọi lĩnh vực khoa học, khoa học dữ liệu cũng xem xét các nghiên cứu và phát hiện kết luận để lập ra tiêu chuẩn và quy trình. Các nhà khoa học dữ liệu muốn hiểu được cách chứng minh và nhân rộng một kết luận cụ thể.

Các thuật toán RL phức tạp có thể khó hỗ trợ xác minh lý do thực hiện một chuỗi các bước cụ thể. Những hành động nào trong chuỗi là những hành động đưa đến kết quả cuối cùng tối ưu? Điều này có thể khó suy luận, dẫn đến khó khăn trong việc thực hiện.

AWS có thể hỗ trợ học tăng cường như thế nào?

Amazon Web Services (AWS) có nhiều dịch vụ giúp bạn phát triển, đào tạo và triển khai các thuật toán học tăng cường (RL) cho ứng dụng trong thực tiễn.

Với Amazon SageMaker, nhà phát triển và nhà khoa học dữ liệu có thể phát triển các mô hình RL quy mô linh hoạt nhanh chóng và dễ dàng. Kết hợp framework học sâu (như TensorFlow hoặc Apache MXNet), bộ công cụ RL (như RL Coach hoặc RLlib) và một môi trường để bắt chước kịch bản trong thế giới thực. Bạn có thể sử dụng bộ công cụ đó để tạo và kiểm tra mô hình của mình.

Với AWS RoboMaker, nhà phát triển có thể chạy, điều chỉnh quy mô và tự động hóa quá trình mô phỏng bằng các thuật toán RL dành cho robot mà không cần đáp ứng bất kỳ yêu cầu nào về cơ sở hạ tầng.

Trải nghiệm thực tế với AWS DeepRacer, chiếc xe đua tỷ lệ 1:18 hoàn toàn tự động. Chiếc xe đua này có một môi trường đám mây được cấu hình đầy đủ, hỗ trợ bạn sử dụng để đào tạo các mô hình RL và cấu hình mạng nơ-ron của mình.

Bắt đầu sử dụng học tăng cường trên AWS bằng cách tạo tài khoản ngay hôm nay.

Các bước tiếp theo để sử dụng AWS