Học chuyển giao là gì?
Học chuyển giao (TL) là một kỹ thuật máy học (ML), trong đó mô hình đã đào tạo trước về một tác vụ sẽ được tinh chỉnh cho một tác vụ mới, có liên quan. Đào tạo một mô hình ML mới là một quá trình tốn thời gian và chuyên sâu đòi hỏi một lượng lớn dữ liệu, sức mạnh điện toán và một số lần lặp lại trước khi sẵn sàng đưa vào sản xuất. Thay vào đó, các tổ chức sử dụng TL để đào tạo lại các mô hình hiện có về các nhiệm vụ liên quan với dữ liệu mới. Ví dụ: nếu một mô hình máy học có thể xác định hình ảnh của chó, nó có thể được đào tạo để xác định mèo bằng cách sử dụng một bộ hình ảnh nhỏ hơn làm nổi bật sự khác biệt về tính năng giữa chó và mèo.
Lợi ích của việc học chuyển tiếp là gì?
TL cung cấp một số lợi ích sau đây cho các nhà nghiên cứu tạo ra các ứng dụng ML.
Nâng cao hiệu quả
Đào tạo các mô hình ML cần có thời gian khi họ xây dựng kiến thức và xác định các mẫu. Nó cũng đòi hỏi một tập dữ liệu lớn và tốn kém về mặt tính toán. Trong TL, một mô hình được đào tạo trước vẫn giữ được kiến thức cơ bản về các nhiệm vụ, tính năng, trọng số và chức năng, cho phép nó thích ứng với các nhiệm vụ mới nhanh hơn. Bạn có thể sử dụng một tập dữ liệu nhỏ hơn nhiều và ít tài nguyên hơn trong khi đạt được kết quả tốt hơn.
Tăng khả năng tiếp cận
Xây dựng mạng nơ-ron học sâu đòi hỏi khối lượng dữ liệu lớn, tài nguyên, sức mạnh điện toán và thời gian. TL vượt qua những rào cản đối với việc sáng tạo, cho phép các tổ chức áp dụng ML cho các trường hợp sử dụng tùy chỉnh. Bạn có thể điều chỉnh các mô hình hiện có theo yêu cầu của mình với một phần nhỏ chi phí. Ví dụ: sử dụng mô hình nhận dạng hình ảnh được đào tạo trước, bạn có thể tạo các mô hình để phân tích hình ảnh y tế, giám sát môi trường hoặc nhận dạng khuôn mặt với các điều chỉnh tối thiểu.
Cải thiện hiệu suất
Các mô hình được phát triển thông qua TL thường thể hiện sự mạnh mẽ hơn trong các môi trường đa dạng và đầy thách thức. Họ xử lý tốt hơn sự thay đổi và tiếng ồn trong thế giới thực, đã tiếp xúc với nhiều tình huống trong quá trình đào tạo ban đầu của mình. Chúng cho kết quả tốt hơn và thích nghi với các điều kiện không thể đoán trước linh hoạt hơn.
Các chiến lược học chuyển giao khác nhau là gì?
Chiến lược bạn sử dụng để tạo điều kiện thuận lợi cho TL sẽ phụ thuộc vào miền của mô hình bạn đang xây dựng, nhiệm vụ mà nó cần hoàn thành và sự sẵn có của dữ liệu đào tạo.
Học chuyển giao tải nạp
Học chuyển giao tải nạp liên quan đến việc chuyển kiến thức từ một miền nguồn cụ thể sang một miền mục tiêu khác nhưng có liên quan, với trọng tâm chính là miền mục tiêu. Nó đặc biệt hữu ích khi có ít hoặc không có dữ liệu được gắn nhãn từ miền đích.
Học chuyển giao tải nạp yêu cầu mô hình đưa ra dự đoán về dữ liệu mục tiêu bằng cách sử dụng kiến thức thu được trước đó. Vì dữ liệu mục tiêu tương tự về mặt toán học với dữ liệu nguồn, mô hình tìm thấy các mẫu và thực hiện nhanh hơn.
Ví dụ: xem xét điều chỉnh mô hình phân tích tâm lý được đào tạo về đánh giá sản phẩm để phân tích các đánh giá phim. Miền nguồn (đánh giá sản phẩm) và miền mục tiêu (đánh giá phim) khác nhau về ngữ cảnh và chi tiết cụ thể nhưng có những điểm tương đồng về cấu trúc và cách sử dụng ngôn ngữ. Mô hình nhanh chóng học cách áp dụng sự hiểu biết của mình về cảm xúc từ miền sản phẩm sang miền phim.
Học chuyển tiếp quy nạp
Học chuyển tiếp quy nạp là nơi miền nguồn và miền đích giống nhau, nhưng các nhiệm vụ mà mô hình phải hoàn thành là khác nhau. Mô hình được đào tạo trước đã quen thuộc với dữ liệu nguồn và đào tạo nhanh hơn cho các chức năng mới.
Một ví dụ về học chuyển tiếp quy nạp là trong xử lý ngôn ngữ tự nhiên (NLP). Các mô hình được đào tạo trước trên một tập hợp lớn các văn bản và sau đó được tinh chỉnh bằng cách sử dụng học chuyển tiếp quy nạp sang các chức năng cụ thể như phân tích cảm xúc. Tương tự, các mô hình thị giác máy tính như VGG được đào tạo trước trên các tập dữ liệu hình ảnh lớn và sau đó được tinh chỉnh để phát triển khả năng phát hiện đối tượng.
Học chuyển tiếp không giám sát
Học chuyển tiếp không giám sát sử dụng một chiến lược tương tự như học chuyển tiếp quy nạp để phát triển các khả năng mới. Tuy nhiên, bạn sử dụng hình thức học chuyển tiếp này khi chỉ có dữ liệu không được gắn nhãn trong cả miền nguồn và miền đích.
Mô hình học các tính năng chung của dữ liệu không được dán nhãn để khái quát hóa chính xác hơn khi được yêu cầu thực hiện một nhiệm vụ mục tiêu. Phương pháp này rất hữu ích nếu việc có được dữ liệu nguồn được dán nhãn khó khăn hoặc tốn kém.
Ví dụ: hãy xem xét nhiệm vụ xác định các loại xe máy khác nhau trong hình ảnh giao thông. Ban đầu, mô hình được đào tạo trên một tập hợp lớn các hình ảnh xe chưa được dán nhãn. Trong trường hợp này, mô hình tự xác định sự tương đồng và đặc điểm phân biệt giữa các loại phương tiện khác nhau như ô tô, xe buýt và xe máy. Tiếp theo, mô hình được giới thiệu với một bộ hình ảnh xe máy nhỏ, cụ thể. Hiệu suất mô hình cải thiện đáng kể so với trước đây.
Các bước trong học chuyển giao là gì?
Có ba bước chính khi tinh chỉnh mô hình học máy cho một nhiệm vụ mới.
Chọn một mô hình được đào tạo trước
Đầu tiên, chọn một mô hình được đào tạo trước với kiến thức hoặc kỹ năng trước đó cho một nhiệm vụ liên quan. Một bối cảnh hữu ích để chọn một mô hình phù hợp là xác định nhiệm vụ nguồn của từng mô hình. Nếu hiểu các nhiệm vụ ban đầu mà mô hình đã thực hiện, bạn có thể tìm thấy một nhiệm vụ chuyển đổi hiệu quả hơn sang một nhiệm vụ mới.
Định cấu hình các mô hình được đào tạo trước của bạn
Sau khi chọn mô hình nguồn của bạn, hãy định cấu hình nó để truyền kiến thức cho một mô hình nhằm hoàn thành nhiệm vụ liên quan. Có hai phương pháp chính để làm điều này.
Đóng băng các lớp được đào tạo trước
Các lớp là khối xây dựng của mạng nơ-ron. Mỗi lớp bao gồm một tập hợp các nơ-ron và thực hiện các chuyển đổi cụ thể trên dữ liệu đầu vào. Trọng lượng là các tham số mà mạng sử dụng để ra quyết định. Ban đầu được đặt thành các giá trị ngẫu nhiên, trọng lượng được điều chỉnh trong quá trình đào tạo khi mô hình học hỏi từ dữ liệu.
Bằng cách đóng băng trọng lượng của các lớp được đào tạo trước, bạn giữ chúng cố định, bảo tồn kiến thức mà mô hình học sâu thu được từ nhiệm vụ nguồn.
Loại bỏ lớp cuối cùng
Trong một số trường hợp sử dụng, bạn cũng có thể loại bỏ các lớp cuối cùng của mô hình được đào tạo trước. Trong hầu hết các kiến trúc ML, các lớp cuối cùng là dành riêng cho nhiệm vụ. Loại bỏ các lớp cuối cùng này giúp bạn cấu hình lại mô hình cho các yêu cầu nhiệm vụ mới.
Giới thiệu các lớp mới
Giới thiệu các lớp mới ở phía trên cùng của mô hình được đào tạo trước giúp bạn thích nghi với bản chất chuyên biệt của nhiệm vụ mới. Các lớp mới điều chỉnh mô hình theo các sắc thái và chức năng của yêu cầu mới.
Đào tạo mô hình cho miền mục tiêu
Bạn đào tạo mô hình trên dữ liệu nhiệm vụ mục tiêu để phát triển đầu ra tiêu chuẩn của nó sao cho phù hợp với nhiệm vụ mới. Mô hình được đào tạo trước có thể tạo ra các đầu ra khác nhau từ những kết quả mong muốn. Sau khi theo dõi và đánh giá hiệu suất của mô hình trong quá trình đào tạo, bạn có thể điều chỉnh các siêu tham số hoặc kiến trúc mạng nơ-ron cơ bản để cải thiện đầu ra hơn nữa. Không giống như trọng số, siêu tham số không được học từ dữ liệu. Chúng được thiết lập sẵn và đóng một vai trò quan trọng trong việc xác định hiệu quả và hiệu quả của quá trình đào tạo. Ví dụ: bạn có thể điều chỉnh các tham số chính quy hoặc tỷ lệ học tập của mô hình để cải thiện khả năng của mô hình liên quan đến nhiệm vụ mục tiêu.
Chiến lược học chuyển giao trong AI tạo sinh là gì?
Các chiến lược học chuyển giao rất quan trọng đối với việc áp dụng AI tạo sinh trong các ngành khác nhau. Các tổ chức có thể tùy chỉnh các mô hình nền tảng hiện có mà không cần phải đào tạo các mô hình mới trên hàng tỷ tham số dữ liệu trên quy mô lớn. Sau đây là một số chiến lược học chuyển giao được sử dụng trong AI tạo sinh.
Đào tạo đối nghịch miền
Đào tạo đối nghịch miền liên quan đến việc đào tạo một mô hình nền tảng để tạo ra dữ liệu không thể phân biệt được với dữ liệu thực trong miền mục tiêu. Kỹ thuật này thường sử dụng một mạng phân biệt, như được thấy trong các mạng đối nghịch tạo sinh cố gắng phân biệt giữa dữ liệu thực và dữ liệu được tạo ra. Trình tạo học cách tạo ra dữ liệu ngày càng thực tế.
Ví dụ: trong quá trình tạo hình ảnh, một mô hình được đào tạo về ảnh có thể được điều chỉnh để tạo ra tác phẩm nghệ thuật. Mạng phân biệt giúp đảm bảo tác phẩm nghệ thuật được tạo phù hợp về mặt phong cách với miền mục tiêu.
Học tập giữa giáo viên và học sinh
Học tập giữa giáo viên và học sinh liên quan đến một mô hình “giáo viên” lớn hơn và phức tạp hơn dạy một mô hình “học sinh” nhỏ hơn và đơn giản hơn. Mô hình học sinh học cách bắt chước hành vi của mô hình giáo viên, truyền đạt kiến thức hiệu quả. Điều này rất hữu ích để triển khai các mô hình tạo lớn trong môi trường hạn chế tài nguyên.
Ví dụ: một mô hình ngôn ngữ lớn (LLM) có thể đóng vai trò như một giáo viên cho một mô hình nhỏ hơn, truyền tải khả năng tạo ngôn ngữ của nó. Điều này sẽ cho phép mô hình nhỏ hơn tạo ra văn bản chất lượng cao với chi phí điện toán ít hơn.
Tách rời tính năng
Sự tách rời tính năng trong các mô hình tạo sinh liên quan đến việc tách các khía cạnh khác nhau của dữ liệu, chẳng hạn như nội dung và phong cách, thành các dạng trình bày riêng biệt. Điều này cho phép mô hình thao tác các khía cạnh này một cách độc lập trong quá trình học chuyển giao.
Ví dụ: trong một nhiệm vụ tạo khuôn mặt, một người mẫu có thể học cách tách các đặc điểm trên mặt khỏi phong cách nghệ thuật. Điều này sẽ cho phép nó tạo ra các bức chân dung theo nhiều phong cách nghệ thuật khác nhau trong khi vẫn duy trì sự giống nhau của đối tượng.
Học chuyển giao đa phương thức
Học chuyển giao đa phương thức liên quan đến việc chuyển giao kiến thức giữa các phương thức khác nhau, như văn bản và hình ảnh. Các mô hình tạo sinh có thể tìm hiểu các dạng trình bày áp dụng trên các phương thức này. Một mô hình được đào tạo về mô tả văn bản và hình ảnh tương ứng có thể học cách tạo ra hình ảnh có liên quan từ các mô tả văn bản mới, chuyển hiệu quả sự hiểu biết của nó từ văn bản sang hình ảnh.
Học bằng dữ liệu mới và với ít dữ liệu đào tạo
Trong học bằng dữ liệu mới và với ít dữ liệu đào tạo, các mô hình tạo sinh được đào tạo để thực hiện các nhiệm vụ hoặc tạo dữ liệu mà họ đã thấy ít hoặc không có ví dụ nào trong quá trình đào tạo. Điều này đạt được bằng cách học các hình ảnh phong phú khái quát hóa tốt. Ví dụ: một mô hình tạo sinh có thể được đào tạo để tạo ra hình ảnh của động vật. Sử dụng phương pháp học ít ảnh, nó có thể tạo ra hình ảnh của một loài động vật hiếm khi nhìn thấy bằng cách hiểu và kết hợp các đặc điểm từ các động vật khác.
AWS có thể hỗ trợ các yêu cầu về học chuyển giao của bạn như thế nào?
Amazon SageMaker JumpStart là một trung tâm ML nơi bạn có thể truy cập các mô hình được đào tạo trước, bao gồm các mô hình nền tảng, để thực hiện các tác vụ như tóm tắt bài viết và tạo hình ảnh. Bạn có thể sử dụng chuyển học để tạo ra các mô hình chính xác trên các tập dữ liệu nhỏ hơn của mình, với chi phí đào tạo thấp hơn so với những bộ tham gia đào tạo mô hình ban đầu. Ví dụ: với SageMaker JumpStart, bạn có thể:
- Tùy chỉnh hoàn toàn các mô hình được đào tạo trước cho trường hợp sử dụng của bạn và với dữ liệu của bạn để triển khai nhanh hơn vào sản xuất.
- Truy cập các giải pháp được xây dựng sẵn để giải quyết các trường hợp sử dụng phổ biến.
- Chia sẻ các tạo tác ML, bao gồm mô hình ML và sổ ghi chép, trong tổ chức của bạn.
Khi dùng phương pháp học chuyển giao đa phương thức, bạn cũng có thể sử dụng Trình gỡ lỗi của Amazon SageMaker để phát hiện các vấn đề tiềm ẩn nghiêm trọng. Ví dụ: bạn có thể kiểm tra các dự đoán mô hình để tìm sai lầm, xác nhận tính mạnh mẽ trong mô hình của bạn và xem xét mức độ mạnh mẽ này là từ các khả năng được thừa hưởng. Bạn cũng có thể xác nhận đầu vào và tiền xử lý cho mô hình để có những kỳ vọng thực tế.
Bắt đầu sử dụng học chuyển giao trên AWS bằng cách tạo tài khoản miễn phí ngay hôm nay.