การเรียนรู้การถ่ายโอนคืออะไร
การเรียนรู้การถ่ายโอน (TL) เป็นเทคนิคของแมชชีนเลิร์นนิง (ML) ที่โมเดลที่ได้รับการฝึกล่วงหน้าในงานเดียวจะได้รับการปรับแต่งอย่างละเอียดสำหรับงานใหม่ที่เกี่ยวข้อง การฝึกโมเดล ML ใหม่เป็นกระบวนการที่เข้มข้นและใช้เวลานาน โดยต้องมีการใช้ข้อมูลปริมาณมาก พลังในการประมวลผลสูง และต้องทำซ้ำหลายครั้งก่อนที่จะพร้อมสำหรับการใช้งานจริง แต่องค์กรใช้ TL แทนในการเก็บรักษาโมเดลที่มีอยู่เกี่ยวกับงานที่เกี่ยวข้องกับข้อมูลใหม่ ตัวอย่างเช่น หากโมเดลแมชชีนเลิร์นนิงสามารถระบุภาพของสุนัขได้ ก็สามารถฝึกให้ระบุแมวได้โดยการใช้ชุดภาพที่เล็กกว่าและเน้นความแตกต่างของคุณสมบัติระหว่างสุนัขกับแมว
ประโยชน์ของการเรียนรู้การถ่ายโอนคืออะไร?
TL มอบประโยชน์หลายประการต่อไปนี้ให้กับนักวิจัยที่สร้างแอปพลิเคชัน ML
ประสิทธิภาพที่เพิ่มขึ้น
การฝึกโมเดล ML ต้องใช้เวลาในการสร้างความรู้และระบุรูปแบบ นอกจากนี้ยังต้องใช้ชุดข้อมูลขนาดใหญ่และราคาแพงในการประมวลผล ใน TL โมเดลที่ได้รับการฝึกล่วงหน้าจะรักษาความรู้พื้นฐานเกี่ยวกับงาน คุณสมบัติ น้ำหนัก และฟังก์ชัน ทำให้สามารถปรับตัวเข้ากับงานใหม่ได้เร็วขึ้น คุณสามารถใช้ชุดข้อมูลที่เล็กลงมากและใช้ทรัพยากรน้อยลงในขณะที่ได้รับผลลัพธ์ที่ดีขึ้น
การเข้าถึงที่เพิ่มขึ้น
การสร้างนิวรัลเน็ตเวิร์กแบบดีปเลิร์นนิงต้องใช้ปริมาณข้อมูล ทรัพยากร พลังการประมวลผล และเวลาสูงมาก TL เอาชนะอุปสรรคในการสร้างเหล่านี้ ทำให้องค์กรสามารถนำ ML ไปใช้ในกรณีการใช้งานที่กำหนดเองได้ คุณสามารถปรับโมเดลที่มีอยู่ให้เข้ากับความต้องการของคุณได้ในราคาเพียงเล็กน้อย ตัวอย่างเช่น การใช้โมเดลการจดจำภาพที่ได้รับการฝึกล่วงหน้า จะทำให้คุณสามารถสร้างโมเดลสำหรับการวิเคราะห์ภาพทางการแพทย์ การตรวจติดตามสิ่งแวดล้อม หรือการจดจำใบหน้าด้วยการปรับเปลี่ยนเพียงเล็กน้อย
ประสิทธิภาพการทำงานที่ดีขึ้น
โมเดลที่พัฒนาผ่าน TL มักแสดงให้เห็นถึงความคงทนที่สูงขึ้นในสภาพแวดล้อมที่หลากหลายและท้าทาย จัดการกับความแปรปรวนและเสียงรบกวนในโลกความเป็นจริงได้ดีขึ้น เนื่องจากได้รับสถานการณ์ที่หลากหลายในการฝึกเบื้องต้น ให้ผลลัพธ์ที่ดีขึ้นและปรับให้เข้ากับสภาวะที่คาดเดาไม่ได้ได้อย่างยืดหยุ่นมากขึ้น
กลยุทธ์การเรียนรู้การถ่ายโอนมีอะไรบ้าง
กลยุทธ์ที่คุณใช้เพื่ออำนวยความสะดวก TL จะขึ้นอยู่กับโดเมนของโมเดลที่คุณกำลังสร้าง งานที่ต้องทำให้เสร็จสมบูรณ์ และความพร้อมใช้งานของข้อมูลการฝึก
การเรียนรู้การถ่ายโอนแบบ Transductive
การเรียนรู้การถ่ายโอนแบบ Transductive เกี่ยวข้องกับการถ่ายโอนความรู้จากโดเมนแหล่งที่มาที่เฉพาะเจาะจงไปยังโดเมนเป้าหมายอื่นแต่เกี่ยวข้องกัน โดยจะมุ่งเน้นไปที่โดเมนเป้าหมายเป็นหลัก มีประโยชน์อย่างยิ่งหากมีข้อมูลที่ไม่มีป้ายกำกับหรือมีน้อยจากโดเมนเป้าหมาย
การเรียนรู้การถ่ายโอนแบบ Transductive จะขอให้โมเดลคาดการณ์ข้อมูลเป้าหมายโดยใช้ความรู้ที่ได้รับก่อนหน้านี้ เนื่องจากข้อมูลเป้าหมายคล้ายกับข้อมูลต้นทางในแง่ของคณิตศาสตร์ โมเดลจึงค้นหารูปแบบและทำงานได้เร็วขึ้น
ตัวอย่างเช่น พิจารณาการปรับโมเดลการวิเคราะห์ความรู้สึกที่ได้รับการฝึกเกี่ยวกับรีวิวผลิตภัณฑ์เพื่อวิเคราะห์รีวิวภาพยนตร์ โดเมนต้นทาง (รีวิวผลิตภัณฑ์) และโดเมนเป้าหมาย (รีวิวภาพยนตร์) แตกต่างกันในบริบทและข้อมูลจำเพาะ แต่มีความคล้ายคลึงกันในแง่ของโครงสร้างและการใช้ภาษา โมเดลเรียนรู้ที่จะนำความเข้าใจเกี่ยวกับความรู้สึกจากโดเมนผลิตภัณฑ์ไปใช้กับโดเมนภาพยนตร์ได้อย่างรวดเร็ว
การเรียนรู้การถ่ายโอนแบบ Inductive
การเรียนรู้การถ่ายโอนแบบเ Inductive คือจุดที่มีโดเมนต้นทางและเป้าหมายเหมือนกัน แต่งานที่โมเดลต้องทำนั้นแตกต่างกัน โมเดลที่ผ่านการฝึกล่วงหน้าจะคุ้นเคยกับข้อมูลต้นทางอยู่แล้ว ดังนั้นจึงฝึกฟังก์ชันใหม่ได้เร็วขึ้นด้วย
ตัวอย่างของการเรียนรู้การถ่ายโอนแบบ Inductive คือการประมวลผลภาษาธรรมชาติ (NLP) โมเดลจะได้รับการฝึกล่วงหน้าในชุดข้อความจำนวนมากจากนั้นปรับแต่งอย่างละเอียดโดยใช้การเรียนรู้การถ่ายโอนแบบ Inductive ไปยังฟังก์ชันเฉพาะ เช่น การวิเคราะห์ความรู้สึก ในทำนองเดียวกัน โมเดลของคอมพิวเตอร์วิทัศน์ เช่น VGG จะได้รับการฝึกล่วงหน้าบนชุดข้อมูลภาพขนาดใหญ่ จากนั้นจะได้รับการปรับแต่งเพื่อพัฒนาการตรวจจับอ็อบเจกต์
การเรียนรู้การถ่ายโอนแบบไม่มีการกำกับดูแล
การเรียนรู้การถ่ายโอนแบบไม่มีการกำกับดูแล ใช้กลยุทธ์ที่คล้ายกับการเรียนรู้การถ่ายโอนแบบ Inductive เพื่อพัฒนาความสามารถใหม่ ๆ อย่างไรก็ตาม ให้ใช้รูปแบบการเรียนรู้การถ่ายโอนนี้เมื่อคุณมีข้อมูลที่ไม่มีป้ายกำกับทั้งในโดเมนต้นทางและเป้าหมายเท่านั้น
โมเดลเรียนรู้คุณสมบัติที่พบบ่อยของข้อมูลที่ไม่มีป้ายกำกับเพื่อทำให้เห็นภาพรวมได้อย่างแม่นยำยิ่งขึ้นเมื่อมีการขอให้ทำงานเป้าหมาย วิธีนี้มีประโยชน์หากการรับข้อมูลต้นทางที่มีป้ายกำกับมีความท้าทายหรือค่าใช้จ่ายสูง
ตัวอย่างเช่น พิจารณางานในการระบุประเภทต่าง ๆ ของรถจักรยานยนต์ในภาพจราจร ในขั้นต้น โมเดลนี้ได้รับการฝึกเกี่ยวกับภาพยานพาหนะที่ไม่มีป้ายกำกับชุดใหญ่ ในกรณีนี้ โมเดลนี้จะทำงานโดยอิสระเพื่อกำหนดความคล้ายคลึงกันและคุณสมบัติที่ทำให้โดดเด่นแตกต่างของยานพาหนะประเภทต่าง ๆ เช่น รถยนต์ รถบัส และรถจักรยานยนต์ ถัดไป เริ่มใช้โมเดลนี้กับภาพรถจักรยานยนต์ชุดเล็กที่มีความเฉพาะเจาะจง ประสิทธิภาพของโมเดลดีขึ้นอย่างมีนัยสำคัญเมื่อเทียบกับก่อนหน้านี้
ขั้นตอนในการถ่ายโอนการเรียนรู้คืออะไร
มีสามขั้นตอนหลักในการปรับแต่งโมเดลของแมชชีนเลิร์นนิงสำหรับงานใหม่
เลือกโมเดลที่ได้รับการฝึกล่วงหน้า
ขั้นแรก ให้เลือกโมเดลที่ได้รับการฝึกล่วงหน้าด้วยความรู้หรือทักษะก่อนหน้านี้สำหรับงานที่เกี่ยวข้อง บริบทที่มีประโยชน์สำหรับการเลือกโมเดลที่เหมาะสมคือการกำหนดงานต้นทางของแต่ละโมเดล หากคุณเข้าใจงานต้นฉบับที่โมเดลดำเนินการ คุณสามารถค้นหางานที่จะเปลี่ยนไปเป็นงานใหม่ได้อย่างมีประสิทธิภาพมากกว่างานอื่น ๆ
กำหนดค่าโมเดลที่ได้รับการฝึกล่วงหน้า
หลังจากเลือกโมเดลต้นทางแล้ว ให้กำหนดค่าให้ส่งความรู้ไปยังโมเดลเพื่อทำงานที่เกี่ยวข้องให้เสร็จสมบูรณ์ มีสองวิธีหลัก ๆ สำหรับการดำเนินการนี้
ตรึงเลเยอร์ที่ได้รับการฝึกล่วงหน้า
เลเยอร์เป็นส่วนประกอบพื้นฐานของนิวรัลเน็ตเวิร์ก แต่ละเลเยอร์ประกอบด้วยชุดของเซลล์ประสาทและทำการเปลี่ยนแปลงที่เฉพาะเจาะจงบนข้อมูลอินพุต น้ำหนักเป็นพารามิเตอร์ที่เครือข่ายใช้ในการตัดสินใจ ตั้งเป็นค่าสุ่มในตอนแรก จากนั้นปรับน้ำหนักในระหว่างกระบวนการฝึกในขณะที่โมเดลเรียนรู้จากข้อมูล
การตรึงน้ำหนักของเลเยอร์ที่ได้รับการฝึกล่วงหน้า จะทำให้คุณสามารถยึดการตรึงไว้ได้อย่างต่อเนื่อง เพื่อเก็บรักษาความรู้ที่โมเดลดีปเลิร์นนิงที่ได้รับจากงานต้นทาง
ลบเลเยอร์สุดท้าย
ในบางกรณีการใช้งาน คุณยังสามารถลบเลเยอร์สุดท้ายของโมเดลที่ได้รับการฝึกล่วงหน้าอีกด้วย ในสถาปัตยกรรม ML ส่วนใหญ่ เลเยอร์สุดท้ายจะระบุงานเฉพาะ การลบเลเยอร์สุดท้ายเหล่านี้จะช่วยให้คุณสามารถกำหนดค่าโมเดลใหม่สำหรับข้อกำหนดของงานใหม่
เริ่มใช้เลเยอร์ใหม่
การเริ่มใช้เลเยอร์ใหม่เสริมโมเดลที่ได้รับการฝึกล่วงหน้า จะช่วยให้คุณสามารถปรับตัวให้เข้ากับลักษณะเฉพาะของงานใหม่ได้ เลเยอร์ใหม่จะปรับโมเดลให้เข้ากับความแตกต่างและฟังก์ชันของข้อกำหนดใหม่
ฝึกโมเดลสำหรับโดเมนเป้าหมาย
คุณฝึกโมเดลเกี่ยวกับข้อมูลงานเป้าหมายเพื่อพัฒนาเอาต์พุตมาตรฐานให้สอดคล้องกับงานใหม่ โมเดลที่ผ่านการฝึกล่วงหน้ามีแนวโน้มที่จะสร้างเอาต์พุตที่แตกต่างจากที่ต้องการ หลังจากตรวจติดตามและประเมินประสิทธิภาพของโมเดลในระหว่างการฝึกแล้ว คุณสามารถปรับไฮเปอร์พารามิเตอร์หรือสถาปัตยกรรมนิวรัลเน็ตเวิร์กพื้นฐานเพื่อปรับปรุงเอาต์พุตเพิ่มเติมได้ ซึ่งจะต่างจากน้ำหนักตรงที่ไฮเปอร์พารามิเตอร์ไม่มีการเรียนรู้จากข้อมูล ซึ่งมีการกำหนดไว้ล่วงหน้าและมีบทบาทสำคัญในการกำหนดประสิทธิภาพและประสิทธิผลของกระบวนการฝึก ตัวอย่างเช่น คุณสามารถปรับพารามิเตอร์ทั่วไปหรืออัตราการเรียนรู้ของโมเดลเพื่อปรับปรุงความสามารถที่เกี่ยวข้องกับงานเป้าหมายให้ดีขึ้น
กลยุทธ์การเรียนรู้การถ่ายโอนใน AI ช่วยสร้างคืออะไร
กลยุทธ์การเรียนรู้การถ่ายโอนมีความสำคัญต่อการใช้ AI ช่วยสร้างในอุตสาหกรรมต่าง ๆ องค์กรสามารถปรับแต่งโมเดลพื้นฐานที่มีอยู่ได้โดยไม่ต้องฝึกโมเดลใหม่ในพารามิเตอร์ข้อมูลหลายพันล้านรายการในวงกว้าง ต่อไปนี้เป็นกลยุทธ์การเรียนรู้การถ่ายโอนที่ใช้ใน AI ช่วยสร้าง
การฝึกกรณีที่มีคู่ปฏิปักษ์โดเมน
การฝึกกรณีที่มีคู่ปฏิปักษ์โดเมน เกี่ยวข้องกับการฝึกโมเดลพื้นฐานเพื่อสร้างข้อมูลที่ไม่สามารถแยกแยะได้จากข้อมูลจริงในโดเมนเป้าหมาย เทคนิคนี้มักจะใช้เครือข่าย Discriminator ดังที่เห็นในเครือข่ายปฏิปักษ์ช่วยสร้าง ซึ่งพยายามแยกแยะระหว่างข้อมูลจริงและข้อมูลที่สร้างขึ้น โปรแกรมสร้างจะเรียนรู้การสร้างข้อมูลที่สมจริงมากขึ้นเรื่อย ๆ
ตัวอย่างเช่น ในการสร้างภาพ ระบบอาจปรับโมเดลที่ได้รับการฝึกเกี่ยวกับภาพถ่าย เพื่อให้สร้างงานศิลปะ Discriminator ช่วยให้มั่นใจได้ว่างานศิลปะที่สร้างขึ้นนั้นสอดคล้องกับโดเมนเป้าหมายอย่างมีรูปแบบ
การเรียนรู้ของครู-นักเรียน
การเรียนรู้ของครู-นักเรียน เกี่ยวข้องกับโมเดล “ครู” ที่ใหญ่ขึ้นและซับซ้อนมากขึ้น ซึ่งจะสอนโมเดล “นักเรียน” ที่เล็กกว่าและซับซ้อนน้อยกว่า โมเดลนักเรียนจะเรียนรู้การเลียนแบบพฤติกรรมของโมเดลครู ซึ่งเป็นการถ่ายโอนความรู้ที่มีประสิทธิภาพ สิ่งนี้มีประโยชน์สำหรับการนำโมเดลช่วยสร้างขนาดใหญ่ไปใช้จริงในสภาพแวดล้อมที่มีทรัพยากรจำกัด
ตัวอย่างเช่น โมเดลภาษาขนาดใหญ่ (LLM) สามารถทำหน้าที่เป็นครูให้กับโมเดลที่เล็กกว่าโดยการถ่ายโอนความสามารถในการสร้างภาษา สิ่งนี้จะช่วยให้โมเดลขนาดเล็กสามารถสร้างข้อความคุณภาพสูงโดยมีค่าใช้จ่ายในการประมวลผลน้อยลง
การแยกคุณสมบัติ
การแยกคุณสมบัติในโมเดลช่วยสร้าง จะเกี่ยวข้องกับการแยกแง่มุมต่าง ๆ ของข้อมูล เช่น เนื้อหาและสไตล์ ให้เป็นการแสดงข้อมูลที่แตกต่างกัน สิ่งนี้ช่วยให้โมเดลสามารถจัดการแง่มุมเหล่านี้ได้อย่างอิสระในกระบวนการเรียนรู้การถ่ายโอน
ตัวอย่างเช่น ในงานสร้างใบหน้า โมเดลอาจเรียนรู้ที่จะแยกลักษณะใบหน้าออกจากสไตล์ศิลปะ ซึ่งจะช่วยให้สามารถสร้างภาพบุคคลในรูปแบบศิลปะต่าง ๆ ในขณะที่ยังคงความคล้ายคลึงกันของตัวแบบ
การเรียนรู้การถ่ายโอนข้ามโมดัล
การเรียนรู้การถ่ายโอนข้ามโมดัล เกี่ยวข้องกับการถ่ายโอนความรู้ระหว่างโมดัลต่าง ๆ เช่น ข้อความและภาพ โมดัลช่วยสร้างสามารถเรียนรู้การแสดงข้อมูลที่เกี่ยวข้องจากวิธีการเหล่านี้ทั้งหมด โมเดลที่ฝึกเกี่ยวกับคำอธิบายข้อความและภาพที่เกี่ยวข้อง อาจเรียนรู้ที่จะสร้างภาพที่เกี่ยวข้องจากคำอธิบายข้อความใหม่ ถ่ายโอนความเข้าใจจากข้อความไปยังภาพได้อย่างมีประสิทธิภาพ
การเรียนรู้แบบ zero-shot และ few-shot
ในการเรียนรู้ แบบ zero-shot และ few-shot โมเดลช่วยสร้างจะได้รับการฝึกให้ทำงานหรือสร้างข้อมูลที่เคยเห็นเพียงไม่กี่ตัวอย่างน้อยหรือไม่เคยเห็นเลยในระหว่างการฝึก ซึ่งทำได้โดยการเรียนรู้การแสดงข้อมูลที่หลากหลาย ซึ่งจะทำให้เห็นภาพรวมได้ดี ตัวอย่างเช่น โมเดลช่วยสร้างอาจได้รับการฝึกให้สร้างภาพของสัตว์ การใช้การเรียนรู้แบบ few-shot จะสามารถสร้างภาพของสัตว์ที่ไม่ค่อยพบเห็นได้โดยการทำความเข้าใจและรวมคุณสมบัติจากสัตว์อื่น ๆ
AWS จะช่วยคุณเรื่องข้อกำหนดของการเรียนรู้การถ่ายโอนได้อย่างไร
Amazon SageMaker JumpStart เป็นฮับ ML ที่คุณสามารถเข้าถึงโมเดลที่ได้รับการฝึกล่วงหน้า รวมถึงโมเดลพื้นฐาน เพื่อทำงานต่าง ๆ เช่น การสรุปบทความและการสร้างภาพ คุณสามารถใช้การถ่ายโอนการเรียนรู้เพื่อสร้างโมเดลที่ถูกต้องบนชุดข้อมูลขนาดเล็กของคุณ โดยมีต้นทุนการฝึกที่ต่ำกว่าค่าใช้จ่ายที่เกี่ยวข้องกับการฝึกโมเดลต้นแบบ ตัวอย่างเช่น เมื่อใช้ SageMaker JumpStart คุณสามารถ:
- ปรับแต่งโมเดลที่ได้รับการฝึกล่วงหน้าอย่างเต็มรูปแบบสำหรับกรณีการใช้งานของคุณและด้วยข้อมูลของคุณเพื่อให้การนำไปใช้งานจริงในการทำงานจริงเร็วขึ้น
- เข้าถึงโซลูชันที่สร้างไว้ล่วงหน้าเพื่อแก้ปัญหาการใช้งานทั่วไป
- แชร์อาร์ทิแฟกต์ ML ซึ่งรวมถึงโมเดล ML และโน้ตบุ๊ก ภายในองค์กรของคุณ
เมื่อใช้วิธีการเรียนรู้การถ่ายโอนแบบข้ามโมดัล คุณจะสามารถใช้ Amazon SageMaker Debugger เพื่อตรวจจับปัญหาร้ายแรงที่ซ่อนอยู่ได้ด้วย ตัวอย่างเช่น คุณสามารถตรวจสอบการคาดการณ์โมเดลเพื่อค้นหาข้อผิดพลาด ตรวจสอบความคงทนของโมเดล และพิจารณาว่าความคงทนนี้มาจากความสามารถที่สืบทอดมากน้อยเพียงใด นอกจากนี้คุณยังสามารถตรวจสอบความถูกต้องของอินพุตและกระบวนการล่วงหน้าของโมเดลเพื่อความคาดหวังที่สมจริงได้ด้วย
เริ่มใช้งานการถ่ายโอนการเรียนรู้บน AWS โดยการสร้างบัญชีฟรีวันนี้