Large Language Model (โมเดลภาษาขนาดใหญ่) คืออะไร

โมเดลภาษาขนาดใหญ่ (LLM) เป็นโมเดลดีปเลิร์นนิงที่มีขนาดใหญ่มากซึ่งได้รับการฝึกฝนล่วงหน้ากับข้อมูลจำนวนมหาศาล Transformer พื้นฐานคือชุดของนิวรัลเน็ตเวิร์กที่ประกอบด้วยตัวเข้ารหัสและตัวถอดรหัสที่มีความสามารถในการดูแลตนเอง ตัวเข้ารหัสและตัวถอดรหัสจะแยกความหมายจากลำดับข้อความและทำความเข้าใจความสัมพันธ์ระหว่างคำและวลีในนั้น

Transformer LLM มีความสามารถในการฝึกแบบไม่ต้องมีผู้ดูแล ซึ่งอาจจะพูดได้ว่า Transformer นั้นดำเนินการเรียนรู้ด้วยตนเอง กระบวนการนี้ทำให้ Transformer เรียนรู้ที่จะเข้าใจไวยากรณ์ ภาษา และความรู้พื้นฐานได้

ซึ่งมีความแตกต่างจากนิวรัลเน็ตเวิร์กที่เกิดซ้ำ (RNN) ก่อนหน้าที่จะประมวลผลอินพุตตามลำดับ Transformer จะประมวลผลลำดับทั้งหมดแบบคู่ขนาน ซึ่งจะช่วยให้นักวิทยาศาสตร์ข้อมูลสามารถใช้ GPU สำหรับการฝึก LLM ที่ใช้ Transformer ซึ่งช่วยลดเวลาการฝึกได้อย่างมาก

สถาปัตยกรรมนิวรัลเน็ตเวิร์กของ Transformer ช่วยให้สามารถใช้โมเดลที่มีขนาดใหญ่ ซึ่งมักจะมีพารามิเตอร์หลายแสนล้านรายการ โมเดลขนาดใหญ่ดังกล่าวสามารถนำเข้าข้อมูลจำนวนมหาศาลได้ ซึ่งในหลายครั้งข้อมูลดังกล่าวจะมาจากอินเทอร์เน็ต แต่ยังมาจากแหล่งที่มาต่างๆ เช่น Common Crawl ซึ่งประกอบด้วยหน้าเว็บมากกว่า 50 พันล้านหน้า และ Wikipedia ซึ่งมีหน้าเว็บประมาณ 57 ล้านหน้า

อ่านเพิ่มเติมเกี่ยวกับนิวรัลเน็ตเวิร์ก »

อ่านเพิ่มเติมเกี่ยวกับดีปเลิร์นนิง »

เหตุใดโมเดลภาษาขนาดใหญ่จึงมีความสำคัญ

โมเดลภาษาขนาดใหญ่มีความยืดหยุ่นอย่างเหลือเชื่อ โมเดลหนึ่งโมเดลสามารถทำงานที่แตกต่างกันได้โดยสิ้นเชิง เช่น การตอบคำถาม การสรุปเอกสาร การแปลภาษา และการเติมประโยคให้สมบูรณ์ LLM มีศักยภาพที่จะขัดขวางการสร้างเนื้อหารวมถึงวิธีที่ผู้คนใช้เครื่องมือค้นหาและผู้ช่วยเสมือน

แม้ว่า LLM จะยังไม่สมบูรณ์แบบ แต่ LLM กำลังแสดงให้เห็นถึงความสามารถที่น่าทึ่งในการคาดการณ์โดยอิงตามพรอมต์หรืออินพุตจำนวนค่อนข้างน้อย คุณสามารถใช้ LLM สำหรับAI ช่วยสร้าง (ปัญญาประดิษฐ์) เพื่อสร้างเนื้อหาตามพรอมต์อินพุตในภาษามนุษย์ได้

LLM มีขนาดใหญ่มากๆ LLM สามารถพิจารณาพารามิเตอร์นับพันล้านรายการและนำไปใช้ได้หลายวิธี ดังตัวอย่างต่อไปนี้

  • โมเดล GPT-3 ของ Open AI มีพารามิเตอร์ 175 พันล้านพารามิเตอร์ ChatGPT โมเดลลูกพี่ลูกน้องของ GPT-3 สามารถระบุรูปแบบจากข้อมูลและสร้างเอาต์พุตที่เป็นธรรมชาติและอ่านได้ แม้ว่าเราจะไม่ทราบขนาดของ Claude 2 แต่ก็สามารถรับโทเค็นอินพุตได้มากถึง 100,000 โทเค็นในแต่ละพรอมต์ ซึ่งหมายความว่าจะสามารถทำงานได้กับเอกสารทางเทคนิคหลายร้อยหน้าหรือแม้แต่หนังสือทั้งเล่ม
  • โมเดล Jurassic-1 ของ AI21 Labs มีพารามิเตอร์ 178 พันล้านพารามิเตอร์และคำศัพท์โทเค็น 250,000 ส่วนคำและความสามารถในการสนทนาที่คล้ายกัน
  • โมเดล Command ของ Cohere มีความสามารถคล้ายกันและสามารถทำงานได้ในภาษาต่างๆ มากกว่า 100 ภาษา
  • Paradigm ของ LightOn มีโมเดลพื้นฐานที่มีความสามารถที่เหนือกว่า GPT-3 LLM ทั้งหมดนี้มาพร้อมกับ API ที่ช่วยให้นักพัฒนาสามารถสร้างแอปพลิเคชัน AI ช่วยสร้างเฉพาะตัวได้

อ่านเพิ่มเติมเกี่ยวกับ AI ช่วยสร้าง »

อ่านเพิ่มเติมเกี่ยวกับ โมเดลพื้นฐาน »

โมเดลภาษาขนาดใหญ่มีการทำงานอย่างไร

ปัจจัยสำคัญในการทำงานของ LLM คือวิธีการแสดงคำศัพท์ แมชชีนเลิร์นนิงรูปแบบก่อนหน้านี้ใช้ตารางตัวเลขเพื่อแสดงคำแต่ละคำ แต่การแสดงรูปแบบนี้ไม่สามารถรับรู้ความสัมพันธ์ระหว่างคำต่างๆ เช่น คำที่มีความหมายคล้ายกันได้ ข้อจำกัดนี้ถูกเอาชนะโดยการใช้เวกเตอร์หลายมิติ ซึ่งโดยทั่วไปเรียกว่าการฝังคำ เพื่อแสดงคำเพื่อให้คำที่มีความหมายตามบริบทหรือความสัมพันธ์อื่นๆ ใกล้เคียงกันในพื้นที่เวกเตอร์

เนื่องจากใช้การฝังคำ ทำให้ Transformer สามารถประมวลผลข้อความล่วงหน้าในรูปแบบตัวเลขผ่านตัวเข้ารหัส และเข้าใจบริบทของคำและวลีที่มีความหมายคล้ายกัน รวมถึงความสัมพันธ์อื่นๆ ระหว่างคำต่างๆ เช่น ส่วนของคำพูด จากนั้นจึงเป็นไปได้ที่ LLM จะนำความรู้ด้านภาษานี้ไปใช้ผ่านตัวถอดรหัสเพื่อสร้างผลลัพธ์ที่ไม่ซ้ำใคร

แอปพลิเคชันของโมเดลภาษาขนาดใหญ่คืออะไร

มีการใช้งานจริงมากมายสำหรับ LLM

การเขียนคำโฆษณา

นอกเหนือจาก GPT-3 และ ChatGPT แล้ว Claude, Llama 2, Cohere Command และ Jurassiccan ยังเขียนสำเนาต้นฉบับอีกด้วย AI21 Wordspice แนะนำการเปลี่ยนแปลงประโยคต้นฉบับเพื่อปรับปรุงสไตล์และเสียง

การตอบรับฐานความรู้

เทคนิคที่มักถูกเรียกว่าการประมวลผลภาษาธรรมชาติที่เน้นความรู้ (KI-NLP) นี้หมายถึง LLM ที่สามารถตอบคำถามเฉพาะจากความช่วยเหลือด้านข้อมูลในคลังข้อมูลดิจิทัล ตัวอย่างคือความสามารถของ AI21 Studio Playground ในการตอบคำถามความรู้ทั่วไป

การจัดประเภทข้อความ

การใช้การจัดคลัสเตอร์ LLM สามารถจัดประเภทข้อความที่มีความหมายหรือความรู้สึกคล้ายคลึงกัน การใช้งานรวมถึงการวัดความรู้สึกของลูกค้า การกำหนดความสัมพันธ์ระหว่างข้อความ และการค้นหาเอกสาร

การสร้างโค้ด

LLM มีความเชี่ยวชาญในการสร้างโค้ดจากการแจ้งเตือนด้วยภาษาธรรมชาติ ตัวอย่าง ได้แก่ Amazon CodeWhisperer และ Codex ของ Open AI ที่ใช้ใน GitHub Copilot ซึ่งสามารถเขียนโค้ดใน Python, JavaScript, Ruby และภาษาการเขียนโปรแกรมอื่นๆ อีกหลายภาษา แอปพลิเคชันการเขียนโค้ดอื่นๆ ได้แก่ การสร้างคำสั่ง SQL การเขียนคำสั่งเชลล์ และการออกแบบเว็บไซต์

การสร้างข้อความ

เช่นเดียวกับการสร้างโค้ด การสร้างข้อความสามารถเติมประโยคที่ไม่สมบูรณ์ เขียนเอกสารประกอบผลิตภัณฑ์ หรือเขียนเรื่องสั้นสำหรับเด็กได้ เช่นเดียวกับ Alexa Create

โมเดลภาษาขนาดใหญ่ได้รับการฝึกฝนอย่างไร

นิวรัลเน็ตเวิร์กที่ใช้ Transformer มีขนาดใหญ่มาก เครือข่ายเหล่านี้มีหลายโหนดและหลายเลเยอร์ แต่ละโหนดในเลเยอร์มีการเชื่อมต่อกับโหนดทั้งหมดในเลเยอร์ถัดไป ซึ่งแต่ละโหนดจะมี Weight และ Bias Weight และ Bias พร้อมกับการฝังเรียกว่าพารามิเตอร์โมเดล นิวรัลเน็ตเวิร์กที่ใช้ Transformer ขนาดใหญ่สามารถมีพารามิเตอร์ได้หลายพันล้านรายการ โดยทั่วไปขนาดของโมเดลจะถูกกำหนดโดยความสัมพันธ์เชิงประจักษ์ระหว่างขนาดของโมเดล จำนวนพารามิเตอร์ และขนาดของข้อมูลการฝึกฝน

การฝึกฝนดำเนินการโดยใช้คลังข้อมูลคุณภาพสูงจำนวนมาก ในระหว่างการฝึก โมเดลจะปรับค่าพารามิเตอร์ซ้ำๆ จนกว่าโมเดลจะคาดการณ์โทเค็นถัดไปจากลำดับโทเค็นอินพุตก่อนหน้าได้อย่างถูกต้อง โมเดลจะดำเนินการผ่านเทคนิคการเรียนรู้ด้วยตนเองซึ่งสอนโมเดลให้ปรับพารามิเตอร์เพื่อเพิ่มโอกาสสูงสุดของโทเค็นถัดไปในตัวอย่างการฝึกฝน

เมื่อผ่านการฝึกฝนแล้ว LLM จะสามารถปรับให้พร้อมทำงานหลายอย่างได้โดยใช้ชุดข้อมูลที่มีการดูแลที่ค่อนข้างเล็ก ซึ่งเป็นกระบวนการที่เรียกว่าการปรับแต่งอย่างละเอียด

มีโมเดลการเรียนรู้ทั่วไปมีอยู่ 3 แบบดังนี้

  • การเรียนรู้แบบ Zero-shot: LLM พื้นฐานที่สามารถตอบสนองคำขอได้หลากหลายโดยไม่ต้องมีการฝึกฝนที่ชัดเจน โดยมักจะผ่านพรอมต์ แม้ว่าความแม่นยำของคำตอบจะแตกต่างกันไปก็ตาม
  • การเรียนรู้แบบ Few-shot: ด้วยการจัดเตรียมตัวอย่างการฝึกอบรมที่เกี่ยวข้องบางส่วน ประสิทธิภาพของโมเดลพื้นฐานจะดีขึ้นอย่างมากในพื้นที่เฉพาะนั้น
  • การปรับแต่งอย่างละเอียด: เป็นส่วนขยายของการเรียนรู้แบบ Few-shot โดยนักวิทยาศาสตร์ด้านข้อมูลจะฝึกฝนโมเดลพื้นฐานเพื่อปรับพารามิเตอร์ด้วยข้อมูลเพิ่มเติมที่เกี่ยวข้องกับแอปพลิเคชันเฉพาะ

อนาคตของ LLM เป็นอย่างไร

การเปิดตัวโมเดลภาษาขนาดใหญ่ เช่น ChatGPT, Claude 2 และ Llama 2 ที่สามารถตอบคำถามและสร้างข้อความทำให้เห็นถึงความเป็นไปได้ที่น่าตื่นเต้นในอนาคต LLM กำลังเข้าใกล้ประสิทธิภาพในระดับที่เหมือนมนุษย์มากขึ้นอย่างช้าๆ แต่มีความแน่นอน ความสำเร็จในทันทีของ LLM เหล่านี้แสดงให้เห็นถึงความสนใจอย่างมากใน LLM ประเภทหุ่นยนต์ที่เลียนแบบและทำได้ดีกว่าสมองมนุษย์ในบางบริบท แนวคิดบางประการเกี่ยวกับอนาคตของ LLM มีดังนี้

ความสามารถที่เพิ่มขึ้น

ถึงแม้จะน่าประทับใจ แต่ระดับของเทคโนโลยีในปัจจุบันยังมีความไม่สมบูรณ์แบบและ LLM ก็ยังมีข้อผิดพลาดอยู่ อย่างไรก็ตาม รุ่นที่ใหม่กว่าจะมีการปรับปรุงความแม่นยำและความสามารถที่ได้รับการปรับปรุง ในขณะที่นักพัฒนาเรียนรู้วิธีปรับปรุงประสิทธิภาพ ในขณะเดียวกันก็ลดอคติและกำจัดคำตอบที่ไม่ถูกต้อง

การฝึกฝนด้านภาพและเสียง

ในขณะที่นักพัฒนาฝึกฝน LLM ส่วนใหญ่โดยใช้ข้อความ บางคนก็ได้เริ่มฝึกโมเดลโดยใช้อินพุตวิดีโอและเสียงกันแล้ว รูปแบบของการฝึกฝนนี้ควรนำไปสู่การพัฒนาโมเดลที่รวดเร็วขึ้น และเปิดโอกาสใหม่ๆ ในแง่ของการใช้ LLM สำหรับยานยนต์ที่ขับเคลื่อนอัตโนมัติ

การเปลี่ยนแปลงสถานที่ทำงาน

LLM เป็นปัจจัยที่จะเป็นแรงขับเคลื่อนให้เกิดการเปลี่ยนแปลงสถานที่ทำงาน LLM มีแนวโน้มที่จะลดงานที่ซ้ำซากจำเจและซ้ำซ้อนในลักษณะเดียวกับที่หุ่นยนต์ทำสำหรับงานการผลิตที่ซ้ำซาก ซึ่งมีความเป็นไปได้ดังนี้ งานเสมียนที่ทำซ้ำๆ แชทบอทบริการลูกค้า และการเขียนคำโฆษณาอัตโนมัติแบบไม่ซับซ้อน

AI เชิงสนทนา

LLM จะปรับปรุงประสิทธิภาพของผู้ช่วยเสมือนอัตโนมัติเช่น Alexa, Google Assistant และ Siri ได้อย่างแน่นอน เครื่องมือเหล่านี้จะสามารถตีความเจตนาของผู้ใช้ได้ดีขึ้นและตอบสนองต่อคำสั่งที่ซับซ้อนได้

AWS สามารถช่วยคุณในการใช้งาน LLM ได้อย่างไร

AWS มอบความเป็นไปได้หลายประการสำหรับนักพัฒนาโมเดลภาษาขนาดใหญ่ Amazon Bedrock คือวิธีที่ง่ายที่สุดในการสร้างและปรับขนาดแอปพลิเคชันแบบใช้ AI ช่วยสร้างด้วย LLM Amazon Bedrock เป็นบริการที่มีการจัดการเต็มรูปแบบซึ่งทำให้ LLM จาก Amazon และบริษัทสตาร์ทอัพ AI ชั้นนำพร้อมใช้งานผ่าน API ดังนั้นคุณจึงสามารถเลือกจาก LLM ต่างๆ เพื่อค้นหาโมเดลที่เหมาะสมที่สุดสำหรับกรณีการใช้งานของคุณ

Amazon SageMaker JumpStart เป็นฮับแมชชีนเลิร์นนิงที่มีโมเดลพื้นฐาน อัลกอริทึมในตัว และโซลูชัน ML ที่สร้างไว้ล่วงหน้าซึ่งคุณสามารถปรับใช้ได้ด้วยการคลิกเพียงไม่กี่ครั้ง หากใช้งาน SageMaker JumpStart คุณจะสามารถเข้าถึงโมเดลที่ได้รับการฝึกฝนไว้ล่วงหน้า รวมถึงโมเดลพื้นฐาน เพื่อดำเนินการต่างๆ เช่น การสรุปบทความ และการสร้างภาพ โมเดลที่ได้รับการฝึกล่วงหน้าสามารถปรับแต่งได้อย่างเต็มที่สำหรับกรณีการใช้งานของคุณด้วยข้อมูลของคุณ และคุณสามารถปรับใช้โมเดลเหล่านี้ในการใช้งานจริงได้อย่างง่ายดายด้วยอินเทอร์เฟซผู้ใช้หรือ SDK

เริ่มต้นใช้งาน LLM และ AI บน AWS โดยสร้างบัญชีฟรีวันนี้

ขั้นตอนต่อไปบน AWS

ลงชื่อสมัครใช้บัญชีฟรี

รับสิทธิ์การเข้าถึง AWS Free Tier ได้ทันที

ลงชื่อสมัครใช้งาน 
เริ่มต้นการสร้างในคอนโซล

เริ่มต้นสร้างในคอนโซลการจัดการของ AWS

ลงชื่อเข้าใช้