การจำแนกข้อความคืออะไร

การจัดประเภทข้อความเป็นกระบวนการกำหนดหมวดหมู่ที่มีการกำหนดไว้ล่วงหน้าให้กับเอกสารข้อความปลายเปิดโดยใช้ระบบปัญญาประดิษฐ์และแมชชีนเลิร์นนิง (AI/ML) องค์กรหลายแห่งมีคลังเอกสารขนาดใหญ่และเวิร์กโฟลว์ทางธุรกิจที่สร้างเอกสารในปริมาณมากอย่างต่อเนื่อง เช่น เอกสารทางกฎหมาย สัญญา เอกสารการวิจัย ข้อมูลที่ผู้ใช้สร้างขึ้น และอีเมล การจัดประเภทข้อความคือขั้นตอนแรกในการจัดระเบียบ จัดโครงสร้าง และจัดหมวดหมู่ข้อมูลนี้เพื่อการวิเคราะห์เพิ่มเติม ซึ่งช่วยให้สามารถติดป้ายกำกับและติดแท็กเอกสารได้โดยอัตโนมัติ วิธีนี้จะช่วยประหยัดเวลาในองค์กรของคุณได้หลายพันชั่วโมง มิฉะนั้นคุณจะต้องอ่าน ทำความเข้าใจ และจัดประเภทเอกสารด้วยตนเอง

ประโยชน์ของการจำแนกประเภทข้อความมีอะไรบ้าง

องค์กรใช้โมเดลการจัดประเภทข้อความด้วยเหตุผลดังต่อไปนี้

ปรับปรุงความถูกต้อง

โมเดลการจำแนกประเภทข้อความจัดหมวดหมู่ข้อความได้อย่างถูกต้องโดยมีการฝึกเพิ่มเติมเล็กน้อยหรือแทบจะไม่มีเลย โมเดลเหล่านี้จะช่วยให้องค์กรเอาชนะข้อผิดพลาดที่มนุษย์อาจทำให้เกิดขึ้นได้เมื่อจำแนกข้อมูลที่เป็นข้อความด้วยตนเอง นอกจากนี้ ระบบการจำแนกข้อความที่มีความสอดคล้องมากกว่ามนุษย์เมื่อกำหนดแท็กให้กับข้อมูลข้อความในหัวข้อต่าง ๆ 

มอบการวิเคราะห์แบบเรียลไทม์

องค์กรต่าง ๆ เผชิญกับแรงกดดันด้านเวลาเมื่อต้องประมวลผลข้อมูลข้อความแบบเรียลไทม์ เมื่อใช้อัลกอริทึมการจัดประเภทข้อความ คุณจะสามารถดึงข้อมูลเชิงลึกที่นำไปปฏิบัติได้จากข้อมูลดิบและกำหนดการตอบสนองได้ทันที ตัวอย่างเช่น องค์กรสามารถใช้ระบบการจำแนกประเภทข้อความเพื่อวิเคราะห์ความคิดเห็นของลูกค้าและตอบสนองต่อคำขอเร่งด่วนได้ทันที

ปรับขนาดงานการจำแนกประเภทข้อความ

ก่อนหน้านี้องค์กรต่าง ๆ อาศัยระบบที่ดำเนินการด้วยตนเองหรือดำเนินการตามกฎเพื่อจัดประเภทเอกสาร วิธีการเหล่านี้มีความล่าช้าและใช้ทรัพยากรมากเกินไป เมื่อใช้การจำแนกประเภทข้อความของแมชชีนเลิร์นนิง คุณจะสามารถขยายความพยายามในการจัดหมวดหมู่เอกสารข้ามแผนกต่าง ๆ ได้อย่างมีประสิทธิภาพมากขึ้นเพื่อรองรับการเติบโตขององค์กร

แปลภาษา

องค์กรสามารถใช้ตัวจำแนกประเภทข้อความเพื่อตรวจหาภาษาได้ โมเดลการจัดประเภทข้อความสามารถตรวจจับภาษาต้นทางในการสนทนาหรือคำขอบริการ และส่งไปยังทีมงานที่เกี่ยวข้อง

กรณีการใช้งานของการจำแนกประเภทข้อความมีอะไรบ้าง

องค์กรใช้การจำแนกประเภทข้อความเพื่อปรับปรุงความพึงพอใจของลูกค้า ประสิทธิภาพการทำงานของพนักงาน และผลลัพธ์ทางธุรกิจ 

การวิเคราะห์ความรู้สึก

การจำแนกประเภทข้อความช่วยให้องค์กรสามารถจัดการแบรนด์ของตนได้อย่างมีประสิทธิภาพในหลายช่องทาง โดยแยกคำแบบเฉพาะที่บ่งบอกถึงความรู้สึกของลูกค้าได้ นอกจากนี้ การใช้การจำแนกประเภทข้อความสำหรับการวิเคราะห์ความรู้สึกยังช่วยให้ทีมการตลาดสามารถคาดการณ์แนวโน้มการซื้อด้วยข้อมูลเชิงคุณภาพได้อย่างแม่นยำอีกด้วย

ตัวอย่างเช่น คุณสามารถใช้เครื่องมือจำแนกประเภทข้อความเพื่อวิเคราะห์พฤติกรรมของลูกค้าในโพสต์บนโซเชียลมีเดีย แบบสำรวจ การสนทนาแชท หรือแหล่งข้อมูลข้อความอื่น ๆ และวางแผนแคมเปญการตลาดของคุณตามลำดับ

การกลั่นกรองเนื้อหา

ธุรกิจต่าง ๆ เพิ่มจำนวนกลุ่มเป้าหมายในกลุ่มชุมชน โซเชียลมีเดีย และฟอรัม การควบคุมการสนทนาของผู้ใช้จึงเป็นเรื่องที่ท้าทายหากมีผู้ดูแลที่เป็นมนุษย์ เมื่อใช้โมเดลการจำแนกประเภทข้อความ คุณจะสามารถตรวจจับคำ วลี หรือเนื้อหาที่อาจละเมิดหลักเกณฑ์ของชุมชนได้โดยอัตโนมัติ สิ่งนี้ช่วยให้คุณสามารถดำเนินการได้อย่างทันทีและสามารถทำให้เกิดการสนทนาในสภาพแวดล้อมที่ปลอดภัยและมีการควบคุมเป็นอย่างดีได้ 

การจัดการเอกสาร

หลายองค์กรเผชิญกับความท้าทายในการประมวลผลและจัดเรียงเอกสารในการสนับสนุนการดำเนินธุรกิจ ตัวจำแนกประเภทข้อความสามารถตรวจจับข้อมูลที่ขาดหายไป แยกคำหลักแบบเฉพาะเจาะจง และระบุความสัมพันธ์ทางความหมายได้ คุณสามารถใช้ระบบการจำแนกประเภทข้อความเพื่อติดป้ายกำกับและจัดเรียงเอกสาร เช่น ข้อความ บทวิจารณ์ และสัญญาตามหมวดหมู่ต่าง ๆ ได้ 

การสนับสนุนลูกค้า

ลูกค้าคาดหวังกับการตอบสนองที่รวดเร็วและแม่นยำเมื่อขอความช่วยเหลือจากทีมสนับสนุน ตัวจำแนกประเภทข้อความที่ขับเคลื่อนด้วยแมชชีนเลิร์นนิงช่วยให้ทีมสนับสนุนลูกค้าสามารถกำหนดเส้นทางคำขอที่เข้ามาไปยังบุคลากรที่เหมาะสมได้ ตัวอย่างเช่น ตัวจำแนกประเภทข้อความจะตรวจจับการแลกเปลี่ยนคำในตั๋วสนับสนุน และส่งคำขอไปยังแผนกการรับประกัน

แนวทางการจำแนกประเภทข้อความมีอะไรบ้าง

การจำแนกประเภทข้อความมีการพัฒนาไปอย่างมากในฐานะที่เป็นส่วนย่อยของการประมวลผลภาษาธรรมชาติ เรามีแนวทางหลายประการที่วิศวกรแมชชีนเลิร์นนิงใช้ในการจำแนกประเภทข้อมูลที่เป็นข้อความ 

การอนุมานภาษาธรรมชาติ

การอนุมานด้วยภาษาธรรมชาติจะกำหนดความสัมพันธ์ระหว่างสมมติฐานและหลักฐานโดยระบุว่าเป็นสิ่งที่เกี่ยวข้อง สิ่งที่ขัดแย้ง หรือสิ่งที่เป็นกลาง สิ่งที่เกี่ยวข้องจะอธิบายความสัมพันธ์เชิงตรรกะระหว่างสถานที่ตั้งและสมมติฐาน ในขณะที่ความขัดแย้งจะแสดงให้เห็นถึงการตัดการเชื่อมต่อระหว่างเอนทิตีที่เป็นข้อความ สิ่งที่เป็นกลางจะใช้เมื่อไม่พบสิ่งที่เกี่ยวข้องหรือข้อขัดแย้ง 

ตัวอย่างเช่น ลองพิจารณาสมมติฐานต่อไปนี้:

ทีมของเราเป็นผู้ชนะการแข่งขันฟุตบอลชิงแชมป์

นี่คือวิธีที่สมมติฐานที่แตกต่างกันจะถูกแท็กโดยตัวจำแนกประเภทการอนุมานภาษาธรรมชาติ

  • สิ่งที่เกี่ยวข้อง: ทีมของเราชอบเล่นกีฬา
  • สิ่งที่ขัดแย้ง: เราเป็นคนที่ไม่ได้ออกกำลังกาย
  • สิ่งที่เป็นกลาง: เรากลายเป็นแชมป์ฟุตบอล

การสร้างโมเดลภาษาความน่าจะเป็น

การสร้างโมเดลภาษาความน่าจะเป็นเป็นวิธีทางสถิติที่โมเดลภาษาใช้ในการทำนายคำถัดไปเมื่อได้รับลำดับของคำมา เมื่อใช้วิธีการนี้ โมเดลจะกำหนดค่าความน่าจะเป็นให้กับแต่ละคำ และคำนวณความน่าจะเป็นของคำต่อไปนี้ เมื่อนำไปใช้กับการจำแนกประเภทข้อความ การสร้างโมเดลภาษาความน่าจะเป็นจะจัดหมวดหมู่เอกสารตามวลีเฉพาะที่พบในข้อความ 

การฝังคำ

การฝังคำเป็นเทคนิคที่ใช้การแสดงตัวเลขกับคำที่สะท้อนถึงการเชื่อมโยงทางด้านความหมาย การฝังคำจะเทียบเท่ากับตัวเลขของคำหนึ่งคำ อัลกอริทึมแมชชีนเลิร์นนิงไม่สามารถวิเคราะห์ข้อความในรูปแบบดั้งเดิมได้อย่างมีประสิทธิภาพ ด้วยการฝังคำ อัลกอริทึมการสร้างโมเดลภาษาจะสามารถเปรียบเทียบข้อความที่แตกต่างกันได้ด้วยการฝังคำเหล่านั้น

หากต้องการใช้การฝังคำ คุณจะต้องฝึกโมเดลการประมวลผลภาษาธรรมชาติ (NLP) ในระหว่างการฝึก โมเดลจะกำหนดคำที่เกี่ยวข้องกับการแสดงตัวเลขซึ่งวางตำแหน่งอย่างใกล้ชิดในพื้นที่หลายมิติที่เรียกว่า Vector Semantics 

ตัวอย่างเช่น เมื่อทำเวกเตอร์ข้อความด้วยการฝัง คุณจะพบว่าสุนัขและแมวอยู่ใกล้กันบนพื้นที่เวกเตอร์สองมิติมากกว่ามะเขือเทศ ผู้คน และก้อนหิน คุณสามารถใช้ Vector Semantics เพื่อระบุข้อความที่คล้ายกันในข้อมูลที่ไม่คุ้นเคยและคาดเดาวลีที่ตามมาได้ วิธีนี้มีประโยชน์ในการจำแนกประเภทความคิดเห็น การจัดระเบียบเอกสาร และงานการจัดประเภทข้อความอื่น ๆ 

โมเดลภาษาขนาดใหญ่

โมเดลภาษาขนาดใหญ่ (LLM) เป็นอัลกอริทึมดีปเลิร์นนิงที่ได้รับการฝึกเกี่ยวกับข้อมูลข้อความจำนวนมหาศาลมาแล้ว โมเดลเหล่านี้จะอิงตามสถาปัตยกรรม ตัวแปลง ซึ่งเป็นนิวรัลเน็ตเวิร์กที่มีชั้นซ่อนอยู่หลายชั้น ซึ่งสามารถประมวลผลข้อมูลข้อความแบบขนานได้ โมเดลภาษาขนาดใหญ่มีประสิทธิภาพมากกว่าโมเดลแบบง่าย และเก่งในงานประมวลผลภาษาธรรมชาติ รวมถึงการจำแนกประเภทข้อความ

โมเดลภาษาขนาดใหญ่ต่างจากรุ่นก่อนหน้าตรงที่สามารถจำแนกประเภทข้อความได้โดยไม่ต้องมีการฝึกล่วงหน้า พวกเขาใช้การจำแนกประเภทแบบ Zero-Shot ซึ่งเป็นวิธีการที่ช่วยให้โมเดลจัดหมวดหมู่ข้อมูลข้อความที่มองไม่เห็นเป็นหมวดหมู่ที่กำหนดไว้ล่วงหน้า ตัวอย่างเช่น คุณสามารถปรับใช้โมเดลการจำแนกประเภทข้อความแบบ Zero-Shot บน Amazon Sagemaker Jumpstart เพื่อจัดเรียงโพสต์ปณิธานปีใหม่เป็นเรื่องอาชีพ สุขภาพ การเงิน และชั้นเรียนอื่น ๆ ได้ 

คุณจะประเมินประสิทธิภาพการจำแนกประเภทข้อความอย่างไร

ก่อนที่คุณจะปรับใช้ตัวจำแนกประเภทข้อความสำหรับแอปพลิเคชันทางธุรกิจ คุณจะต้องประเมินข้อมูลเพื่อให้แน่ใจว่าจะไม่ประสบปัญหาจากข้อผิดพลาดแบบ Underfit ข้อผิดพลาดแบบ Underfit เป็นปรากฏการณ์ที่อัลกอริทึมแมชชีนเลิร์นนิงสามารถทำงานได้ดีในการฝึก แต่ไม่สามารถจำแนกข้อมูลในโลกแห่งความเป็นจริงได้อย่างถูกต้อง ในการประเมินโมเดลการจำแนกประเภทข้อความ เราจะใช้วิธีการตรวจสอบแบบ Cross-Validation 

Cross-Validation

Cross-Validation เป็นเทคนิคการประเมินแบบจำลองที่แบ่งข้อมูลการฝึกออกเป็นกลุ่มเล็ก ๆ จากนั้นแต่ละกลุ่มจะแบ่งออกเป็นกลุ่มตัวอย่างเพื่อการฝึกและตรวจสอบความถูกต้องของโมเดล ขั้นแรก โมเดลจะฝึกกับตัวอย่างที่จัดสรรไว้ และทดสอบกับตัวอย่างที่เหลือ จากนั้น เราจะเปรียบเทียบผลลัพธ์ของโมเดลกับผลลัพธ์ที่มนุษย์สร้างไว้ 

เกณฑ์การประเมิน

เราสามารถประเมินรูปแบบการจำแนกประเภทข้อความจากการประเมินได้หลายเกณฑ์

  • ความถูกต้องจะอธิบายถึงจำนวนการคาดคะเนที่ถูกต้องที่ตัวจำแนกประเภทข้อความได้ดำเนินการไว้เมื่อเปรียบเทียบกับการคาดคะเนทั้งหมด 
  • ความแม่นยำจะสะท้อนถึงความสามารถของโมเดลในการทำนายคลาสแบบเฉพาะเจาะจงได้อย่างถูกต้องและสม่ำเสมอ ตัวจำแนกประเภทข้อความจะมีความแม่นยำมากขึ้นเมื่อสร้างผลบวกลวงน้อยลง 
  • การเรียกคืนจะวัดความสอดคล้องกันของโมเดลในการทำนายคลาสที่เหมาะสมได้สำเร็จ เปรียบเทียบกับการคาดการณ์เชิงบวกทั้งหมด 
  • คะแนน F1 จะคำนวณค่าเฉลี่ยฮาร์โมนิกของความแม่นยำและการเรียกคืน เพื่อให้ภาพรวมที่มีความสมดุลของความแม่นยำของโมเดล 

คุณจะใช้การจำแนกประเภทข้อความอย่างไร

คุณสามารถสร้าง ฝึก และปรับใช้แบบจำลองการจำแนกประเภทข้อความโดยทำตามขั้นตอนเหล่านี้

ดูแลจัดการชุดข้อมูลการฝึก

การเตรียมชุดข้อมูลคุณภาพสูงเป็นสิ่งสำคัญในการฝึกหรือปรับแต่งโมเดลภาษาสำหรับการจำแนกประเภทข้อความ ชุดข้อมูลที่หลากหลายและมีป้ายกำกับช่วยให้โมเดลเรียนรู้ที่จะระบุคำ วลี หรือรูปแบบเฉพาะและหมวดหมู่ที่เกี่ยวข้องได้อย่างมีประสิทธิภาพ

เตรียมชุดข้อมูล

โมเดลแมชชีนเลิร์นนิงไม่สามารถเรียนรู้จากชุดข้อมูลดิบได้ ดังนั้น คุณจะต้องทำความสะอาดและเตรียมชุดข้อมูลด้วยวิธีการประมวลผลล่วงหน้า เช่น การแปลงเป็นโทเค็น การแปลงเป็นโทเค็นจะแบ่งแต่ละคำหรือประโยคออกเป็นส่วนเล็ก ๆ ที่เรียกว่าโทเค็น

หลังจากการแปลงเป็นโทเค็น คุณควรลบข้อมูลที่ซ้ำซ้อน ซ้ำกัน และข้อมูลที่ผิดปกติออกจากชุดข้อมูลการฝึก เนื่องจากอาจส่งผลต่อประสิทธิภาพของโมเดลได้ จากนั้นค่อยแบ่งชุดข้อมูลออกเป็นข้อมูลการฝึกและการตรวจสอบ

ฝึกโมเดลการจำแนกประเภทข้อความ

เลือกและฝึกโมเดลภาษาด้วยชุดข้อมูลที่เตรียมไว้ ในระหว่างการฝึก โมเดลจะเรียนรู้จากชุดข้อมูลที่มีคำอธิบายประกอบและพยายามจัดประเภทข้อความเป็นหมวดหมู่ตามลำดับ การฝึกจะเสร็จสมบูรณ์เมื่อโมเดลมาบรรจบกันรวมเป็นผลลัพธ์เดียวกันอย่างสม่ำเสมอ

ประเมินและปรับให้เหมาะสม

ประเมินโมเดลด้วยชุดข้อมูลทดสอบ เปรียบเทียบความแม่นยำ ความถูกต้อง การเรียกคืน และคะแนน F1 ของโมเดลกับเกณฑ์มาตรฐานที่กำหนดไว้ โมเดลที่ผ่านการฝึกอาจต้องมีการปรับแต่งเพิ่มเติมเพื่อแก้ไขปัญหาข้อผิดพลาดแบบ Overfit และปัญหาด้านประสิทธิภาพอื่น ๆ ปรับโมเดลให้เหมาะสมจนกว่าคุณจะได้ผลลัพธ์ที่พึงพอใจ 

ความท้าทายในการจำแนกประเภทข้อความคืออะไร

องค์กรต่าง ๆ สามารถใช้ทรัพยากรการจำแนกประเภทข้อความเชิงพาณิชย์หรือข้อมูลที่เปิดเผยต่อสาธารณะเพื่อใช้นิวรัลเน็ตเวิร์กของตัวจำแนกประเภทข้อความได้ อย่างไรก็ตาม ข้อมูลที่จำกัดอาจทำให้การดูแลจัดการชุดข้อมูลการฝึกนั้นมีความท้าทายได้ในบางอุตสาหกรรม ตัวอย่างเช่น บริษัทด้านการดูแลสุขภาพอาจต้องการความช่วยเหลือในการจัดหาชุดข้อมูลทางการแพทย์เพื่อฝึกโมเดลการจำแนกประเภท 

การฝึกและการปรับแต่งโมเดลแมชชีนเลิร์นนิงมีค่าใช้จ่ายสูงและใช้เวลานาน นอกจากนี้ โมเดลอาจเกิดข้อผิดพลาดแบบ Overfit หรือ Underfit ซึ่งจะส่งผลให้มีประสิทธิภาพไม่สอดคล้องกันในกรณีการใช้งานจริง 

คุณสามารถสร้างตัวแยกประเภทข้อความได้ด้วยไลบรารีแมชชีนเลิร์นนิงแบบโอเพนซอร์ส อย่างไรก็ตาม คุณจะต้องมีความรู้เฉพาะด้านสำหรับแมชชีนเลิร์นนิงและประสบการณ์การพัฒนาซอฟต์แวร์นานหลายปีเพื่อฝึก เขียนโปรแกรม และผสานรวมตัวจำแนกประเภทกับแอปพลิเคชันระดับองค์กร

AWS สามารถช่วยเหลือด้านข้อกำหนดการจัดประเภทข้อความของคุณได้อย่างไรบ้าง

Amazon Comprehend คือบริการ NLP ที่ใช้แมชชีนเลิร์นนิงเพื่อเปิดเผยข้อมูลเชิงลึกที่มีคุณค่าและความสัมพันธ์ในข้อความ Custom Classification API (การจัดประเภทแบบกำหนดเอง) จะช่วยให้คุณสร้างโมเดลการจัดหมวดหมู่ข้อความแบบกำหนดเองได้อย่างง่ายดายโดยใช้ป้ายกำกับเฉพาะกับธุรกิจของคุณโดยไม่ต้องเรียนรู้ด้าน ML

ตัวอย่างเช่น องค์กรสนับสนุนลูกค้าของคุณสามารถใช้ Custom Classification (การจัดประเภทแบบกำหนดเอง) เพื่อจัดหมวดหมู่คำขอขาเข้าตามประเภทปัญหาโดยอัตโนมัติตามวิธีที่ลูกค้าอธิบายปัญหา เมื่อใช้งานโมเดลที่คุณกำหนดเอง คุณจะสามารถกลั่นกรองความคิดเห็นจากเว็บไซต์ คัดแยกความคิดเห็นของลูกค้า และจัดระเบียบเอกสารของกลุ่มงานได้อย่างง่ายดาย

Amazon SageMaker เป็นบริการที่มีการจัดการเต็มรูปแบบเพื่อเตรียมข้อมูล ตลอดจนสร้าง ฝึก และนำโมเดล ML ไปใช้จริงสำหรับทุกกรณีการใช้งาน โดยมีโครงสร้างพื้นฐาน เครื่องมือ และเวิร์กโฟลว์ที่ได้รับการจัดการอย่างเต็มรูปแบบ

เมื่อใช้งาน Amazon SageMaker JumpStart คุณจะสามารถเข้าถึงโมเดลที่ได้รับการฝึกและโมเดลพื้นฐาน (FM) และสามารถปรับแต่งโมเดลเหล่านี้ให้เข้ากับกรณีการใช้งานของคุณโดยใช้ข้อมูลของคุณได้ SageMaker JumpStart นำเสนอโซลูชันแบบครบวงจรภายในการคลิกเพียงครั้งเดียวสำหรับกรณีการใช้งาน ML ทั่วไปจำนวนมาก คุณสามารถใช้งานเพื่อการจัดประเภทข้อความ การสรุปเอกสาร การจดจำลายมือ การแยกความสัมพันธ์ คำถามและการตอบ และการเติมค่าที่หายไปในข้อมูลบันทึกแบบตาราง

เริ่มต้นการจัดหมวดหมู่ข้อความบน Amazon Web Services (AWS) โดยสร้างบัญชีวันนี้

ขั้นตอนต่อไปบน AWS

ดูแหล่งข้อมูลเพิ่มเติมเกี่ยวกับผลิตภัณฑ์
สร้างสรรค์นวัตกรรมได้เร็วขึ้นด้วยบริการ AI ช่วยสร้างของ AWS 
ลงชื่อสมัครใช้บัญชีฟรี

รับสิทธิ์การเข้าถึง AWS Free Tier ได้ทันที

ลงชื่อสมัครใช้งาน 
เริ่มต้นการสร้างในคอนโซล

เริ่มต้นสร้างในคอนโซลการจัดการของ AWS

ลงชื่อเข้าใช้