ข้ามไปที่เนื้อหาหลัก

การจำแนกข้อความคืออะไร

การจัดประเภทข้อความเป็นกระบวนการกำหนดหมวดหมู่ที่มีการกำหนดไว้ล่วงหน้าให้กับเอกสารข้อความปลายเปิดโดยใช้ระบบปัญญาประดิษฐ์และแมชชีนเลิร์นนิง (AI/ML) องค์กรหลายแห่งมีคลังเอกสารขนาดใหญ่และเวิร์กโฟลว์ทางธุรกิจที่สร้างเอกสารในปริมาณมากอย่างต่อเนื่อง เช่น เอกสารทางกฎหมาย สัญญา เอกสารการวิจัย ข้อมูลที่ผู้ใช้สร้างขึ้น และอีเมล การจัดประเภทข้อความคือขั้นตอนแรกในการจัดระเบียบ จัดโครงสร้าง และจัดหมวดหมู่ข้อมูลนี้เพื่อการวิเคราะห์เพิ่มเติม ซึ่งช่วยให้สามารถติดป้ายกำกับและติดแท็กเอกสารได้โดยอัตโนมัติ วิธีนี้จะช่วยประหยัดเวลาในองค์กรของคุณได้หลายพันชั่วโมง มิฉะนั้นคุณจะต้องอ่าน ทำความเข้าใจ และจัดประเภทเอกสารด้วยตนเอง

ประโยชน์ของการจำแนกประเภทข้อความมีอะไรบ้าง

องค์กรใช้โมเดลการจัดประเภทข้อความด้วยเหตุผลดังต่อไปนี้

ปรับปรุงความถูกต้อง

โมเดลการจำแนกประเภทข้อความจัดหมวดหมู่ข้อความได้อย่างถูกต้องโดยมีการฝึกเพิ่มเติมเล็กน้อยหรือแทบจะไม่มีเลย โมเดลเหล่านี้จะช่วยให้องค์กรเอาชนะข้อผิดพลาดที่มนุษย์อาจทำให้เกิดขึ้นได้เมื่อจำแนกข้อมูลที่เป็นข้อความด้วยตนเอง นอกจากนี้ ระบบการจำแนกข้อความที่มีความสอดคล้องมากกว่ามนุษย์เมื่อกำหนดแท็กให้กับข้อมูลข้อความในหัวข้อต่าง ๆ 

มอบการวิเคราะห์แบบเรียลไทม์

องค์กรต่าง ๆ เผชิญกับแรงกดดันด้านเวลาเมื่อต้องประมวลผลข้อมูลข้อความแบบเรียลไทม์ เมื่อใช้อัลกอริทึมการจัดประเภทข้อความ คุณจะสามารถดึงข้อมูลเชิงลึกที่นำไปปฏิบัติได้จากข้อมูลดิบและกำหนดการตอบสนองได้ทันที ตัวอย่างเช่น องค์กรสามารถใช้ระบบการจำแนกประเภทข้อความเพื่อวิเคราะห์ความคิดเห็นของลูกค้าและตอบสนองต่อคำขอเร่งด่วนได้ทันที

ปรับขนาดงานการจำแนกประเภทข้อความ

ก่อนหน้านี้องค์กรต่าง ๆ อาศัยระบบที่ดำเนินการด้วยตนเองหรือดำเนินการตามกฎเพื่อจัดประเภทเอกสาร วิธีการเหล่านี้มีความล่าช้าและใช้ทรัพยากรมากเกินไป เมื่อใช้การจำแนกประเภทข้อความของแมชชีนเลิร์นนิง คุณจะสามารถขยายความพยายามในการจัดหมวดหมู่เอกสารข้ามแผนกต่าง ๆ ได้อย่างมีประสิทธิภาพมากขึ้นเพื่อรองรับการเติบโตขององค์กร

แปลภาษา

องค์กรสามารถใช้ตัวจำแนกประเภทข้อความเพื่อตรวจหาภาษาได้ โมเดลการจัดประเภทข้อความสามารถตรวจจับภาษาต้นทางในการสนทนาหรือคำขอบริการ และส่งไปยังทีมงานที่เกี่ยวข้อง

กรณีการใช้งานของการจำแนกประเภทข้อความมีอะไรบ้าง

องค์กรใช้การจำแนกประเภทข้อความเพื่อปรับปรุงความพึงพอใจของลูกค้า ประสิทธิภาพการทำงานของพนักงาน และผลลัพธ์ทางธุรกิจ 

การวิเคราะห์ความรู้สึก

การจำแนกประเภทข้อความช่วยให้องค์กรสามารถจัดการแบรนด์ของตนได้อย่างมีประสิทธิภาพในหลายช่องทาง โดยแยกคำแบบเฉพาะที่บ่งบอกถึงความรู้สึกของลูกค้าได้ นอกจากนี้ การใช้การจำแนกประเภทข้อความสำหรับการวิเคราะห์ความรู้สึกยังช่วยให้ทีมการตลาดสามารถคาดการณ์แนวโน้มการซื้อด้วยข้อมูลเชิงคุณภาพได้อย่างแม่นยำอีกด้วย

ตัวอย่างเช่น คุณสามารถใช้เครื่องมือจำแนกประเภทข้อความเพื่อวิเคราะห์พฤติกรรมของลูกค้าในโพสต์บนโซเชียลมีเดีย แบบสำรวจ การสนทนาแชท หรือแหล่งข้อมูลข้อความอื่น ๆ และวางแผนแคมเปญการตลาดของคุณตามลำดับ

การกลั่นกรองเนื้อหา

ธุรกิจต่าง ๆ เพิ่มจำนวนกลุ่มเป้าหมายในกลุ่มชุมชน โซเชียลมีเดีย และฟอรัม การควบคุมการสนทนาของผู้ใช้จึงเป็นเรื่องที่ท้าทายหากมีผู้ดูแลที่เป็นมนุษย์ เมื่อใช้โมเดลการจำแนกประเภทข้อความ คุณจะสามารถตรวจจับคำ วลี หรือเนื้อหาที่อาจละเมิดหลักเกณฑ์ของชุมชนได้โดยอัตโนมัติ สิ่งนี้ช่วยให้คุณสามารถดำเนินการได้อย่างทันทีและสามารถทำให้เกิดการสนทนาในสภาพแวดล้อมที่ปลอดภัยและมีการควบคุมเป็นอย่างดีได้ 

การจัดการเอกสาร

หลายองค์กรเผชิญกับความท้าทายในการประมวลผลและจัดเรียงเอกสารในการสนับสนุนการดำเนินธุรกิจ ตัวจำแนกประเภทข้อความสามารถตรวจจับข้อมูลที่ขาดหายไป แยกคำหลักแบบเฉพาะเจาะจง และระบุความสัมพันธ์ทางความหมายได้ คุณสามารถใช้ระบบการจำแนกประเภทข้อความเพื่อติดป้ายกำกับและจัดเรียงเอกสาร เช่น ข้อความ บทวิจารณ์ และสัญญาตามหมวดหมู่ต่าง ๆ ได้ 

การสนับสนุนลูกค้า

ลูกค้าคาดหวังกับการตอบสนองที่รวดเร็วและแม่นยำเมื่อขอความช่วยเหลือจากทีมสนับสนุน ตัวจำแนกประเภทข้อความที่ขับเคลื่อนด้วยแมชชีนเลิร์นนิงช่วยให้ทีมสนับสนุนลูกค้าสามารถกำหนดเส้นทางคำขอที่เข้ามาไปยังบุคลากรที่เหมาะสมได้ ตัวอย่างเช่น ตัวจำแนกประเภทข้อความจะตรวจจับการแลกเปลี่ยนคำในตั๋วสนับสนุน และส่งคำขอไปยังแผนกการรับประกัน

แนวทางการจำแนกประเภทข้อความมีอะไรบ้าง

การจำแนกประเภทข้อความมีการพัฒนาไปอย่างมากในฐานะที่เป็นส่วนย่อยของการประมวลผลภาษาธรรมชาติ เรามีแนวทางหลายประการที่วิศวกรแมชชีนเลิร์นนิงใช้ในการจำแนกประเภทข้อมูลที่เป็นข้อความ 

การอนุมานภาษาธรรมชาติ

การอนุมานด้วยภาษาธรรมชาติจะกำหนดความสัมพันธ์ระหว่างสมมติฐานและหลักฐานโดยระบุว่าเป็นสิ่งที่เกี่ยวข้อง สิ่งที่ขัดแย้ง หรือสิ่งที่เป็นกลาง สิ่งที่เกี่ยวข้องจะอธิบายความสัมพันธ์เชิงตรรกะระหว่างสถานที่ตั้งและสมมติฐาน ในขณะที่ความขัดแย้งจะแสดงให้เห็นถึงการตัดการเชื่อมต่อระหว่างเอนทิตีที่เป็นข้อความ สิ่งที่เป็นกลางจะใช้เมื่อไม่พบสิ่งที่เกี่ยวข้องหรือข้อขัดแย้ง 

ตัวอย่างเช่น ลองพิจารณาสมมติฐานต่อไปนี้:

ทีมของเราเป็นผู้ชนะการแข่งขันฟุตบอลชิงแชมป์

นี่คือวิธีที่สมมติฐานที่แตกต่างกันจะถูกแท็กโดยตัวจำแนกประเภทการอนุมานภาษาธรรมชาติ

  • สิ่งที่เกี่ยวข้อง: ทีมของเราชอบเล่นกีฬา

  • สิ่งที่ขัดแย้ง: เราเป็นคนที่ไม่ได้ออกกำลังกาย

  • สิ่งที่เป็นกลาง: เรากลายเป็นแชมป์ฟุตบอล

การสร้างโมเดลภาษาความน่าจะเป็น

การสร้างโมเดลภาษาความน่าจะเป็นเป็นวิธีทางสถิติที่โมเดลภาษาใช้ในการทำนายคำถัดไปเมื่อได้รับลำดับของคำมา เมื่อใช้วิธีการนี้ โมเดลจะกำหนดค่าความน่าจะเป็นให้กับแต่ละคำ และคำนวณความน่าจะเป็นของคำต่อไปนี้ เมื่อนำไปใช้กับการจำแนกประเภทข้อความ การสร้างโมเดลภาษาความน่าจะเป็นจะจัดหมวดหมู่เอกสารตามวลีเฉพาะที่พบในข้อความ 

การฝังคำ

การฝังคำเป็นเทคนิคที่ใช้การแสดงตัวเลขกับคำที่สะท้อนถึงการเชื่อมโยงทางด้านความหมาย การฝังคำจะเทียบเท่ากับตัวเลขของคำหนึ่งคำ อัลกอริทึมแมชชีนเลิร์นนิงไม่สามารถวิเคราะห์ข้อความในรูปแบบดั้งเดิมได้อย่างมีประสิทธิภาพ ด้วยการฝังคำ อัลกอริทึมการสร้างโมเดลภาษาจะสามารถเปรียบเทียบข้อความที่แตกต่างกันได้ด้วยการฝังคำเหล่านั้น

หากต้องการใช้การฝังคำ คุณจะต้องฝึกโมเดลการประมวลผลภาษาธรรมชาติ (NLP) ในระหว่างการฝึก โมเดลจะกำหนดคำที่เกี่ยวข้องกับการแสดงตัวเลขซึ่งวางตำแหน่งอย่างใกล้ชิดในพื้นที่หลายมิติที่เรียกว่า Vector Semantics 

ตัวอย่างเช่น เมื่อทำเวกเตอร์ข้อความด้วยการฝัง คุณจะพบว่าสุนัขและแมวอยู่ใกล้กันบนพื้นที่เวกเตอร์สองมิติมากกว่ามะเขือเทศ ผู้คน และก้อนหิน คุณสามารถใช้ Vector Semantics เพื่อระบุข้อความที่คล้ายกันในข้อมูลที่ไม่คุ้นเคยและคาดเดาวลีที่ตามมาได้ วิธีนี้มีประโยชน์ในการจำแนกประเภทความคิดเห็น การจัดระเบียบเอกสาร และงานการจัดประเภทข้อความอื่น ๆ 

โมเดลภาษาขนาดใหญ่

แบบจำลองภาษาขนาดใหญ่ (LLM) เป็นอัลกอริ ทึม การเรียนรู้เชิงลึกที่ฝึกอบรมเกี่ยวกับข้อมูลข้อความจำนวนมาก โมเดลเหล่านี้จะอิงตามสถาปัตยกรรม ตัวแปลง ซึ่งเป็นนิวรัลเน็ตเวิร์กที่มีชั้นซ่อนอยู่หลายชั้น ซึ่งสามารถประมวลผลข้อมูลข้อความแบบขนานได้ โมเดลภาษาขนาดใหญ่มีประสิทธิภาพมากกว่าโมเดลแบบง่าย และเก่งในงานประมวลผลภาษาธรรมชาติ รวมถึงการจำแนกประเภทข้อความ

โมเดลภาษาขนาดใหญ่ต่างจากรุ่นก่อนหน้าตรงที่สามารถจำแนกประเภทข้อความได้โดยไม่ต้องมีการฝึกล่วงหน้า พวกเขาใช้การจำแนกประเภทแบบ Zero-Shot ซึ่งเป็นวิธีการที่ช่วยให้โมเดลจัดหมวดหมู่ข้อมูลข้อความที่มองไม่เห็นเป็นหมวดหมู่ที่กำหนดไว้ล่วงหน้า ตัวอย่างเช่น คุณสามารถปรับใช้แบบจำลองการจำ แนกข้อความแบบ zero-shot บน Amazon Sagemaker Jumpstart เพื่อจัดเรียงโพสต์มติปีใหม่ตามอาชีพ สุขภาพ การเงิน และชั้นเรียนอื่นๆ

คุณจะประเมินประสิทธิภาพการจำแนกประเภทข้อความอย่างไร

ก่อนที่คุณจะปรับใช้ตัวจำแนกประเภทข้อความสำหรับแอปพลิเคชันทางธุรกิจ คุณจะต้องประเมินข้อมูลเพื่อให้แน่ใจว่าจะไม่ประสบปัญหาจากข้อผิดพลาดแบบ Underfit ข้อผิดพลาดแบบ Underfit เป็นปรากฏการณ์ที่อัลกอริทึมแมชชีนเลิร์นนิงสามารถทำงานได้ดีในการฝึก แต่ไม่สามารถจำแนกข้อมูลในโลกแห่งความเป็นจริงได้อย่างถูกต้อง ในการประเมินโมเดลการจำแนกประเภทข้อความ เราจะใช้วิธีการตรวจสอบแบบ Cross-Validation 

Cross-Validation

Cross-Validation เป็นเทคนิคการประเมินแบบจำลองที่แบ่งข้อมูลการฝึกออกเป็นกลุ่มเล็ก ๆ จากนั้นแต่ละกลุ่มจะแบ่งออกเป็นกลุ่มตัวอย่างเพื่อการฝึกและตรวจสอบความถูกต้องของโมเดล ขั้นแรก โมเดลจะฝึกกับตัวอย่างที่จัดสรรไว้ และทดสอบกับตัวอย่างที่เหลือ จากนั้น เราจะเปรียบเทียบผลลัพธ์ของโมเดลกับผลลัพธ์ที่มนุษย์สร้างไว้ 

เกณฑ์การประเมิน

เราสามารถประเมินรูปแบบการจำแนกประเภทข้อความจากการประเมินได้หลายเกณฑ์

  • ความถูกต้องจะอธิบายถึงจำนวนการคาดคะเนที่ถูกต้องที่ตัวจำแนกประเภทข้อความได้ดำเนินการไว้เมื่อเปรียบเทียบกับการคาดคะเนทั้งหมด 

  • ความแม่นยำจะสะท้อนถึงความสามารถของโมเดลในการทำนายคลาสแบบเฉพาะเจาะจงได้อย่างถูกต้องและสม่ำเสมอ ตัวจำแนกประเภทข้อความจะมีความแม่นยำมากขึ้นเมื่อสร้างผลบวกลวงน้อยลง 

  • การเรียกคืนจะวัดความสอดคล้องกันของโมเดลในการทำนายคลาสที่เหมาะสมได้สำเร็จ เปรียบเทียบกับการคาดการณ์เชิงบวกทั้งหมด 

  • คะแนน F1 จะคำนวณค่าเฉลี่ยฮาร์โมนิกของความแม่นยำและการเรียกคืน เพื่อให้ภาพรวมที่มีความสมดุลของความแม่นยำของโมเดล

คุณจะใช้การจำแนกประเภทข้อความอย่างไร

คุณสามารถสร้าง ฝึก และปรับใช้แบบจำลองการจำแนกประเภทข้อความโดยทำตามขั้นตอนเหล่านี้

ดูแลจัดการชุดข้อมูลการฝึก

การเตรียมชุดข้อมูลคุณภาพสูงเป็นสิ่งสำคัญในการฝึกหรือปรับแต่งโมเดลภาษาสำหรับการจำแนกประเภทข้อความ ชุดข้อมูลที่หลากหลายและมีป้ายกำกับช่วยให้โมเดลเรียนรู้ที่จะระบุคำ วลี หรือรูปแบบเฉพาะและหมวดหมู่ที่เกี่ยวข้องได้อย่างมีประสิทธิภาพ

เตรียมชุดข้อมูล

โมเดลแมชชีนเลิร์นนิงไม่สามารถเรียนรู้จากชุดข้อมูลดิบได้ ดังนั้น คุณจะต้องทำความสะอาดและเตรียมชุดข้อมูลด้วยวิธีการประมวลผลล่วงหน้า เช่น การแปลงเป็นโทเค็น การแปลงเป็นโทเค็นจะแบ่งแต่ละคำหรือประโยคออกเป็นส่วนเล็ก ๆ ที่เรียกว่าโทเค็น

หลังจากการแปลงเป็นโทเค็น คุณควรลบข้อมูลที่ซ้ำซ้อน ซ้ำกัน และข้อมูลที่ผิดปกติออกจากชุดข้อมูลการฝึก เนื่องจากอาจส่งผลต่อประสิทธิภาพของโมเดลได้ จากนั้นค่อยแบ่งชุดข้อมูลออกเป็นข้อมูลการฝึกและการตรวจสอบ

ฝึกโมเดลการจำแนกประเภทข้อความ

เลือกและฝึกโมเดลภาษาด้วยชุดข้อมูลที่เตรียมไว้ ในระหว่างการฝึก โมเดลจะเรียนรู้จากชุดข้อมูลที่มีคำอธิบายประกอบและพยายามจัดประเภทข้อความเป็นหมวดหมู่ตามลำดับ การฝึกจะเสร็จสมบูรณ์เมื่อโมเดลมาบรรจบกันรวมเป็นผลลัพธ์เดียวกันอย่างสม่ำเสมอ

ประเมินและปรับให้เหมาะสม

ประเมินโมเดลด้วยชุดข้อมูลทดสอบ เปรียบเทียบความแม่นยำ ความถูกต้อง การเรียกคืน และคะแนน F1 ของโมเดลกับเกณฑ์มาตรฐานที่กำหนดไว้ โมเดลที่ผ่านการฝึกอาจต้องมีการปรับแต่งเพิ่มเติมเพื่อแก้ไขปัญหาข้อผิดพลาดแบบ Overfit และปัญหาด้านประสิทธิภาพอื่น ๆ ปรับโมเดลให้เหมาะสมจนกว่าคุณจะได้ผลลัพธ์ที่พึงพอใจ 

ความท้าทายในการจำแนกประเภทข้อความคืออะไร

องค์กรต่าง ๆ สามารถใช้ทรัพยากรการจำแนกประเภทข้อความเชิงพาณิชย์หรือข้อมูลที่เปิดเผยต่อสาธารณะเพื่อใช้นิวรัลเน็ตเวิร์กของตัวจำแนกประเภทข้อความได้ อย่างไรก็ตาม ข้อมูลที่จำกัดอาจทำให้การดูแลจัดการชุดข้อมูลการฝึกนั้นมีความท้าทายได้ในบางอุตสาหกรรม ตัวอย่างเช่น บริษัทด้านการดูแลสุขภาพอาจต้องการความช่วยเหลือในการจัดหาชุดข้อมูลทางการแพทย์เพื่อฝึกโมเดลการจำแนกประเภท 

การฝึกและการปรับแต่งโมเดลแมชชีนเลิร์นนิงมีค่าใช้จ่ายสูงและใช้เวลานาน นอกจากนี้ โมเดลอาจเกิดข้อผิดพลาดแบบ Overfit หรือ Underfit ซึ่งจะส่งผลให้มีประสิทธิภาพไม่สอดคล้องกันในกรณีการใช้งานจริง 

คุณสามารถสร้างตัวแยกประเภทข้อความได้ด้วยไลบรารีแมชชีนเลิร์นนิงแบบโอเพนซอร์ส อย่างไรก็ตาม คุณจะต้องมีความรู้เฉพาะด้านสำหรับแมชชีนเลิร์นนิงและประสบการณ์การพัฒนาซอฟต์แวร์นานหลายปีเพื่อฝึก เขียนโปรแกรม และผสานรวมตัวจำแนกประเภทกับแอปพลิเคชันระดับองค์กร

AWS สามารถช่วยเหลือด้านข้อกำหนดการจัดประเภทข้อความของคุณได้อย่างไรบ้าง

Amazon Comprehend เป็นบริการ NLP ที่ใช้แมชชีนเลิร์นนิงเพื่อค้นพบข้อมูลเชิงลึกและการเชื่อมต่อที่มีค่าในข้อความ Custom Classification API (การจัดประเภทแบบกำหนดเอง) จะช่วยให้คุณสร้างโมเดลการจัดหมวดหมู่ข้อความแบบกำหนดเองได้อย่างง่ายดายโดยใช้ป้ายกำกับเฉพาะกับธุรกิจของคุณโดยไม่ต้องเรียนรู้ด้าน ML

ตัวอย่างเช่น องค์กรสนับสนุนลูกค้าของคุณสามารถใช้ Custom Classification (การจัดประเภทแบบกำหนดเอง) เพื่อจัดหมวดหมู่คำขอขาเข้าตามประเภทปัญหาโดยอัตโนมัติตามวิธีที่ลูกค้าอธิบายปัญหา เมื่อใช้งานโมเดลที่คุณกำหนดเอง คุณจะสามารถกลั่นกรองความคิดเห็นจากเว็บไซต์ คัดแยกความคิดเห็นของลูกค้า และจัดระเบียบเอกสารของกลุ่มงานได้อย่างง่ายดาย

Amazon SageMaker เป็นบริการที่มีการจัดการอย่างเต็มที่เพื่อเตรียมข้อมูลและสร้าง ฝึกอบรม และปรับใช้โมเดล ML สำหรับทุกกรณีใช้งาน โดยมีโครงสร้างพื้นฐาน เครื่องมือ และเวิร์กโฟลว์ที่ได้รับการจัดการอย่างเต็มรูปแบบ

ด้วย Amazon SageMaker JumpStart คุณสามารถเข้าถึงโมเดลที่ผ่านการฝึกอบรมและแบบรองพื้นฐาน (FM) และปรับแต่งให้เหมาะกับกรณีการใช้งานของคุณด้วยข้อมูลของคุณ SageMaker JumpStart นำเสนอโซลูชันแบบครบวงจรภายในการคลิกเพียงครั้งเดียวสำหรับกรณีการใช้งาน ML ทั่วไปจำนวนมาก คุณสามารถใช้งานเพื่อการจัดประเภทข้อความ การสรุปเอกสาร การจดจำลายมือ การแยกความสัมพันธ์ คำถามและการตอบ และการเติมค่าที่หายไปในข้อมูลบันทึกแบบตาราง

เริ่มต้นด้วยการจำแนกข้อความบน Amazon Web Services (AWS) โดย การสร้างบัญชี วันนี้