Phân loại văn bản là gì?

Phân loại văn bản là quá trình gán các danh mục đã xác định trước cho các tài liệu văn bản kết thúc mở bằng cách sử dụng các hệ thống trí tuệ nhân tạo và máy học (AI/ML). Nhiều tổ chức có kho lưu trữ tài liệu lớn và quy trình công việc kinh doanh liên tục tạo tài liệu ở quy mô lớn – như tài liệu pháp lý, hợp đồng, tài liệu nghiên cứu, dữ liệu do người dùng tạo và email. Phân loại văn bản là bước đầu tiên để sắp xếp, lập cấu trúc và phân loại dữ liệu này để phân tích thêm. Quá trình này cho phép ghi nhãn và gắn thẻ tài liệu tự động. Từ đó, tổ chức của bạn có thể tiết kiệm hàng nghìn giờ mà nếu không có quá trình này, bạn cần phải đọc, hiểu và phân loại tài liệu theo cách thủ công.

Lợi ích của phân loại văn bản là gì?

Các tổ chức sử dụng mô hình phân loại văn bản vì những lý do sau.

Cải thiện độ chính xác

Các mô hình phân loại văn bản phân loại văn bản một cách chính xác mà không cần đào tạo thêm hoặc cần đào tạo ít. Các mô hình này giúp các tổ chức khắc phục lỗi mà con người có thể mắc phải khi phân loại dữ liệu văn bản theo cách thủ công. Hơn nữa, một hệ thống phân loại văn bản thì sẽ nhất quán hơn so với con người khi gán thẻ cho dữ liệu văn bản trên các chủ đề đa dạng. 

Cung cấp phân tích theo thời gian thực

Các tổ chức phải đối mặt với áp lực về thời gian khi xử lý dữ liệu văn bản trong thời gian thực. Với các thuật toán phân loại văn bản, bạn có thể truy xuất thông tin chuyên sâu hữu ích từ dữ liệu thô và hình thành các phản hồi ngay lập tức. Ví dụ: các tổ chức có thể sử dụng hệ thống phân loại văn bản để phân tích phản hồi của khách hàng và trả lời các yêu cầu cấp bách ngay lập tức.

Điều chỉnh quy mô tác vụ phân loại văn bản

Các tổ chức trước đây dựa vào các hệ thống thủ công hoặc hệ thống dựa trên quy tắc để phân loại tài liệu. Những phương pháp này rất chậm và tiêu thụ tài nguyên quá mức. Với phân loại văn bản bằng máy học, bạn có thể mở rộng công sức phân loại tài liệu giữa các phòng ban một cách hiệu quả hơn để hỗ trợ sự phát triển của tổ chức.

Dịch các ngôn ngữ

Các tổ chức có thể sử dụng bộ phân loại văn bản để phát hiện ngôn ngữ. Mô hình phân loại văn bản có thể phát hiện ngôn ngữ gốc trong các cuộc trò chuyện hoặc yêu cầu dịch vụ và chuyển chúng đến đội ngũ tương ứng.

Phân loại văn bản có các trường hợp sử dụng nào?

Các tổ chức sử dụng phân loại văn bản để cải thiện sự hài lòng của khách hàng, năng suất của nhân viên và kết quả kinh doanh. 

Phân tích cảm xúc

Phân loại văn bản cho phép các tổ chức quản lý thương hiệu của họ một cách hiệu quả trên nhiều kênh bằng cách trích xuất các từ cụ thể thể hiện cảm xúc của khách hàng. Sử dụng phân loại văn bản để phân tích cảm xúc cũng cho phép các nhóm tiếp thị dự đoán chính xác xu hướng mua hàng với dữ liệu định tính.

Ví dụ: bạn có thể sử dụng các công cụ phân loại văn bản để phân tích hành vi của khách hàng trong các bài đăng trên mạng xã hội, khảo sát, cuộc trò chuyện hoặc các tài nguyên văn bản khác và lên kế hoạch cho chiến dịch tiếp thị của bạn sao cho phù hợp.

Kiểm duyệt nội dung

Các doanh nghiệp phát triển đối tượng của họ trên các nhóm cộng đồng, mạng xã hội và diễn đàn. Việc điều chỉnh các cuộc thảo luận của người dùng là một thách thức khi dựa vào người kiểm duyệt là con người. Với mô hình phân loại văn bản, bạn có thể tự động phát hiện các từ, cụm từ hoặc nội dung có khả năng vi phạm nguyên tắc cộng đồng. Điều này cho phép bạn hành động ngay lập tức và đảm bảo các cuộc trò chuyện diễn ra trong một môi trường an toàn và được kiểm soát chặt chẽ. 

Quản lý tài liệu

Nhiều tổ chức phải đối mặt với những thách thức trong việc xử lý và phân loại tài liệu để hỗ trợ các hoạt động của doanh nghiệp. Một bộ phân loại văn bản có thể phát hiện thông tin bị thiếu, trích xuất các từ khóa cụ thể và xác định các mối quan hệ ngữ nghĩa. Bạn có thể sử dụng hệ thống phân loại văn bản để ghi nhãn và sắp xếp các tài liệu như tin nhắn, đánh giá và hợp đồng vào các danh mục tương ứng. 

Hỗ trợ khách hàng

Khách hàng mong nhận được phản hồi kịp thời và chính xác khi họ xin giúp đỡ từ các đội ngũ hỗ trợ. Bộ phân loại văn bản được hỗ trợ bằng máy học cho phép đội ngũ hỗ trợ khách hàng chuyển các yêu cầu đến tới nhân sự thích hợp. Ví dụ: bộ phân loại văn bản phát hiện từ trao đổi trong phiếu hỗ trợ và gửi yêu cầu đến bộ phận bảo hành.

Có những phương pháp phân loại văn bản nào?

Phân loại văn bản đã phát triển cực lớn như một tập hợp con của quá trình xử lý ngôn ngữ tự nhiên. Chúng tôi chia sẻ một số phương pháp mà các kỹ sư máy học sử dụng để phân loại dữ liệu văn bản. 

Suy luận ngôn ngữ tự nhiên

Suy luận ngôn ngữ tự nhiên xác định mối quan hệ giữa một giả thuyết và tiền đề bằng cách ghi nhãn chúng là kéo theo, đối lập hoặc trung lập. Kéo theo mô tả mối quan hệ logic giữa tiền đề và giả thuyết, trong khi đối lập cho thấy sự mất liên kết giữa các thực thể văn bản. Trung lập được áp dụng khi không tìm thấy quan hệ kéo theo cũng như đối lập. 

Ví dụ như hãy xem xét tiền đề sau:

Đội của chúng tôi là người chiến thắng giải vô địch bóng đá.

Đây là cách các giả thuyết khác nhau sẽ được gắn thẻ bởi bộ phân loại suy luận ngôn ngữ tự nhiên.

  • Kéo theo: Đội của chúng tôi thích chơi thể thao.
  • Đối lập: Chúng tôi là những người không tập luyện thể thao.
  • Trung lập: Chúng tôi vươn lên trở thành nhà vô địch bóng đá.

Lập mô hình ngôn ngữ xác suất

Lập mô hình ngôn ngữ xác suất là một phương pháp thống kê mà các mô hình ngôn ngữ sử dụng để dự đoán từ tiếp theo khi được cho một chuỗi từ. Sử dụng phương pháp này, mô hình gán một giá trị xác suất cho mỗi từ và tính toán khả năng của các từ sau. Khi áp dụng cho phân loại văn bản, lập mô hình ngôn ngữ xác suất phân loại tài liệu dựa trên các cụm từ cụ thể được tìm thấy trong văn bản. 

Nhúng từ

Nhúng từ là một kỹ thuật áp dụng biểu diễn số cho từ, nắm bắt các mối quan hệ ngữ nghĩa của chúng. Nhúng từ là dạng số tương đương của một từ. Các thuật toán máy học không thể phân tích văn bản một cách hiệu quả ở dạng ban đầu của chúng. Với việc nhúng từ, các thuật toán lập mô hình ngôn ngữ có thể so sánh các văn bản khác nhau bằng dạng nhúng của chúng.

Để sử dụng nhúng từ, bạn phải đào tạo một mô hình xử lý ngôn ngữ tự nhiên (NLP). Trong quá trình đào tạo, mô hình gán các từ liên quan với các biểu diễn số được sắp xếp vị trí một cách chặt chẽ trong một không gian đa chiều được gọi là ngữ nghĩa véc-tơ. 

Ví dụ: khi véc-tơ hóa văn bản bằng dạng nhúng, bạn sẽ thấy chómèo gần nhau hơn trong không gian véc-tơ hai chiều so với cà chua, ngườiđá. Bạn có thể sử dụng ngữ nghĩa vectơ để xác định văn bản tương tự trong dữ liệu không quen thuộc và dự đoán các cụm từ tiếp theo. Phương pháp này hữu ích trong phân loại cảm xúc, tổ chức tài liệu và các tác vụ phân loại văn bản khác. 

Mô hình ngôn ngữ lớn

Mô hình ngôn ngữ lớn (LLM) là các thuật toán học sâu được đào tạo trên khối lượng lớn dữ liệu văn bản. Chúng dựa trên kiến trúc biến đổi, một mạng nơ-ron với nhiều lớp ẩn có khả năng xử lý song song dữ liệu văn bản. Các mô hình ngôn ngữ lớn mạnh hơn các mô hình đơn giản hơn và vượt trội trong các tác vụ xử lý ngôn ngữ tự nhiên khác nhau, bao gồm phân loại văn bản.

Không giống như những mô hình tiền nhiệm, các mô hình ngôn ngữ lớn có thể phân loại văn bản mà không cần đào tạo trước. Chúng sử dụng phân loại bằng dữ liệu mới, một phương pháp cho phép mô hình phân loại dữ liệu văn bản chưa từng gặp thành các danh mục được xác định trước. Ví dụ: bạn có thể triển khai mô hình phân loại văn bản bằng dữ liệu mới trên Amazon Sagemaker Jumpstart để sắp xếp các bài đăng về kế hoạch cho năm mới thành các lớp nghề nghiệp, sức khỏe, tài chính và các lớp khác. 

Làm thế nào để đánh giá hiệu suất phân loại văn bản?

Trước khi triển khai bộ phân loại văn bản cho các ứng dụng doanh nghiệp, bạn phải đánh giá chúng để đảm bảo các công cụ này không bị chưa khớp. Chưa khớp là một hiện tượng mà thuật toán máy học hoạt động tốt trong khi đào tạo nhưng không thể phân loại dữ liệu thực tế một cách chính xác. Để đánh giá mô hình phân loại văn bản, chúng tôi sử dụng phương thức xác thực chéo. 

Xác thực chéo

Xác thực chéo là một kỹ thuật đánh giá mô hình chia dữ liệu đào tạo thành các nhóm nhỏ hơn. Mỗi nhóm sau đó được chia thành các mẫu để đào tạo và xác thực mô hình. Mô hình đầu tiên đào tạo với mẫu được phân bổ và được kiểm thử với mẫu còn lại. Sau đó, chúng tôi so sánh kết quả của mô hình với kết quả được chú thích bởi con người. 

Tiêu chí đánh giá

Chúng ta có thể đánh giá mô hình phân loại văn bản từ đánh giá theo một số tiêu chí.

  • Độ chính xác mô tả có bao nhiêu dự đoán chính xác mà bộ phân loại văn bản đã đưa ra so với tổng số dự đoán. 
  • Độ chuẩn xác phản ánh khả năng của mô hình trong việc dự đoán chính xác một lớp cụ thể một cách nhất quán. Một bộ phân loại văn bản chính xác hơn khi công cụ này tạo ra ít kết quả dương giả hơn. 
  • Độ phủ đo lường tính nhất quán của mô hình trong việc dự đoán thành công đúng lớp so với tất cả các dự đoán dương. 
  • Điểm F1 tính toán trung bình điều hòa của độ chuẩn xác và độ phủ để cung cấp một cái nhìn tổng quan cân bằng về độ chính xác của mô hình. 

Làm thế nào để triển khai phân loại văn bản?

Bạn có thể xây dựng, đào tạo và triển khai mô hình phân loại văn bản bằng cách làm theo các bước sau.

Tuyển chọn tập dữ liệu đào tạo

Chuẩn bị một tập dữ liệu chất lượng cao rất quan trọng khi đào tạo hoặc tinh chỉnh mô hình ngôn ngữ để phân loại văn bản. Một tập dữ liệu đa dạng và được gắn nhãn cho phép mô hình học cách xác định các từ, cụm từ hoặc kiểu mẫu cụ thể và các danh mục tương ứng của chúng một cách hiệu quả.

Chuẩn bị tập dữ liệu

Các mô hình máy học không thể học từ các tập dữ liệu thô. Do đó, bạn phải làm sạch và chuẩn bị tập dữ liệu bằng các phương pháp tiền xử lý như token hóa. Token hóa chia mỗi từ hoặc câu thành các phần nhỏ hơn được gọi là token.

Sau khi token hóa, bạn nên xóa dữ liệu dư thừa, trùng lặp và bất thường khỏi tập dữ liệu đào tạo vì những dữ liệu như vậy có thể ảnh hưởng đến hiệu suất của mô hình. Sau đó, bạn chia tập dữ liệu thành dữ liệu đào tạo và xác thực.

Đào tạo mô hình phân loại văn bản

Chọn và đào tạo một mô hình ngôn ngữ với tập dữ liệu đã chuẩn bị. Trong quá trình đào tạo, mô hình học từ tập dữ liệu được chú thích và cố gắng phân loại văn bản thành các danh mục tương ứng. Việc đào tạo hoàn tất khi mô hình hội tụ một cách nhất quán đến cùng một kết quả.

Đánh giá và tối ưu hóa

Đánh giá mô hình với tập dữ liệu kiểm thử. So sánh độ chuẩn xác, độ chính xác, độ phủ và điểm F1 của mô hình với các điểm quy chuẩn đã được thiết lập. Mô hình được đào tạo có thể yêu cầu tinh chỉnh thêm để giải quyết vấn đề quá khớp và các vấn đề khác về hiệu suất. Tối ưu hóa mô hình cho đến khi bạn đạt được kết quả hài lòng. 

Những thách thức trong phân loại văn bản là gì?

Các tổ chức có thể sử dụng các tài nguyên phân loại văn bản thương mại hoặc công khai để triển khai mạng nơ-ron bộ phân loại văn bản. Tuy nhiên, dữ liệu hạn chế có thể khiến việc tuyển chọn tập dữ liệu đào tạo trở nên khó khăn trong một số ngành nhất định. Ví dụ: các công ty chăm sóc sức khỏe có thể cần trợ giúp tìm nguồn tập dữ liệu về y tế để đào tạo một mô hình phân loại. 

Đào tạo và tinh chỉnh mô hình máy học rất tốn kém và tốn thời gian. Hơn nữa, mô hình có thể quá khớp hoặc chưa khớp, gây ra hiệu suất không nhất quán trong các trường hợp sử dụng thực tế. 

Bạn có thể xây dựng một bộ phân loại văn bản với các thư viện máy học nguồn mở. Tuy nhiên, bạn cần kiến thức máy học chuyên môn và nhiều năm kinh nghiệm phát triển phần mềm để đào tạo, lập trình và tích hợp công cụ phân loại này vào trong các ứng dụng doanh nghiệp.

AWS có thể giúp đáp ứng các yêu cầu phân loại văn bản của bạn như thế nào?

Amazon Comprehend là dịch vụ NLP sử dụng công nghệ máy học để phát hiện những thông tin chuyên sâu có giá trị và các mối liên kết trong văn bản. API Phân loại tùy chỉnh cho phép bạn dễ dàng xây dựng các mô hình phân loại văn bản tùy chỉnh bằng cách sử dụng các nhãn dành riêng cho doanh nghiệp mà không cần học về ML.

Ví dụ: tổ chức hỗ trợ khách hàng của bạn có thể sử dụng Phân loại tùy chỉnh để tự động phân loại các yêu cầu đến theo loại vấn đề dựa trên cách khách hàng mô tả vấn đề. Với mô hình tùy chỉnh của bạn, thật dễ dàng để kiểm duyệt các bình luận trên trang web, phân loại ưu tiên đối với phản hồi của khách hàng và sắp xếp các tài liệu nhóm làm việc.

Amazon SageMaker là một dịch vụ được quản lý toàn phần để chuẩn bị dữ liệu và xây dựng, đào tạo và triển khai các mô hình ML cho bất kỳ trường hợp sử dụng nào. Dịch vụ này có cơ sở hạ tầng, công cụ và quy trình làm việc được quản lý toàn phần.

Với Amazon SageMaker JumpStart, bạn có thể truy cập các mô hình nền tảng (FM) và được đào tạo sẵn cũng như tùy chỉnh các mô hình này tùy trường hợp sử dụng của bạn bằng dữ liệu của bạn. SageMaker JumpStart cung cấp các giải pháp toàn diện bằng một cú nhấp chuột cho nhiều trường hợp sử dụng ML phổ biến. Bạn có thể sử dụng dịch vụ này để phân loại văn bản, tóm tắt tài liệu, nhận dạng chữ viết tay, trích xuất mối quan hệ, hỏi và trả lời, cũng như điền các giá trị còn thiếu trong bản ghi dạng bảng.

Bắt đầu sử dụng phân loại văn bản trên Amazon Web Services (AWS) bằng cách tạo tài khoản ngay hôm nay.

Các bước tiếp theo trên AWS

Tham khảo các tài nguyên bổ sung liên quan đến sản phẩm
Tăng tốc độ đổi mới với các dịch vụ AI tạo sinh của AWS 
Đăng ký tài khoản miễn phí

Nhận ngay quyền sử dụng Bậc miễn phí của AWS.

Đăng ký 
Bắt đầu xây dựng trong bảng điều khiển

Bắt đầu xây dựng trong AWS Management Console.

Đăng nhập