Phân tích văn bản là gì?

Phân tích văn bản là quá trình sử dụng hệ thống máy tính để đọc và hiểu văn bản do người viết để tìm kiếm thông tin chuyên sâu về kinh doanh. Phần mềm phân tích văn bản có thể tự phân loại, sắp xếp và trích xuất thông tin từ văn bản để xác định mẫu, mối quan hệ, quan điểm và những kiến thức hữu ích khác. Bạn có thể sử dụng phân tích văn bản để xử lý nhiều nguồn dựa trên văn bản một cách hiệu quả và chính xác như con người, chẳng hạn như email, tài liệu, nội dung trên mạng xã hội và đánh giá sản phẩm.

Tại sao phân tích văn bản lại quan trọng?

Các doanh nghiệp sử dụng phân tích văn bản để trích xuất thông tin chuyên sâu hữu ích từ nhiều nguồn dữ liệu phi cấu trúc. Những doanh nghiệp này dựa trên phản hồi từ các nguồn như email, mạng xã hội và câu trả lời khảo sát khách hàng để hỗ trợ việc đưa ra quyết định. Tuy nhiên, một số lượng đồ sộ văn bản từ những nguồn như vậy rõ ràng sẽ gây quá tải nếu không có phần mềm phân tích dữ liệu văn bản.

Với phân tích văn bản, bạn có thể nhận thông tin chính xác từ nhiều nguồn nhanh chóng hơn. Quá trình này hoàn toàn tự động và nhất quán, đồng thời hiển thị dữ liệu mà bạn có thể thao tác. Ví dụ: phần mềm phân tích văn bản cho phép bạn phát hiện ngay lập tức quan điểm tiêu cực từ các bài đăng trên mạng xã hội, từ đó bạn có thể bắt tay vào giải quyết vấn đề

Phân tích quan điểm

Phân tích quan điểm hay khai thác ý kiến sử dụng các phương pháp phân tích văn bản để hiểu được ý kiến truyền tải trong một đoạn văn bản. Bạn có thể sử dụng nội dung phân tích quan điểm từ các đánh giá, blog, diễn đàn và những phương tiện truyền thông trực tuyến khác để xác định xem khách hàng có hài lòng với giao dịch mua hay không. Phân tích quan điểm giúp phát hiện các xu hướng mới, theo dõi sự thay đổi quan điểm và giải quyết vấn đề PR. Bằng cách sử dụng phân tích quan điểm và xác định những từ khóa cụ thể, bạn có thể theo dõi sự thay đổi ý kiến của khách hàng và xác định nguyên nhân gốc rễ của vấn đề. 

Quản lý hồ sơ

Phân tích văn bản sẽ giúp bạn quản lý, phân loại và tìm kiếm tài liệu hiệu quả. Quá trình này bao gồm việc tự động hóa hoạt động quản lý hồ sơ bệnh nhân, theo dõi những nội dung đề cập đến thương hiệu và phát hiện gian lận bảo hiểm. Ví dụ: LexisNexis Legal & Professional sử dụng tính năng trích xuất văn bản để xác định các hồ sơ cụ thể trong số 200 triệu tài liệu.

Cá nhân hóa trải nghiệm của khách hàng

Bạn có thể sử dụng phần mềm phân tích văn bản để xử lý email, đánh giá, cuộc trò chuyện và các loại nội dung trao đổi dựa trên văn bản khác. Với thông tin chuyên sâu về sở thích, thói quen mua hàng và nhận thức chung về thương hiệu của khách hàng, bạn có thể điều chỉnh trải nghiệm cá nhân hóa cho các phân khúc khách hàng khác nhau. 

Phân tích văn bản hoạt động như thế nào?

Thành phần cốt lõi của phân tích văn bản là quá trình đào tạo phần mềm máy tính để liên kết các từ với những nghĩa cụ thể, cũng như để hiểu ngữ cảnh ngữ nghĩa của dữ liệu phi cấu trúc. Điều này tương tự như cách con người học một ngôn ngữ mới bằng cách liên kết các từ với đối tượng, hành động và cảm xúc. 

Phần mềm phân tích văn bản hoạt động trên nguyên tắc deep learning và kỹ thuật xử lý ngôn ngữ tự nhiên.

Deep learning

Trí tuệ nhân tạo là một lĩnh vực khoa học dữ liệu dạy máy tính suy nghĩ như con người. Máy học là một kỹ thuật trong trí tuệ nhân tạo sử dụng các phương pháp cụ thể để đào tạo máy tính. Học sâu là một phương pháp máy học chuyên môn hóa cao sử dụng các mạng nơ-ron hoặc cấu trúc phần mềm mô phỏng bộ não con người. Công nghệ deep learning hỗ trợ phần mềm phân tích văn bản, do đó các mạng này có thể đọc văn bản theo cách tương tự như bộ não con người.

Kỹ thuật xử lý ngôn ngữ tự nhiên

Kỹ thuật xử lý ngôn ngữ tự nhiên (NLP) là một nhánh của trí tuệ nhân tạo giúp máy tính có khả năng tự động rút ra ý nghĩa từ văn bản tự nhiên do người tạo ra. Kỹ thuật này sử dụng các mô hình và số liệu thống kê ngôn ngữ học để đào tạo công nghệ deep learning nhằm xử lý và phân tích dữ liệu văn bản, bao gồm cả những hình ảnh chứa văn bản viết tay. Các phương pháp NLP, chẳng hạn như nhận dạng ký tự quang học (OCR), chuyển đổi văn bản dạng hình ảnh thành tài liệu bằng cách tìm và hiểu những từ có trong hình ảnh.

Kỹ thuật phân tích văn bản có những loại nào?

Phần mềm phân tích văn bản sử dụng những kỹ thuật phổ biến sau đây.

Phân loại văn bản

Trong phân loại văn bản, phần mềm phân tích văn bản học cách liên kết những từ khóa nhất định với các chủ đề, ý định hoặc quan điểm người dùng cụ thể. Phần mềm thực hiện quá trình này bằng cách sử dụng các phương pháp sau: 

  • Trong phương pháp phân loại dựa trên quy tắc, văn bản được gán nhãn dựa trên các quy tắc định sẵn dành cho các thành phần ngữ nghĩa hoặc mẫu cú pháp.
  • Hệ thống dựa trên máy học hoạt động bằng cách đào tạo phần mềm phân tích văn bản với các ví dụ và tăng độ chính xác của quá trình gán nhãn văn bản. Hệ thống này sử dụng các mô hình ngôn ngữ học như Naive Bayes, Support Vector Machines và Deep Learning để xử lý dữ liệu có cấu trúc, phân loại từ và phát triển kiến thức ngữ nghĩa giữa các yếu tố này.

Ví dụ: một đánh giá tích cực thường chứa những từ như tốt, nhanh và tuyệt vời. Ngược lại, đánh giá tiêu cực có thể chứa những từ như không hài lòng, chậm và tệ. Các nhà khoa học dữ liệu đào tạo phần mềm phân tích văn bản để tìm kiếm những thuật ngữ cụ thể như vậy và phân loại đánh giá tích cực hoặc tiêu cực. Bằng cách này, đội ngũ hỗ trợ khách hàng có thể dễ dàng theo dõi quan điểm của khách hàng từ những đánh giá.

Trích xuất văn bản

Kỹ thuật trích xuất văn bản quét văn bản và rút ra thông tin chủ đạo. Kỹ thuật này có thể xác định các từ khóa, thuộc tính sản phẩm, tên thương hiệu, tên địa điểm cùng nhiều thông tin khác trong một đoạn văn bản. Phần mềm trích xuất ứng dụng các phương pháp sau:

  • Biểu thức chính quy (REGEX): Đây là một mảng các ký hiệu được định dạng và có vai trò như điều kiện tiên quyết của các yếu tố cần trích xuất.
  • Trường ngẫu nhiên có điều kiện (CRF): Đây là một phương pháp máy học trích xuất văn bản bằng cách đánh giá các mẫu hoặc cụm từ cụ thể. Phương pháp này được tinh chỉnh và linh hoạt hơn REGEX. 

Ví dụ: bạn có thể sử dụng kỹ thuật trích xuất văn bản để theo dõi những nội dung đề cập đến thương hiệu trên mạng xã hội. Việc theo dõi tất cả các lần thương hiệu của bạn xuất hiện trên mạng xã hội một cách thủ công là điều bất khả thi. Kỹ thuật truy xuất dữ liệu sẽ thông báo những nội dung đề cập đến thương hiệu của bạn trong thời gian thực. 

Tạo mô hình chủ đề

Phương pháp tạo mô hình chủ đề xác định và nhóm các từ khóa liên quan xuất hiện trong một văn bản phi cấu trúc thành một chủ đề hoặc đề tài. Các phương pháp này có thể đọc nhiều tài liệu văn bản và sắp xếp chúng thành các đề tài dựa trên tần suất của nhiều từ trong tài liệu. Phương pháp tạo mô hình chủ đề cung cấp ngữ cảnh cho quá trình phân tích sâu hơn các tài liệu.

Ví dụ: bạn có thể sử dụng phương pháp tạo mô hình chủ đề để đọc qua kho lưu trữ tài liệu đã quét và phân loại tài liệu thành hóa đơn, tài liệu pháp lý và thỏa thuận khách hàng. Sau đó, bạn có thể chạy những phương pháp phân tích khác nhau trên các hóa đơn để thu thập thông tin chuyên sâu về tài chính, hoặc trên những thỏa thuận khách hàng để thu thập thông tin chuyên sâu về khách hàng.

Biên tập PII

Biên tập PII tự động phát hiện và loại bỏ những thông tin nhận dạng cá nhân (PII) khỏi tài liệu, chẳng hạn như tên, địa chỉ hoặc số tài khoản. Kỹ thuật biên tập PII giúp bảo vệ quyền riêng tư và tuân thủ luật pháp cũng như quy định tại địa phương.

Ví dụ: bạn có thể phân tích các phiếu hỗ trợ và bài viết kiến thức để phát hiện và biên tập PII trước khi tạo chỉ mục cho các tài liệu trong giải pháp tìm kiếm. Sau đó, các giải pháp tìm kiếm sẽ không tìm thấy PII trong tài liệu.

Phân tích dữ liệu văn bản là gì?

Phân tích dữ liệu văn bản là dữ liệu mang tính định lượng mà bạn có thể thu được bằng cách phân tích các khuôn mẫu trong nhiều mẫu văn bản. Dữ liệu được hiển thị ở dạng biểu đồ, bảng hoặc đồ thị. 

Phân tích văn bản so với phân tích dữ liệu văn bản

Phân tích dữ liệu văn bản giúp bạn xác định xem liệu có một xu hướng hay mẫu cụ thể từ kết quả của quá trình phân tích hàng nghìn phản hồi hay không. Trong khi đó, bạn có thể sử dụng phân tích văn bản để xác định xem khách hàng phản hồi tích cực hay tiêu cực.

Phân tích văn bản có những giai đoạn nào?

Để triển khai phân tích văn bản, bạn cần tuân thủ quá trình có hệ thống bao gồm 4 giai đoạn.

Giai đoạn 1—Thu thập dữ liệu

Trong giai đoạn này, bạn sẽ thu thập dữ liệu văn bản từ các nguồn nội bộ hoặc bên ngoài.

Dữ liệu nội bộ

Dữ liệu nội bộ là nội dung văn bản nội bộ có sẵn trong doanh nghiệp bạn, ví dụ như email, cuộc trò chuyện, hóa đơn và bảng khảo sát nhân viên. 

Dữ liệu bên ngoài

Bạn có thể tìm dữ liệu bên ngoài từ những nguồn như các bài đăng trên mạng xã hội, đánh giá trực tuyến, bài viết tin tức và diễn đàn trực tuyến. Việc thu thập dữ liệu bên ngoài sẽ khó hơn vì điều này vượt quá tầm kiểm soát của bạn. Bạn có thể sẽ cần sử dụng các công cụ thu thập dữ liệu từ trang web hoặc tích hợp với các giải pháp bên thứ ba để trích xuất dữ liệu bên ngoài.

Giai đoạn 2—Chuẩn bị dữ liệu

Quá trình chuẩn bị dữ liệu là một phần quan trọng của hoạt động phân tích văn bản. Quá trình này bao gồm việc tạo cấu trúc cho dữ liệu văn bản thô ở một định dạng được chấp nhận cho quá trình phân tích. Phần mềm phân tích văn bản tự động hóa quá trình và bao gồm các phương pháp xử lý ngôn ngữ tự nhiên (NLP) phổ biến sau. 

Token hóa 

Token hóa là quá trình phân tách văn bản thô thành nhiều phần hợp lý về mặt ngữ nghĩa. Ví dụ: cụm từ text analytics benefits businesses (phân tích văn bản mang lại lợi ích cho doanh nghiệp) được token hóa thành các từ textanalyticsbenefits, và businesses.

Gán nhãn từ loại

Quá trình gán nhãn từ loại sẽ gán các nhãn ngữ pháp cho văn bản token hóa. Ví dụ: việc ứng dụng bước này vào các token được đề cập ở trên sẽ tạo ra như sau: text: Danh từ; analytics: Danh từ; benefits: Động từ; businesses: Danh từ.

Phân tích

Quá trình phân tích sẽ thiết lập mối liên kết có ý nghĩa giữa các từ được token hóa với ngữ pháp tiếng Anh. Quá trình này hỗ trợ phần mềm phân tích văn bản hiển thị trực quan mối quan hệ giữa các từ. 

Phục hồi nguyên thể từ 

Phục hồi nguyên thể từ là một quá trình giúp đơn giản hóa và biến các từ thành dạng từ điển hoặc bổ đề. Ví dụ: dạng từ điển của từ visualizing là visualize.

Loại bỏ từ dừng

Từ dừng là những từ cung cấp ít hoặc không cung cấp ngữ cảnh ngữ nghĩa cho câu, chẳng hạn như and (và), or (hoặc) và for (cho). Phần mềm có thể loại những từ này khỏi văn bản có cấu trúc dựa trên trường hợp sử dụng. 

Giai đoạn 3—Phân tích văn bản

Phân tích văn bản là phần cốt lõi của quá trình, trong đó phần mềm phân tích văn bản sẽ xử lý văn bản bằng cách sử dụng các phương pháp khác nhau. 

Phân loại văn bản

Phân loại là quá trình gán nhãn dữ liệu văn bản dựa trên các quy tắc hoặc các hệ thống dựa trên máy học.

Trích xuất văn bản

Quá trình trích xuất bao gồm việc xác định sự hiện diện của các từ khóa cụ thể trong văn bản và liên kết những từ này với các nhãn. Phần mềm sử dụng các phương pháp như biểu thức chính quy và trường ngẫu nhiên có điều kiện (CRF) để thực hiện quá trình này.

Giai đoạn 4—Hiển thị trực quan

Quá trình hiển thị trực quan liên quan đến việc biến kết quả phân tích văn bản thành một định dạng dễ hiểu. Bạn sẽ thấy kết quả phân tích dữ liệu văn bản ở dạng đồ thị, biểu đồ và bảng. Kết quả được hiển thị trực quan sẽ giúp bạn xác định các mẫu và xu hướng cũng như xây dựng kế hoạch triển khai. Ví dụ: giả sử số sản phẩm bị hoàn trả đang tăng đột biến, nhưng bạn lại không xác định được nguyên nhân. Với quá trình hiển thị trực quan, bạn sẽ có thể tìm kiếm các từ như khiếm khuyếtsai kích cỡ hay không vừa trong phần phản hồi và sắp xếp thành một biểu đồ. Sau đó, bạn sẽ biết đâu là nguyên nhân chính cần được ưu tiên xử lý. 

Khai thác văn bản là gì?

Khai thác văn bản là quá trình thu thập thông tin chuyên sâu định tính bằng cách phân tích văn bản phi cấu trúc. 

Phân tích văn bản so với khai thác văn bản

Giữa phân tích văn bản và khai thác văn bản không có sự khác biệt. Cả hai thuật ngữ đều đề cập đến cùng một quá trình thu thập thông tin chuyên sâu có giá trị từ các nguồn như email, câu trả lời khảo sát và bảng tin trên mạng xã hội.

Amazon Comprehend có thể hỗ trợ bằng cách nào?

Amazon Comprehend là dịch vụ xử lý ngôn ngữ tự nhiên sử dụng công nghệ máy học để phát hiện những thông tin chuyên sâu có giá trị và các mối liên kết trong văn bản. Bạn có thể sử dụng dịch vụ này để đơn giản hóa luồng công việc xử lý tài liệu bằng cách tự động phân loại và trích xuất thông tin từ các luồng này. Ví dụ: bạn có thể sử dụng Amazon Comprehend để thực hiện các tác vụ sau:

  • Tiến hành phân tích quan điểm trên các phiếu hỗ trợ khách hàng, đánh giá sản phẩm, bảng tin trên mạng xã hội và nhiều nguồn khác nữa. 
  • Tích hợp Amazon Comprehend với Amazon Lex để phát triển một hệ thống chatbot đàm thoại thông minh.
  • Trích xuất các thuật ngữ y học từ tài liệu và xác định mối quan hệ giữa các thuật ngữ này với Amazon Comprehend Medical.

Bắt đầu sử dụng bằng cách tạo tài khoản AWS ngay hôm nay.

Các bước tiếp theo trên AWS