Chuyển đến nội dung chính

Xử lý ngôn ngữ tự nhiên (NLP) là gì?

Xử lý ngôn ngữ tự nhiên (NLP) là công nghệ cho phép máy tính diễn giải, thao tác và hiểu ngôn ngữ của con người. Các tổ chức ngày nay có khối lượng lớn dữ liệu thoại và văn bản từ nhiều kênh liên lạc khác nhau như email, tin nhắn văn bản, bảng tin trên mạng xã hội, tệp video, tệp âm thanh và nhiều hơn nữa. Xử lý ngôn ngữ tự nhiên là chìa khóa trong việc phân tích dữ liệu này để có những thông tin chuyên sâu về kinh doanh có thể thực hiện được. Các tổ chức có thể phân loại, sắp xếp, lọc và hiểu ý định hoặc cảm xúc ẩn trong dữ liệu ngôn ngữ. Xử lý ngôn ngữ tự nhiên là một tính năng chính của tự động hóa dựa trên AI và hỗ trợ giao tiếp giữa máy và con người theo thời gian thực.

Tại sao NLP lại quan trọng?

Xử lý ngôn ngữ tự nhiên được tích hợp trong hầu hết tất cả các quy trình công việc tự động hóa hiện đại liên quan đến giao tiếp của con người. Mọi chatbot bạn tương tác đều được hỗ trợ bởi xử lý ngôn ngữ tự nhiên, cũng như hầu hết các công cụ AI. Khi thế giới tạo ra nhiều dữ liệu văn bản và giọng nói phi cấu trúc hơn bao giờ hết, NLP cho phép các doanh nghiệp biến giao tiếp thành một lợi thế cạnh tranh.

Lịch sử

NLP bắt nguồn từ những năm 1950, khi các nhà nghiên cứu lần đầu tiên thử nghiệm dịch máy. Một trong những cột mốc sớm nhất là thí nghiệm Georgetown-IBM vào năm 1954, tự động dịch 60 câu tiếng Nga sang tiếng Anh.

Các công nghệ NLP trở nên phổ biến trong những năm 1990 và đầu những năm 2000 với các ứng dụng như lọc thư rác, phân loại tài liệu và chatbot cơ bản. Tuy nhiên, bước ngoặt đã đến vào những năm 2010 với sự trỗi dậy của các mô hình học sâu. Họ đã sử dụng kiến trúc mạng nơ-ron để phân tích chuỗi dữ liệu, giúp phân tích các khối văn bản lớn hơn. Các tổ chức có thể sử dụng NLP để mở khóa thông tin chuyên sâu ẩn chứa trong email, phản hồi của khách hàng, phiếu hỗ trợ và bài đăng trên mạng xã hội.

NLP trong AI

Công nghệ AI tạo sinh đánh dấu một bước đột phá lớn trong xử lý ngôn ngữ tự nhiên. Phần mềm giờ đây có thể phản hồi một cách sáng tạo, vượt ra ngoài xử lý đơn thuần để tạo ra ngôn ngữ tự nhiên. Tác tử AI với khả năng NLP có thể tóm tắt các cuộc họp, soạn thảo email và dịch các cuộc hội thoại theo thời gian thực.

Có những trường hợp sử dụng NLP nào dành cho doanh nghiệp?

Các công ty sử dụng xử lý ngôn ngữ tự nhiên cho một số tác vụ tự động, chẳng hạn như:

  • Xử lý, phân tích và lưu trữ các tài liệu lớn.
  • Phân tích phản hồi của khách hàng hoặc bản ghi âm của tổng đài
  • Chạy chatbot cho dịch vụ khách hàng tự động
  • Trả lời các câu hỏi về người, sự vật, thời gian, địa điểm
  • Phân loại và trích xuất văn bản

Các doanh nghiệp sử dụng phần mềm và công cụ xử lý ngôn ngữ tự nhiên (NLP) để đơn giản hóa, tự động hóa và hợp lý hóa các hoạt động một cách hiệu quả và chính xác. Dưới đây là ví dụ về một số trường hợp sử dụng.

Biên tập dữ liệu nhạy cảm

Các doanh nghiệp trong lĩnh vực bảo hiểm, pháp lý và chăm sóc sức khỏe xử lý, sắp xếp và truy xuất khối lượng lớn các tài liệu nhạy cảm như hồ sơ y tế, dữ liệu tài chính và thông tin cá nhân. Thay vì xem xét thủ công, các công ty sử dụng công nghệ NLP để chỉnh sửa thông tin nhận dạng cá nhân và bảo vệ dữ liệu nhạy cảm. Ví dụ: Chisel AI giúp các hãng bảo hiểm trích xuất số hợp đồng, ngày hết hạn và các thông tin cá nhân khác của khách hàng từ những tài liệu phi cấu trúc bằng Amazon Comprehend.

Tương tác với khách hàng

Công nghệ NLP giúp chatbot cũng như bot thoại giao tiếp giống con người hơn khi trò chuyện với khách hàng. Các doanh nghiệp sử dụng chatbot để tăng cường khả năng và chất lượng dịch vụ khách hàng đồng thời vẫn giữ được chi phí hoạt động ở mức tối thiểu. PubNub, công ty phát triển phần mềm chatbot, sử dụng Amazon Comprehend để giới thiệu chức năng trò chuyện được bản địa hóa cho các khách hàng toàn cầu của họ. T-Mobile sử dụng NLP để xác định các từ khóa cụ thể trong tin nhắn văn bản của khách hàng và đưa ra các đề xuất được cá nhân hóa. Đại học bang Oklahoma triển khai giải pháp hỏi đáp bằng chatbot để giải đáp thắc mắc của sinh viên bằng công nghệ máy học.

Phân tích kinh doanh

Các nhà tiếp thị sử dụng những công cụ NLP như Amazon Comprehend và Amazon Lex để nắm được góc nhìn có cơ sở về cảm nhận của khách hàng đối với sản phẩm hoặc dịch vụ của công ty. Bằng cách quét các cụm từ cụ thể, họ có thể đánh giá tâm trạng và cảm xúc của khách hàng trong phản hồi bằng văn bản. Ví dụ: Success KPI cung cấp những giải pháp xử lý ngôn ngữ tự nhiên giúp các doanh nghiệp tập trung vào các lĩnh vực mục tiêu trong phân tích cảm xúc và hỗ trợ các tổng đài thu được thông tin chuyên sâu hữu ích từ phân tích cuộc gọi.

Có những phương thức nào để xử lý ngôn ngữ tự nhiên?

Dưới đây là một số phương thức tiếp cận phổ biến đối với kỹ thuật xử lý ngôn ngữ tự nhiên (NLP).

NLP có giám sát

Các phương pháp NLP có giám sát đào tạo phần mềm với một tập dữ liệu đầu vào và đầu ra được gắn nhãn hoặc đã biết. Trước tiên, chương trình sẽ xử lý khối lượng lớn dữ liệu đã biết và học cách tạo ra dữ liệu đầu ra chính xác từ bất kỳ dữ liệu đầu vào chưa xác định nào. Ví dụ: các công ty đào tạo những công cụ NLP để phân loại tài liệu theo nhãn cụ thể.

NLP không giám sát

NLP không giám sát sử dụng một mô hình ngôn ngữ thống kê để dự đoán mẫu xảy ra khi nó được cung cấp dữ liệu đầu vào không gắn nhãn. Ví dụ: tính năng tự động hoàn thành trong nhắn tin văn bản đề xuất các từ có liên quan tạo thành câu có nghĩa bằng cách theo dõi phản hồi của người dùng. 

Hiểu ngôn ngữ tự nhiên

Hiểu ngôn ngữ tự nhiên (NLU) là một nhánh con của NLP, tập trung vào việc phân tích ý nghĩa đằng sau các câu. NLU cho phép phần mềm tìm kiếm các câu đồng nghĩa khác nhau hoặc xử lý các từ có nhiều nghĩa khác nhau.

Tạo ngôn ngữ tự nhiên

Tạo ngôn ngữ tự nhiên (NLG) tập trung vào việc tạo ra văn bản hội thoại giống như con người dựa trên các từ khóa hoặc chủ đề cụ thể. Ví dụ: một chatbot thông minh với khả năng NLG có thể trò chuyện với khách hàng tương tự như nhân viên hỗ trợ khách hàng.

Tác vụ NLP là gì?

Các kỹ thuật xử lý ngôn ngữ tự nhiên (NLP), hay tác vụ NLP, chia nhỏ văn bản hoặc giọng nói của con người thành những phần nhỏ hơn mà các chương trình máy tính có thể dễ dàng hiểu được. Dưới đây là khả năng xử lý và phân tích văn bản thông thường trong NLP.

Gán nhãn từ loại

Đây là một quy trình mà phần mềm NLP gắn nhãn các từ riêng lẻ trong một câu dựa theo ngữ cảnh sử dụng, chẳng hạn như danh từ, động từ, tính từ hoặc trạng từ. Nó giúp máy tính hiểu được cách các từ ngữ hình thành mối quan hệ về nghĩa với nhau.

Xử lý nhập nhằng nghĩa của từ

Một số từ có thể truyền tải ý nghĩa khác nhau khi được sử dụng trong các tình huống khác nhau. Ví dụ, từ "bat" có nghĩa khác nhau trong những câu sau:

  • Dơi (bat) là loài sinh vật sống về đêm.
  • Các cầu thủ bóng chày sử dụng một cây gậy (bat) để vụt bóng.

Với xử lý nhập nhằng nghĩa của từ, phần mềm NLP xác định ý nghĩa chủ đích của một từ, hoặc bằng cách đào tạo mô hình ngôn ngữ của nó hoặc tham khảo định nghĩa trong từ điển.

Nhận dạng giọng nói

Nhận dạng giọng nói biến dữ liệu giọng nói thành văn bản. Quy trình này bao gồm việc chia các từ thành những phần nhỏ hơn và giọng văn dễ hiểu, luyến láy, ngữ điệu và lỗi sử dụng ngữ pháp không đúng chuẩn trong các cuộc hội thoại hàng ngày. Một ứng dụng quan trọng của nhận dạng giọng nói là chép lời, việc này có thể được thực hiện bằng các dịch vụ chuyển giọng nói sang văn bản như Amazon Transcribe.

Máy dịch

Phần mềm dịch máy sử dụng xử lý ngôn ngữ tự nhiên để chuyển đổi văn bản hoặc lời nói từ ngôn ngữ này sang ngôn ngữ khác mà vẫn giữ được độ chính xác theo ngữ cảnh. Amazon Translate là dịch vụ AWS hỗ trợ dịch máy.

Nhận dạng thực thể

Quy trình này xác định tên duy nhất cho con người, địa điểm, sự kiện, công ty và nhiều hơn nữa. Phần mềm NLP sử dụng nhận dạng thực thể có tên để xác định mối quan hệ giữa các thực thể khác nhau trong một câu.

Hãy xem xét ví dụ sau: “Jane đã đi nghỉ ở Pháp và cô ấy say mê các món ăn địa phương”.

Phần mềm NLP sẽ xác định được "Jane" và "Pháp" là các thực thể đặc biệt trong câu. Điều này có thể được mở rộng thêm bằng phân giải đồng tham chiếu, xác định xem các từ khác nhau có được sử dụng để mô tả cùng một thực thể hay không. Trong ví dụ trên, cả "Jane" và "cô ấy" đều nói đến cùng một người.

Phân tích cảm xúc

Phân tích cảm xúc là một phương thức tiếp cận dựa trên trí tuệ nhân tạo để diễn giải cảm xúc được truyền tải qua dữ liệu văn bản. Phần mềm NLP phân tích văn bản để tìm ra các từ hoặc cụm từ thể hiện cảm xúc không hài lòng, hạnh phúc, nghi ngờ, hối hận và những cảm xúc ẩn khác.

Các công nghệ trong NLP là gì?

Xử lý ngôn ngữ tự nhiên (NLP) kết hợp ngôn ngữ học điện toán, trí tuệ nhân tạo dự đoán và các mô hình học sâu để xử lý ngôn ngữ của con người.

Ngôn ngữ học điện toán

Ngôn ngữ học điện toán là lĩnh vực khoa học nghiên cứu và xây dựng các mô hình ngôn ngữ con người bằng những công cụ máy tính và phần mềm. Các nhà nghiên cứu sử dụng những phương pháp ngôn ngữ học điện toán, chẳng hạn như phân tích cú pháp và ngữ nghĩa, để tạo ra các khung giúp máy móc hiểu được ngôn ngữ hội thoại của con người. Các công cụ như trình chuyển ngữ, trình tổng hợp văn bản thành giọng nói và phần mềm nhận dạng giọng nói đều dựa trên ngôn ngữ học điện toán.

AI dự đoán

AI dự đoán, còn được gọi là máy học hoặc học sâu, là một công nghệ đào tạo máy tính với dữ liệu mẫu để thực hiện các tác vụ cụ thể. Lĩnh vực này liên quan đến một mạng nơ-ron bao gồm các nút xử lý dữ liệu được cấu trúc để phỏng theo bộ não người. Với học sâu, các máy tính nhận biết, phân loại và tìm mối tương quan giữa các mẫu phức tạp trong dữ liệu đầu vào.

Ngôn ngữ con người có một số đặc điểm như châm biếm, ẩn dụ, biến thể trong cấu trúc câu, cộng với các ngoại lệ về ngữ pháp và ngữ cảnh sử dụng mà con người phải mất nhiều năm để học. Các lập trình viên sử dụng những phương pháp dự đoán để dạy các ứng dụng NLP nhận biết và hiểu chính xác các đặc điểm này ngay từ đầu.

Các mạng nơ-ron truyền thống xử lý các chuỗi dữ liệu thường dùng mô hình kiến trúc bộ mã hóa/giải mã. Bộ mã hóa đọc và xử lý toàn bộ chuỗi dữ liệu đầu vào, chẳng hạn như một câu tiếng Anh, và chuyển đổi nó thành một dạng trình bày toán học nhỏ gọn. Dạng trình bày này là một bản tóm tắt nắm bắt bản chất của đầu vào. Sau đó, bộ giải mã thực hiện bản tóm tắt này và từng bước tạo ra chuỗi đầu ra. Đây có thể là cùng một câu trong ngôn ngữ khác, hoặc thông tin về ý định và cảm xúc của câu.

AI tạo sinh

Công nghệ AI tạo sinh sử dụng bộ chuyển đổi - mạng nơ-ron kết hợp cơ chế tự chú ý. Thay vì xử lý dữ liệu theo thứ tự, cơ chế cho phép mô hình xem xét các phần khác nhau của chuỗi cùng một lúc và xác định phần nào là quan trọng nhất.

Nhờ cơ chế tự chú ý, mô hình bộ chuyển đổi có thể học từ các tập dữ liệu lớn hơn và xử lý những văn bản rất dài, trong đó ngữ cảnh từ xa phía trước vẫn có thể ảnh hưởng đến ý nghĩa của những phần nội dung tiếp theo.

NLP hoạt động như thế nào?

Thông thường, việc triển khai NLP bắt đầu bằng cách thu thập và chuẩn bị dữ liệu văn bản hoặc giọng nói phi cấu trúc từ các nguồn như kho dữ liệu đám mây, khảo sát, email hoặc các ứng dụng quy trình kinh doanh nội bộ.

Xử lý trước

Phần mềm NLP sử dụng các kỹ thuật xử lý trước như token hóa, rút gọn từ, phục hồi nguyên thể từ và loại bỏ từ dừng để chuẩn bị dữ liệu cho các ứng dụng khác nhau.

Dưới đây là mô tả về các kỹ thuật này:

  • Token hóa chia nhỏ một câu thành các đơn vị từ hoặc cụm từ riêng lẻ.
  • Rút gọn từ và phục hồi nguyên thể từ đơn giản hóa các từ về dạng gốc của chúng. Ví dụ, các quá trình này biến từ “starting” về thành “start”.
  • Loại bỏ từ dừng đảm bảo rằng các từ không bổ sung thêm ý nghĩa đáng kể cho câu, chẳng hạn như “cho” và “với,” sẽ bị loại bỏ.

Đào tạo

Các nhà nghiên cứu sử dụng dữ liệu được xử lý trước và máy học để đào tạo các mô hình NLP nhằm thực hiện các ứng dụng cụ thể dựa trên thông tin văn bản được cung cấp. Đào tạo các thuật toán NLP đòi hỏi cung cấp cho phần mềm các mẫu dữ liệu lớn để tăng độ chính xác của thuật toán.

Triển khai và suy luận

Sau đó, các chuyên gia AI sẽ triển khai mô hình hoặc tích hợp nó vào một môi trường sản xuất hiện có. Mô hình NLP nhận dữ liệu đầu vào và đưa ra dự đoán cho trường hợp sử dụng cụ thể mà mô hình được thiết kế. Bạn có thể chạy ứng dụng NLP trên dữ liệu trực tiếp và thu được dữ liệu đầu ra theo yêu cầu.

AWS có thể hỗ trợ bạn với các tác vụ NLP như thế nào?

AWS cung cấp bộ dịch vụ trí tuệ nhân tạo bao quát nhất và hoàn thiện nhất cho khách hàng ở mọi cấp độ chuyên môn. Các dịch vụ này được kết nối với một tập hợp các nguồn dữ liệu toàn diện.

  • Amazon Comprehend giúp khám phá thông tin chuyên sâu và mối liên hệ trong văn bản
  • Amazon Transcribe  thực hiện nhận dạng giọng nói tự động
  • Amazon Translate dịch lưu loát văn bản, hỗ trợ hàng chục cặp ngôn ngữ
  • Amazon Polly biến văn bản thành giọng nói tự nhiên
  • Amazon Lex giúp xây dựng chatbot để tương tác với khách hàng
  • Amazon Kendra thực hiện tìm kiếm thông minh các hệ thống doanh nghiệp để nhanh chóng tìm thấy nội dung mà một người đang tìm kiếm

Bắt đầu sử dụng NLP bằng cách tạo tài khoản AWS ngay hôm nay.