Chuyển đến nội dung chính

Kỹ thuật khai thác dữ liệu là gì?

Các kỹ thuật khai thác dữ liệu cho phép các tổ chức khám phá các kiểu mẫu và mối quan hệ tinh tế trong dữ liệu của họ. Các kỹ thuật này chuyển đổi dữ liệu thô thành kiến thức thực tế có thể được sử dụng để giải quyết vấn đề, phân tích tác động trong tương lai từ quyết định kinh doanh và tăng biên lợi nhuận. Hướng dẫn này khám phá các kỹ thuật khai thác dữ liệu khác nhau và cách triển khai chúng trên AWS.

Các tổ chức lưu trữ và xử lý khối lượng lớn thông tin từ các quy trình kinh doanh khác nhau. Khai thác dữ liệu giúp họ có được những thông tin chuyên sâu có giá trị từ dữ liệu lịch sử với mô hình dữ liệu và phân tích dự đoán. Khai thác dữ liệu hiện đại thường sử dụng trí tuệ nhân tạo và công nghệ máy học (AI/ML) để tăng tốc độ thu thập thông tin chuyên sâu về kinh doanh và thúc đẩy kết quả tốt hơn.

Tuy nhiên, các doanh nghiệp phải đối mặt với những thách thức khi thực hiện khám phá kiến thức với cơ sở hạ tầng tại chỗ. Cụ thể, họ cần tích hợp các công cụ khai thác dữ liệu với các nguồn dữ liệu đa dạng, kết nối với các ứng dụng của bên thứ ba và thông báo cho các bên liên quan khác nhau về kết quả, điều mà cơ sở hạ tầng thông thường làm với chi phí đắt đỏ.

AWS cung cấp các dịch vụ được quản lý giúp các tổ chức điều chỉnh quy mô quy trình khai thác dữ liệu của họ trên đám mây. Chúng tôi kết hợp khả năng khai thác dữ liệu mạnh mẽ, chuyên môn về AI tạo sinh và các phương pháp quản trị dữ liệu tốt nhất với Amazon SageMaker. Điều này cho phép các nhà khoa học dữ liệu hợp nhất dữ liệu từ các nguồn khác nhau, chạy các truy vấn phân tích dữ liệu phức tạp và giám sát dữ liệu theo các chính sách bảo mật hiệu quả hơn.

Bên cạnh việc cải thiện luồng dữ liệu, các tổ chức có thể cung cấp phân tích nâng cao với mức giá phải chăng hơn mà không cần phải cung cấp cơ sở hạ tầng của riêng họ. Ví dụ: Lennar đã chuyển đổi nền tảng dữ liệu của mình bằng cách sử dụng Studio hợp nhất của Amazon SageMakerLakehouse của Amazon SageMaker, cho phép đội ngũ dữ liệu của họ có được thông tin chuyên sâu về kinh doanh hiệu quả hơn.

Tiếp theo, chúng tôi sẽ giải thích các kỹ thuật khai thác dữ liệu khác nhau, cùng với cách các công cụ AWS có thể hỗ trợ chúng.

Hoạt động tiền xử lý dữ liệu được sử dụng như thế nào trong khai thác dữ liệu?

Quá trình tiền xử lý dữ liệu chuyển đổi dữ liệu thô thành định dạng có thể hiểu được bằng các mạng nơ-ron khai thác dữ liệu. Đây là một phần quan trọng trong khai thác dữ liệu vì nó ảnh hưởng đáng kể đến hiệu năng của mô hình dữ liệu. Thông thường, dữ liệu thô có thể chứa lỗi, trùng lặp và thông tin bị thiếu có thể ảnh hưởng tiêu cực đến kết quả của mô hình. Với tiền xử lý dữ liệu, bạn có thể dọn dẹp dữ liệu và loại bỏ những bất thường như vậy. Ngoài ra, các nhà khoa học dữ liệu có thể chọn các tính năng cụ thể để đóng góp vào thông tin chuyên sâu về kinh doanh và loại bỏ thông tin không cần thiết. Ví dụ: Khi dự đoán tỷ lệ rời bỏ của khách hàng, bạn chọn các tính năng như mức sử dụng trung bình hàng tháng, ngày đăng nhập cuối cùng và tần suất yêu cầu hỗ trợ. Chúng tôi gọi tính năng này là kỹ thuật, cho phép bạn giảm tài nguyên điện toán cần để khai thác dữ liệu.

Amazon SageMaker Data Wrangler là công cụ chuẩn bị dữ liệu giúp bạn cải thiện chất lượng dữ liệu và sau đó là kết quả phân tích. Bạn có thể sử dụng Amazon SageMaker Data Wrangler trên nhiều nguồn dữ liệu khác nhau được kết nối với quy trình dữ liệu của bạn. Thay vì dành hàng giờ để dọn dẹp dữ liệu, Amazon SageMaker Data Wrangler thực hiện điều đó trong vài phút, nhờ cách tiếp cận không dùng mã. Dưới đây là cách chuẩn bị dữ liệu cho mô hình máy học của bạn với SageMaker Data Wrangler.

Bước 1 – Chọn và truy vấn

Sử dụng trình tạo truy vấn trực quan để truy cập và truy xuất văn bản, hình ảnh và dữ liệu dạng bảng trên AWS và bộ lưu trữ của bên thứ ba. Sau đó, áp dụng các nội dung phát hiện trong báo cáo chất lượng dữ liệu để phát hiện các bất thường như giá trị ngoại lai, mất cân bằng lớp và rò rỉ dữ liệu.

Bước 2 – Làm sạch và làm phong phú

Biến đổi dữ liệu của bạn với các biến đổi PySpark được dựng sẵn và giao diện bằng ngôn ngữ tự nhiên. Amazon SageMaker Data Wrangler hỗ trợ các biến đổi dữ liệu phổ biến, bao gồm véc-tơ hóa văn bản, tạo tính năng dữ liệu ngày/giờ, mã hóa và cân bằng dữ liệu. Ngoài ra, bạn có thể dễ dàng tạo các biến đổi tùy chỉnh để hỗ trợ trường hợp sử dụng của mình.

Bước 3 – Trực quan hóa và hiểu

Xác thực dữ liệu được chuẩn bị bằng biểu đồ, sơ đồ và các công cụ trực quan khác. Sau đó, chạy phân tích nhanh để dự đoán kết quả của mô hình trước khi thực sự đào tạo một mô hình.

Phân tích dữ liệu thăm dò là gì?

Phân tích dữ liệu thăm dò (EDA) là một kỹ thuật khoa học dữ liệu cho phép các nhà khoa học dữ liệu khám phá các kiểu mẫu ẩn, xác định các mối quan hệ có ý nghĩa và phát hiện các điểm bất thường trong dữ liệu. Thông thường, EDA được dẫn dắt bởi các công cụ trực quan, chẳng hạn như biểu đồ tần suất, biểu đồ và đồ thị. Mục đích của EDA bắt nguồn từ việc cung cấp hướng dẫn cho quá trình phân tích dữ liệu tiếp theo. Ngoài ra, nó giúp các nhà khoa học dữ liệu loại bỏ giả định và thành kiến trong nhận định.

Nói đơn giản, EDA cung cấp bằng chứng có thể được quan sát thông qua lập mô hình thống kê và các kỹ thuật như phân tích chuỗi thời gian, phân tích không gian và biểu đồ phân tán. Tuy nhiên, việc thực hiện EDA đòi hỏi một bộ công cụ khai thác dữ liệu phải hoạt động cùng nhau một cách tích hợp. Việc thiết lập có thể tốn kém. 

Studio hợp nhất của Amazon SageMaker là một nền tảng dữ liệu và AI duy nhất cho phép đội ngũ của bạn xây dựng, triển khai và chia sẻ khối lượng công việc phân tích dữ liệu. Bạn có thể sử dụng nó để làm việc với các công cụ AI/ML, bộ lưu trữ và phân tích quen thuộc từ AWS, bao gồm Amazon EMR, AWS Glue, Amazon Athena, Amazon Redshift, Amazon BedrockAmazon SageMaker AI.

Dưới đây là những cách bạn có thể tăng tốc phân tích dữ liệu thăm dò (EDA) với Studio hợp nhất của Amazon SageMaker.

  • Đăng ký, quản lý và thiết lập quy tắc cho tài sản dữ liệu bạn muốn sử dụng trong các mô hình phân tích dữ liệu đào tạo.
  • Truy vấn dữ liệu được lưu trữ trong hồ dữ liệu, kho dữ liệu và các nguồn khác.
  • Tạo một quy trình làm việc với giao diện trực quan tích hợp để thêm các mô-đun chuyển đổi giữa các nguồn dữ liệu và đích.

Phân tích dự đoán trong khai thác dữ liệu là gì?

Phân tích dự đoán trong khai thác dữ liệu sử dụng các kiểu mẫu dữ liệu được phát hiện để dự báo kết quả trong tương lai. Để làm như vậy, dữ liệu được đưa vào các mô hình máy học, dựa trên kiến thức mà mô hình đã học, đưa ra dự đoán giúp các doanh nghiệp hỗ trợ quyết định của họ. Ví dụ: Các công ty tài chính sử dụng phân tích dự đoán để dự báo xu hướng thị trường, phát hiện gian lận và đánh giá rủi ro tín dụng.

Amazon SageMaker Canvas là một công cụ phát triển trực quan cho phép bạn đào tạo, kiểm thử và triển khai các mô hình dự đoán trên quy mô lớn. Nó cung cấp quyền truy cập vào các mô hình nền tảng và thuật toán máy học (ML) tùy chỉnh, cho phép tạo ra các dự đoán chính xác cho các trường hợp sử dụng khác nhau.

Ngoài ra, bạn có thể xây dựng toàn bộ quy trình làm việc dữ liệu bằng ngôn ngữ đàm thoại bằng Nhà phát triển Amazon Q. Đây là trợ lý AI tạo sinh cho phép bạn mô tả các tác vụ máy học và phân tích dữ liệu bằng ngôn ngữ hàng ngày. Sau đó, nó chuyển đổi mô tả của bạn thành truy vấn, tập lệnh SQL, các bước có thể thực hiện được, đề xuất mã, v.v. để giúp bạn làm việc với AI và dữ liệu hiệu quả hơn.

Dưới đây là các mô hình mà bạn có thể xây dựng và triển khai với Amazon SageMaker Canvas để kích hoạt phân tích dự đoán.

Phân loại

Các mô hình phân loại có thể gán nhãn cho dữ liệu chưa nhìn thấy trước đây dựa trên các đặc điểm mà chúng đã học được. Ví dụ:Hệ thống hỗ trợ khách hàng dựa trên AI có thể phân loại phản hồi là tích cực, tiêu cực hoặc trung lập bằng cách phân tích các từ trong cuộc trò chuyện. Amazon SageMaker Canvas hỗ trợ các mô hình phân loại cho các loại vấn đề khác nhau, bao gồm phân loại văn bản, phân loại hình ảnh, phát hiện bất thường và phát hiện đối tượng.

Khai thác quy tắc liên kết

Khai thác quy tắc liên kết (ARM) phát hiện mối quan hệ giữa các điểm dữ liệu và có thể được sử dụng để tăng cường quy trình phân tích dự đoán. Ví dụ: Bạn có thể sử dụng ARM để chạy phân tích giỏ thị trường và tìm ra những mặt hàng thường được mua cùng nhau tại siêu thị. Amazon SageMaker cho phép bạn tạo các thuật toán ARM tùy chỉnh của riêng mình bằng cách sử dụng các khung như Python và triển khai chúng trong quy trình làm việc AI/ML của bạn trên AWS.

Phân cụm

Phân cụm gián tiếp hỗ trợ phân tích dự đoán bằng cách nhóm dữ liệu dựa trên các thuộc tính tương tự lại với nhau. Ví dụ: Bạn có thể phân cụm khách hàng dựa trên giá trị chi tiêu trung bình. Sau đó, bạn có thể sử dụng khách hàng đã được phân khúc làm đặc trưng trong mô hình dự đoán. Để phân cụm dữ liệu, các nhà khoa học dữ liệu thường sử dụng thuật toán K-means. Amazon SageMaker sử dụng phiên bản sửa đổi của thuật toán K-means, mang lại kết quả chính xác hơn và khả năng điều chỉnh quy mô nâng cao.

Phát hiện sự bất thường

Các mô hình máy học có thể được đào tạo để phát hiện các giá trị ngoại lai trong các kiểu mẫu dữ liệu. Ví dụ: Nhà máy sử dụng các mô hình dự đoán để xác định các lỗi tiềm ẩn trong máy móc. Phát hiện bất thường hỗ trợ các hành động giảm thiểu chủ động, chẳng hạn như tiến hành bảo trì phòng ngừa để ngăn chặn tình trạng gián đoạn hoạt động.

Với Amazon SageMaker, bạn có thể phát hiện các kiểu mẫu bất thường bằng thuật toán Random Cut Forest, thuật toán này gán điểm thấp (bình thường) và cao (bất thường) cho dữ liệu.

Khai thác tài liệu là gì?

Khai thác tài liệu là một kỹ thuật máy học giúp phát hiện, trích xuất và phân tích văn bản, hình ảnh hoặc dữ liệu dạng bảng được tìm thấy trong tài liệu. Các tổ chức có thể giảm chi phí, nâng cao trải nghiệm của khách hàng và tăng hiệu quả hoạt động bằng cách áp dụng công nghệ khai thác dữ liệu vào các tài liệu mà họ lưu trữ. Ví dụ: Các công ty luật có thể tự động trích xuất các điều khoản cụ thể từ hợp đồng bằng cách sử dụng tính năng khai thác tài liệu.

Bạn có thể áp dụng các mô hình khai thác tài liệu sẵn sàng sử dụng với Amazon SageMaker Canvas. Các mô hình này được đào tạo trước, có nghĩa là bạn có thể tích hợp chúng vào quy trình khai thác dữ liệu của mình mà không cần tinh chỉnh thêm. Sau khi thiết lập, mô hình sẽ phân tích dữ liệu thô trong tài liệu để tìm các kiểu mẫu có ý nghĩa. Sau đó, mô hình sẽ trích xuất, phân loại hoặc gắn nhãn cho phù hợp.

Ví dụ: mô hình phát hiện thông tin cá nhân cho phép phát hiện thông tin như địa chỉ, số tài khoản ngân hàng và số điện thoại từ dữ liệu văn bản. Trong khi đó, mô hình phân tích chi phí truy xuất thông tin như số tiền, ngày tháng và các mục từ biên lai và hóa đơn.

Dưới đây là cách áp dụng các kỹ thuật khai thác tài liệu với Amazon SageMaker Canvas.

  1. Tạo miền SageMaker AI và bật các mô hình Canvas sẵn sàng sử dụng.
  2. Nhập tập dữ liệu tài liệu mà bạn muốn phân tích. Điều này cho phép bạn tạo một luồng dữ liệu.
  3. Chọn một mô hình khai thác dữ liệu để tạo dự đoán. Bạn có thể đưa ra dự đoán đơn lẻ hoặc hàng loạt từ thiết lập.

AWS có thể trợ giúp các kỹ thuật khai thác dữ liệu bằng cách nào?

Các kỹ thuật khai thác dữ liệu cho phép các doanh nghiệp khám phá những thông tin chuyên sâu có giá trị từ dữ liệu mà họ tạo ra, cho phép họ đưa ra quyết định sáng suốt. Khai thác dữ liệu thành công đòi hỏi một quy trình dữ liệu được hợp lý hóa, kết nối dữ liệu thô từ các nguồn đa dạng với các mô hình AI/ML mạnh mẽ.

Quy trình dữ liệu tự động hóa việc trích xuất, lưu trữ, làm sạch và chuyển đổi dữ liệu để đảm bảo các mô hình tiếp theo nhận được dữ liệu chất lượng cao và chính xác. Sau đó, bạn áp dụng nhiều loại kỹ thuật khai thác dữ liệu khác nhau để có được những thông tin chuyên sâu có ý nghĩa.

Khám phá Amazon SageMaker để đơn giản hóa quy trình làm việc dữ liệu phức tạp và nhận thông tin chuyên sâu mang tính dự đoán giúp mang lại kết quả kinh doanh tốt hơn.