Thiết kế tính năng là gì?

Các tính năng mô hình là những dữ liệu đầu vào mà các mô hình máy học (ML) sử dụng trong lúc đào tạo và suy luận để đưa ra dự đoán. Độ chính xác của mô hình máy học dựa vào một tập dữ liệu chính xác và sự kết hợp của nhiều tính năng. Ví dụ: trong một ứng dụng ML đề xuất danh sách nhạc, các tính năng có thể bao gồm đánh giá bài hát, bài hát đã nghe trước đó và thời gian nghe nhạc. Việc tạo những tính năng này đòi hỏi nhiều công sức thiết kế. Thiết kế tính năng bao gồm việc trích xuất và chuyển đổi các biến từ dữ liệu thô như bảng giá, mô tả sản phẩm và khối lượng hàng bán để bạn có thể sử dụng các tính năng đào tạo và dự đoán. Các bước cần tiến hành để thiết kế tính năng bao gồm trích xuất và làm sạch dữ liệu, tiếp đến là tạo tính năng và lưu trữ.

Thiết kế tính năng có những thách thức nào?

Thiết kế tính năng là hoạt động khó khăn vì nó bao hàm việc kết hợp giữa phân tích dữ liệu, kiến thức về nghiệp vụ kinh doanh và cả trực giác. Khi tạo tính năng, bạn có thể muốn sử dụng ngay dữ liệu sẵn có nhưng thông thường, bạn nên bắt đầu từ việc cân nhắc xem cần dùng đến dữ liệu gì bằng cách thảo luận với các chuyên gia, tìm kiếm ý tưởng và nghiên cứu qua bên thứ ba. Nếu không thực hiện quá trình này, bạn có thể bỏ sót những biến số dự đoán quan trọng.

Trích xuất dữ liệu

Thu thập dữ liệu là quá trình tập hợp tất cả các dữ liệu mà bạn cần cho ML. Thu thập dữ liệu có thể là công việc tẻ nhạt vì dữ liệu nằm trong nhiều nguồn dữ liệu, gồm có trong máy tính xách tay, kho dữ liệu, đám mây, bên trong các ứng dụng và trên các thiết bị. Việc tìm cách để kết nối với các nguồn dữ liệu khác nhau có thể là một thử thách. Khối lượng dữ liệu cũng tăng theo cấp số nhân, vì vậy sẽ phải tìm kiếm trong rất nhiều dữ liệu. Thêm vào đó, dữ liệu có rất nhiều định dạng và loại khác nhau tùy thuộc vào nguồn dữ liệu. Ví dụ: dữ liệu video và dữ liệu dạng bảng rất khó để sử dụng cùng nhau.

Tạo tính năng

Ghi nhãn dữ liệu là quá trình xác định dữ liệu thô (hình ảnh, tệp văn bản, video, v.v.) và thêm một hoặc nhiều nhãn có nghĩa và chứa thông tin hữu ích để cung cấp ngữ cảnh giúp cho mô hình ML có thể học hỏi từ đó. Ví dụ: nhãn có thể cho biết ảnh chụp con chim hay ô tô, những từ nào được phát ra trong bản ghi âm hoặc liệu ảnh chụp X quang có điều gì bất thường hay không. Bắt buộc cần ghi nhãn dữ liệu trong nhiều trường hợp sử dụng, như thị giác máy tính, xử lý ngôn ngữ tự nhiên và nhận diện giọng nói.

Lưu trữ tính năng

Sau khi làm sạch và ghi nhãn dữ liệu, các đội ngũ ML thường xem xét dữ liệu để đảm bảo dữ liệu đã chính xác và đã sẵn sàng sử dụng cho ML. Các công cụ trực quan như biểu đồ tần suất, biểu đồ phân tán, biểu đồ dạng hộp, biểu đồ đường thẳng và biểu đồ cột đều rất hữu ích để xác minh rằng dữ liệu chính xác. Thêm vào đó, việc trực quan hóa cũng giúp các đội ngũ khoa học dữ liệu hoàn thành việc phân tích dữ liệu thăm dò. Quá trình này sử dụng công cụ trực quan hóa để khám phá các mẫu, phát hiện điểm bất thường, thử nghiệm một giả thuyết hoặc kiểm tra các giả định. Việc phân tích dữ liệu thăm dò không yêu cầu tạo mô hình chính thức; thay vào đó, các đội ngũ khoa học dữ liệu có thể sử dụng công cụ trực quan hóa để giải mã dữ liệu. 

AWS có thể hỗ trợ thiết kế tính năng bằng cách nào?

Với Amazon SageMaker Data Wrangler, bạn có thể sử dụng một giao diện trực quan để đơn giản hóa quy trình thiết kế tính năng. Thông qua công cụ lựa chọn dữ liệu SageMaker Data Wrangler, bạn có thể chọn dữ liệu thô mà bạn muốn dùng từ nhiều nguồn dữ liệu khác nhau rồi nhập dữ liệu chỉ với một cú nhấp. SageMaker Data Wrangler bao gồm hơn 300 phép chuyển đổi dữ liệu tích hợp, vì vậy bạn có thể chuẩn hóa, chuyển đổi và kết hợp các tính năng một cách nhanh chóng mà không cần viết bất cứ đoạn mã nào. Sau khi dữ liệu của bạn đã được chuẩn bị, bạn có thể dựng các luồng công việc ML tự động hóa hoàn toàn với Quy trình của Amazon SageMaker và lưu lại để tái sử dụng trong Cửa hàng tính năng của Amazon SageMaker. Cửa hàng tính năng của SageMaker là một kho chuyên dụng, là nơi bạn có thể lưu trữ và truy cập các tính năng để việc đặt tên, sắp xếp và tái sử dụng chúng giữa các đội ngũ được dễ dàng hơn. Cửa hàng tính năng của SageMaker cung cấp một cửa hàng tính năng hợp nhất trong quá trình đào tạo và suy luận theo thời gian thực mà không cần phải viết thêm mã hay tạo quy trình thủ công để duy trì sự nhất quán cho các tính năng.

Các bước tiếp theo trên AWS

Tham khảo các tài nguyên bổ sung liên quan đến sản phẩm
Khả năng hỗ trợ của AWS đối với Thiết kế tính năng 
Đăng ký tài khoản miễn phí

Nhận ngay quyền sử dụng Bậc miễn phí của AWS.

Đăng ký 
Bắt đầu xây dựng trong bảng điều khiển

Bắt đầu xây dựng trong AWS Management Console.

Đăng nhập