Amazon SageMaker

Xây dựng, đào tạo và triển khai các mô hình machine learning ở quy mô lớn

Amazon SageMaker là nền tảng được quản lý toàn phần giúp các nhà phát triển và nhà khoa học dữ liệu nhanh chóng và dễ dàng xây dựng, huấn luyện và triển khai các mô hình machine learning có quy mô bất kỳ. Amazon SageMaker loại bỏ toàn bộ những rào cản thường gây cản trở cho nhà phát triển khi muốn sử dụng machine learning.

Đối với các nhà phát triển, machine learning thường có vẻ phức tạp hơn bản chất vốn có của nó do quá trình xây dựng và huấn luyện mô hình rồi triển khai vào sản xuất quá phức tạp và quá chậm. Trước hết, bạn cần thu thập và chuẩn bị dữ liệu huấn luyện để khám phá xem những yếu tố nào của bộ dữ liệu là yếu tố quan trọng. Sau đó, bạn cần chọn thuật toán và framework sẽ sử dụng. Sau khi quyết định phương pháp thực hiện, bạn cần dạy cho mô hình biết cách đưa ra dự đoán bằng cách huấn luyện, công việc này đòi hỏi rất nhiều năng lực điện toán. Sau đó, bạn cần tinh chỉnh để mô hình có khả năng đưa ra các dự đoán tốt nhất có thể, đây thường là công đoạn tẻ nhạt và phải thực hiện thủ công. Sau khi đã xây dựng mô hình được huấn luyện đầy đủ, bạn cần tích hợp mô hình với ứng dụng và triển khai ứng dụng này trên cơ sở hạ tầng sẽ thay đổi quy mô. Toàn bộ các công việc này đòi hỏi phải có rất nhiều kiến thức chuyên môn, khả năng tiếp cận lượng lớn năng lực điện toán và dung lượng lưu trữ cũng như rất nhiều thời gian thử nghiệm và tối ưu hóa từng phần của quá trình. Sau cùng, không có gì lạ khi hầu hết các nhà phát triển đều cảm thấy khó có thể tiếp cận được toàn bộ công trình này.

Amazon SageMaker sẽ loại bỏ sự phức tạp đang kìm hãm thành công của các nhà phát triển bằng từng bước sau đây. Amazon SageMaker có nhiều mô-đun có thể được sử dụng cùng nhau hoặc độc lập để xây dựng, huấn luyện và triển khai mô hình machine learning của bạn.

Giới thiệu Amazon SageMaker

Cách thức hoạt động

Xây dựng

Amazon SageMaker sẽ khiến việc xây dựng và chuẩn bị sẵn sàng các mô hình ML để huấn luyện trở nên dễ dàng bằng cách cung cấp mọi thứ bạn cần để nhanh chóng kết nối với dữ liệu huấn luyện của bạn, đồng thời chọn và tối ưu hóa thuật toán và framework tốt nhất cho ứng dụng của bạn. Amazon SageMaker gồm có các máy tính xách tay Jupyter có máy chủ lưu trữ giúp việc khám phá và trực quan hóa dữ liệu huấn luyện của bạn được lưu trữ trên Amazon S3 trở nên dễ dàng. Bạn có thể kết nối trực tiếp đến dữ liệu trên S3, hoặc sử dụng AWS Glue để di chuyển dữ liệu từ Amazon RDS, Amazon DynamoDB và Amazon Redshift sang S3 để phân tích trên máy tính xách tay của bạn.

Để giúp bạn chọn thuật toán, Amazon SageMaker cung cấp các thuật toán machine learning phổ biến nhất đã được cài đặt sẵn và tối ưu hóa để đem lại hiệu năng gấp 10 lần mà bạn sẽ được hưởng khi chạy các thuật toán này ở nơi khác. Amazon SageMaker cũng được cấu hình sẵn để chạy TensorFlow, Apache MXNet và Chainer trong bộ chứa Docker. Bạn cũng có thể tải các bộ chứa nguồn mở này xuống môi trường cục bộ và sử dụng SDK Python của Amazon SageMaker để kiểm thử tập lệnh ở chế độ cục bộ trước khi sử dụng Amazon SageMaker cho việc huấn luyện hoặc lưu trữ mô hình của bạn trong khâu sản xuất. Bạn cũng sẽ được cung cấp tùy chọn sử dụng framework riêng của bạn.

Huấn luyện

Bạn có thể bắt đầu huấn luyện mô hình chỉ bằng một cú nhấp chuột duy nhất trong bảng điều khiển Amazon SageMaker. Amazon SageMaker quản lý tất cả các cơ sở hạ tầng ngầm cho bạn và có thể dễ dàng thay đổi quy mô để huấn luyện các mô hình ở quy mô petabyte. Để giúp cho quá trình huấn luyện nhanh hơn và dễ dàng hơn nữa, Amazon SageMaker có thể tự động tinh chỉnh mô hình của bạn sao cho đạt được độ chính xác cao nhất có thể.

Triển khai

Sau khi mô hình của bạn đã được huấn luyện và tinh chỉnh, Amazon SageMaker có thể giúp cho việc triển khai vào khâu sản xuất trở nên dễ dàng để bạn có thể bắt đầu tạo các dự đoán (quy trình này được gọi là suy luận) đối với dữ liệu trong thời gian thực hoặc theo lô. Amazon SageMaker triển khai mô hình của bạn trên các cụm tự động thay đổi quy mô của phiên bản ML của Amazon SageMaker được trải đều trên nhiều vùng sẵn sàng để đem lại cả hiệu năng lẫn độ khả dụng. Amazon SageMaker cũng được tích hợp các năng lực kiểm thử A/B để giúp bạn kiểm thử mô hình và thử nghiệm với nhiều phiên bản khác nhau để đạt được kết quả tốt nhất.

Amazon SageMaker sẽ loại bỏ gánh nặng machine learning để bạn có thể xây dựng, huấn luyện và triển khai các mô hình machine learning một cách nhanh chóng và dễ dàng.

Lợi ích

Đưa vào sản xuất với machine learning một cách nhanh chóng

Amazon SageMaker giảm đáng kể lượng thời gian cần để huấn luyện, tinh chỉnh và triển khai các mô hình machine learning. Amazon SageMaker sẽ quản lý và tự động hóa toàn bộ các kỹ thuật huấn luyện và tinh chỉnh tinh vi để bạn có thể đưa mô hình vào sản xuất một cách nhanh chóng.

Chọn bất kỳ framework hoặc thuật toán nào

Amazon SageMaker hỗ trợ tất cả các thuật toán và framework máy để bạn có thể sử dụng công nghệ mà bạn vốn đã quen thuộc. Apache MXNet, TensorFlow và Chainer được cài đặt sẵn, đồng thời, Amazon SageMaker còn cung cấp nhiều thuật toán machine learning tích hợp sẵn có hiệu năng cao. Nếu muốn huấn luyện bằng framework hay thuật toán thay thế, bạn có thể đem theo framework hay thuật toán riêng của mình bằng bộ chứa Docker.

Huấn luyện và triển khai chỉ bằng một cú nhấp chuột

Amazon SageMaker cho phép bạn bắt đầu huấn luyện mô hình của mình chỉ bằng một cú nhấp chuột trên bảng điều khiển hoặc chỉ bằng một lệnh gọi API đơn giản. Khi quá trình huấn luyện hoàn thành và bạn đã sẵn sàng triển khai mô hình của mình, bạn có thể khởi chạy chỉ bằng một cú nhấp chuột duy nhất trong bảng điều khiển Amazon SageMaker.

Tích hợp dễ dàng vào quy trình công việc hiện có của bạn

Amazon SageMaker được thiết kế thành ba mô-đun có thể được sử dụng cùng nhau hoặc độc lập trong bất kỳ quy trình công việc ML hiện có nào mà bạn đã đưa vào sử dụng.

Truy cập dễ dàng các mô hình đã được huấn luyện

Amazon SageMaker giúp việc tích hợp các mô hình machine learning vào ứng dụng của bạn trở nên dễ dàng bằng cách cung cấp các điểm cuối HTTPS có thể được gọi từ bất kỳ ứng dụng nào.

Tối ưu hóa cho tốc độ

Amazon SageMaker được cấu hình sẵn với các phiên bản mới nhất của TensorFlow, Apache MXNet và Chainer, với hỗ trợ thư viện CUDA9 để đạt hiệu năng cao nhất với các GPU của NVIDIA. Với các phiên bản P3 của Amazon SageMaker chạy GPU Volta V100 của NVIDIA, Amazon SageMaker sẽ cho bạn khả năng huấn luyện các mô hình deep learning với tốc độ không đâu sánh bằng.

Khách hàng SageMaker

Huấn luyện bằng bất kỳ framework deep learning nào

Với Amazon SageMaker, bạn sẽ có thể sử dụng framework deep learning bạn chọn để huấn luyện mô hình. Chỉ cần đem theo bộ chứa Docker riêng của bạn với framework và các thư viện muốn sử dụng – ví dụ như Caffe2, PyTorch, Microsoft Cognitive Toolkit (CNTK), Chainer hay Torch – và Amazon SageMaker sẽ quản lý cơ sở hạ tầng ngầm để huấn luyện các mô hình của bạn.

TensorFlow
Caffe2
Apache MXNet
Chainer
Keras
Torch
Gluon
Microsoft Cognitive Toolkit
PyTorch

Trường hợp sử dụng

Xác định mục tiêu quảng cáo

Sử dụng Amazon SageMaker kết hợp với các dịch vụ AWS khác sẽ giúp tối ưu hóa lợi nhuận thu được từ nguồn vốn đã chi cho quảng cáo. Amazon SageMaker có thể dễ dàng huấn luyện và triển khai các mô hình machine learning giúp xác định mục tiêu các quảng cáo trực tuyến hiệu quả hơn, đem lại khả năng gắn kết với khách hàng và chuyển đổi khách hàng tốt hơn. Hệ thống gợi ý, dự đoán lượt nhấp chuột, phân đoạn khách hàng và mô hình nâng giá trị trọn đời, tất cả đều có thể được huấn luyện trong môi trường phân phối serverless của Amazon SageMaker. Sau khi được xây dựng, các mô hình có thể được lưu trữ một cách dễ dàng tại các điểm cuối tự động thay đổi quy mô và có độ trễ thấp hoặc chuyển sang cho các hệ thống đấu thầu thời gian thực khác.

Dự đoán lỗi tín dụng

Amazon SageMaker khiến cho việc dự đoán khả năng xảy ra lỗi tín dụng, vốn là vấn đề thường gặp ở machine learning. Amazon SageMaker được tích hợp chặt chẽ với các framework phân tích hiện có như Amazon Redshift, Amazon EMR và AWS Glue, cho phép bạn xuất bản các bộ dữ liệu lớn và đa dạng đến kho dữ liệu của Amazon S3, sau đó biến đổi chúng một cách nhanh chóng, xây dựng các mô hình machine learning và ngay lập tức lưu trữ lên máy chủ để thực hiện dự đoán trực tuyến.

Industrial IoT và machine learning

Industrial IoT và machine learning có thể đem lại khả năng thực hiện dự đoán thời gian thực để dự báo lỗi máy móc hoặc lập lịch bảo dưỡng, để đạt được mức độ hiệu quả cao hơn.  Có thể tạo bản nhân bản kỹ thuật số, bản sao hoặc tài sản vật lý, quy trình hoặc hệ thống dưới dạng mô hình để dự đoán cho công tác bảo dưỡng phòng ngừa hoặc để tối ưu hóa kết quả đầu ra của các loại máy móc phức tạp hoặc quy trình công nghiệp. Có thể liên tục cập nhật mô hình để "học hỏi" gần theo thời gian thực đối với mọi thay đổi có thể xảy ra.

Chuỗi cung ứng và dự báo nhu cầu

Amazon SageMaker cung cấp cơ sở hạ tầng và thuật toán cần để xây dựng dự báo doanh số độc lập cho từng sản phẩm trong các bối cảnh thương mại điện tử lớn nhất. Chỉ với chuỗi thời gian và dữ liệu danh mục sản phẩm, Amazon SageMaker có thể bắt kịp thời vụ, xu hướng và sự giống nhau trong sản phẩm để đưa ra dự báo chính xác, ngay cả với các mặt hàng mới.

Dự đoán lượt nhấp chuột

Amazon SageMaker cung cấp dịch vụ triển khai thuật toán XGboost máy đơn lẫn CPU được phân bổ. Dịch vụ này hữu ích trong nhiều trường hợp sử dụng phân loại, hồi quy và xếp hạng, ví dụ như dự đoán tỷ lệ nhấp chuột. Hệ thống dự đoán lượt nhấp chuột đóng vai trò trung tâm của hầu hết các hệ thống quảng cáo trực tuyến, do đây là hệ thống đóng vai trò tối quan trọng trong việc dự đoán tỷ lệ nhấp chuột (CTR) chính xác hết mức có thể để bảo đảm người tiêu dùng có được trải nghiệm tốt nhất. Bằng cách sử dụng thuật toán XGBoost, bạn có thể chạy bộ dự đoán thời gian thực và trả lại kết quả dự đoán theo điểm số. Sau đó, bạn có thể xác định xem có phục vụ quảng cáo từ bên quảng cáo cụ thể hay không và cải thiện khả năng dự đoán CTR đối với các quảng cáo hiển thị.

Dự đoán chất lượng nội dung

Amazon SageMaker có một số công cụ dùng để xử lý trước và tìm cấu trúc trong văn bản, rồi sử dụng thông tin đó để đưa ra dự đoán về chất lượng nội dung. Bạn có thể tạo các đoạn nhúng từ để tìm từ có ngữ nghĩa và cú pháp tương tự nhau trong các khối lượng văn bản lớn và nhóm lại các từ tương tự nhau để tránh bị rải rác. Sau đó, nhóm thành cụm các văn bản tương tự một cách độc lập bằng các mô hình chủ đề nâng cao của Amazon SageMaker. Cuối cùng, xây dựng các mô hình phân loại độc lập bằng cách nhóm thành cụm trên dữ liệu từ được nhóm theo kích thước để xác định xem văn bản nào cần được điều chỉnh.

Tìm hiểu thêm về Amazon SageMaker

Truy cập trang tính năng
Bạn đã sẵn sàng xây dựng chưa?
Bắt đầu với Amazon SageMaker