Công nghệ máy học là gì?
Máy học là môn khoa học nhằm phát triển những thuật toán và mô hình thống kê mà các hệ thống máy tính sử dụng để thực hiện các tác vụ dựa vào khuôn mẫu và suy luận mà không cần hướng dẫn cụ thể. Các hệ thống máy tính sử dụng thuật toán máy học để xử lý khối lượng lớn dữ liệu trong quá khứ và xác định các khuôn mẫu dữ liệu. Việc này cho phép chúng dự đoán kết quả chính xác hơn từ cùng một tập dữ liệu đầu vào cho trước. Ví dụ: các nhà khoa học dữ liệu có thể đào tạo một ứng dụng y tế chẩn đoán ung thư từ ảnh chụp X-quang bằng cách lưu trữ hàng triệu ảnh quét và chẩn đoán tương ứng.
Tại sao công nghệ máy học lại quan trọng?
Máy học giúp các doanh nghiệp thúc đẩy phát triển, tạo ra các dòng thu nhập mới và giải quyết những vấn đề mang tính thách thức. Dữ liệu là động lực thúc đẩy tối quan trọng đằng sau các quyết định của doanh nghiệp nhưng theo truyền thống, các công ty sử dụng dữ liệu từ nhiều nguồn như phản hồi của khách hàng, nhân viên và bộ phận tài chính. Nghiên cứu của máy học giúp tự động hóa và tối ưu hóa quá trình này. Bằng cách sử dụng phần mềm phân tích khối lượng lớn dữ liệu ở tốc độ cao, các doanh nghiệp có thể đạt được kết quả nhanh hơn.
Công nghệ máy học hoạt động như thế nào?
Ý tưởng chính đằng sau công nghệ máy học là mối quan hệ toán học sẵn có giữa bất kỳ cách kết hợp dữ liệu đầu vào và kết quả nào. Mô hình máy học không biết trước mối quan hệ này, nhưng có thể dự đoán chúng nếu được cung cấp đủ tập dữ liệu. Điều này có nghĩa là tất cả các thuật toán máy học đều được xây dựng dựa trên hàm toán học có thể chỉnh sửa. Nguyên tắc cốt lõi có thể được hiểu như sau:
- Chúng ta “đào tạo” thuật toán bằng cách cho nó những cách kết hợp dữ liệu đầu vào/kết quả (i,o) - (2,10), (5,19) và (9,31)
- Thuật toán tính toán mối quan hệ giữa đầu vào và kết quả là: o=3*i+4
- Sau đó, chúng ta nhập dữ liệu đầu vào là 7 và yêu cầu thuật toán dự đoán kết quả. Thuật toán có thể tự động xác định kết quả là 25.
Mặc dù đây là cách hiểu cơ bản, máy học tập trung vào nguyên tắc rằng tất cả các điểm dữ liệu phức tạp có thể được kết nối về mặt toán học bởi các hệ thống máy tính, miễn là những hệ thống này có đủ dữ liệu và công suất điện toán để xử lý dữ liệu đó. Do vậy, độ chính xác của kết quả có mối tương quan trực tiếp với cường độ dữ liệu đầu vào.
Các trường hợp sử dụng máy học và ví dụ thực tế
Hãy cùng tìm hiểu về ứng dụng máy học trong một số ngành chính:
Sản xuất
Máy học có thể hỗ trợ bảo trì dự đoán, kiểm soát chất lượng và nghiên cứu đổi mới trong lĩnh vực sản xuất. Công nghệ máy học cũng giúp các công ty cải thiện giải pháp hậu cần, bao gồm quản lý tài sản, chuỗi cung ứng và kho hàng. Ví dụ: gã khổng lồ 3M trong ngành sản xuất sử dụng máy học để cải tiến giấy nhám. Thuật toán máy học giúp các nhà nghiên cứu của 3M phân tích những thay đổi nhỏ về hình dạng, kích thước và định hướng có thể cải thiện khả năng mài mòn và độ bền ra sao. Những gợi ý này cung cấp thông tin cho quá trình sản xuất.
Chăm sóc sức khỏe và khoa học đời sống
Sự phát triển như vũ bão của cảm biến và thiết bị có thể đeo được đã tạo ra một lượng lớn dữ liệu về sức khỏe. Các chương trình máy học phân tích thông tin này và hỗ trợ bác sĩ chẩn đoán và điều trị trong thời gian thực. Các nhà nghiên cứu máy học đang phát triển giải pháp phát hiện khối u ung thư và chẩn đoán những bệnh về mắt, tác động đáng kể tới kết quả chăm sóc sức khỏe con người. Ví dụ: Cambia Health Solutions sử dụng máy học để tự động hóa và tùy chỉnh phương pháp điều trị cho phụ nữ mang thai.
Dịch vụ tài chính
Các dự án máy học về tài chính giúp cải thiện khả năng phân tích rủi ro và quy định. Công nghệ máy học cho phép các nhà đầu tư xác định cơ hội mới bằng cách phân tích diễn biến của thị trường chứng khoán, đánh giá các quỹ phòng hộ hoặc hiệu chỉnh danh mục tài chính. Thêm vào đó, công nghệ máy học có thể giúp xác định các khách hàng vay nợ có rủi ro cao và giảm bớt dấu hiệu của hành vi lừa đảo. Ví dụ: NerdWallet, một công ty tài chính cá nhân, sử dụng máy học để so sánh các sản phẩm tài chính như thẻ tín dụng, ngân hàng và các khoản vay.
Bán lẻ
Ngành bán lẻ có thể sử dụng máy học để cải thiện dịch vụ khách hàng, quản lý hàng tồn kho, bán hàng gia tăng và tiếp thị đa kênh. Ví dụ: Amazon Fulfillment (AFT) giảm được 40% chi phí cơ sở hạ tầng bằng cách sử dụng mô hình máy học để xác định hàng tồn kho đặt sai chỗ. Việc này giúp họ thực hiện lời hứa của Amazon rằng một sản phẩm sẽ luôn có sẵn cho khách hàng và được giao đúng hẹn, mặc dù công ty phải xử lý hàng triệu chuyến hàng trên toàn cầu mỗi năm.
Truyền thông và giải trí
Các công ty giải trí tìm đến máy học để hiểu rõ hơn đối tượng mục tiêu của họ đồng thời cung cấp nội dung chân thực, được cá nhân hóa và theo nhu cầu của khách hàng. Thuật toán máy học được triển khai để giúp thiết kế trailer và các dạng quảng cáo khác, từ đó đề xuất nội dung được cá nhân hóa cho người tiêu dùng và thậm chí là hợp lý hóa quy trình sản xuất.
Ví dụ: Disney sử dụng công nghệ máy học để lưu trữ thư viện nội dung đa phương tiện của mình. Các công cụ máy học tự động gắn thẻ, mô tả và sắp xếp nội dung đa phương tiện, cho phép biên kịch và họa sĩ diễn hoạt của Disney nhanh chóng tìm kiếm và làm quen với các nhân vật của Disney.
Tầm nhìn máy tính
Thị giác máy tính là một công nghệ tự động nhận biết và mô tả hình ảnh một cách chính xác và hiệu quả. Ngày nay, các hệ thống máy tính có thể truy cập nhiều hình ảnh và video từ điện thoại thông minh, camera giao thông, hệ thống an ninh và các thiết bị khác. Ứng dụng thị giác máy tính sử dụng máy học để xử lý những dữ liệu này một cách chính xác nhằm xác định đối tượng và nhận diện khuôn mặt, cũng như phân loại, đề xuất, giám sát và phát hiện.
Ví dụ: CampSite là một nền tảng phần mềm hàng đầu cho các trại hè. Các trại của họ tải lên hàng nghìn hình ảnh hàng ngày để kết nối cha mẹ với trải nghiệm trại của con họ. Việc tìm kiếm hình ảnh của con cái tham gia trại đã trở thành một công việc tốn thời gian và gây khó chịu đối với cha mẹ. CampSite sử dụng máy học để tự động xác định hình ảnh và thông báo cho phụ huynh khi ảnh mới của con họ được tải lên.
Có các loại thuật toán máy học nào?
Các thuật toán có thể được phân loại theo 4 cách học tùy thuộc vào loại dữ liệu đầu vào và kết quả kỳ vọng.
- Máy học có giám sát
- Máy học không có giám sát
- Máy học nửa giám sát
- Máy học tăng cường
1. Máy học có giám sát
Các nhà khoa học dữ liệu cung cấp cho thuật toán dữ liệu đào tạo được gắn nhãn và xác định để đánh giá mối tương quan. Dữ liệu mẫu chỉ định cả đầu vào và kết quả của thuật toán. Ví dụ: Hình ảnh những chữ số viết tay được chú thích để chỉ ra số tương ứng với hình ảnh đó. Một hệ thống học có giám sát có thể nhận ra các cụm điểm ảnh và hình dạng liên quan tới mỗi số, nếu được cung cấp đủ ví dụ. Cuối cùng, hệ thống sẽ nhận ra các chữ số viết tay, có thể phân biệt giữa số 9 và 4 hoặc 6 và 8 một cách đáng tin cậy.
Ưu điểm của học có giám sát là tính đơn giản và thiết kế dễ dàng. Cách học này rất hữu ích khi dự đoán một số lượng kết quả có giới hạn, phân loại dữ liệu hoặc kết hợp các kết quả thu được từ 2 thuật toán máy học khác. Tuy nhiên, việc gắn nhãn hàng triệu tập dữ liệu không có nhãn lại là thách thức. Hãy cùng tìm hiểu kỹ hơn nội dung này:
Gắn nhãn dữ liệu là gì?
Gắn nhãn dữ liệu là quá trình phân loại dữ liệu đầu vào với giá trị kết quả được xác định tương ứng. Dữ liệu đào tạo được gắn nhãn là bắt buộc đối với cách học có giám sát. Ví dụ: hàng triệu hình ảnh táo và chuối sẽ cần được gắn thẻ bằng từ “táo” hoặc “chuối.” Sau đó, ứng dụng máy học có thể sử dụng dữ liệu đào tạo này để đoán tên loại hoa quả khi được cung cấp hình ảnh. Tuy nhiên, việc gắn nhãn hàng triệu dữ liệu mới có thể là một nhiệm vụ khó khăn và tốn nhiều thời gian. Các dịch vụ tìm kiếm nguồn lực từ đám đông như Amazon Mechanical Turk có thể vượt qua giới hạn này của thuật toán học có giám sát ở một mức độ nào đó. Những dịch vụ này cung cấp khả năng tiếp cận nguồn lao động giá rẻ rải rác khắp toàn cầu, giúp giảm bớt thách thức trong việc thu thập dữ liệu.
2. Máy học không có giám sát
Thuật toán học không có giám sát được đào tạo dựa trên dữ liệu không gắn nhãn. Các thuật toán này quét dữ liệu mới, cố gắng thiết lập kết nối có ý nghĩa giữa dữ liệu đầu vào và kết quả định sẵn. Chúng có thể phát hiện khuôn mẫu và phân loại dữ liệu. Ví dụ: thuật toán không có giám sát có thể nhóm các bài viết từ nhiều trang tin tức khác nhau theo các mục phổ biến như thể thao, hình sự, v.v. Chúng có thể dùng phương thức xử lý ngôn ngữ tự nhiên để thấu hiểu ý nghĩa và cảm xúc trong bài viết. Trong ngành bán lẻ, học không có giám sát có thể tìm khuôn mẫu trong các đơn mua hàng của khách và cung cấp kết quả phân tích dữ liệu, chẳng hạn như khách hàng có khả năng cao sẽ mua bánh mì nếu đã mua bơ.
Học không có giám sát rất hữu ích trong việc phát hiện khuôn mẫu và sự bất thường, cũng như tự động nhóm dữ liệu theo các hạng mục. Vì dữ liệu đào tạo không cần gắn nhãn nên việc thiết lập học không giám sát rất dễ dàng. Các thuật toán này cũng có thể được sử dụng để làm sạch và xử lý dữ liệu nhằm tự động dựng mô hình chuyên sâu hơn. Giới hạn của phương pháp này là thuật toán không thể đưa ra dự đoán chính xác. Thêm vào đó, phương pháp này không thể tự tách biệt một số loại kết quả dữ liệu cụ thể.
3. Máy học nửa giám sát
Đúng như tên gọi của mình, phương pháp này kết hợp cả học có giám sát lẫn không có giám sát. Kỹ thuật này dựa vào một lượng nhỏ dữ liệu được gắn nhãn và một lượng lớn dữ liệu không gắn nhãn để đào tạo các hệ thống. Đầu tiên, dữ liệu được gắn nhãn được sử dụng để đào tạo một phần thuật toán máy học. Sau đó, thuật toán đã được đào tạo một phần sẽ tự mình gắn nhãn cho dữ liệu chưa được gắn nhãn. Quá trình này được gọi là giả gắn nhãn. Mô hình sau đó được đào tạo lại bằng hỗn hợp dữ liệu kết quả mà không được lập trình cụ thể.
Ưu điểm của phương pháp này là bạn không cần một lượng lớn dữ liệu được gắn nhãn. Phương pháp này rất hữu ích khi làm việc với loại dữ liệu như các tài liệu dài và tốn quá nhiều thời gian để có người đọc và gắn nhãn.
4. Học tăng cường
Học tăng cường là phương pháp có giá trị thưởng được gắn với các bước khác nhau mà thuật toán phải trải qua. Mục tiêu của mô hình là tích lũy nhiều điểm thưởng hết mức có thể và cuối cùng sẽ đạt được mục tiêu cuối. Hầu hết các ứng dụng thực tiễn của học tăng cường trong thập niên vừa qua nằm trong lĩnh vực trò chơi điện tử. Các thuật toán học tăng cường tiên tiến đã đạt được những kết quả ấn tượng trong các trò chơi cổ điển và hiện đại, thường có kết quả vượt xa đối thủ con người của chúng.
Mặc dù phương pháp này hoạt động tốt nhất trong môi trường dữ liệu không chắc chắn và phức tạp, nó hiếm khi được triển khai trong bối cảnh kinh doanh. Phương pháp này không hiệu quả trong các tác vụ được xác định rõ và thiên kiến của nhà phát triển có thể ảnh hưởng tới kết quả. Vì nhà khoa học dữ liệu là người thiết kế phần thưởng, họ có thể tác động tới kết quả.
Mô hình máy học có mang tính tất định không?
Nếu kết quả của một hệ thống có thể dự đoán được, hệ thống đó được coi là có tính tất định. Hầu hết các ứng dụng phần mềm sẽ phản hồi một cách có dự đoán với hành động của người dùng, vậy nên bạn có thể nói: “Nếu người dùng làm việc A, anh ta sẽ nhận được kết quả B.” Tuy nhiên, thuật toán máy học học hỏi thông qua việc quan sát và rút kinh nghiệm. Do vậy, về bản chất, chúng mang tính xác suất. Câu trên giờ chuyển thành: “Nếu người dùng làm việc A, có X% xác suất việc B sẽ xảy ra.”
Trong máy học, tính tất định là một chiến lược được sử dụng khi áp dụng các phương pháp học được mô tả ở trên. Bất kỳ phương pháp đào tạo nào dù có giám sát, không có giám sát hay phương pháp khác đều có thể mang tính tất định, tùy thuộc vào kết quả mong muốn của doanh nghiệp. Câu hỏi nghiên cứu, quyết định về truy xuất dữ liệu, cấu trúc và lưu trữ sẽ quyết định việc chiến lược tất định hay không tất định sẽ được áp dụng.
Cách tiếp cận tất định so với cách tiếp cận xác suất
Cách tiếp cận tất định tập trung vào độ chính xác và khối lượng dữ liệu thu thập được, vậy nên hiệu quả sẽ được ưu tiên so với tính không chắc chắn. Mặt khác, quy trình không tất định (hay xác suất) được thiết kế để quản lý yếu tố xác suất. Các công cụ có sẵn được tích hợp vào thuật toán máy học để giúp định lượng, xác định và đo lường tính không chắc chắn trong quá trình học và quan sát.
Deep learning là gì?
Deep learning là một loại hình kỹ thuật máy học được xây dựng mô phỏng theo não người. Thuật toán deep learning phân tích dữ liệu bằng cấu trúc logic tương tự như logic của con người. Deep learning sử dụng các hệ thống thông minh được gọi là mạng nơ-ron nhân tạo để xử lý thông tin theo lớp. Dữ liệu đi từ lớp đầu vào này, qua nhiều lớp mạng nơ-ron ẩn “sâu” trước khi tới được lớp kết quả. Các lớp ẩn bổ sung hỗ trợ năng lực học vượt xa những mô hình máy học tiêu chuẩn.
Mạng nơ-ron nhân tạo là gì?
Các lớp deep learning là các nút mạng nơ-ron nhân tạo (ANN) hoạt động giống như nơ-ron thần kinh của con người. Các nút có thể là sự kết hợp giữa phần cứng và phần mềm. Mỗi lớp trong một thuật toán deep learning được tạo thành từ các nút ANN. Mỗi nút, hay nơ-ron nhân tạo, kết nối với một nút khác và có số giá trị liên kết cũng như số ngưỡng. Nút gửi đi số giá trị dưới dạng dữ liệu đầu vào cho nút của lớp tiếp theo khi được kích hoạt. Nút chỉ được kích hoạt nếu kết quả của nó vượt trên giá trị ngưỡng được chỉ định. Nếu không, dữ liệu sẽ không được truyền đi.
Thị giác máy tính là gì?
Thị giác máy tính là ứng dụng thực tế của deep learning. Tương tự như trí tuệ nhân tạo giúp máy tính suy nghĩ, thị giác máy tính cho phép máy tính nhìn, quan sát và phản hồi. Xe ô tô tự lái sử dụng thị giác máy tính để “đọc” các biển báo giao thông. Camera của xe ô tô ghi lại ảnh biển báo. Sau đó, ảnh này được gửi tới thuật toán deep learning trong xe. Lớp ẩn đầu tiên phát hiện các cạnh, lớp tiếp theo phân biệt màu, trong khi lớp thứ ba xác định chi tiết chữ cái trên biển báo. Thuật toán dự đoán rằng biển báo ghi STOP (DỪNG) và xe ô tô sẽ phản hồi bằng cách kích hoạt cơ chế phanh.
Máy học và deep learning có giống nhau không?
Deep learning là một lĩnh vực “con” của máy học. Thuật toán deep learning có thể được coi như phiên bản tiến hóa tinh vi và phức tạp về mặt toán học của thuật toán máy học.
Máy học và trí tuệ nhân tạo có giống nhau không?
Câu trả lời đơn giản là không. Mặc dù thuật ngữ Máy học và Trí tuệ nhân tạo (AI) có thể được dùng thay thế cho nhau, chúng không giống nhau. Trí tuệ nhân tạo là thuật ngữ bao trùm cho các chiến lược và kỹ thuật khác nhau được sử dụng để biến các cỗ máy trở nên giống người hơn. AI bao gồm tất cả mọi thứ từ trợ lý thông minh như Alexa đến robot hút bụi và xe ô tô tự lái. Máy học là một trong nhiều nhánh của Trí tuệ nhân tạo. Mặc dù máy học là AI, không phải tất cả các hoạt động AI đều có thể được gọi là máy học.
Máy học và khoa học dữ liệu có giống nhau không?
Không, máy học và khoa học dữ liệu không giống nhau. Khoa học dữ liệu là lĩnh vực nghiên cứu sử dụng cách tiếp cận khoa học để trích xuất ý nghĩa và thông tin chuyên sâu từ dữ liệu. Các nhà khoa học dữ liệu sử dụng một loạt các công cụ để phân tích dữ liệu, trong đó có máy học. Các nhà khoa học dữ liệu hiểu rõ bức tranh toàn cảnh xung quanh dữ liệu như mô hình kinh doanh, miền và thu thập dữ liệu, trong khi máy học là quy trình điện toán chỉ xử lý dữ liệu thô.
Ưu điểm và khuyết điểm của máy học là gì?
Hãy cùng tìm hiểu những việc máy học có thể và không thể làm được:
Ưu điểm của mô hình máy học:
- Có thể xác định xu hướng và khuôn mẫu dữ liệu mà con người có thể bỏ qua.
- Có thể làm việc mà không cần con người can thiệp sau khi thiết lập. Ví dụ: máy học trong phần mềm an ninh mạng có thể liên tục giám sát và xác định điểm bất thường trong lưu lượng mạng mà không cần dữ liệu đầu vào từ quản trị viên.
- Kết quả của máy học có thể chính xác hơn theo thời gian.
- Có thể xử lý nhiều định dạng dữ liệu trong môi trường dữ liệu linh hoạt, khối lượng lớn và phức tạp.
Nhược điểm của mô hình máy học:
- Quá trình đào tạo ban đầu tốn kém và cần nhiều thời gian. Khó có thể triển khai nếu không có đủ dữ liệu.
- Là quy trình nặng về điện toán yêu cầu đầu tư lớn lúc đầu nếu phần cứng được thiết lập ngay trong tổ chức.
- Diễn giải chính xác kết quả và loại bỏ tính không chắc chắn mà không có chuyên gia hỗ trợ có thể là thách thức lớn.
Amazon Machine Learning có thể giúp ích ra sao?
AWS cung cấp máy học cho mọi nhà phát triển, nhà khoa học dữ liệu và người dùng doanh nghiệp. Dịch vụ Amazon Machine Learning cung cấp cơ sở hạ tầng có năng suất cao, tiết kiệm chi phí và có thể mở rộng quy mô để đáp ứng nhu cầu của doanh nghiệp.
Mới bắt đầu?
Tìm hiểu máy học với các thiết bị giáo dục thực hành của chúng tôi như AWS DeepRacer, AWS DeepComposer và AWS DeepLens.
Đã có kho lưu trữ dữ liệu?
Sử dụng tính năng Ghi nhãn dữ liệu trên Amazon SageMaker cho các quy trình công việc gắn nhãn dữ liệu được tích hợp sẵn, hỗ trợ video, hình ảnh và văn bản.
Đã có hệ thống Máy học?
Sử dụng Amazon SageMaker Clarify để phát hiện thiên kiến và Trình gỡ lỗi của Amazon SageMaker để giám sát và tối ưu hóa hiệu suất.
Muốn triển khai deep learning?
Sử dụng tính năng Đào tạo phân tán trên Amazon SageMaker để tự động đào tạo các mô hình học sâu cỡ lớn. Đăng ký một tài khoản miễn phí để bắt đầu hành trình máy học của bạn ngay hôm nay!