Học máy được giám sát: Là gì, Algorithms với các ví dụ
Học máy được giám sát là gì?
Học máy được giám sát là một thuật toán học hỏi từ dữ liệu đào tạo được gắn nhãn để giúp bạn dự đoán kết quả cho dữ liệu không lường trước được. Trong Học có giám sát, bạn huấn luyện máy bằng cách sử dụng dữ liệu được “gắn nhãn” rõ ràng. Điều đó có nghĩa là một số dữ liệu đã được gắn thẻ với câu trả lời đúng. Nó có thể được so sánh với việc học với sự có mặt của người giám sát hoặc giáo viên.
Xây dựng, nhân rộng và triển khai thành công chính xác các mô hình học máy có giám sát cần có thời gian và chuyên môn kỹ thuật từ đội ngũ các nhà khoa học dữ liệu có tay nghề cao. Hơn thế nữa, Ngày nhà khoa học phải xây dựng lại mô hình để đảm bảo thông tin chi tiết được cung cấp vẫn đúng cho đến khi dữ liệu thay đổi.
Cách học có giám sát hoạt động
Học máy có giám sát sử dụng tập dữ liệu huấn luyện để đạt được kết quả mong muốn. Các bộ dữ liệu này chứa đầu vào và đầu ra chính xác giúp mô hình học nhanh hơn. Ví dụ: bạn muốn huấn luyện một cỗ máy giúp bạn dự đoán bạn sẽ mất bao lâu để lái xe từ nơi làm việc về nhà.
Tại đây, bạn bắt đầu bằng cách tạo một tập hợp dữ liệu được gắn nhãn. Dữ liệu này bao gồm:
- Điều kiện thời tiết
- Thời gian trong ngày
- Ngày lễ
Tất cả các chi tiết này là thông tin đầu vào của bạn trong ví dụ Học có giám sát này. Đầu ra là lượng thời gian lái xe về nhà vào ngày cụ thể đó.
Theo bản năng, bạn biết rằng nếu ngoài trời mưa thì bạn sẽ mất nhiều thời gian hơn để lái xe về nhà. Nhưng máy cần dữ liệu và số liệu thống kê.
Hãy xem một số ví dụ về Học có giám sát về cách bạn có thể phát triển mô hình học có giám sát trong ví dụ này để giúp người dùng xác định thời gian đi lại. Điều đầu tiên bạn cần tạo là một tập huấn luyện. Tập huấn luyện này sẽ chứa tổng thời gian đi lại và các yếu tố tương ứng như thời tiết, thời gian, v.v. Dựa trên tập huấn luyện này, máy của bạn có thể thấy có mối quan hệ trực tiếp giữa lượng mưa và thời gian bạn sẽ về nhà.
Vì vậy, nó chắc chắn rằng trời càng mưa, bạn sẽ phải lái xe để trở về nhà càng lâu. Nó cũng có thể thấy mối liên hệ giữa thời gian bạn tan sở và thời gian bạn di chuyển.
Càng gần 6 giờ chiều, bạn càng mất nhiều thời gian để về nhà. Máy của bạn có thể tìm thấy một số mối quan hệ với dữ liệu được gắn nhãn của bạn.
Đây là sự khởi đầu của Mô hình Dữ liệu của bạn. Nó bắt đầu ảnh hưởng đến việc mưa ảnh hưởng đến cách mọi người lái xe như thế nào. Người ta cũng bắt đầu thấy rằng có nhiều người đi du lịch hơn vào một thời điểm cụ thể trong ngày.
Các loại máy học được giám sát Algorithms
Sau đây là các loại thuật toán Học máy có giám sát:
Hồi quy
Kỹ thuật hồi quy dự đoán một giá trị đầu ra duy nhất bằng cách sử dụng dữ liệu huấn luyện.
Ví dụ: Bạn có thể sử dụng hồi quy để dự đoán giá nhà từ dữ liệu huấn luyện. Các biến đầu vào sẽ là địa phương, quy mô ngôi nhà, v.v.
Điểm mạnh: Các đầu ra luôn có cách diễn giải theo xác suất và thuật toán có thể được chính quy hóa để tránh khớp quá mức.
Điểm yếu:Hồi quy logistic có thể hoạt động kém khi có nhiều ranh giới quyết định hoặc không tuyến tính. Phương pháp này không linh hoạt, do đó không nắm bắt được các mối quan hệ phức tạp hơn.
Hồi quy logistic:
Phương pháp hồi quy logistic được sử dụng để ước tính các giá trị rời rạc dựa trên một tập hợp các biến độc lập đã cho. Nó giúp bạn dự đoán xác suất xảy ra sự kiện bằng cách khớp dữ liệu với hàm logit. Vì vậy, nó còn được gọi là hồi quy logistic. Vì nó dự đoán xác suất nên giá trị đầu ra của nó nằm trong khoảng từ 0 đến 1.
Dưới đây là một số loại hồi quy Algorithms
phân loại
Phân loại có nghĩa là nhóm đầu ra bên trong một lớp. Nếu thuật toán cố gắng gắn nhãn đầu vào thành hai lớp riêng biệt thì nó được gọi là phân loại nhị phân. Việc lựa chọn giữa nhiều hơn hai lớp được gọi là phân loại nhiều lớp.
Ví dụ: Xác định xem ai đó có phải là người không trả được nợ hay không.
Điểm mạnh: Cây phân loại hoạt động rất tốt trong thực tế
Điểm yếu: Không bị ràng buộc, các cây riêng lẻ có xu hướng bị trang bị quá mức.
Dưới đây là một số kiểu phân loại Algorithms
Bộ phân loại Naive Bayes
Mô hình Naive Bayesian (NBN) rất dễ xây dựng và rất hữu ích cho các tập dữ liệu lớn. Phương pháp này bao gồm các biểu đồ chu kỳ trực tiếp với một cha và một số con. Nó giả định sự độc lập giữa các nút con tách biệt khỏi nút cha của chúng.
Cây quyết định
Cây quyết định phân loại cá thể bằng cách sắp xếp chúng dựa trên giá trị đặc trưng. Trong phương pháp này, mỗi chế độ là một tính năng của một thể hiện. Nó phải được phân loại và mỗi nhánh đại diện cho một giá trị mà nút có thể đảm nhận. Đây là một kỹ thuật được sử dụng rộng rãi để phân loại. Trong phương pháp này, phân loại là một cây được gọi là cây quyết định.
Nó giúp bạn ước tính giá trị thực (chi phí mua ô tô, số lượng cuộc gọi, tổng doanh thu hàng tháng, v.v.).
Máy hỗ trợ vector
Máy vectơ hỗ trợ (SVM) là một loại thuật toán học được phát triển vào năm 1990. Phương pháp này dựa trên kết quả của lý thuyết học thống kê do Vap Nik giới thiệu.
Các máy SVM cũng được kết nối chặt chẽ với các hàm kernel, đây là khái niệm trung tâm của hầu hết các nhiệm vụ học tập. Kernel framework và SVM được sử dụng trong nhiều lĩnh vực khác nhau. Nó bao gồm việc truy xuất thông tin đa phương tiện, tin sinh học và nhận dạng mẫu.
Kỹ thuật học máy được giám sát và không giám sát
Dựa trên | Kỹ thuật học máy có giám sát | Kỹ thuật học máy không giám sát |
---|---|---|
Dữ liệu đầu vào | Algorithms được huấn luyện bằng cách sử dụng dữ liệu được dán nhãn. | Algorithms được sử dụng đối với dữ liệu không được gắn nhãn |
Độ phức tạp tính toán | Học có giám sát là một phương pháp đơn giản hơn. | Học không giám sát phức tạp về mặt tính toán |
tính chính xác | Phương pháp có độ chính xác cao và đáng tin cậy. | Less phương pháp chính xác và đáng tin cậy. |
Những thách thức trong học máy có giám sát
Dưới đây là những thách thức phải đối mặt trong học máy có giám sát:
- Tính năng nhập dữ liệu đào tạo hiện tại không liên quan có thể cho kết quả không chính xác
- Việc chuẩn bị và tiền xử lý dữ liệu luôn là một thách thức.
- Độ chính xác bị ảnh hưởng khi các giá trị không thể, khó xảy ra và không đầy đủ được nhập làm dữ liệu huấn luyện
- Nếu chuyên gia liên quan không có mặt thì cách tiếp cận khác là “bạo lực”. Điều đó có nghĩa là bạn cần nghĩ đến các tính năng phù hợp (biến đầu vào) để huấn luyện máy. Nó có thể không chính xác.
Ưu điểm của việc học có giám sát
Dưới đây là những ưu điểm của Học máy được giám sát:
- Học tập có giám sát trong Machine Learning cho phép bạn thu thập dữ liệu hoặc tạo ra dữ liệu đầu ra từ trải nghiệm trước đó
- Giúp bạn tối ưu hóa tiêu chí hiệu suất sử dụng kinh nghiệm
- Học máy được giám sát giúp bạn giải quyết nhiều loại vấn đề tính toán trong thế giới thực.
Nhược điểm của việc học có giám sát
Dưới đây là những nhược điểm của Học máy được giám sát:
- Ranh giới quyết định có thể bị đào tạo quá mức nếu tập huấn luyện của bạn không có ví dụ mà bạn muốn có trong một lớp
- Bạn cần chọn nhiều ví dụ hay từ mỗi lớp trong khi đào tạo bộ phân loại.
- Phân loại dữ liệu lớn có thể là một thách thức thực sự.
- Việc đào tạo học có giám sát cần rất nhiều thời gian tính toán.
Các phương pháp hay nhất cho việc học có giám sát
- Trước khi làm bất cứ điều gì khác, bạn cần quyết định loại dữ liệu nào sẽ được sử dụng làm tập huấn luyện
- Bạn cần quyết định cấu trúc của hàm đã học và thuật toán học.
- Thu thập các kết quả đầu ra tương ứng từ các chuyên gia con người hoặc từ các phép đo
Tổng kết
- Trong thuật toán Học có giám sát, bạn huấn luyện máy bằng cách sử dụng dữ liệu được “gắn nhãn” rõ ràng.
- Bạn muốn đào tạo một cỗ máy giúp bạn dự đoán bạn sẽ mất bao lâu để lái xe từ nơi làm việc về nhà là một ví dụ về Học tập có giám sát.
- Hồi quy và Phân loại là hai chiều của thuật toán Học máy được giám sát.
- Học có giám sát là phương pháp đơn giản hơn trong khi Học không giám sát là phương pháp phức tạp.
- Thách thức lớn nhất trong học tập có giám sát là tính năng đầu vào không liên quan hiện tại trong dữ liệu huấn luyện có thể cho kết quả không chính xác.
- Ưu điểm chính của học có giám sát là nó cho phép bạn thu thập dữ liệu hoặc tạo ra dữ liệu đầu ra từ trải nghiệm trước đó.
- Hạn chế của mô hình này là ranh giới quyết định có thể bị căng quá mức nếu tập huấn luyện của bạn không có các ví dụ mà bạn muốn có trong một lớp.
- Để thực hành tốt nhất việc giám sát việc học, trước tiên bạn cần quyết định loại dữ liệu nào sẽ được sử dụng làm tập huấn luyện.