Học tập có giám sát và không giám sát: Sự khác biệt giữa chúng

Sự khác biệt chính giữa học tập có giám sát và không giám sát

  • Trong Học có giám sát, bạn huấn luyện máy bằng cách sử dụng dữ liệu được “gắn nhãn” rõ ràng.
  • Học không giám sát là một kỹ thuật học máy, trong đó bạn không cần giám sát mô hình.
  • Học có giám sát cho phép bạn thu thập dữ liệu hoặc tạo ra dữ liệu đầu ra từ trải nghiệm trước đó.
  • Học máy không giám sát giúp bạn tìm thấy tất cả các loại mẫu chưa xác định trong dữ liệu.
  • Hồi quy và Phân loại là hai loại kỹ thuật học máy có giám sát.
  • Clustering và Association là hai loại học tập không giám sát.
  • Trong mô hình học có giám sát, các biến đầu vào và đầu ra sẽ được cung cấp trong khi với mô hình học không giám sát, chỉ có dữ liệu đầu vào sẽ được cung cấp

Học máy được giám sát là gì?

Trong Học có giám sát, bạn huấn luyện máy bằng cách sử dụng dữ liệu phù hợp “được dán nhãn.” Điều đó có nghĩa là một số dữ liệu đã được gắn thẻ với câu trả lời đúng. Nó có thể được so sánh với việc học tập diễn ra với sự có mặt của người giám sát hoặc giáo viên.

Thuật toán học có giám sát học từ dữ liệu đào tạo được gắn nhãn, giúp bạn dự đoán kết quả cho dữ liệu không lường trước được. Việc xây dựng, mở rộng quy mô và triển khai thành công mô hình Khoa học dữ liệu có giám sát chính xác cần có thời gian và chuyên môn kỹ thuật từ đội ngũ các nhà khoa học dữ liệu có tay nghề cao. Hơn nữa, Nhà khoa học dữ liệu phải xây dựng lại các mô hình để đảm bảo những hiểu biết sâu sắc được đưa ra vẫn đúng cho đến khi dữ liệu của nó thay đổi.

Học tập không giám sát là gì?

Học không giám sát là một kỹ thuật học máy, trong đó bạn không cần giám sát mô hình. Thay vào đó, bạn cần cho phép mô hình tự hoạt động để khám phá thông tin. Nó chủ yếu xử lý các dữ liệu chưa được ghi nhãn.

Thuật toán học không giám sát cho phép bạn thực hiện các tác vụ xử lý phức tạp hơn so với học có giám sát. Mặc dù học không giám sát có thể khó đoán hơn so với các phương pháp học tự nhiên khác như học sâu và học tăng cường.

Tại sao học tập có giám sát?

  • Học có giám sát cho phép bạn thu thập dữ liệu hoặc tạo ra dữ liệu đầu ra từ trải nghiệm trước đó.
  • Giúp bạn tối ưu hóa tiêu chí hiệu suất sử dụng kinh nghiệm
  • Học máy được giám sát giúp bạn giải quyết nhiều loại vấn đề tính toán trong thế giới thực.

Tại sao học tập không giám sát?

Dưới đây là những lý do chính để sử dụng Học tập không giám sát:

  • Học máy không giám sát tìm thấy tất cả các loại mẫu chưa biết trong dữ liệu.
  • Các phương pháp không giám sát giúp bạn tìm các tính năng có thể hữu ích cho việc phân loại.
  • Nó diễn ra trong thời gian thực nên tất cả dữ liệu đầu vào đều được phân tích và dán nhãn trước sự chứng kiến ​​​​của người học.
  • Việc lấy dữ liệu chưa được gắn nhãn từ máy tính sẽ dễ dàng hơn so với dữ liệu được gắn nhãn và cần có sự can thiệp thủ công.

Học tập có giám sát hoạt động như thế nào?

Ví dụ: bạn muốn huấn luyện một cỗ máy giúp bạn dự đoán bạn sẽ mất bao lâu để lái xe từ nơi làm việc về nhà. Tại đây, bạn bắt đầu bằng cách tạo một tập hợp dữ liệu được gắn nhãn. Dữ liệu này bao gồm

  • Điều kiện thời tiết
  • Thời gian trong ngày
  • Ngày lễ

Tất cả những thông tin chi tiết này là thông tin đầu vào của bạn. Đầu ra là thời gian lái xe về nhà vào ngày cụ thể đó.

Cách học có giám sát hoạt động
Cách học có giám sát hoạt động

Theo bản năng, bạn biết rằng nếu ngoài trời mưa thì bạn sẽ mất nhiều thời gian hơn để lái xe về nhà. Nhưng máy cần dữ liệu và số liệu thống kê.

Bây giờ hãy xem cách bạn có thể phát triển mô hình học tập có giám sát trong ví dụ này để giúp người dùng xác định thời gian đi lại. Điều đầu tiên bạn cần tạo là tập dữ liệu huấn luyện. Tập huấn luyện này sẽ chứa tổng thời gian đi lại và các yếu tố tương ứng như thời tiết, thời gian, v.v. Dựa trên tập huấn luyện này, máy của bạn có thể thấy có mối quan hệ trực tiếp giữa lượng mưa và thời gian bạn sẽ về nhà.

Vì vậy, nó chắc chắn rằng trời càng mưa, bạn sẽ phải lái xe để trở về nhà càng lâu. Nó cũng có thể thấy mối liên hệ giữa thời gian bạn tan sở và thời gian bạn di chuyển.

Càng gần 6 giờ chiều, bạn càng mất nhiều thời gian để về nhà. Máy của bạn có thể tìm thấy một số mối quan hệ với dữ liệu được gắn nhãn của bạn.

Giai đoạn học tập
Giai đoạn học tập

Đây là sự khởi đầu của Mô hình Dữ liệu của bạn. Nó bắt đầu ảnh hưởng đến việc mưa ảnh hưởng đến cách mọi người lái xe như thế nào. Người ta cũng bắt đầu thấy rằng có nhiều người đi du lịch hơn vào một thời điểm cụ thể trong ngày.

Học tập không giám sát hoạt động như thế nào?

Hãy lấy trường hợp của một em bé và con chó của gia đình cô ấy.

Học tập không giám sát hoạt động như thế nào
Học tập không giám sát hoạt động như thế nào

Cô ấy biết và nhận dạng được con chó này. Vài tuần sau, một người bạn của gia đình mang theo một con chó và cố gắng chơi với em bé.

Học tập không giám sát hoạt động như thế nào

Bé chưa từng nhìn thấy con chó này trước đây. Nhưng nó nhận ra nhiều đặc điểm (2 tai, mắt, đi bằng 4 chân) giống chú chó cưng của cô. Cô ấy xác định được một con vật mới như một con chó. Đây là cách học không giám sát, trong đó bạn không được dạy nhưng bạn học từ dữ liệu (trong trường hợp này là dữ liệu về một con chó.) Nếu đây là cách học có giám sát, người bạn của gia đình sẽ nói với đứa bé rằng đó là một con chó.

Các loại kỹ thuật học máy được giám sát

Các loại kỹ thuật học máy được giám sát
Các loại kỹ thuật học máy được giám sát

Hồi quy

Kỹ thuật hồi quy dự đoán một giá trị đầu ra duy nhất bằng cách sử dụng dữ liệu huấn luyện.

Ví dụ: Bạn có thể sử dụng hồi quy để dự đoán giá nhà từ dữ liệu huấn luyện. Các biến đầu vào sẽ là địa phương, quy mô ngôi nhà, v.v.

phân loại

Phân loại có nghĩa là nhóm đầu ra bên trong một lớp. Nếu thuật toán cố gắng gắn nhãn đầu vào thành hai lớp riêng biệt thì nó được gọi là phân loại nhị phân. Việc lựa chọn giữa nhiều hơn hai lớp được gọi là phân loại nhiều lớp.

Ví dụ: Xác định xem ai đó có phải là người không trả được nợ hay không.

Điểm mạnh: Các đầu ra luôn có cách diễn giải theo xác suất và thuật toán có thể được chính quy hóa để tránh khớp quá mức.

Điểm yếu:Hồi quy logistic có thể hoạt động kém khi có nhiều ranh giới quyết định hoặc không tuyến tính. Phương pháp này không linh hoạt, do đó không nắm bắt được các mối quan hệ phức tạp hơn.

Các loại kỹ thuật học máy không giám sát

Các vấn đề học tập không giám sát được nhóm lại thành các vấn đề phân cụm và liên kết.

Clustering

Clustering

Clustering là một khái niệm quan trọng khi nói đến học tập không giám sát. Nó chủ yếu đề cập đến việc tìm kiếm cấu trúc hoặc mẫu trong tập hợp dữ liệu chưa được phân loại. ClusterThuật toán ing sẽ xử lý dữ liệu của bạn và tìm các cụm (nhóm) tự nhiên nếu chúng tồn tại trong dữ liệu. Bạn cũng có thể sửa đổi số lượng cụm mà thuật toán của bạn cần xác định. Nó cho phép bạn điều chỉnh độ chi tiết của các nhóm này.

Hiệp hội

Quy tắc kết hợp cho phép bạn thiết lập liên kết giữa các đối tượng dữ liệu bên trong cơ sở dữ liệu lớn. Kỹ thuật không giám sát này nhằm khám phá các mối quan hệ thú vị giữa các biến trong cơ sở dữ liệu lớn. Ví dụ: những người mua nhà mới có nhiều khả năng mua đồ nội thất mới nhất.

Những ví dụ khác:

  • Một nhóm nhỏ bệnh nhân ung thư được nhóm lại theo số đo biểu hiện gen của họ
  • Nhóm người mua hàng dựa trên lịch sử duyệt và mua hàng của họ
  • Nhóm phim theo đánh giá của người xem phim

Sự khác biệt giữa học tập có giám sát và không giám sát

Học tập có giám sát và không giám sát
Học tập có giám sát và không giám sát
Thông số Kỹ thuật Kỹ thuật học máy có giám sát Kỹ thuật học máy không giám sát
Quy trình Trong mô hình học có giám sát, các biến đầu vào và đầu ra sẽ được đưa ra. Trong mô hình học không giám sát, chỉ có dữ liệu đầu vào mới được cung cấp
Dữ liệu đầu vào Algorithms được huấn luyện bằng cách sử dụng dữ liệu được dán nhãn. Algorithms được sử dụng đối với dữ liệu không được gắn nhãn
Algorithms Đã sử dụng Hỗ trợ máy vectơ, Mạng thần kinh, Hồi quy tuyến tính và hậu cần, rừng ngẫu nhiên và Cây phân loại. Các thuật toán không giám sát có thể được chia thành các loại khác nhau: như Cluster thuật toán, K-means, Phân cụm phân cấp, v.v.
Độ phức tạp tính toán Học có giám sát là một phương pháp đơn giản hơn. Học không giám sát phức tạp về mặt tính toán
Sử dụng dữ liệu Mô hình học có giám sát sử dụng dữ liệu huấn luyện để tìm hiểu mối liên hệ giữa đầu vào và đầu ra. Học không giám sát không sử dụng dữ liệu đầu ra.
Độ chính xác của kết quả Phương pháp có độ chính xác cao và đáng tin cậy. Less phương pháp chính xác và đáng tin cậy.
Học theo thời gian thực Phương pháp học tập diễn ra offline. Phương pháp học tập diễn ra trong thời gian thực.
Số lượng lớp học Số lượng lớp học đã được biết. Số lượng lớp học không được biết.
Nhược điểm chính Phân loại dữ liệu lớn có thể là một thách thức thực sự trong Học tập có giám sát. Bạn không thể nhận được thông tin chính xác về việc sắp xếp dữ liệu và đầu ra dưới dạng dữ liệu được sử dụng trong học tập không giám sát sẽ được gắn nhãn và không xác định.