Học máy không giám sát: Algorithms, Các loại có ví dụ

Học tập không giám sát là gì?

Học tập không giám sát là một kỹ thuật học máy trong đó người dùng không cần giám sát mô hình. Thay vào đó, nó cho phép mô hình tự hoạt động để khám phá các mẫu và thông tin mà trước đây không bị phát hiện. Nó chủ yếu xử lý các dữ liệu chưa được ghi nhãn.

Học tập không giám sát Algorithms

Học tập không giám sát Algorithms cho phép người dùng thực hiện các tác vụ xử lý phức tạp hơn so với học có giám sát. Mặc dù, học không giám sát có thể khó đoán hơn so với các phương pháp học tự nhiên khác. Các thuật toán học không giám sát bao gồm phân cụm, phát hiện dị thường, mạng nơ-ron, v.v.

Ví dụ về học máy không giám sát

Hãy lấy một ví dụ về Học tập không giám sát cho một em bé và con chó của gia đình cô ấy.

Ví dụ về học máy không giám sát

Cô ấy biết và nhận dạng được con chó này. Vài tuần sau, một người bạn của gia đình mang theo một con chó và cố gắng chơi với em bé.

Ví dụ về học máy không giám sát

Bé chưa từng nhìn thấy con chó này trước đây. Nhưng nó nhận ra nhiều đặc điểm (2 tai, mắt, đi bằng 4 chân) giống chú chó cưng của cô. Cô ấy xác định con vật mới là một con chó. Đây là phương pháp học không giám sát, trong đó bạn không được dạy nhưng bạn học từ dữ liệu (trong trường hợp này là dữ liệu về một con chó.) Nếu điều này xảy ra học có giám sát, người bạn của gia đình có thể đã nói với đứa bé rằng đó là một con chó như trong ví dụ Học không giám sát ở trên.

Tại sao học tập không giám sát?

Dưới đây là những lý do chính để sử dụng Học tập không giám sát trong Machine Learning:

  • Học máy không giám sát tìm thấy tất cả các loại mẫu chưa biết trong dữ liệu.
  • Các phương pháp không giám sát giúp bạn tìm các tính năng có thể hữu ích cho việc phân loại.
  • Nó diễn ra trong thời gian thực nên tất cả dữ liệu đầu vào đều được phân tích và dán nhãn trước sự chứng kiến ​​​​của người học.
  • Việc lấy dữ liệu chưa được gắn nhãn từ máy tính sẽ dễ dàng hơn so với dữ liệu được gắn nhãn và cần có sự can thiệp thủ công.

ClusterCác loại hình học tập không giám sát Algorithms

Dưới đây là các loại phân cụm của thuật toán Học máy không giám sát:

Các vấn đề học tập không giám sát được nhóm lại thành các vấn đề phân cụm và liên kết.

Clustering

Clustering
Clustering

Clustering là một khái niệm quan trọng khi nói đến học tập không giám sát. Nó chủ yếu đề cập đến việc tìm kiếm cấu trúc hoặc mẫu trong tập hợp dữ liệu chưa được phân loại. Học không giám sát ClusterThuật toán ing sẽ xử lý dữ liệu của bạn và tìm các cụm (nhóm) tự nhiên nếu chúng tồn tại trong dữ liệu. Bạn cũng có thể sửa đổi số lượng cụm mà thuật toán của bạn cần xác định. Nó cho phép bạn điều chỉnh độ chi tiết của các nhóm này.

Có nhiều loại phân cụm khác nhau mà bạn có thể sử dụng:

Độc quyền (phân vùng)

Trong phương pháp phân cụm này, Dữ liệu được nhóm theo cách mà một dữ liệu chỉ có thể thuộc về một cụm.

Ví dụ: K-nghĩa

Tổng hợp

Trong kỹ thuật phân cụm này, mọi dữ liệu đều là một cụm. Các hợp nhất lặp lại giữa hai cụm gần nhất làm giảm số lượng cụm.

Ví dụ: Phân cụm theo thứ bậc

Chồng chéo

Trong kỹ thuật này, các tập mờ được sử dụng để phân cụm dữ liệu. Mỗi điểm có thể thuộc về hai hoặc nhiều cụm với mức độ thành viên riêng biệt.

Ở đây, dữ liệu sẽ được liên kết với một giá trị thành viên phù hợp. Ví dụ: C-Means mờ

Xác suất

Kỹ thuật này sử dụng phân phối xác suất để tạo ra các cụm

Ví dụ: Theo dõi các từ khóa

  • “giày nam.”
  • "giày của phụ nữ."
  • “găng tay phụ nữ.”
  • “găng tay nam.”

có thể được nhóm thành hai loại “giày” và “găng tay” hoặc “đàn ông” và “phụ nữ”.

Clustercác loại

Sau đây là các loại cụm của Học máy:

  • Phân cụm theo thứ bậc
  • K-có nghĩa là phân cụm
  • K-NN (k hàng xóm gần nhất)
  • Phân tích thành phần chính
  • Phân rã giá trị đơn lẻ
  • Phân tích thành phần độc lập

Thứ bậc Clustering

Phân cụm phân cấp là một thuật toán xây dựng một hệ thống phân cấp các cụm. Thuật toán này bắt đầu với tất cả dữ liệu được gán cho một cụm riêng. Ở đây, hai cụm gần nhau sẽ nằm trong cùng một cụm. Thuật toán này kết thúc khi chỉ còn lại một cụm.

K-có nghĩa là Clustering

K có nghĩa là đây là thuật toán phân cụm lặp giúp bạn tìm giá trị cao nhất cho mỗi lần lặp. Ban đầu, số cụm mong muốn được chọn. Trong phương pháp phân cụm này, bạn cần phân cụm các điểm dữ liệu thành k nhóm. K lớn hơn có nghĩa là các nhóm nhỏ hơn có độ chi tiết cao hơn theo cách tương tự. K thấp hơn có nghĩa là các nhóm lớn hơn với độ chi tiết ít hơn.

Đầu ra của thuật toán là một nhóm “nhãn”. Nó gán điểm dữ liệu cho một trong k nhóm. Trong phân cụm k-mean, mỗi nhóm được xác định bằng cách tạo trọng tâm cho mỗi nhóm. Các trọng tâm giống như trái tim của cụm, có chức năng thu thập các điểm gần chúng nhất và thêm chúng vào cụm.

Phân cụm K-mean xác định thêm hai nhóm con:

  • Phân cụm tích hợp
  • chương trình dendro

Phân cụm tích hợp

Kiểu phân cụm K-mean này bắt đầu với một số cụm cố định. Nó phân bổ tất cả dữ liệu vào số cụm chính xác. Phương pháp phân cụm này không yêu cầu số lượng cụm K làm đầu vào. Quá trình tích tụ bắt đầu bằng cách hình thành mỗi dữ liệu dưới dạng một cụm duy nhất.

Phương pháp này sử dụng một số thước đo khoảng cách, giảm số lượng cụm (một cụm trong mỗi lần lặp) bằng quá trình hợp nhất. Cuối cùng, chúng ta có một cụm lớn chứa tất cả các đối tượng.

chương trình dendro

Trong phương pháp phân cụm Dendrogram, mỗi cấp độ sẽ đại diện cho một cụm có thể có. Chiều cao của dendrogram thể hiện mức độ tương đồng giữa hai cụm nối. Càng về gần cuối quá trình, chúng càng có nhiều cụm giống nhau hơn, điều này được tìm thấy trong nhóm từ chương trình dendro, điều này không tự nhiên và chủ yếu là chủ quan.

K- Hàng xóm gần nhất

K- nearest neighbor là bộ phân loại học máy đơn giản nhất. Nó khác với các kỹ thuật học máy khác ở chỗ nó không tạo ra mô hình. Nó là một thuật toán đơn giản lưu trữ tất cả các trường hợp khả dụng và phân loại các trường hợp mới dựa trên phép đo độ tương đồng.

Nó hoạt động rất tốt khi có khoảng cách giữa các ví dụ. Tốc độ học chậm khi tập huấn luyện lớn và việc tính toán khoảng cách là không cần thiết.

Phân tích thành phần chính

Trong trường hợp bạn muốn có một không gian nhiều chiều hơn. Bạn cần chọn một cơ sở cho không gian đó và chỉ 200 điểm quan trọng nhất của cơ sở đó. Cơ sở này được gọi là thành phần chính. Tập hợp con bạn chọn tạo thành là một không gian mới có kích thước nhỏ so với không gian ban đầu. Nó duy trì càng nhiều độ phức tạp của dữ liệu càng tốt.

Hiệp hội

Quy tắc kết hợp cho phép bạn thiết lập liên kết giữa các đối tượng dữ liệu bên trong cơ sở dữ liệu lớn. Kỹ thuật không giám sát này nhằm khám phá các mối quan hệ thú vị giữa các biến trong cơ sở dữ liệu lớn. Ví dụ: những người mua nhà mới có nhiều khả năng mua đồ nội thất mới nhất.

Những ví dụ khác:

  • Một nhóm nhỏ bệnh nhân ung thư được nhóm lại theo số đo biểu hiện gen của họ
  • Nhóm người mua hàng dựa trên lịch sử duyệt và mua hàng của họ
  • Nhóm phim theo đánh giá của người xem phim

Học máy được giám sát và không giám sát

Đây là sự khác biệt chính giữa Học tập có giám sát và không giám sát:

Thông số Kỹ thuật Kỹ thuật học máy có giám sát Kỹ thuật học máy không giám sát
Dữ liệu đầu vào Algorithms được huấn luyện bằng cách sử dụng dữ liệu được dán nhãn. Algorithms được sử dụng đối với dữ liệu không được gắn nhãn
Độ phức tạp tính toán Học có giám sát là một phương pháp đơn giản hơn. Học không giám sát phức tạp về mặt tính toán
tính chính xác Phương pháp có độ chính xác cao và đáng tin cậy. Less phương pháp chính xác và đáng tin cậy.

Các ứng dụng của học máy không giám sát

Một số ứng dụng của Kỹ thuật học tập không giám sát là:

  • Clustering tự động chia tập dữ liệu thành các nhóm dựa trên sự giống nhau của chúng
  • Tính năng phát hiện bất thường có thể phát hiện ra các điểm dữ liệu bất thường trong tập dữ liệu của bạn. Nó rất hữu ích cho việc tìm kiếm các giao dịch gian lận
  • Khai thác liên kết xác định các tập hợp mục thường xuất hiện cùng nhau trong tập dữ liệu của bạn
  • Các mô hình biến tiềm ẩn được sử dụng rộng rãi để tiền xử lý dữ liệu. Giống như giảm số lượng tính năng trong tập dữ liệu hoặc phân tách tập dữ liệu thành nhiều thành phần

Nhược điểm của học tập không giám sát

  • Bạn không thể nhận được thông tin chính xác về việc sắp xếp dữ liệu và đầu ra dưới dạng dữ liệu được sử dụng trong học tập không giám sát được gắn nhãn và không xác định
  • Less Độ chính xác của kết quả là do dữ liệu đầu vào không được người dân biết trước và không được dán nhãn trước. Điều này có nghĩa là máy yêu cầu phải tự làm việc này.
  • Các lớp phổ không phải lúc nào cũng tương ứng với các lớp thông tin.
  • Người dùng cần dành thời gian giải thích và gắn nhãn cho các lớp theo phân loại đó.
  • Thuộc tính quang phổ của các lớp cũng có thể thay đổi theo thời gian, do đó bạn không thể có cùng thông tin về lớp khi di chuyển từ hình ảnh này sang hình ảnh khác.

Tổng kết

  • Học không giám sát là một kỹ thuật học máy, trong đó bạn không cần giám sát mô hình.
  • Học máy không giám sát giúp bạn tìm thấy tất cả các loại mẫu chưa xác định trong dữ liệu.
  • Clustering và Association là hai loại học tập không giám sát.
  • Bốn loại phương pháp phân cụm là 1) Độc quyền 2) Tích hợp 3) Chồng chéo 4) Xác suất.
  • Các loại cụm quan trọng là: 1) Cụm phân cấp 2) Cụm K-means 3) K-NN 4) Phân tích thành phần chính 5) Phân tích giá trị kỳ dị 6) Phân tích thành phần độc lập.
  • Quy tắc kết hợp cho phép bạn thiết lập liên kết giữa các đối tượng dữ liệu bên trong cơ sở dữ liệu lớn.
  • Trong học tập có giám sát, Algorithms được đào tạo bằng cách sử dụng dữ liệu được dán nhãn trong khi học không giám sát Algorithms được sử dụng đối với dữ liệu không được dán nhãn.
  • Tính năng phát hiện bất thường có thể phát hiện ra các điểm dữ liệu quan trọng trong tập dữ liệu của bạn, điều này rất hữu ích cho việc tìm kiếm các giao dịch gian lận.
  • Hạn chế lớn nhất của học tập không giám sát là bạn không thể có được thông tin chính xác về việc sắp xếp dữ liệu.