비지도 기계 학습: 알고리즘, 예시가 포함된 유형

비지도 학습이란 무엇입니까?

비지도 학습 사용자가 모델을 감독할 필요가 없는 기계 학습 기술입니다. 대신, 모델이 자체적으로 작동하여 이전에는 감지되지 않았던 패턴과 정보를 발견할 수 있습니다. 주로 레이블이 없는 데이터를 다룹니다.

비지도 학습 알고리즘

비지도 학습 알고리즘 사용자가 더 많은 COM을 수행할 수 있도록 허용plex 지도 학습과 비교한 처리 작업. 하지만 비지도 학습은 다른 자연 학습 방법에 비해 예측하기가 더 어려울 수 있습니다. 비지도 학습 알고리즘에는 클러스터링, 이상 탐지, 신경망 등이 포함됩니다.

비지도 머신러닝의 예

아기와 가족 개를 위한 비지도 학습의 예를 들어보겠습니다.

비지도 머신러닝의 예

그녀는 이 개를 알고 식별합니다. 몇 주 later 가족의 친구가 개를 데리고 와서 아기와 놀려고 합니다.

비지도 머신러닝의 예

아기는 이전에 이 개를 본 적이 없습니다. 하지만 귀 2개, 눈, 다리 4개로 걷기 등 많은 특징이 그녀의 애완견과 유사하다는 것을 인식합니다. 그녀는 새로운 동물을 개로 식별합니다. 이것은 비지도 학습으로, 가르치지는 않지만 데이터(이 경우 개에 대한 데이터)를 통해 학습합니다. 지도 학습, 위의 비지도 학습 예시에서 볼 수 있듯이 가족 친구는 아기에게 그것이 개라고 말했을 것입니다.

왜 비지도 학습인가?

비지도 학습을 사용하는 주요 이유는 다음과 같습니다. 기계 학습:

  • 비지도 머신러닝은 데이터에서 알려지지 않은 모든 종류의 패턴을 찾아냅니다.
  • 비지도 방법은 분류에 유용할 수 있는 특징을 찾는 데 도움이 됩니다.
  • 이는 실시간으로 이루어지므로 모든 입력 데이터는 학습자가 있는 곳에서 분석되고 라벨이 지정됩니다.
  • 수동 개입이 필요한 레이블이 있는 데이터보다 컴퓨터에서 레이블이 없는 데이터를 얻는 것이 더 쉽습니다.

비지도 학습 알고리즘의 클러스터링 유형

비지도 기계 학습 알고리즘의 클러스터링 유형은 다음과 같습니다.

비지도 학습 문제는 클러스터링 및 연관 문제로 더 그룹화됩니다.

클러스터링

클러스터링
클러스터링

클러스터링은 비지도 학습에 있어 중요한 개념입니다. 주로 분류되지 않은 데이터 모음에서 구조나 패턴을 찾는 것을 다룹니다. 비지도 학습 클러스터링 알고리즘은 데이터를 처리하고 데이터에 존재하는 경우 자연 클러스터(그룹)를 찾습니다. 알고리즘이 식별해야 하는 클러스터 수를 수정할 수도 있습니다. 이를 통해 이러한 그룹의 세분성을 조정할 수 있습니다.

활용할 수 있는 다양한 유형의 클러스터링이 있습니다.

배타적(파티셔닝)

클러스터링 방식은 하나의 데이터가 하나의 클러스터에만 속하도록 데이터를 그룹화하는 방식입니다.

예: K-평균

응집

이 클러스터링 기술에서는 모든 데이터가 클러스터입니다. 두 ne 사이의 반복 결합arest 클러스터는 클러스터 수를 줄입니다.

예: 안녕하세요archi교정 클러스터링

중복

이 기술에서는 퍼지 세트를 사용하여 데이터를 클러스터링합니다. 각 포인트는 별도의 멤버십 등급을 가진 두 개 이상의 클러스터에 속할 수 있습니다.

여기에서 데이터는 적절한 멤버십 값과 연결됩니다. 예: 퍼지 C-평균

확률 적

이 기술은 확률 분포를 사용하여 클러스터를 생성합니다.

예: 폴로wing 키워드

  • “남자 신발.”
  • “여성 신발.”
  • “여성용 장갑.”
  • “남자 장갑.”

"신발"과 "장갑" 또는 "남자"와 "여자"라는 두 가지 범주로 분류될 수 있습니다.

클러스터링 유형

FOLLOwing 기계 학습의 클러스터링 유형은 다음과 같습니다.

  • 여기에archi교정 클러스터링
  • K- 평균 클러스터링
  • K-NN(k네arest 이웃)
  • 주요 구성 요소 분석
  • 특이 값 분해
  • 독립적인 성분 분석

여기에archi칼 클러스터링

여기에archi교정 클러스터링은 클러스터의 계층 구조를 구축하는 알고리즘입니다. 이는 자체 클러스터에 할당된 모든 데이터로 시작됩니다. 여기서는 두 개의 가까운 클러스터가 동일한 클러스터에 속하게 됩니다. 이 알고리즘은 클러스터가 하나만 남으면 종료됩니다.

K-평균 클러스터링

K는 모든 반복에 대해 가장 높은 값을 찾는 데 도움이 되는 반복 클러스터링 알고리즘임을 의미합니다. 처음에는 원하는 수의 클러스터가 선택됩니다. 이 클러스터링 방법에서는 데이터 포인트를 k개의 그룹으로 클러스터링해야 합니다. k가 클수록 동일한 방식으로 더 세분화된 더 작은 그룹을 의미합니다. k가 낮을수록 세분성이 덜한 더 큰 그룹을 의미합니다.

알고리즘의 출력은 "라벨" 그룹입니다. k개 그룹 중 하나에 데이터 포인트를 할당합니다. k-평균 클러스터링에서는 각 그룹에 대한 중심을 생성하여 각 그룹을 정의합니다. 중심은 클러스터의 핵심과 같으며, 중심에 가장 가까운 지점을 캡처하여 클러스터에 추가합니다.

K-평균 클러스터링은 두 개의 하위 그룹을 추가로 정의합니다.

  • 응집 클러스터링
  • 덴드로그램

응집 클러스터링

이러한 유형의 K-평균 클러스터링은 고정된 수의 클러스터로 시작됩니다. 모든 데이터를 정확한 수의 클러스터에 할당합니다. 이 클러스터링 방법에는 클러스터 수 K가 입력으로 필요하지 않습니다. 응집 프로세스는 각 데이터를 단일 클러스터로 구성하는 것부터 시작됩니다.

이 방법은 일부 거리 측정을 사용하고 병합 프로세스를 통해 클러스터 수(각 반복마다 하나씩)를 줄입니다. 마지막으로 모든 객체를 포함하는 하나의 큰 클러스터가 있습니다.

덴드로그램

Dendrogram 클러스터링 방법에서 각 수준은 가능한 클러스터를 나타냅니다. 덴드로그램의 높이는 두 조인 클러스터 간의 유사성 수준을 보여줍니다. 프로세스의 맨 아래에 가까울수록 자연스럽지 않고 대부분 주관적인 덴드로그램에서 그룹을 찾는 유사한 클러스터입니다.

K-Neares이웃

K-네arest 이웃은 모든 기계 학습 분류기 중 가장 간단합니다. 모델을 생성하지 않는다는 점에서 다른 기계 학습 기술과 다릅니다. 사용 가능한 모든 사례를 저장하고 유사성 측정을 기반으로 새 인스턴스를 분류하는 간단한 알고리즘입니다.

예제 사이에 거리가 있을 때 매우 잘 작동합니다. 훈련 세트가 크면 학습 속도가 느리고 거리 계산이 중요합니다.

주성분 분석

더 높은 차원의 공간을 원하는 경우. 해당 공간에 대한 기준을 선택하고 해당 기준의 가장 중요한 200개 점수만 선택하면 됩니다. 이 베이스는 주성분으로 알려져 있습니다. 귀하가 선택하는 하위 집합은 원래 공간에 비해 크기가 작은 새로운 공간입니다. 그것은 많은 com을 유지합니다plex가능한 한 데이터의 정확성.

협회

연관 규칙을 사용하면 대규모 데이터베이스 내의 데이터 개체 간에 연관을 설정할 수 있습니다. 이 비지도 기술은 대규모 데이터베이스의 변수 간의 흥미로운 관계를 발견하는 것입니다. 예를 들어, 새 집을 구입하는 사람들은 새 가구를 구입할 가능성이 가장 높습니다.

다른 예 :

  • 유전자 발현 측정에 따라 그룹화된 암 환자의 하위 그룹
  • 검색 및 구매 내역을 기반으로 한 쇼핑객 그룹
  • 영화 관객이 평가한 영화 그룹

감독 및 비지도 기계 학습

다음은 주요 차이점입니다. 지도 학습과 비지도 학습:

파라미터 감독된 기계 학습 기술 비지도 머신러닝 기술
입력 데이터 알고리즘은 레이블이 지정된 데이터를 사용하여 학습됩니다. 라벨이 지정되지 않은 데이터에 대해 알고리즘이 사용됩니다.
전산컴plexity 지도 학습은 더 간단한 방법입니다. 비지도 학습은 계산적으로plex
정확성 매우 정확하고 신뢰할 수 있는 방법입니다. 덜 정확하고 신뢰할 수 있는 방법입니다.

비지도 기계 학습의 응용

비지도 학습 기술의 일부 적용은 다음과 같습니다.

  • 클러스터링은 유사성을 기준으로 데이터세트를 그룹으로 자동 분할합니다.
  • 이상 탐지는 데이터 세트에서 비정상적인 데이터 포인트를 발견할 수 있습니다. 사기 거래를 찾는 데 유용합니다.
  • 연관 마이닝은 데이터 세트에서 자주 함께 나타나는 항목 세트를 식별합니다.
  • 잠재변수 모델은 데이터 전처리에 널리 사용됩니다. 데이터 세트의 기능 수를 줄이거나 데이터 세트를 여러 구성 요소로 분해하는 것과 같습니다.

비지도 학습의 단점

  • 데이터 정렬에 관한 정확한 정보를 얻을 수 없으며, 비지도 학습에 사용되는 데이터에 라벨이 지정되어 출력되지 않습니다.
  • 결과의 정확도가 떨어지는 것은 입력 데이터가 알려지지 않았고 사람들이 미리 라벨을 붙이지 않았기 때문입니다. 이는 기계가 이 작업을 스스로 수행해야 함을 의미합니다.
  • 스펙트럼 클래스가 항상 정보 클래스와 일치하는 것은 아닙니다.
  • 사용자는 해당 분류를 따르는 클래스를 해석하고 레이블을 지정하는 데 시간을 소비해야 합니다.
  • 클래스의 스펙트럼 속성은 시간이 지남에 따라 변경될 수 있으므로 한 이미지에서 다른 이미지로 이동하는 동안 동일한 클래스 정보를 가질 수 없습니다.

요약

  • 비지도 학습은 모델을 감독할 필요가 없는 기계 학습 기술입니다.
  • 비지도 머신러닝은 데이터에서 알려지지 않은 모든 종류의 패턴을 찾는 데 도움이 됩니다.
  • 클러스터링과 연관은 비지도 학습의 두 가지 유형입니다.
  • 클러스터링 방법에는 1가지 유형이 있습니다. 2) 배타적 3) 응집적 4) 중첩 XNUMX) 확률적입니다.
  • 중요한 클러스터링 유형은 다음과 같습니다. 1) Hierarchical 군집화 2) K-평균 군집화 3) K-NN 4) 주성분 분석 5) 특이값 분해 6) 독립 성분 분석.
  • 연관 규칙을 사용하면 대규모 데이터베이스 내의 데이터 개체 간에 연관을 설정할 수 있습니다.
  • 지도 학습에서는 알고리즘이 레이블이 지정된 데이터를 사용하여 훈련되는 반면 비지도 학습에서는 알고리즘은 레이블이 지정되지 않은 데이터에 대해 사용됩니다.
  • 이상 탐지는 데이터 세트에서 사기 거래를 찾는 데 유용한 중요한 데이터 포인트를 발견할 수 있습니다.
  • 비지도 학습의 가장 큰 단점은 데이터 정렬에 대한 정확한 정보를 얻을 수 없다는 것입니다.