비지도 머신러닝: Algorithms, 예시가 있는 유형

비지도 학습이란 무엇입니까?

비지도 학습 사용자가 모델을 감독할 필요가 없는 기계 학습 기술입니다. 대신, 모델이 자체적으로 작동하여 이전에는 감지되지 않았던 패턴과 정보를 발견할 수 있습니다. 주로 레이블이 없는 데이터를 다룹니다.

비지도 학습 Algorithms

비지도 학습 Algorithms 사용자가 지도 학습에 비해 더 복잡한 처리 작업을 수행할 수 있도록 합니다. 그러나 비지도 학습은 다른 자연 학습 방법에 비해 예측할 수 없습니다. 비지도 학습 알고리즘에는 클러스터링, 이상 탐지, 신경망 등이 포함됩니다.

비지도 머신러닝의 예

아기와 가족 개를 위한 비지도 학습의 예를 들어보겠습니다.

비지도 머신러닝의 예

그녀는 이 개를 알고 식별합니다. 몇 주 후 가족 친구가 개를 데리고 와서 아기와 놀려고 합니다.

비지도 머신러닝의 예

아기는 이전에 이 개를 본 적이 없습니다. 하지만 귀 2개, 눈, 다리 4개로 걷기 등 많은 특징이 그녀의 애완견과 유사하다는 것을 인식합니다. 그녀는 새로운 동물을 개로 식별합니다. 이것은 비지도 학습으로, 가르치지는 않지만 데이터(이 경우 개에 대한 데이터)를 통해 학습합니다. 지도 학습, 위의 비지도 학습 예시에서 볼 수 있듯이 가족 친구는 아기에게 그것이 개라고 말했을 것입니다.

왜 비지도 학습인가?

비지도 학습을 사용하는 주요 이유는 다음과 같습니다. 기계 학습:

  • 비지도 머신러닝은 데이터에서 알려지지 않은 모든 종류의 패턴을 찾아냅니다.
  • 비지도 방법은 분류에 유용할 수 있는 특징을 찾는 데 도움이 됩니다.
  • 이는 실시간으로 이루어지므로 모든 입력 데이터는 학습자가 있는 곳에서 분석되고 라벨이 지정됩니다.
  • 수동 개입이 필요한 레이블이 있는 데이터보다 컴퓨터에서 레이블이 없는 데이터를 얻는 것이 더 쉽습니다.

Cluster비지도 학습의 유형 Algorithms

비지도 기계 학습 알고리즘의 클러스터링 유형은 다음과 같습니다.

비지도 학습 문제는 클러스터링 문제와 연관 문제로 세분화됩니다.

ClusterING

ClusterING
ClusterING

Clustering은 비지도 학습에 있어서 중요한 개념입니다. 주로 분류되지 않은 데이터 모음에서 구조나 패턴을 찾는 것을 다룹니다. 비지도 학습 Clustering 알고리즘은 데이터를 처리하고 데이터에 자연스러운 클러스터(그룹)가 있는 경우 이를 찾습니다. 알고리즘이 식별해야 하는 클러스터 수를 수정할 수도 있습니다. 이를 통해 이러한 그룹의 세분성을 조정할 수 있습니다.

활용할 수 있는 클러스터링 유형은 다음과 같습니다.

배타적(파티셔닝)

이 클러스터링 방법에서는 데이터가 하나의 클러스터에만 속할 수 있도록 그룹화됩니다.

예: K-평균

응집

이 클러스터링 기술에서는 모든 데이터가 클러스터입니다. 두 개의 가장 가까운 클러스터 간의 반복적 통합은 클러스터 수를 줄입니다.

예: 계층적 클러스터링

중복

이 기술에서는 퍼지 세트를 사용하여 데이터를 클러스터링합니다. 각 포인트는 별도의 멤버십 등급을 가진 두 개 이상의 클러스터에 속할 수 있습니다.

여기에서 데이터는 적절한 멤버십 값과 연결됩니다. 예: 퍼지 C-평균

확률 적

이 기술은 확률 분포를 사용하여 클러스터를 생성합니다.

예: 키워드를 따르기

  • “남자 신발.”
  • “여성 신발.”
  • “여성용 장갑.”
  • “남자 장갑.”

"신발"과 "장갑" 또는 "남성"과 "여성"의 두 가지 범주로 분류할 수 있습니다.

Cluster유형

머신 러닝의 클러스터링 유형은 다음과 같습니다.

  • 계층 적 클러스터링
  • K- 평균 클러스터링
  • K-NN(k개의 가장 가까운 이웃)
  • 주요 구성 요소 분석
  • 특이 값 분해
  • 독립적인 성분 분석

계층 적 ClusterING

계층적 클러스터링은 클러스터의 계층을 구축하는 알고리즘입니다. 모든 데이터가 자체 클러스터에 할당되는 것으로 시작합니다. 여기서 두 개의 가까운 클러스터가 같은 클러스터에 있게 됩니다. 이 알고리즘은 클러스터가 하나만 남으면 끝납니다.

K- 평균 ClusterING

K는 반복적 클러스터링 알고리즘으로, 모든 반복에서 가장 높은 값을 찾는 데 도움이 됩니다. 처음에는 원하는 수의 클러스터가 선택됩니다. 이 클러스터링 방법에서는 데이터 포인트를 k개의 그룹으로 클러스터링해야 합니다. k가 클수록 같은 방식으로 더 세분성이 높은 더 작은 그룹을 의미합니다. k가 작을수록 세분성이 낮은 더 큰 그룹을 의미합니다.

알고리즘의 출력은 "레이블" 그룹입니다. 데이터 포인트를 k 그룹 중 하나에 할당합니다. k-means 클러스터링에서 각 그룹은 각 그룹에 대한 중심을 생성하여 정의됩니다. 중심은 클러스터의 심장과 같으며, 가장 가까운 지점을 포착하여 클러스터에 추가합니다.

K-평균 클러스터링은 두 개의 하위 그룹을 더욱 정의합니다.

  • 응집 클러스터링
  • 덴드로그램

응집 클러스터링

이 유형의 K-means 클러스터링은 고정된 수의 클러스터로 시작합니다. 모든 데이터를 정확한 수의 클러스터에 할당합니다. 이 클러스터링 방법은 입력으로 클러스터 수 K를 필요로 하지 않습니다. 집계 프로세스는 각 데이터를 단일 클러스터로 형성하는 것으로 시작합니다.

이 방법은 거리 측정을 사용하고, 병합 프로세스를 통해 클러스터 수(각 반복에서 하나씩)를 줄입니다. 마지막으로, 모든 객체를 포함하는 하나의 큰 클러스터가 있습니다.

덴드로그램

덴드로그램 클러스터링 방법에서 각 레벨은 가능한 클러스터를 나타냅니다. 덴드로그램의 높이는 두 조인 클러스터 간의 유사성 수준을 보여줍니다. 프로세스의 바닥에 가까울수록 더 유사한 클러스터이며, 이는 덴드로그램에서 그룹을 찾는 것으로 자연스럽지 않고 대부분 주관적입니다.

K- 가장 가까운 이웃

K-최근접 이웃은 모든 머신 러닝 분류기 중에서 가장 간단합니다. 다른 머신 러닝 기술과는 달리 모델을 생성하지 않습니다. 사용 가능한 모든 케이스를 저장하고 유사도 측정을 기반으로 새로운 인스턴스를 분류하는 간단한 알고리즘입니다.

예제 사이에 거리가 있을 때 매우 잘 작동합니다. 훈련 세트가 크면 학습 속도가 느리고 거리 계산이 중요합니다.

주성분 분석

고차원 공간을 원하는 경우. 해당 공간의 기반과 해당 기반에서 가장 중요한 200개 점수만 선택해야 합니다. 이 기반은 주성분이라고 합니다. 선택한 부분 집합은 원래 공간에 비해 크기가 작은 새로운 공간입니다. 가능한 한 많은 데이터 복잡성을 유지합니다.

협회

연관 규칙을 사용하면 대규모 데이터베이스 내의 데이터 개체 간에 연관을 설정할 수 있습니다. 이 비지도 기술은 대규모 데이터베이스의 변수 간의 흥미로운 관계를 발견하는 것입니다. 예를 들어, 새 집을 구입하는 사람들은 새 가구를 구입할 가능성이 가장 높습니다.

다른 예 :

  • 유전자 발현 측정에 따라 그룹화된 암 환자의 하위 그룹
  • 검색 및 구매 내역을 기반으로 한 쇼핑객 그룹
  • 영화 관객이 평가한 영화 그룹

감독 및 비지도 기계 학습

다음은 주요 차이점입니다. 지도 학습과 비지도 학습:

파라미터 감독된 기계 학습 기술 비지도 머신러닝 기술
입력 데이터 Algorithms 레이블이 지정된 데이터를 사용하여 훈련됩니다. Algorithms 레이블이 지정되지 않은 데이터에 대해 사용됩니다.
계산 복잡성 지도 학습은 더 간단한 방법입니다. 비지도 학습은 계산적으로 복잡합니다
정확성 매우 정확하고 신뢰할 수 있는 방법입니다. Less 정확하고 신뢰할 수 있는 방법입니다.

비지도 기계 학습의 응용

비지도 학습 기술의 일부 적용은 다음과 같습니다.

  • Cluster유사성을 기준으로 데이터세트를 그룹으로 자동 분할합니다.
  • 이상 탐지는 데이터 세트에서 비정상적인 데이터 포인트를 발견할 수 있습니다. 사기 거래를 찾는 데 유용합니다.
  • 연관 마이닝은 데이터 세트에서 자주 함께 나타나는 항목 세트를 식별합니다.
  • 잠재변수 모델은 데이터 전처리에 널리 사용됩니다. 데이터 세트의 기능 수를 줄이거나 데이터 세트를 여러 구성 요소로 분해하는 것과 같습니다.

비지도 학습의 단점

  • 데이터 정렬에 관한 정확한 정보를 얻을 수 없으며, 비지도 학습에 사용되는 데이터에 라벨이 지정되어 출력되지 않습니다.
  • Less 결과의 정확성은 입력 데이터가 알려지지 않았거나 사람들이 미리 라벨을 붙이지 않았기 때문입니다. 이는 기계가 이 작업을 스스로 수행해야 함을 의미합니다.
  • 스펙트럼 클래스가 항상 정보 클래스와 일치하는 것은 아닙니다.
  • 사용자는 해당 분류를 따르는 클래스를 해석하고 레이블을 지정하는 데 시간을 소비해야 합니다.
  • 클래스의 스펙트럼 속성은 시간이 지남에 따라 변경될 수 있으므로 한 이미지에서 다른 이미지로 이동하는 동안 동일한 클래스 정보를 가질 수 없습니다.

요약

  • 비지도 학습은 모델을 감독할 필요가 없는 기계 학습 기술입니다.
  • 비지도 머신러닝은 데이터에서 알려지지 않은 모든 종류의 패턴을 찾는 데 도움이 됩니다.
  • Clustering과 Association은 비지도 학습의 두 가지 유형입니다.
  • 클러스터링 방법에는 다음과 같은 1가지 유형이 있습니다. 2) 배타적 클러스터링 3) 응집적 클러스터링 4) 중첩적 클러스터링 XNUMX) 확률적 클러스터링
  • 중요한 클러스터링 유형은 다음과 같습니다. 1) 계층적 클러스터링 2) K-평균 클러스터링 3) K-NN 4) 주성분 분석 5) 특이값 분해 6) 독립 성분 분석.
  • 연관 규칙을 사용하면 대규모 데이터베이스 내의 데이터 개체 간에 연관을 설정할 수 있습니다.
  • 지도 학습에서는 Algorithms 비지도 학습 중에 레이블이 지정된 데이터를 사용하여 훈련됩니다. Algorithms 레이블이 지정되지 않은 데이터에 대해 사용됩니다.
  • 이상 탐지는 데이터 세트에서 사기 거래를 찾는 데 유용한 중요한 데이터 포인트를 발견할 수 있습니다.
  • 비지도 학습의 가장 큰 단점은 데이터 정렬에 대한 정확한 정보를 얻을 수 없다는 것입니다.