지도 머신 러닝: 예제가 포함된 알고리즘이란 무엇입니까?

지도 머신러닝이란 무엇입니까?

감독 된 기계 학습 예상치 못한 데이터에 대한 결과를 예측하는 데 도움이 되도록 레이블이 지정된 훈련 데이터로부터 학습하는 알고리즘입니다. 지도 학습에서는 잘 "라벨이 지정된" 데이터를 사용하여 기계를 훈련합니다. 이는 일부 데이터에 이미 정답 태그가 지정되어 있음을 의미합니다. 그것은 감독자나 교사 앞에서 배우는 것과 비교할 수 있습니다.

성공적인 구축, 확장 및 배포 정확한 지도형 기계 학습 모델에는 고도로 숙련된 데이터 과학자 팀의 시간과 기술 전문 지식이 필요합니다. 게다가, Data 과학자는 재건해야 한다 모델 데이터가 변경될 때까지 제공된 통찰력이 그대로 유지되도록 합니다.

지도 학습의 작동 방식

지도 기계 학습은 훈련 데이터 세트를 사용하여 원하는 결과를 얻습니다. 이러한 데이터 세트에는 모델이 더 빠르게 학습하는 데 도움이 되는 입력과 올바른 출력이 포함되어 있습니다. 예를 들어, 직장에서 집으로 운전해서 가는 데 걸리는 시간을 예측하는 데 도움이 되도록 기계를 훈련하려고 합니다.

여기서는 레이블이 지정된 데이터 세트를 만드는 것부터 시작합니다. 이 데이터에는 다음이 포함됩니다.

  • 기상 조건
  • 하루 중 시간
  • 휴가

이 모든 드tails 이 지도 학습 예시의 입력 내용입니다. 출력은 특정 날짜에 집으로 운전하는 데 걸린 시간입니다.

지도 머신러닝의 작동 방식

당신은 밖에 비가 오면 집으로 운전하는 데 더 오랜 시간이 걸릴 것이라는 것을 본능적으로 알고 있습니다. 하지만 기계에는 데이터와 통계가 필요합니다.

사용자가 통근 시간을 결정하는 데 도움이 되는 이 예제의 지도 학습 모델을 개발할 수 있는 방법에 대한 몇 가지 지도 학습 예제를 살펴보겠습니다. 가장 먼저 만들어야 할 것은 훈련 세트입니다. 이 훈련 세트에는 총 통근 시간과 날씨, 시간 등과 같은 해당 요소가 포함됩니다. 이 훈련 세트를 기반으로 컴퓨터는 비의 양과 집에 도착하는 데 걸리는 시간 사이에 직접적인 관계가 있음을 확인할 수 있습니다.

따라서 비가 많이 올수록 집으로 돌아가기 위해 운전하는 시간이 길어지는 것으로 확인되었습니다. 또한 퇴근 시간과 출근 시간 사이의 연관성을 확인할 수도 있습니다.

오후 6시에 가까울수록 집에 도착하는 데 시간이 더 걸립니다. 귀하의 컴퓨터는 레이블이 지정된 데이터와의 일부 관계를 찾을 수 있습니다.

지도 머신러닝 작업
지도 머신러닝 작업

이것이 데이터 모델의 시작입니다. 비가 사람들의 운전 방식에 어떤 영향을 미치는지에 영향을 미치기 시작합니다. 또한 하루 중 특정 시간대에 더 많은 사람들이 여행하는 것을 보기 시작했습니다.

지도 기계 학습 알고리즘의 유형

FOLLOwing 지도 기계 학습 알고리즘의 유형은 다음과 같습니다.

리그레션

회귀 기법은 훈련 데이터를 사용하여 단일 출력 값을 예측합니다.

: 회귀분석을 사용하여 훈련 데이터로부터 주택 가격을 예측할 수 있습니다. 입력 변수는 지역, 주택 크기 등입니다.

장점: 출력은 항상 확률론적으로 해석되며 알고리즘은 과적합을 방지하기 위해 정규화될 수 있습니다.

약점: 로지스틱 회귀는 다중 또는 비선형 결정 경계가 있는 경우 성능이 저하될 수 있습니다. 이 방법은 유연성이 없기 때문에 더 많은 COM을 캡처하지 못합니다.plex 관계.

로지스틱 회귀:

주어진 독립 변수 세트를 기반으로 이산 값을 추정하는 데 사용되는 로지스틱 회귀 방법입니다. 데이터를 로짓 함수에 맞춰 사건 발생 확률을 예측하는 데 도움이 됩니다. 따라서 로지스틱 회귀라고도 합니다. 확률을 예측하므로 출력 값은 0과 1 사이에 있습니다.

회귀 알고리즘의 몇 가지 유형은 다음과 같습니다.

분류

분류란 출력을 클래스 내에서 그룹화하는 것을 의미합니다. 알고리즘이 입력을 두 개의 서로 다른 클래스로 분류하려고 시도하는 경우 이를 이진 분류라고 합니다. 두 개 이상의 클래스 중에서 선택하는 것을 다중 클래스 분류라고 합니다.

: 누군가가 대출 불이행자가 될지 여부를 결정합니다.

장점: 분류 트리는 실제로 매우 잘 수행됩니다.

약점: 제약이 없는 개별 트리는 과적합되기 쉽습니다.

분류 알고리즘의 몇 가지 유형은 다음과 같습니다.

나이브 베이즈 분류기

NBN(Naive Bayesian Model)은 구축하기 쉽고 대규모 데이터 세트에 매우 유용합니다. 이 방법은 하나의 부모와 여러 자식이 있는 직접 비순환 그래프로 구성됩니다. 이는 상위 노드로부터 분리된 하위 노드 간의 독립성을 가정합니다.

의사 결정 트리

의사결정 트리는 특성 값을 기준으로 인스턴스를 정렬하여 분류합니다. 이 방법에서 각 모드는 인스턴스의 기능입니다. 분류되어야 하며 모든 분기는 노드가 가정할 수 있는 값을 나타냅니다. 분류에 널리 사용되는 기술입니다. 이 방법에서 분류는 의사결정 트리로 알려진 트리입니다.

실제 가치(자동차 구입 비용, 통화 횟수, 월간 총 판매량 등)를 추정하는 데 도움이 됩니다.

벡터 머신 지원

SVM(Support Vector Machine)은 1990년에 개발된 학습 알고리즘의 일종입니다. 이 방법은 Vap Nik이 도입한 통계 학습 이론의 결과를 기반으로 합니다.

SVM 머신은 대부분의 학습 작업의 핵심 개념인 커널 기능과도 밀접하게 연결되어 있습니다. 커널 프레임워크와 SVM은 다양한 분야에서 사용됩니다. 여기에는 멀티미디어 정보 검색, 생물정보학 및 패턴 인식이 포함됩니다.

감독 및 비지도 기계 학습 기술

기반 감독된 기계 학습 기술 비지도 머신러닝 기술
입력 데이터 알고리즘은 레이블이 지정된 데이터를 사용하여 학습됩니다. 라벨이 지정되지 않은 데이터에 대해 알고리즘이 사용됩니다.
전산컴plexity 지도 학습은 더 간단한 방법입니다. 비지도 학습은 계산적으로plex
정확성 매우 정확하고 신뢰할 수 있는 방법입니다. 덜 정확하고 신뢰할 수 있는 방법입니다.

지도 머신러닝의 과제

지도 머신러닝이 직면한 과제는 다음과 같습니다.

  • 관련 없는 입력 기능이 있는 훈련 데이터로 인해 부정확한 결과가 나올 수 있음
  • 데이터 준비와 전처리는 항상 어려운 일입니다.
  • 불가능하거나 가능성이 낮거나 불완전한 값을 훈련 데이터로 입력하면 정확성이 저하됩니다.
  • 관련 전문가가 없는 경우 다른 접근 방식은 "무차별 공격"입니다. 이는 기계를 훈련시키는 데 적합한 기능(입력 변수)을 생각해야 함을 의미합니다. 부정확할 수도 있습니다.

지도 학습의 장점

지도 머신러닝의 장점은 다음과 같습니다.

  • 지도 학습 기계 학습 이전 경험에서 데이터를 수집하거나 데이터 출력을 생성할 수 있습니다.
  • 경험을 활용하여 성과 기준을 최적화하는 데 도움이 됩니다.
  • 지도 기계 학습은 다양한 유형의 실제 계산 문제를 해결하는 데 도움이 됩니다.

지도 학습의 단점

지도 머신러닝의 단점은 다음과 같습니다.

  • 클래스에 포함하려는 예제가 없는 훈련 세트의 경우 결정 경계가 과도하게 훈련될 수 있습니다.
  • 분류기를 훈련하는 동안 각 클래스에서 좋은 예를 많이 선택해야 합니다.
  • 분류 빅 데이터 진정한 도전이 될 수 있습니다.
  • 지도 학습을 위한 훈련에는 많은 계산 시간이 필요합니다.

지도 학습 모범 사례

  • 다른 작업을 수행하기 전에 어떤 종류의 데이터를 훈련 세트로 사용할지 결정해야 합니다.
  • 학습된 함수의 구조와 학습 알고리즘을 결정해야 합니다.
  • 인간 전문가 또는 측정으로부터 해당 출력을 수집합니다.

요약

  • 지도 학습 알고리즘에서는 잘 "라벨이 지정된" 데이터를 사용하여 기계를 훈련시킵니다.
  • 직장에서 집으로 운전해서 가는 데 걸리는 시간을 예측하는 데 도움이 되는 기계를 훈련시키는 것이 지도 학습의 한 예입니다.
  • 회귀와 분류는 지도 기계 학습 알고리즘의 두 가지 차원입니다.
  • 감독 학습 비지도 학습은 더 간단한 방법이지만plex 방법.
  • 지도 학습의 가장 큰 과제는 훈련 데이터와 관련 없는 입력 특성이 부정확한 결과를 제공할 수 있다는 것입니다.
  • 지도 학습의 가장 큰 장점은 이전 경험에서 데이터를 수집하거나 데이터 출력을 생성할 수 있다는 것입니다.
  • 이 모델의 단점은 훈련 세트에 클래스에 포함하려는 예제가 없는 경우 결정 경계가 과도하게 제한될 수 있다는 것입니다.
  • 지도 학습의 모범 사례로서 먼저 어떤 종류의 데이터를 훈련 세트로 사용해야 하는지 결정해야 합니다.