초보자를 위한 머신러닝 튜토리얼: ML이란 무엇인가?

머신 러닝이란 무엇입니까?

기계 학습 프로그래머가 명시적으로 코딩하지 않고도 예제에서 자기개선을 통해 학습할 수 있는 컴퓨터 알고리즘 시스템입니다. 머신 러닝은 데이터를 통계적 도구와 결합하여 실행 가능한 통찰력을 얻는 데 사용할 수 있는 출력을 예측하는 인공 지능의 일부입니다.

획기적인 발전은 기계가 데이터(예: 예)로부터 단독으로 학습하여 정확한 결과를 생성할 수 있다는 아이디어에서 비롯됩니다. 기계 학습은 데이터 마이닝 및 베이지안 예측 모델링과 밀접한 관련이 있습니다. 기계는 데이터를 입력으로 받고 알고리즘을 사용하여 답을 공식화합니다.

일반적인 기계 학습 작업은 권장 사항을 제공하는 것입니다. 가진 사람들을 위해 Netflix 계정에서 영화나 시리즈의 모든 추천은 사용자의 과거 데이터를 기반으로 합니다. 기술 회사가 사용하는 비지도 학습 개인화 추천을 통해 사용자 경험을 향상시킵니다.

기계 학습은 사기 탐지, 예측 유지 관리, 포트폴리오 최적화, 작업 자동화 등과 같은 다양한 작업에도 사용됩니다.

기계 학습과 기존 프로그래밍

전통적인 프로그래밍은 머신 러닝과 상당히 다릅니다. 전통적인 프로그래밍에서 프로그래머는 소프트웨어가 개발되는 산업의 전문가와 협의하여 모든 규칙을 코딩합니다. 각 규칙은 논리적 기반을 기반으로 하며, 머신은 논리적 진술에 따라 출력을 실행합니다. 시스템이 복잡해지면 더 많은 규칙을 작성해야 합니다. 유지 관리가 빠르게 불가능해질 수 있습니다.

전통적인 프로그래밍
전통적인 프로그래밍

머신 러닝은 이 문제를 극복하기 위한 것입니다. 머신은 입력 및 출력 데이터가 어떻게 상관관계를 갖는지 학습하고 규칙을 작성합니다. 프로그래머는 새 데이터가 있을 때마다 새 규칙을 작성할 필요가 없습니다. 알고리즘은 새 데이터와 경험에 대응하여 적응하여 시간이 지남에 따라 효능을 개선합니다.

기계 학습

기계 학습

머신러닝은 어떻게 작동하나요?

이제 초보자를 위한 기계 학습 기본 튜토리얼에서는 기계 학습(ML)이 어떻게 작동하는지 알아봅니다.

머신러닝은 모든 학습이 이루어지는 두뇌입니다. 기계가 학습하는 방식은 인간과 유사합니다. 인간은 경험을 통해 배웁니다. 우리가 더 많이 알수록 더 쉽게 예측할 수 있습니다. 비유하자면, 알려지지 않은 상황에 직면했을 때 알려진 상황보다 성공 가능성이 낮습니다. 기계도 똑같이 훈련됩니다. 정확한 예측을 위해 기계는 예를 봅니다. 기계에 비슷한 예를 주면 결과를 알아낼 수 있습니다. 그러나 인간과 마찬가지로 이전에 볼 수 없었던 사례를 입력하면 기계도 예측하기 어렵습니다.

머신러닝의 핵심 목표는 배우기 and 추론. 우선, 기계는 패턴 발견을 통해 학습합니다. 이 발견은 다음 덕분에 이루어졌습니다. 데이터. 데이터 과학자의 중요한 부분 중 하나는 기계에 제공할 데이터를 신중하게 선택하는 것입니다. 문제를 해결하는 데 사용되는 속성 목록을 특징 벡터. 특징 벡터는 문제를 해결하는 데 사용되는 데이터의 하위 집합으로 생각할 수 있습니다.

이 기계는 몇 가지 멋진 알고리즘을 사용하여 현실을 단순화하고 이 발견을 다음과 같이 변환합니다. 모델따라서 학습 단계는 데이터를 설명하고 이를 모델로 요약하는 데 사용됩니다.

머신러닝 작업

예를 들어, 기계는 개인의 임금과 고급 레스토랑에 갈 가능성 사이의 관계를 이해하려고 합니다. 기계는 임금과 고급 레스토랑에 가는 것 사이에 긍정적인 관계를 발견한 것으로 나타났습니다. 이것이 모델입니다.

추론

모델이 구축되면 이전에 본 적이 없는 데이터에 대해 모델이 얼마나 강력한지 테스트할 수 있습니다. 새로운 데이터는 특징 벡터로 변환되어 모델을 거쳐 예측을 제공합니다. 이것이 바로 머신러닝의 아름다운 부분입니다. 규칙을 업데이트하거나 모델을 다시 훈련할 필요가 없습니다. 이전에 훈련된 모델을 사용하여 새 데이터를 추론할 수 있습니다.

모델로부터의 추론

머신 러닝 프로그램의 수명은 간단하며 다음과 같은 사항으로 요약할 수 있습니다.

  1. 질문 정의
  2. 데이터 수집
  3. 데이터 시각화
  4. 학습 알고리즘
  5. 알고리즘 테스트
  6. 피드백 수집
  7. 알고리즘 개선
  8. 결과가 만족스러울 때까지 4~7을 반복합니다.
  9. 모델을 사용하여 예측하기

알고리즘이 올바른 결론을 도출하는 데 익숙해지면, 그 지식을 새로운 데이터 집합에 적용합니다.

기계 학습 Algorithms 그리고 어디에 사용되나요?

이제 초보자를 위한 이 머신 러닝 튜토리얼에서는 머신 러닝(ML) 알고리즘이 어디에 사용되는지 알아보겠습니다.

기계 학습 Algorithms

기계 학습 Algorithms

머신 러닝은 두 가지 광범위한 학습 과제로 그룹화할 수 있습니다: 지도 학습과 비지도 학습. 다른 많은 알고리즘이 있습니다.

감독 학습

알고리즘은 훈련 데이터와 인간의 피드백을 사용하여 주어진 입력과 주어진 출력의 관계를 학습합니다. 예를 들어 실무자는 마케팅 비용과 일기 예보를 입력 데이터로 사용하여 캔 판매를 예측할 수 있습니다.

출력 데이터가 알려진 경우 지도 학습을 사용할 수 있습니다. 알고리즘은 새로운 데이터를 예측합니다.

두 가지 범주가 있습니다. 지도 학습:

  • 분류과제
  • 회귀 작업

분류

광고에서 고객의 성별을 예측한다고 가정해 보세요. 고객 데이터베이스에서 키, 몸무게, 직업, 급여, 구매 바구니 등에 대한 데이터 수집을 시작합니다. 각 고객의 성별을 알고 있으며 남성 또는 여성만 될 수 있습니다. 분류기의 목적은 정보(즉, 수집한 특징)를 기반으로 남성 또는 여성일 확률(즉, 레이블)을 할당하는 것입니다. 모델이 남성 또는 여성을 인식하는 방법을 학습하면 새로운 데이터를 사용하여 예측할 수 있습니다. 예를 들어, 방금 알려지지 않은 고객으로부터 새로운 정보를 받았는데, 그 고객이 남성인지 여성인지 알고 싶습니다. 분류기가 남성 = 70%를 예측하는 경우 이는 알고리즘이 이 고객이 남성이고 70%가 여성이라고 확신한다는 의미입니다.

레이블은 두 개 이상의 클래스로 구성될 수 있습니다. 위의 기계 학습 예시에는 두 개의 클래스만 있지만 분류자가 객체를 예측해야 하는 경우 수십 개의 클래스가 있습니다(예: 유리, 테이블, 신발 등. 각 객체는 클래스를 나타냄).

리그레션

출력이 연속 값이면 작업은 회귀입니다. 예를 들어 재무 분석가는 주식, 이전 주식 실적, 거시 경제 지수와 같은 다양한 기능을 기반으로 주식 가치를 예측해야 할 수 있습니다. 시스템은 가능한 가장 낮은 오류로 주식 가격을 추정하도록 훈련됩니다.

암호알고리즘 상품 설명 타입
선형 회귀 미래 값을 예측하는 데 도움이 되도록 각 기능을 출력과 연관시키는 방법을 찾습니다. 리그레션
로지스틱 회귀 분류 작업에 사용되는 선형 회귀의 확장입니다. 출력 변수 3은 연속형(예: 무한한 색상 목록)이 아닌 이진형(예: 검정색 또는 흰색만)입니다. 분류
의사 결정 트리 최종 결정 출력이 이루어질 때까지 데이터 특성 값을 결정 노드에서 분기로 분할하는(예: 특성이 색상인 경우 가능한 각 색상이 새 분기가 됨) 해석하기 쉬운 분류 또는 회귀 모델 리그레션
분류
나이브 베이 즈 베이지안 방법은 베이지안 정리를 이용한 분류 방법입니다. 정리는 이벤트에 영향을 미칠 수 있는 각 기능의 독립적인 확률로 이벤트의 사전 지식을 업데이트합니다. 리그레션
분류
서포트 벡터 머신
SVM(Support Vector Machine)은 일반적으로 분류 작업에 사용됩니다.
SVM 알고리즘은 클래스를 최적으로 나누는 초평면을 찾습니다. 비선형 솔버와 함께 사용하는 것이 가장 좋습니다.
회귀(흔하지 않음)
분류
랜덤 포레스트 알고리즘은 정확도를 대폭 향상시키기 위해 의사결정 트리를 기반으로 구축되었습니다. 랜덤 포레스트는 간단한 의사결정 트리를 여러 번 생성하고 '과반수 투표' 방법을 사용하여 반환할 레이블을 결정합니다. 분류 작업의 경우 최종 예측은 가장 많은 표를 얻은 예측이 됩니다. 회귀 작업의 경우 모든 트리의 평균 예측이 최종 예측입니다. 리그레션
분류
에이다부스트 다수의 모델을 사용하여 결정을 내리지만 결과 예측의 정확성을 기준으로 가중치를 부여하는 분류 또는 회귀 기술입니다. 리그레션
분류
그라디언트 부스팅 트리 그래디언트 부스팅 트리는 최첨단 분류/회귀 기술입니다. 이전 트리에서 저지른 오류에 초점을 맞추고 이를 수정하려고 시도합니다. 리그레션
분류

감독되지 않은 학습

비지도 학습에서 알고리즘은 명시적인 출력 변수를 제공하지 않고 입력 데이터를 탐색합니다(예: 패턴을 식별하기 위해 고객 인구통계 데이터 탐색).

데이터를 어떻게 분류해야 할지 모르겠고, 알고리즘이 패턴을 찾아 데이터를 분류해 주고 싶을 때 사용할 수 있습니다.

알고리즘 이름 상품 설명 타입
K- 평균 클러스터링 유사한 특성을 가진 데이터를 포함하는 일부 그룹(k)에 데이터를 넣습니다(사람이 미리 결정하는 것이 아니라 모델에 의해 결정됨). ClusterING
가우시안 혼합 모델 그룹(클러스터)의 크기와 모양에 더 많은 유연성을 제공하는 k-평균 클러스터링의 일반화 ClusterING
계층 적 클러스터링 계층적 트리를 따라 클러스터를 분할하여 분류 시스템을 형성합니다.

를 위해 사용될 수있다 Cluster 포인트 카드 고객

ClusterING
추천 시스템 추천을 위한 관련 데이터를 정의하는 데 도움이 됩니다. ClusterING
PCA/T-SNE 주로 데이터의 차원을 줄이는 데 사용됩니다. 알고리즘은 특징 수를 가장 높은 분산을 가진 3개 또는 4개 벡터로 줄입니다. 치수 감소

기계 학습 알고리즘을 선택하는 방법

이제 이 기계 학습 기본 튜토리얼에서는 기계 학습(ML) 알고리즘을 선택하는 방법을 알아봅니다.

머신 러닝 알고리즘은 많이 있습니다. 알고리즘의 선택은 목적에 따라 달라집니다.

아래의 머신 러닝 예시에서 과제는 세 가지 품종 중에서 꽃의 유형을 예측하는 것입니다. 예측은 꽃잎의 길이와 너비를 기반으로 합니다. 그림은 10가지 다른 알고리즘의 결과를 보여줍니다. 왼쪽 위의 그림은 데이터 세트입니다. 데이터는 빨간색, 밝은 파란색, 진한 파란색의 세 가지 범주로 분류됩니다. 몇 가지 그룹이 있습니다. 예를 들어 두 번째 이미지에서 왼쪽 위의 모든 것은 빨간색 범주에 속하고, 가운데 부분에는 불확실성과 밝은 파란색이 섞여 있고, 아래쪽은 어두운 범주에 해당합니다. 다른 이미지는 다른 알고리즘과 데이터를 분류하려는 방법을 보여줍니다.

기계 학습 알고리즘을 선택하는 방법

머신러닝의 과제와 한계

이제 이 기계 학습 튜토리얼에서는 기계 학습의 한계에 대해 알아 보겠습니다.

기계 학습의 주요 과제는 데이터 부족 또는 데이터 세트의 다양성입니다. 사용 가능한 데이터가 없으면 기계는 학습할 수 없습니다. 게다가 다양성이 부족한 데이터 세트는 기계에 어려움을 줍니다. 기계가 의미 있는 통찰력을 얻으려면 이질성을 가져야 합니다. 변형이 없거나 거의 없을 때 알고리즘이 정보를 추출할 수 있는 경우는 거의 없습니다. 기계가 학습하는 데 도움이 되도록 그룹당 최소 20개의 관찰을 갖는 것이 좋습니다. 이러한 제약으로 인해 평가 및 예측이 제대로 이루어지지 않습니다.

머신러닝의 응용

이제 이 기계 학습 튜토리얼에서는 기계 학습의 응용을 배워 보겠습니다.

증가:

  • 출력을 완전히 제어하지 않고도 개인적으로나 상업적으로 인간의 일상적인 작업을 지원하는 기계 학습입니다. 이러한 기계 학습은 가상 비서, 데이터 분석, 소프트웨어 솔루션 등 다양한 방식으로 사용됩니다. 주요 사용자는 인간의 편견으로 인한 오류를 줄이는 것입니다.

자동화:

  • 사람의 개입 없이 모든 분야에서 완전히 자율적으로 작동하는 기계 학습입니다. 예를 들어, 제조 공장에서 필수 공정 단계를 수행하는 로봇입니다.

금융 산업

  • 머신 러닝은 금융 산업에서 점점 더 인기를 얻고 있습니다. 은행은 주로 ML을 사용하여 데이터 내부의 패턴을 찾고 사기를 방지합니다.

정부 기관

  • 정부는 공공 안전과 유틸리티를 관리하기 위해 ML을 사용합니다. 대규모 얼굴인식 기술을 보유한 중국의 예를 들어보자. 정부가 사용하는 인공 지능 무단횡단을 방지하기 위해.

건강 관리 산업

  • 의료는 이미지 감지와 함께 머신러닝을 사용한 최초의 산업 중 하나였습니다.

마케팅

  • 데이터에 대한 풍부한 액세스 덕분에 마케팅 분야에서 AI의 폭넓은 활용이 이루어지고 있습니다. 대량 데이터 시대 이전에 연구자들은 베이지안 분석과 같은 고급 수학적 도구를 개발하여 고객의 가치를 추정했습니다. 데이터가 급증함에 따라 마케팅 부서는 AI를 활용하여 고객 관계와 마케팅 캠페인을 최적화합니다.

공급망에서의 머신러닝 적용 사례

기계 학습은 시각적 패턴 인식에 대한 훌륭한 결과를 제공하여 전체 공급망 네트워크의 물리적 검사 및 유지 관리에 많은 잠재적인 응용 프로그램을 열어줍니다.

비지도 학습은 다양한 데이터 세트에서 비교 가능한 패턴을 빠르게 검색할 수 있습니다. 결과적으로 기계는 물류 허브 전반에 걸쳐 품질 검사를 수행하고 손상 및 마모가 있는 배송을 수행할 수 있습니다.

예를 들어, IBM의 Watson 플랫폼은 배송 컨테이너 손상을 판단할 수 있습니다. Watson은 시각적 데이터와 시스템 기반 데이터를 결합하여 실시간으로 추적, 보고 및 권장 사항을 제시합니다.

작년에 재고 관리자는 재고를 평가하고 예측하기 위해 기본 방법에 광범위하게 의존했습니다. 빅데이터와 머신러닝을 결합하면 더 나은 예측 기술이 구현되었습니다(기존 예측 도구에 비해 20~30% 향상). 매출 측면에서는 재고비용 감소 가능성으로 인해 2~3% 정도 증가한다는 뜻이다.

머신러닝 Google Car의 예

예를 들어, 모두가 Google 자동차를 알고 있습니다. 자동차 지붕에는 주변 지역의 위치를 ​​알려주는 레이저가 가득합니다. 전방에 레이더가 있어 주변의 모든 차량의 속도와 움직임을 차량에 알려줍니다. 이 모든 데이터를 사용하여 자동차를 운전하는 방법뿐만 아니라 자동차 주변의 잠재적인 운전자가 무엇을 할지 파악하고 예측합니다. 인상적인 점은 자동차가 거의 XNUMX초에 XNUMX기가바이트에 달하는 데이터를 처리하고 있다는 점입니다.

머신러닝의 응용

머신러닝이 왜 중요한가요?

머신러닝은 지금까지 데이터의 패턴을 분석, 이해 및 식별하는 데 가장 적합한 도구입니다. 기계 학습의 기본 아이디어 중 하나는 컴퓨터가 인간에게는 철저하거나 불가능한 작업을 자동화하도록 훈련할 수 있다는 것입니다. 전통적인 분석의 명백한 위반은 기계 학습이 최소한의 인간 개입으로 결정을 내릴 수 있다는 것입니다.

ML 튜토리얼의 다음 예를 살펴보겠습니다. 소매 중개인은 자신의 경험과 시장에 대한 지식을 바탕으로 주택 가격을 추정할 수 있습니다.

전문가의 지식을 기능으로 변환하도록 기계를 훈련시킬 수 있습니다. 특징은 가격 차이를 만드는 집, 동네, 경제 환경 등의 모든 특성입니다. 전문가의 경우, 집 가격을 추정하는 기술을 익히는 데 아마도 몇 년이 걸렸을 것입니다. 그의 전문성은 매 판매 이후 점점 더 좋아지고 있습니다.

기계의 경우 이 기술을 익히려면 수백만 개의 데이터(예: 예)가 필요합니다. 학습 초기에 기계는 마치 주니어 세일즈맨처럼 실수를 합니다. 기계가 모든 예를 본 후에는 추정을 할 수 있는 충분한 지식을 갖게 됩니다. 동시에, 믿을 수 없을 만큼 정확합니다. 기계는 그에 따라 실수를 조정할 수도 있습니다.

대부분의 대기업은 머신러닝과 데이터 보유의 가치를 이해하고 있습니다. McKinsey는 분석의 가치가 다음과 같이 다양하다고 추정했습니다. $9.5조 XNUMX천억 ~ $15.4조 XNUMX천억 $5조~7조는 가장 진보된 AI 기술에 기인할 수 있습니다.

또한 퍼지 논리란 무엇입니까?를 읽어보세요. Archi강의, 응용 및 예: Click Here