데이터 마이닝 튜토리얼: 데이터 마이닝이란 무엇입니까? 기술, 프로세스

데이터 마이닝이란?

데이터 마이닝 거대한 데이터 세트에서 잠재적으로 유용한 패턴을 찾는 프로세스입니다. 활용하는 다학제적 기술이다. 기계 학습, 통계, AI를 통해 미래 사건 확률을 평가하기 위한 정보를 추출합니다. 데이터 마이닝을 통해 얻은 통찰력은 마케팅, 사기 탐지, 과학적 발견 등에 사용됩니다.

데이터 마이닝은 데이터 사이에 숨겨진, 의심할 수 없는, 이전에 알려지지 않았지만 유효한 관계를 발견하는 것입니다. 데이터 마이닝은 KDD(Knowledge Discovery in Data), 지식 추출, 데이터/패턴 분석, 정보 수집 등이라고도 합니다.

데이터 유형

Follo에서 데이터 마이닝을 수행할 수 있습니다.wing 데이터 유형

  • 관계형 데이터베이스
  • 데이터웨어 하우스
  • 고급 DB 및 정보 저장소
  • 객체 지향 및 객체 관계형 데이터베이스
  • 트랜잭션 및 공간 데이터베이스
  • 이종neo우리와 레거시 데이터베이스
  • 멀티미디어 및 스트리밍 데이터베이스
  • 텍스트 데이터베이스
  • 텍스트 마이닝 및 웹 마이닝

데이터 마이닝 구현 프로세스

데이터 마이닝 구현 프로세스
데이터 마이닝 구현 프로세스

데이터 마이닝 구현 프로세스를 자세히 살펴보겠습니다.

비즈니스 이해

이 단계에서는 비즈니스 및 데이터 마이닝 목표가 설정됩니다.

  • 먼저, 비즈니스와 고객 목표를 이해해야 합니다. 고객이 원하는 것이 무엇인지 정의해야 합니다(고객도 스스로 모르는 경우가 많습니다).
  • 현재 데이터 마이닝 시나리오를 살펴보세요. 자원, 가정, 제약 조건 및 기타 중요한 요소를 평가에 고려하세요.
  • 비즈니스 목표와 현재 시나리오를 사용하여 데이터 마이닝 목표를 정의합니다.
  • 좋은 데이터 마이닝 계획은 매우 상세하며 비즈니스 및 데이터 마이닝 목표를 모두 달성하기 위해 개발되어야 합니다.

데이터 이해

이 단계에서는 데이터 마이닝 목표에 적합한지 여부를 확인하기 위해 데이터에 대한 온전성 검사를 수행합니다.

  • 첫째, 조직에서 사용 가능한 여러 데이터 소스로부터 데이터가 수집됩니다.
  • 이러한 데이터 소스에는 여러 데이터베이스, 플랫 파일러 또는 데이터 큐브가 포함될 수 있습니다. 데이터 통합 ​​프로세스 중에 발생할 수 있는 객체 일치 및 스키마 통합과 같은 문제가 있습니다. 꽤 컴입니다plex 다양한 소스의 데이터가 쉽게 일치하지 않기 때문에 까다로운 프로세스가 필요합니다. 예를 들어 테이블 A에는 cust_no라는 엔터티가 포함되어 있고 다른 테이블 B에는 cust-id라는 엔터티가 포함되어 있습니다.
  • 따라서 주어진 객체가 모두 동일한 값을 참조하는지 여부를 확인하는 것은 매우 어렵습니다. 여기서 데이터 통합 ​​과정에서 오류를 줄이기 위해서는 메타데이터를 사용해야 한다.
  • 다음 단계는 획득된 데이터의 속성을 검색하는 것입니다. 데이터를 탐색하는 좋은 방법은 쿼리, 보고 및 시각화 도구를 사용하여 데이터 마이닝 질문(비즈니스 단계에서 결정)에 답하는 것입니다.
  • 쿼리 결과를 바탕으로 데이터 품질을 확인해야 합니다. 수집해야 하는 데이터가 누락되었습니다.

데이터 준비

이 단계에서는 데이터 생산 준비가 완료됩니다.

데이터 준비 프로세스는 프로젝트 시간의 약 90%를 소비합니다.

다양한 소스의 데이터를 선택하고, 정리하고, 변환하고, 형식화하고, 익명화하고 구성해야 합니다(필요한 경우).

데이터 정리는 잡음이 있는 데이터를 평활화하고 누락된 값을 채워 데이터를 "정리"하는 프로세스입니다.

예를 들어 고객 인구통계 프로필의 경우 연령 데이터가 누락되었습니다. 데이터가 불완전하므로 채워야 합니다. 경우에 따라 데이터 이상값이 있을 수 있습니다. 예를 들어 나이 값은 300입니다. 데이터가 일관되지 않을 수 있습니다. 예를 들어 고객의 이름은 테이블마다 다릅니다.

데이터 변환 작업은 데이터 마이닝에 유용하도록 데이터를 변경합니다. 폴로wing 변신을 적용할 수 있다

데이터 변환

데이터 변환 작업은 마이닝 프로세스의 성공에 기여합니다.

스무딩 : 데이터에서 노이즈를 제거하는 데 도움이 됩니다.

집합: 요약 또는 집계 작업이 데이터에 적용됩니다. 즉, 주간 매출 데이터를 집계하여 월별, 연간 합계를 계산합니다.

일반화: 이 단계에서는 개념 계층의 도움을 받아 하위 수준 데이터가 상위 수준 개념으로 대체됩니다. 예를 들어, 도시는 카운티로 대체됩니다.

표준화: 속성 데이터가 확장되거나 축소될 때 정규화가 수행됩니다. 예: 데이터는 정규화 후 -2.0에서 2.0 범위에 속해야 합니다.

속성 구성: 이러한 속성은 데이터 마이닝에 유용한 주어진 속성 세트를 구성하고 포함합니다.

이 과정의 결과는 모델링에 사용할 수 있는 최종 데이터 세트입니다.

모델링

이 단계에서는 수학적 모델을 사용하여 데이터 패턴을 결정합니다.

  • 비즈니스 목표에 따라 준비된 데이터 세트에 적합한 모델링 기술을 선택해야 합니다.
  • 모델의 품질과 유효성을 테스트하기 위한 시나리오를 만듭니다.
  • 준비된 데이터 세트에서 모델을 실행합니다.
  • 모델이 데이터 마이닝 목표를 충족할 수 있는지 확인하기 위해 모든 이해관계자가 결과를 평가해야 합니다.

평가

이 단계에서는 식별된 패턴을 비즈니스 목표와 비교하여 평가합니다.

  • 데이터 마이닝 모델을 통해 생성된 결과는 비즈니스 목표와 비교하여 평가되어야 합니다.
  • 비즈니스 이해를 얻는 것은 반복적인 프로세스입니다. 실제로 이해하는 동안 데이터 마이닝으로 인해 새로운 비즈니스 요구 사항이 제기될 수 있습니다.
  • 배포 단계에서 모델 이동 여부에 대한 결정이 내려집니다.

전개

배포 단계에서는 데이터 마이닝 검색을 일상적인 비즈니스 운영에 전달합니다.

  • 데이터 마이닝 과정에서 발견된 지식이나 정보는 기술적 지식이 없는 이해관계자도 쉽게 이해할 수 있도록 제공되어야 합니다.
  • 데이터 마이닝 검색의 배송, 유지 관리 및 모니터링을 위한 상세한 배포 계획이 생성됩니다.
  • 프로젝트를 진행하면서 얻은 교훈과 주요 경험을 바탕으로 최종 프로젝트 보고서가 작성됩니다. 이는 조직의 비즈니스 정책을 개선하는 데 도움이 됩니다.

데이터 마이닝 기법

데이터 마이닝 기법
데이터 마이닝 기법

1. 분류

이 분석은 데이터 및 메타데이터에 대한 중요하고 관련 있는 정보를 검색하는 데 사용됩니다. 이 데이터 마이닝 방법은 데이터를 다양한 클래스로 분류하는 데 도움이 됩니다.

2. 클러스터링

클러스터링 분석은 서로 유사한 데이터를 식별하는 데이터 마이닝 기술입니다. 이 프로세스는 데이터 간의 차이점과 유사점을 이해하는 데 도움이 됩니다.

3. 회귀

회귀 분석은 변수 간의 관계를 식별하고 분석하는 데이터 마이닝 방법입니다. 다른 변수가 존재하는 경우 특정 변수의 가능성을 식별하는 데 사용됩니다.

4. 협회 규칙

이 데이터 마이닝 기술은 둘 이상의 항목 간의 연관성을 찾는 데 도움이 됩니다. 데이터 세트에서 숨겨진 패턴을 발견합니다.

5. 외부 감지

이러한 유형의 데이터 마이닝 기술은 예상 패턴이나 예상 동작과 일치하지 않는 데이터 세트의 데이터 항목을 관찰하는 것을 말합니다. 이 기술은 침입, 감지, 사기 또는 오류 감지 등과 같은 다양한 영역에서 사용될 수 있습니다. 외부 감지는 이상값 분석 또는 이상값 마이닝이라고도 합니다.

6. 순차적 패턴

이 데이터 마이닝 기술은 특정 기간 동안의 거래 데이터에서 유사한 패턴이나 추세를 발견하거나 식별하는 데 도움이 됩니다.

7. 예측

예측은 추세, 순차 패턴, 클러스터링, 분류 등과 같은 다른 데이터 마이닝 기술을 조합하여 사용했습니다. 미래 이벤트를 예측하기 위해 올바른 순서로 과거 이벤트 또는 인스턴스를 분석합니다.

데이터 마이닝 구현의 과제

  • 데이터 마이닝 쿼리를 공식화하려면 숙련된 전문가가 필요합니다.
  • 과적합: 훈련 데이터베이스의 크기가 작기 때문에 모델이 미래 상태에 맞지 않을 수 있습니다.
  • 데이터 마이닝에는 때로는 관리하기 어려운 대규모 데이터베이스가 필요합니다.
  • 밝혀진 정보를 사용하기로 결정하려면 비즈니스 관행을 수정해야 할 수도 있습니다.
  • 데이터 세트가 다양하지 않으면 데이터 마이닝 결과가 정확하지 않을 수 있습니다.
  • 이종에서 필요한 통합 정보neo우리 데이터베이스와 글로벌 정보 시스템은 com일 수 있습니다.plex

데이터 마이닝 예

이제 이 데이터 마이닝 과정에서는 다음 예제를 통해 데이터 마이닝에 대해 알아 보겠습니다.

예 1 :

장거리 서비스 수익을 늘리고 싶어하는 통신 서비스 제공업체의 마케팅 책임자를 생각해 보십시오. 영업 및 마케팅 활동에 대한 높은 ROI를 위해서는 고객 프로파일링이 중요합니다. 그는 나이, 성별, 소득, 신용기록 등 고객 정보가 담긴 방대한 데이터 풀을 보유하고 있다. 그러나 장거리 전화를 선호하는 사람들의 특성을 수동 분석으로는 파악하는 것이 불가능하다. 그는 데이터 마이닝 기술을 사용하여 장거리 전화 사용자와 그 특성 간의 패턴을 찾아낼 수 있습니다.

예를 들어, 그는 그의 최고 고객이 연간 45달러 이상을 버는 54세에서 80,000세 사이의 기혼 여성이라는 것을 알게 될 것입니다. 마케팅 노력은 이러한 인구통계학적 특성을 대상으로 할 수 있습니다.

예 2 :

한 은행은 신용카드 운영으로 수익을 늘릴 수 있는 새로운 방법을 찾고 싶어합니다. 그들은 수수료를 절반으로 줄이면 사용량이 두 배로 늘어날지 확인하고 싶어합니다.

은행은 평균 신용 카드 잔액, 지불 금액, 신용 한도 사용 및 기타 주요 매개변수에 대한 다년간의 기록을 보유하고 있습니다. 그들은 제안된 새로운 비즈니스 정책의 영향을 확인하기 위한 모델을 만듭니다. 데이터 결과에 따르면 대상 고객 기반에 대한 수수료를 절반으로 줄이면 매출이 천만 달러 증가할 수 있습니다.

데이터 마이닝 도구

FOLLOwing 2 인기가 있어 데이터 마이닝 도구 산업계에서 널리 사용됨

R 언어:

R 언어 통계 컴퓨팅 및 그래픽을 위한 오픈 소스 도구입니다. R에는 다양한 통계, 고전 통계 테스트, 시계열 분석, 분류 및 그래픽 기술이 있습니다. 효과적인 데이터 처리 및 저장 기능을 제공합니다.

자세히 알아보기

오라클 데이터 마이닝:

오라클 데이터 마이닝 ODM으로 널리 알려진 것은 Oracle Advanced Analytics Database의 모듈입니다. 이 데이터 마이닝 도구를 사용하면 데이터 분석가가 자세한 통찰력을 생성하고 예측할 수 있습니다. 고객 행동을 예측하고, 고객 프로필을 개발하고, 교차 판매 기회를 식별하는 데 도움이 됩니다.

자세히 알아보기

데이터 마이닝의 이점

  • 데이터 마이닝 기술은 기업이 지식 기반 정보를 얻는 데 도움이 됩니다.
  • 데이터 마이닝은 조직이 운영 및 생산에서 수익성 있는 조정을 수행하는 데 도움이 됩니다.
  • 데이터 마이닝은 다른 통계 데이터 애플리케이션에 비해 비용 효율적이고 효율적인 솔루션입니다.
  • 데이터 마이닝은 의사결정 과정에 도움이 됩니다.
  • 추세와 행동에 대한 자동화된 예측은 물론 숨겨진 패턴의 자동화된 발견도 촉진합니다.
  • 기존 플랫폼은 물론 새로운 시스템에서도 구현 가능
  • 이는 사용자가 더 짧은 시간에 엄청난 양의 데이터를 분석하기 쉽게 만드는 빠른 프로세스입니다.

데이터 마이닝의 단점

  • 기업이 고객의 유용한 정보를 다른 기업에 돈을 받고 팔 가능성이 있습니다. 예를 들어, American Express는 고객의 신용 카드 구매를 다른 회사에 판매했습니다.
  • 많은 데이터 마이닝 분석 소프트웨어는 작동하기 어렵고 작동하려면 사전 교육이 필요합니다.
  • 다양한 데이터 마이닝 도구는 설계에 사용된 다양한 알고리즘으로 인해 다양한 방식으로 작동합니다. 따라서 올바른 데이터 마이닝 도구를 선택하는 것은 매우 어려운 작업입니다.
  • 데이터 마이닝 기술은 정확하지 않으므로 특정 조건에서는 심각한 결과를 초래할 수 있습니다.

데이터 마이닝 애플리케이션

어플리케이션 용법
커뮤니케이션 데이터 마이닝 기술은 통신 부문에서 고객 행동을 예측하여 고도로 타겟팅되고 관련성이 높은 캠페인을 제공하는 데 사용됩니다.
보험 데이터 마이닝은 보험 회사가 수익성 있는 상품 가격을 책정하고 신규 고객이나 기존 고객에게 새로운 제안을 홍보하는 데 도움이 됩니다.
교육 데이터 마이닝은 교육자가 학생 데이터에 액세스하고 성취 수준을 예측하며 특별한 주의가 필요한 학생 또는 학생 그룹을 찾는 데 도움이 됩니다. 예를 들어, 수학 과목에 약한 학생.
제조 산업 데이터 마이닝의 도움으로 제조업체는 생산 자산의 마모를 예측할 수 있습니다. 유지보수를 예상하여 가동 중지 시간을 최소화할 수 있습니다.
은행 데이터 마이닝은 금융 부문이 시장 위험을 파악하고 규정 준수를 관리하는 데 도움이 됩니다. 이는 은행이 신용카드, 대출 등의 발행 여부를 결정하기 위해 채무 불이행 가능성이 있는 사람을 식별하는 데 도움이 됩니다.
소매 데이터 마이닝 기술은 소매 쇼핑몰과 식료품점에서 가장 잘 팔릴 수 있는 품목을 식별하고 가장 세심한 위치에 배열하는 데 도움이 됩니다. 이는 상점 주인이 고객이 지출을 늘리도록 장려하는 제안을 제시하는 데 도움이 됩니다.
서비스 제공 업체 휴대폰 및 유틸리티 산업과 같은 서비스 제공업체는 데이터 마이닝을 사용하여 고객이 회사를 떠나는 이유를 예측합니다. 그들은 청구서를 분석합니다tails, 고객 서비스 상호 작용, 회사에 불만 사항을 접수하여 각 고객에게 확률 점수를 할당하고 인센티브를 제공합니다.
전자 상거래 전자상거래 웹사이트 데이터 마이닝을 사용하여 웹사이트를 통해 교차 판매 및 상향 판매를 제공합니다. 가장 유명한 이름 중 하나는 다음과 같습니다. Amazon, 데이터 마이닝 기술을 사용하여 더 많은 고객을 전자상거래 매장으로 유도합니다.
슈퍼 마켓 데이터 마이닝을 사용하면 슈퍼마켓의 개발 규칙을 통해 쇼핑객이 예상할 가능성이 있는지 예측할 수 있습니다. 구매 패턴을 평가해 임신 가능성이 가장 높은 여성 고객을 찾을 수 있었습니다. 그들은 베이비파우더, 베이비샵, 기저귀 등과 같은 제품을 타겟팅하기 시작할 수 있습니다.
범죄수사 데이터 마이닝은 범죄 수사 기관이 경찰 인력(범죄가 발생할 가능성이 가장 높은 곳과 시기)을 배치하고 국경 검문소에서 누구를 검색할지 등을 도와줍니다.
생물 정보학 데이터 마이닝은 생물학과 의학 분야에서 수집된 대규모 데이터 세트에서 생물학적 데이터를 마이닝하는 데 도움이 됩니다.

요약

  • 데이터 마이닝 정의: 데이터 마이닝은 과거를 설명하고 다음을 통해 미래를 예측하는 것입니다. 데이터 분석.
  • 데이터 마이닝은 방대한 데이터 세트에서 정보를 추출하는 데 도움이 됩니다. 데이터로부터 지식을 채굴하는 과정입니다.
  • 데이터 마이닝 프로세스에는 비즈니스 이해, 데이터 이해, 데이터 준비, 모델링, 진화, 배포가 포함됩니다.
  • 중요한 데이터 마이닝 기술로는 분류, 클러스터링, 회귀, 연관 규칙, 외부 감지, 순차 패턴 및 예측이 있습니다.
  • R 언어 Oracle 데이터 마이닝은 탁월한 데이터 마이닝 도구 및 기술입니다.
  • 데이터 마이닝 기술은 기업이 지식 기반 정보를 얻는 데 도움이 됩니다.
  • 데이터 마이닝의 가장 큰 단점은 많은 분석 소프트웨어가 작동하기 어렵고 작동하려면 사전 교육이 필요하다는 것입니다.
  • 데이터 마이닝은 통신, 보험, 교육, 제조, 은행, 소매, 서비스 제공업체, 전자상거래, 슈퍼마켓 생물정보학 등 다양한 산업에서 사용됩니다.