Tutoriel sur le Data Mining : Qu'est-ce que le Data Mining ? Techniques, Processus

Qu'est-ce que l'exploration de données?

Data Mining est un processus permettant de trouver des modèles potentiellement utiles à partir d’énormes ensembles de données. C'est une compétence multidisciplinaire qui utilise machine learning, des statistiques et l'IA pour extraire des informations afin d'évaluer la probabilité d'événements futurs. Les informations dérivées du Data Mining sont utilisées à des fins de marketing, de détection de fraude, de découverte scientifique, etc.

Le Data Mining consiste à découvrir des relations cachées, insoupçonnées et jusque-là inconnues mais valides entre les données. L'exploration de données est également appelée découverte de connaissances dans les données (KDD), extraction de connaissances, analyse de données/modèles, collecte d'informations, etc.

Types de données

L'exploration de données peut être effectuée sur les types de données suivants

  • Bases de données relationnelles
  • Entrepôts de données
  • Base de données avancée et référentiels d'informations
  • Bases de données orientées objet et relationnelles objet
  • Bases de données transactionnelles et spatiales
  • Bases de données hétérogènes et existantes
  • Base de données multimédia et streaming
  • Bases de données de texte
  • Exploration de texte et exploration de Web

Processus de mise en œuvre de l’exploration de données

Processus de mise en œuvre de l'exploration de données
Processus de mise en œuvre de l'exploration de données

Étudions en détail le processus de mise en œuvre du Data Mining

Compréhension des affaires

Au cours de cette phase, les objectifs commerciaux et d’exploration de données sont établis.

  • Tout d’abord, vous devez comprendre les objectifs de l’entreprise et des clients. Vous devez définir ce que veut votre client (ce que souvent même lui-même ne connaît pas)
  • Faites le point sur le scénario actuel d’exploration de données. Tenez compte des ressources, des hypothèses, des contraintes et d’autres facteurs importants dans votre évaluation.
  • À l’aide des objectifs commerciaux et du scénario actuel, définissez vos objectifs d’exploration de données.
  • Un bon plan d'exploration de données est très détaillé et doit être développé pour atteindre les objectifs commerciaux et d'exploration de données.

Compréhension des données

Au cours de cette phase, un contrôle d'intégrité des données est effectué pour vérifier si elles conviennent aux objectifs d'exploration de données.

  • Premièrement, les données sont collectées à partir de plusieurs sources de données disponibles dans l'organisation.
  • Ces sources de données peuvent inclure plusieurs bases de données, un fichier plat ou des cubes de données. Des problèmes tels que la correspondance d'objets et l'intégration de schémas peuvent survenir lors du processus d'intégration de données. Il s’agit d’un processus assez complexe et délicat, car il est peu probable que les données provenant de diverses sources correspondent facilement. Par exemple, la table A contient une entité nommée cust_no tandis qu'une autre table B contient une entité nommée cust-id.
  • Par conséquent, il est assez difficile de garantir que ces deux objets donnés font référence ou non à la même valeur. Ici, les métadonnées doivent être utilisées pour réduire les erreurs dans le processus d'intégration des données.
  • Ensuite, l’étape consiste à rechercher les propriétés des données acquises. Un bon moyen d'explorer les données est de répondre aux questions d'exploration de données (décidées en phase commerciale) à l'aide des outils de requête, de reporting et de visualisation.
  • Sur la base des résultats de la requête, la qualité des données doit être vérifiée. Les données manquantes, le cas échéant, devraient être acquises.

Préparation des données

Au cours de cette phase, les données sont prêtes pour la production.

Le processus de préparation des données consomme environ 90 % du temps du projet.

Les données provenant de différentes sources doivent être sélectionnées, nettoyées, transformées, formatées, anonymisées et construites (si nécessaire).

Le nettoyage des données est un processus visant à « nettoyer » les données en lissant les données bruyantes et en remplissant les valeurs manquantes.

Par exemple, pour un profil démographique de client, les données d'âge sont manquantes. Les données sont incomplètes et doivent être complétées. Dans certains cas, il peut y avoir des données aberrantes. Par exemple, l'âge a une valeur de 300. Les données peuvent être incohérentes. Par exemple, le nom du client est différent dans différentes tables.

Les opérations de transformation de données modifient les données pour les rendre utiles à l'exploration de données. La transformation suivante peut être appliquée

Transformation de données

Les opérations de transformation des données contribueraient au succès du processus d’exploration de données.

Lissage: Cela aide à supprimer le bruit des données.

Agrégation: Des opérations de synthèse ou d'agrégation sont appliquées aux données. Autrement dit, les données de ventes hebdomadaires sont agrégées pour calculer le total mensuel et annuel.

Généralisation: Dans cette étape, les données de bas niveau sont remplacées par des concepts de niveau supérieur à l'aide de hiérarchies de concepts. Par exemple, la ville est remplacée par le comté.

Normalisation: Normalisation effectuée lorsque les données d'attribut sont mises à l'échelle ou réduites. Exemple : les données doivent être comprises entre -2.0 et 2.0 après normalisation.

Construction d'attribut: ces attributs sont construits et incluent l'ensemble d'attributs donné utile pour l'exploration de données.

Le résultat de ce processus est un ensemble de données final qui peut être utilisé dans la modélisation.

La modélisation

Dans cette phase, des modèles mathématiques sont utilisés pour déterminer des modèles de données.

  • Sur la base des objectifs commerciaux, des techniques de modélisation appropriées doivent être sélectionnées pour l'ensemble de données préparé.
  • Créez un scénario pour tester la qualité et la validité du modèle.
  • Exécutez le modèle sur l'ensemble de données préparé.
  • Les résultats doivent être évalués par toutes les parties prenantes pour s'assurer que le modèle peut répondre aux objectifs d'exploration de données.

Évaluation

Dans cette phase, les modèles identifiés sont évalués par rapport aux objectifs commerciaux.

  • Les résultats générés par le modèle d'exploration de données doivent être évalués par rapport aux objectifs commerciaux.
  • Acquérir une compréhension commerciale est un processus itératif. En fait, même si l’on comprend, de nouveaux besoins commerciaux peuvent surgir du fait de l’exploration de données.
  • Une décision de procéder ou non est prise pour déplacer le modèle dans la phase de déploiement.

Déploiement

Lors de la phase de déploiement, vous transmettez vos découvertes d'exploration de données aux opérations commerciales quotidiennes.

  • Les connaissances ou informations découvertes au cours du processus d’exploration de données doivent être faciles à comprendre pour les parties prenantes non techniques.
  • Un plan de déploiement détaillé, pour l'expédition, la maintenance et la surveillance des découvertes d'exploration de données, est créé.
  • Un rapport final du projet est créé avec les leçons apprises et les expériences clés au cours du projet. Cela contribue à améliorer la politique commerciale de l'organisation.

Techniques d'exploration de données

Techniques d'exploration de données
Techniques d'exploration de données

1. Classification

Cette analyse est utilisée pour récupérer des informations importantes et pertinentes sur les données et les métadonnées. Cette méthode d'exploration de données permet de classer les données dans différentes classes.

2. Clusterfaire respecter

ClusterL'analyse de données est une technique d'exploration de données permettant d'identifier des données qui se ressemblent. Ce processus permet de comprendre les différences et les similitudes entre les données.

3. Régression

L'analyse de régression est la méthode d'exploration de données permettant d'identifier et d'analyser la relation entre les variables. Il est utilisé pour identifier la probabilité d'une variable spécifique, compte tenu de la présence d'autres variables.

4. Règles d'association

Cette technique d'exploration de données permet de trouver l'association entre deux ou plusieurs éléments. Il découvre un modèle caché dans l'ensemble de données.

5. Détection externe

Ce type de technique d'exploration de données fait référence à l'observation d'éléments de données dans l'ensemble de données qui ne correspondent pas à un modèle ou à un comportement attendu. Cette technique peut être utilisée dans des domaines variés, tels que la détection d'intrusion, la détection, la détection de fraude ou de faute, etc. La détection externe est également appelée Outlier Analysis ou Outlier mining.

6. Modèles séquentiels

Cette technique d'exploration de données permet de découvrir ou d'identifier des modèles ou des tendances similaires dans les données de transaction sur une certaine période.

7. Prédiction

La prédiction a utilisé une combinaison d'autres techniques d'exploration de données telles que les tendances, les modèles séquentiels, le regroupement, la classification, etc. Elle analyse les événements ou instances passés dans un ordre correct pour prédire un événement futur.

Défis de la mise en œuvre de la mine de données

  • Des experts qualifiés sont nécessaires pour formuler les requêtes d’exploration de données.
  • Surajustement : en raison de la petite taille de la base de données de formation, un modèle peut ne pas correspondre aux états futurs.
  • Le data mining nécessite de grandes bases de données parfois difficiles à gérer
  • Les pratiques commerciales devront peut-être être modifiées pour déterminer l’utilisation des informations découvertes.
  • Si l’ensemble de données n’est pas diversifié, les résultats de l’exploration de données risquent de ne pas être précis.
  • Les informations d'intégration nécessaires à partir de bases de données hétérogènes et de systèmes d'information mondiaux peuvent être complexes

Exemples d'exploration de données

Maintenant, dans ce cours de Data Mining, apprenons-en davantage sur le Data Mining avec des exemples :

1 Exemple:

Prenons l’exemple d’un responsable marketing d’un fournisseur de services de télécommunications qui souhaite augmenter les revenus des services longue distance. Pour un retour sur investissement élevé sur ses efforts de vente et de marketing, le profilage des clients est important. Il dispose d'un vaste pool de données contenant des informations sur les clients telles que l'âge, le sexe, les revenus, les antécédents de crédit, etc. Mais il est impossible de déterminer les caractéristiques des personnes qui préfèrent les appels longue distance avec une analyse manuelle. À l'aide de techniques d'exploration de données, il peut découvrir des tendances entre les utilisateurs d'appels longue distance et leurs caractéristiques.

Par exemple, il pourrait apprendre que ses meilleurs clients sont des femmes mariées âgées de 45 à 54 ans qui gagnent plus de 80,000 $ par an. Les efforts de marketing peuvent être ciblés sur ce groupe démographique.

2 Exemple:

Une banque souhaite rechercher de nouvelles façons d'augmenter les revenus provenant de ses opérations de cartes de crédit. Ils veulent vérifier si l’utilisation doublerait si les frais étaient réduits de moitié.

La banque dispose de plusieurs années d'enregistrement sur les soldes moyens des cartes de crédit, les montants des paiements, l'utilisation des limites de crédit et d'autres paramètres clés. Ils créent un modèle pour vérifier l’impact de la nouvelle politique commerciale proposée. Les résultats des données montrent que la réduction de moitié des frais pour une clientèle ciblée pourrait augmenter les revenus de 10 millions de dollars.

Outils d'exploration de données

Voici 2 populaires Outils d'exploration de données largement utilisé dans l'industrie

Langage R :

Langue R est un outil open source pour le calcul statistique et le graphisme. R propose une grande variété de tests statistiques classiques, d'analyses de séries chronologiques, de classification et de techniques graphiques. Il offre une installation efficace de traitement et de stockage des données.

En savoir plus ici

Oracle Exploration de données :

Oracle Data Mining populairement connu sous le nom d'ODM est un module du Oracle Base de données d'analyse avancée. Cet outil d'exploration de données permet aux analystes de données de générer des informations détaillées et de faire des prédictions. Il permet de prédire le comportement des clients, de développer des profils clients et d'identifier les opportunités de ventes croisées.

En savoir plus ici

Avantages de l'exploration de données

  • La technique d'exploration de données aide les entreprises à obtenir des informations basées sur les connaissances.
  • L'exploration de données aide les organisations à effectuer des ajustements rentables en matière d'exploitation et de production.
  • L'exploration de données est une solution rentable et efficace par rapport à d'autres applications de données statistiques.
  • L’exploration de données aide au processus de prise de décision.
  • Facilite la prédiction automatisée des tendances et des comportements ainsi que la découverte automatisée de modèles cachés.
  • Il peut être implémenté dans de nouveaux systèmes ainsi que dans des plateformes existantes
  • C’est un processus rapide qui permet aux utilisateurs d’analyser facilement une énorme quantité de données en moins de temps.

Inconvénients de l'exploration de données

  • Il est possible que des entreprises vendent des informations utiles sur leurs clients à d’autres entreprises contre de l’argent. Par exemple, American Express a vendu les achats par carte de crédit de ses clients à d'autres sociétés.
  • De nombreux logiciels d’analyse d’exploration de données sont difficiles à utiliser et nécessitent une formation préalable.
  • Différents outils d'exploration de données fonctionnent de différentes manières en raison des différents algorithmes utilisés dans leur conception. Par conséquent, la sélection du bon outil d’exploration de données est une tâche très difficile.
  • Les techniques d’exploration de données ne sont pas précises et peuvent donc avoir de graves conséquences dans certaines conditions.

Applications d'exploration de données

Applications Utilisation
Communications Les techniques d'exploration de données sont utilisées dans le secteur de la communication pour prédire le comportement des clients afin de proposer des campagnes hautement ciblées et pertinentes.
Droit des assurances L'exploration de données aide les compagnies d'assurance à fixer le prix de leurs produits de manière rentable et à promouvoir de nouvelles offres auprès de leurs clients nouveaux ou existants.
Education L'exploration de données permet aux enseignants d'accéder aux données des élèves, de prédire les niveaux de réussite et de trouver les élèves ou les groupes d'élèves qui nécessitent une attention particulière. Par exemple, les étudiants qui sont faibles en mathématiques.
Fabrication Avec l'aide du Data Mining, les fabricants peuvent prédire l'usure des actifs de production. Ils peuvent anticiper la maintenance, ce qui les aide à les réduire et à minimiser les temps d'arrêt.
Services bancaires L'exploration de données aide le secteur financier à avoir une vision des risques de marché et à gérer la conformité réglementaire. Il aide les banques à identifier les défaillants probables et à décider d'émettre des cartes de crédit, des prêts, etc.
Vente au détail Les techniques d'exploration de données aident les centres commerciaux et les épiceries à identifier et à disposer les articles les plus vendables dans les positions les plus attentives. Il aide les propriétaires de magasins à proposer une offre qui encourage les clients à augmenter leurs dépenses.
Fournisseurs de services Les fournisseurs de services tels que la téléphonie mobile et les services publics utilisent le Data Mining pour prédire les raisons pour lesquelles un client quitte leur entreprise. Ils analysent les détails de facturation, les interactions avec le service client, les plaintes déposées auprès de l'entreprise pour attribuer à chaque client un score de probabilité et proposer des incitations.
E-Commerce Les sites Web de commerce électronique utilisent le Data Mining pour proposer des ventes croisées et des ventes incitatives via leurs sites Web. L'un des noms les plus célèbres est Amazon, qui utilisent des techniques d'exploration de données pour attirer davantage de clients dans leur boutique de commerce électronique.
Supermarchés L'exploration de données permet aux supermarchés d'élaborer des règles pour prédire si leurs acheteurs sont susceptibles de s'y attendre. En évaluant leurs habitudes d’achat, ils pourraient trouver des clientes très probablement enceintes. Ils peuvent commencer à cibler des produits comme la poudre pour bébé, les produits pour bébés, les couches, etc.
Enquête criminelle Le Data Mining aide les agences d'enquête criminelle à déployer des effectifs de police (où un crime est-il le plus susceptible de se produire et quand ?), qui fouiller à un poste frontière, etc.
Bioinformatique Le Data Mining permet d’extraire des données biologiques à partir d’ensembles de données massifs collectés en biologie et en médecine.

Résumé

  • Définition du Data Mining : le Data Mining consiste à expliquer le passé et à prédire l'avenir via Analyse de données.
  • L’exploration de données permet d’extraire des informations à partir d’énormes ensembles de données. C'est la procédure d'extraction de connaissances à partir de données.
  • Le processus d'exploration de données comprend la compréhension commerciale, la compréhension des données, la préparation des données, la modélisation, l'évolution et le déploiement.
  • Les techniques d'exploration de données importantes sont la classification, le clustering, la régression, les règles d'association, la détection externe, les modèles séquentiels et la prédiction.
  • Langage R et Oracle L'exploration de données est un outil et une technique d'exploration de données de premier plan.
  • La technique d'exploration de données aide les entreprises à obtenir des informations basées sur les connaissances.
  • Le principal inconvénient de l’exploration de données est que de nombreux logiciels d’analyse sont difficiles à utiliser et nécessitent une formation préalable.
  • L'exploration de données est utilisée dans divers secteurs tels que les communications, les assurances, l'éducation, la fabrication, la banque, la vente au détail, les prestataires de services, le commerce électronique et la bioinformatique des supermarchés.