Apprentissage automatique non supervisé : algorithmes, types avec exemple

Qu'est-ce que l'apprentissage non supervisé ?

Apprentissage non supervisé est une technique d'apprentissage automatique dans laquelle les utilisateurs n'ont pas besoin de superviser le modèle. Au lieu de cela, cela permet au modèle de fonctionner de manière autonome pour découvrir des modèles et des informations qui n’étaient pas détectés auparavant. Il traite principalement des données non étiquetées.

Algorithmes d'apprentissage non supervisé

Algorithmes d'apprentissage non supervisé permettre aux utilisateurs d'effectuer plus de complex tâches de traitement par rapport à l’apprentissage supervisé. Cependant, l’apprentissage non supervisé peut être plus imprévisible que d’autres méthodes d’apprentissage naturelles. Les algorithmes d'apprentissage non supervisé incluent le clustering, la détection d'anomalies, les réseaux de neurones, etc.

Exemple d'apprentissage automatique non supervisé

Prenons un exemple d'apprentissage non supervisé pour un bébé et son chien de la famille.

Exemple d'apprentissage automatique non supervisé

Elle connaît et identifie ce chien. Quelques semaines plus tard, un ami de la famille amène un chien et essaie de jouer avec le bébé.

Exemple d'apprentissage automatique non supervisé

Bébé n'a pas vu ce chien plus tôt. Mais il reconnaît de nombreuses caractéristiques (2 oreilles, yeux, marche sur 4 pattes) qui ressemblent à son chien de compagnie. Elle identifie le nouvel animal comme étant un chien. Il s'agit d'un apprentissage non supervisé, dans lequel on ne vous enseigne pas mais vous apprenez à partir des données (dans ce cas, des données sur un chien.) Si cela avait été enseignement supervisé, l'ami de la famille aurait dit au bébé que c'était un chien, comme le montre l'exemple d'apprentissage non supervisé ci-dessus.

Pourquoi un apprentissage non supervisé ?

Voici les principales raisons d'utiliser l'apprentissage non supervisé dans Machine Learning:

  • L’apprentissage automatique non supervisé détecte toutes sortes de modèles inconnus dans les données.
  • Les méthodes non supervisées vous aident à trouver des fonctionnalités qui peuvent être utiles pour la catégorisation.
  • Elle se déroule en temps réel, donc toutes les données d'entrée doivent être analysées et étiquetées en présence des apprenants.
  • Il est plus facile d'obtenir des données non étiquetées à partir d'un ordinateur que des données étiquetées, qui nécessitent une intervention manuelle.

Types de clustering d’algorithmes d’apprentissage non supervisés

Vous trouverez ci-dessous les types de clustering d’algorithmes d’apprentissage automatique non supervisé :

Problèmes d'apprentissage non supervisés regroupés en problèmes de regroupement et d'association.

regroupement

regroupement
regroupement

Le clustering est un concept important en matière d'apprentissage non supervisé. Il s’agit principalement de trouver une structure ou un modèle dans une collection de données non catégorisées. Les algorithmes de clustering d'apprentissage non supervisé traiteront vos données et trouveront des clusters (groupes) naturels s'ils existent dans les données. Vous pouvez également modifier le nombre de clusters que vos algorithmes doivent identifier. Il permet d'ajuster la granularité de ces groupes.

Il existe différents types de clustering que vous pouvez utiliser :

Exclusif (partitionnement)

Dans cette méthode de clustering, les données sont regroupées de telle manière qu'une donnée ne peut appartenir qu'à un seul cluster.

Exemple : K-moyennes

Agglomératif

Dans cette technique de clustering, chaque donnée est un cluster. Les unions itératives entre les deux nearesLes clusters réduisent le nombre de clusters.

Exemple : clustering hiérarchique

Chevauchement

Dans cette technique, des ensembles flous sont utilisés pour regrouper les données. Chaque point peut appartenir à deux ou plusieurs clusters avec des degrés d'appartenance distincts.

Ici, les données seront associées à une valeur d'adhésion appropriée. Exemple : C-Means floues

probabiliste

Cette technique utilise la distribution de probabilité pour créer les clusters

Exemple : Suivrewing mots clés

  • "chaussure d'homme".
  • "chaussure pour femme."
  • "gant pour femme."
  • "gant d'homme."

peut être regroupé en deux catégories « chaussure » et « gant » ou « homme » et « femme ».

Types de clustering

Following sont les types de clustering du Machine Learning :

  • Classification hiérarchique
  • Regroupement des K-moyennes
  • K-NN (genouarest voisins)
  • Analyse des composants principaux
  • Décomposition en valeur singulière
  • Analyse indépendante des composants

Classification hiérarchique

Le clustering hiérarchique est un algorithme qui construit une hiérarchie de clusters. Cela commence par toutes les données affectées à un cluster qui leur est propre. Ici, deux clusters proches vont être dans le même cluster. Cet algorithme se termine lorsqu'il ne reste qu'un seul cluster.

Clustering K-means

K signifie qu'il s'agit d'un algorithme de clustering itératif qui vous aide à trouver la valeur la plus élevée pour chaque itération. Initialement, le nombre souhaité de clusters est sélectionné. Dans cette méthode de clustering, vous devez regrouper les points de données en k groupes. Un k plus grand signifie des groupes plus petits avec plus de granularité de la même manière. Un k inférieur signifie des groupes plus grands avec moins de granularité.

Le résultat de l’algorithme est un groupe d’« étiquettes ». Il attribue un point de données à l’un des k groupes. Dans le clustering k-means, chaque groupe est défini en créant un centroïde pour chaque groupe. Les centroïdes sont comme le cœur du cluster, qui capture les points les plus proches d'eux et les ajoute au cluster.

Le clustering K-mean définit en outre deux sous-groupes :

  • Regroupement aggloméré
  • Dendrogramme

Regroupement aggloméré

Ce type de clustering K-means commence avec un nombre fixe de clusters. Il alloue toutes les données dans le nombre exact de clusters. Cette méthode de clustering ne nécessite pas le nombre de clusters K comme entrée. Le processus d'agglomération commence par former chaque donnée comme un seul cluster.

Cette méthode utilise une certaine mesure de distance et réduit le nombre de clusters (un à chaque itération) par processus de fusion. Enfin, nous avons un gros cluster qui contient tous les objets.

Dendrogramme

Dans la méthode de clustering Dendrogram, chaque niveau représentera un cluster possible. La hauteur du dendrogramme montre le niveau de similarité entre deux clusters de jointure. Plus le processus se rapproche du bas, plus les groupes sont similaires, ce qui constitue une découverte du groupe à partir du dendrogramme, ce qui n'est pas naturel et est surtout subjectif.

K-Nearesles voisins

K-néaresLe voisin est le plus simple de tous les classificateurs d’apprentissage automatique. Elle diffère des autres techniques d’apprentissage automatique dans la mesure où elle ne produit pas de modèle. Il s'agit d'un algorithme simple qui stocke tous les cas disponibles et classe les nouvelles instances en fonction d'une mesure de similarité.

Cela fonctionne très bien lorsqu'il y a une distance entre les exemples. La vitesse d'apprentissage est lente lorsque l'ensemble d'entraînement est important et le calcul de la distance n'est pas trivial.

Analyse des principales composantes

Au cas où vous souhaiteriez un espace de dimension supérieure. Vous devez sélectionner une base pour cet espace et uniquement les 200 scores les plus importants de cette base. Cette base est appelée composant principal. Le sous-ensemble que vous sélectionnez constitue un nouvel espace de petite taille par rapport à l’espace d’origine. Il maintient autant de complexqualité des données que possible.

Association

Les règles d'association vous permettent d'établir des associations entre des objets de données au sein de grandes bases de données. Cette technique non supervisée consiste à découvrir des relations intéressantes entre des variables dans de grandes bases de données. Par exemple, les personnes qui achètent une nouvelle maison sont plus susceptibles d’acheter de nouveaux meubles.

Autres exemples:

  • Un sous-groupe de patients atteints de cancer regroupés selon leurs mesures d'expression génique
  • Groupes d'acheteurs en fonction de leurs historiques de navigation et d'achat
  • Groupe de films selon la note attribuée par les téléspectateurs

Apprentissage automatique supervisé ou non supervisé

Voici la principale différence entre Apprentissage supervisé ou non supervisé:

Paramètres Technique d'apprentissage automatique supervisé Technique d'apprentissage automatique non supervisé
Des données d'entrée Les algorithmes sont entraînés à l’aide de données étiquetées. Les algorithmes sont utilisés contre des données qui ne sont pas étiquetées
Com informatiqueplexity L'apprentissage supervisé est une méthode plus simple. L'apprentissage non supervisé est informatiquement complexeplex
Précision Méthode très précise et fiable. Méthode moins précise et fiable.

Applications de l'apprentissage automatique non supervisé

Certaines applications des techniques d'apprentissage non supervisé sont :

  • Le clustering divise automatiquement l'ensemble de données en groupes en fonction de leurs similitudes
  • La détection d'anomalies peut découvrir des points de données inhabituels dans votre ensemble de données. C'est utile pour trouver des transactions frauduleuses
  • L'exploration d'associations identifie des ensembles d'éléments qui apparaissent souvent ensemble dans votre ensemble de données
  • Les modèles à variables latentes sont largement utilisés pour le prétraitement des données. Comme réduire le nombre de fonctionnalités dans un ensemble de données ou décomposer l'ensemble de données en plusieurs composants

Inconvénients de l’apprentissage non supervisé

  • Vous ne pouvez pas obtenir d'informations précises concernant le tri des données, et le résultat sous forme de données utilisées dans l'apprentissage non supervisé est étiqueté et inconnu.
  • Les résultats sont moins précis parce que les données d'entrée ne sont pas connues et ne sont pas étiquetées à l'avance par les gens. Cela signifie que la machine doit le faire elle-même.
  • Les classes spectrales ne correspondent pas toujours à des classes informationnelles.
  • L'utilisateur doit passer du temps à interpréter et à étiqueter les classes qui suivent cette classification.
  • Les propriétés spectrales des classes peuvent également changer au fil du temps, vous ne pouvez donc pas avoir les mêmes informations de classe lorsque vous passez d'une image à une autre.

Résumé

  • L'apprentissage non supervisé est une technique d'apprentissage automatique dans laquelle vous n'avez pas besoin de superviser le modèle.
  • L'apprentissage automatique non supervisé vous aide à trouver toutes sortes de modèles inconnus dans les données.
  • Le clustering et l'association sont deux types d'apprentissage non supervisé.
  • Quatre types de méthodes de regroupement sont 1) Exclusives 2) Agglomératives 3) Chevauchement 4) Probabilistes.
  • Les types de clustering importants sont : 1) Clustering hiérarchique 2) Clustering K-means 3) K-NN 4) Analyse en composantes principales 5) Décomposition en valeurs singulières 6) Analyse en composantes indépendantes.
  • Les règles d'association vous permettent d'établir des associations entre des objets de données au sein de grandes bases de données.
  • Dans l'apprentissage supervisé, les algorithmes sont formés à l'aide de données étiquetées, tandis que dans l'apprentissage non supervisé, les algorithmes sont utilisés avec des données qui ne sont pas étiquetées.
  • La détection des anomalies peut découvrir des points de données importants dans votre ensemble de données, ce qui est utile pour détecter des transactions frauduleuses.
  • Le plus gros inconvénient de l’apprentissage non supervisé est que vous ne pouvez pas obtenir d’informations précises sur le tri des données.