Tutoriel d'apprentissage automatique pour les débutants : qu'est-ce que c'est, les bases du ML

Qu'est-ce que l'apprentissage par machine?

Machine Learning est un système d'algorithmes informatiques qui peuvent apprendre de l'exemple en s'améliorant sans être explicitement codés par un programmeur. L'apprentissage automatique fait partie de l'intelligence artificielle qui combine des données avec des outils statistiques pour prédire un résultat pouvant être utilisé pour générer des informations exploitables.

La percée vient de l'idée qu'une machine peut apprendre de manière unique à partir des données (c'est-à-dire, un exemple) pour produire des résultats précis. L'apprentissage automatique est étroitement lié à l'exploration de données et à la modélisation prédictive bayésienne. La machine reçoit des données en entrée et utilise un algorithme pour formuler des réponses.

Une tâche typique d'apprentissage automatique consiste à fournir une recommandation. Pour ceux qui ont un Netflix compte, toutes les recommandations de films ou de séries sont basées sur les données historiques de l'utilisateur. Les entreprises technologiques utilisent apprentissage non supervisé pour améliorer l’expérience utilisateur avec des recommandations personnalisées.

L'apprentissage automatique est également utilisé pour diverses tâches telles que la détection des fraudes, la maintenance prédictive, l'optimisation du portefeuille, l'automatisation des tâches, etc.

Apprentissage automatique vs programmation traditionnelle

La programmation traditionnelle diffère considérablement de l’apprentissage automatique. Dans la programmation traditionnelle, un programmeur code toutes les règles en consultation avec un expert du secteur pour lequel le logiciel est développé. Chaque règle repose sur un fondement logique ; la machine exécutera une sortie suivant l'instruction logique. Lorsque le système devient complexe, davantage de règles doivent être écrites. Son entretien peut vite devenir intenable.

Programmation traditionnelle
Programmation traditionnelle

L’apprentissage automatique est censé résoudre ce problème. La machine apprend comment les données d’entrée et de sortie sont corrélées et écrit une règle. Les programmeurs n’ont pas besoin d’écrire de nouvelles règles à chaque fois qu’il y a de nouvelles données. Les algorithmes s'adaptent en réponse aux nouvelles données et expériences pour améliorer l'efficacité au fil du temps.

Machine Learning

Machine Learning

Comment fonctionne l’apprentissage automatique ?

Maintenant, dans ce didacticiel sur les bases du Machine Learning pour débutants, nous allons apprendre comment fonctionne le Machine Learning (ML) :

L’apprentissage automatique est le cerveau où se déroule tout l’apprentissage. La façon dont la machine apprend est similaire à celle de l’être humain. Les humains apprennent de l’expérience. Plus nous en savons, plus nous pouvons prédire facilement. Par analogie, lorsque nous sommes confrontés à une situation inconnue, les chances de succès sont inférieures à celles de la situation connue. Les machines sont entraînées de la même manière. Pour faire une prédiction précise, la machine voit un exemple. Lorsque nous donnons à la machine un exemple similaire, elle peut comprendre le résultat. Cependant, comme un humain, si elle nourrit un exemple inédit, la machine a du mal à prédire.

L’objectif principal de l’apprentissage automatique est de apprentissage et inférence. Tout d’abord, la machine apprend grâce à la découverte de modèles. Cette découverte se fait grâce au données,. Une partie cruciale du data scientist est de choisir avec soin les données à fournir à la machine. La liste des attributs utilisés pour résoudre un problème est appelée un vecteur de caractéristiques. Vous pouvez considérer un vecteur de caractéristiques comme un sous-ensemble de données utilisé pour résoudre un problème.

La machine utilise des algorithmes sophistiqués pour simplifier la réalité et transformer cette découverte en un modèle. Par conséquent, l’étape d’apprentissage est utilisée pour décrire les données et les résumer dans un modèle.

Travail d'apprentissage automatique

Par exemple, la machine tente de comprendre la relation entre le salaire d’un individu et la probabilité d’aller dans un restaurant chic. Il s'avère que la machine trouve une relation positive entre le salaire et le fait d'aller dans un restaurant haut de gamme : c'est le modèle

Déduire

Une fois le modèle construit, il est possible de tester sa puissance sur des données inédites. Les nouvelles données sont transformées en vecteur de caractéristiques, parcourent le modèle et donnent une prédiction. C’est toute la belle partie de l’apprentissage automatique. Il n'est pas nécessaire de mettre à jour les règles ou de réentraîner le modèle. Vous pouvez utiliser le modèle préalablement entraîné pour effectuer des inférences sur de nouvelles données.

Inférence à partir du modèle

La vie des programmes de Machine Learning est simple et peut être résumée dans les points suivants :

  1. Définir une question
  2. Collecter des données
  3. Visualiser les données
  4. Algorithme de formation
  5. Testez l'algorithme
  6. Recueillir des commentaires
  7. Affiner l'algorithme
  8. Boucle 4-7 jusqu'à ce que les résultats soient satisfaisants
  9. Utiliser le modèle pour faire une prédiction

Une fois que l’algorithme parvient à tirer les bonnes conclusions, il applique ces connaissances à de nouveaux ensembles de données.

Machine Learning Algorithms et où sont-ils utilisés ?

Maintenant, dans ce didacticiel d'apprentissage automatique pour débutants, nous allons apprendre où les algorithmes d'apprentissage automatique (ML) sont utilisés :

Machine Learning Algorithms

Apprentissage automatique Algorithms

L'apprentissage automatique peut être regroupé en deux grandes tâches d'apprentissage : supervisé et non supervisé. Il existe de nombreux autres algorithmes

Enseignement supervisé

Un algorithme utilise les données d'entraînement et les commentaires des humains pour apprendre la relation entre des entrées données et une sortie donnée. Par exemple, un praticien peut utiliser les dépenses de marketing et les prévisions météorologiques comme données d'entrée pour prédire les ventes de canettes.

Vous pouvez utiliser l'apprentissage supervisé lorsque les données de sortie sont connues. L'algorithme prédira de nouvelles données.

Il existe deux catégories de enseignement supervisé:

  • Tâche de classification
  • Tâche de régression

Classification

Imaginez que vous vouliez prédire le sexe d'un client pour une publicité. Vous commencerez à collecter des données sur la taille, le poids, l'emploi, le salaire, le panier d'achat, etc. à partir de votre base de données clients. Vous connaissez le sexe de chacun de vos clients, il ne peut s'agir que d'un homme ou d'une femme. L'objectif du classificateur sera d'attribuer une probabilité d'être un homme ou une femme (c'est-à-dire l'étiquette) en fonction des informations (c'est-à-dire les caractéristiques que vous avez collectées). Lorsque le modèle a appris à reconnaître un homme ou une femme, vous pouvez utiliser de nouvelles données pour faire une prédiction. Par exemple, vous venez de recevoir de nouvelles informations d’un client inconnu et vous souhaitez savoir s’il s’agit d’un homme ou d’une femme. Si le classificateur prédit un homme = 70 %, cela signifie que l'algorithme est sûr à 70 % que ce client est un homme et à 30 % qu'il est une femme.

L'étiquette peut être composée de deux classes ou plus. L'exemple d'apprentissage automatique ci-dessus n'a que deux classes, mais si un classificateur doit prédire un objet, il a des dizaines de classes (par exemple, verre, table, chaussures, etc., chaque objet représente une classe)

Régression

Lorsque le résultat est une valeur continue, la tâche est une régression. Par exemple, un analyste financier peut avoir besoin de prévoir la valeur d'une action sur la base d'une série de caractéristiques telles que les actions, les performances boursières précédentes, l'indice macroéconomique. Le système sera formé pour estimer le prix des actions avec la plus petite erreur possible.

Algorithme Description Type
Régression linéaire Trouve un moyen de corréler chaque fonctionnalité à la sortie pour aider à prédire les valeurs futures. Régression
Régression logistique Extension de la régression linéaire utilisée pour les tâches de classification. La variable de sortie 3 est binaire (par exemple, uniquement noir ou blanc) plutôt que continue (par exemple, une liste infinie de couleurs potentielles) Classification
Arbre de décision Modèle de classification ou de régression hautement interprétable qui divise les valeurs des caractéristiques des données en branches au niveau des nœuds de décision (par exemple, si une caractéristique est une couleur, chaque couleur possible devient une nouvelle branche) jusqu'à ce qu'une décision finale soit prise. Régression
Classification
Naïf Bayes La méthode bayésienne est une méthode de classification qui utilise le théorème bayésien. Le théorème met à jour la connaissance préalable d'un événement avec la probabilité indépendante de chaque caractéristique pouvant affecter l'événement. Régression
Classification
Machine à vecteurs de support
Support Vector Machine, ou SVM, est généralement utilisé pour la tâche de classification.
L'algorithme SVM trouve un hyperplan qui divise les classes de manière optimale. Il est préférable de l'utiliser avec un solveur non linéaire.
Régression (pas très courant)
Classification
Forêt aléatoire L'algorithme est construit sur un arbre de décision pour améliorer considérablement la précision. La forêt aléatoire génère des arbres de décision plusieurs fois simples et utilise la méthode du « vote majoritaire » pour décider quelle étiquette renvoyer. Pour la tâche de classement, la prédiction finale sera celle qui aura obtenu le plus de votes ; tandis que pour la tâche de régression, la prédiction moyenne de tous les arbres est la prédiction finale. Régression
Classification
AdaBoost Technique de classification ou de régression qui utilise une multitude de modèles pour prendre une décision mais les pèse en fonction de leur exactitude dans la prédiction du résultat Régression
Classification
Arbres qui améliorent le dégradé Les arbres d'amélioration du dégradé sont une technique de classification/régression de pointe. Il se concentre sur l'erreur commise par les arbres précédents et tente de la corriger. Régression
Classification

Apprentissage non supervisé

Dans l'apprentissage non supervisé, un algorithme explore les données d'entrée sans recevoir de variable de sortie explicite (par exemple, explore les données démographiques des clients pour identifier des modèles)

Vous pouvez l'utiliser lorsque vous ne savez pas comment classer les données et que vous souhaitez que l'algorithme trouve des modèles et classe les données pour vous.

Nom de l'algorithme Description Type
Regroupement des K-moyennes Place les données dans certains groupes (k) dont chacun contient des données avec des caractéristiques similaires (telles que déterminées par le modèle, pas à l'avance par les humains) Clusterfaire respecter
Modèle de mélange gaussien Une généralisation du clustering k-means qui offre plus de flexibilité dans la taille et la forme des groupes (clusters) Clusterfaire respecter
Classification hiérarchique Divise les clusters le long d'une arborescence hiérarchique pour former un système de classification.

Peut être utilisé pour Cluster client carte de fidélité

Clusterfaire respecter
Système de recommandation Aide à définir les données pertinentes pour faire une recommandation. Clusterfaire respecter
PCA/T-SNE Principalement utilisé pour diminuer la dimensionnalité des données. Les algorithmes réduisent le nombre de caractéristiques à 3 ou 4 vecteurs avec les variances les plus élevées. Réduction de dimension

Comment choisir un algorithme d'apprentissage automatique

Maintenant, dans ce didacticiel sur les bases du Machine Learning, nous allons apprendre à choisir l'algorithme de Machine Learning (ML) :

Il existe de nombreux algorithmes d’apprentissage automatique. Le choix de l'algorithme est basé sur l'objectif.

Dans l’exemple d’apprentissage automatique ci-dessous, la tâche consiste à prédire le type de fleur parmi les trois variétés. Les prédictions sont basées sur la longueur et la largeur du pétale. L'image représente les résultats de dix algorithmes différents. L'image en haut à gauche est l'ensemble de données. Les données sont classées en trois catégories : rouge, bleu clair et bleu foncé. Il existe des regroupements. Par exemple, sur la deuxième image, tout ce qui est en haut à gauche appartient à la catégorie rouge, dans la partie centrale, il y a un mélange d'incertitude et de bleu clair tandis que le bas correspond à la catégorie sombre. Les autres images montrent différents algorithmes et comment ils tentent de classer les données.

Comment choisir un algorithme d'apprentissage automatique

Défis et limites de l'apprentissage automatique

Maintenant, dans ce didacticiel d'apprentissage automatique, nous allons découvrir les limites du Machine Learning :

Le principal défi de l’apprentissage automatique est le manque de données ou la diversité de l’ensemble de données. Une machine ne peut pas apprendre si aucune donnée n’est disponible. De plus, un jeu de données manquant de diversité donne du fil à retordre à la machine. Une machine doit être hétérogène pour acquérir des informations significatives. Il est rare qu’un algorithme puisse extraire des informations lorsqu’il n’y a pas ou peu de variations. Il est recommandé d'avoir au moins 20 observations par groupe pour aider le machine à apprendre. Cette contrainte conduit à une mauvaise évaluation et prévision.

Application de l'apprentissage automatique

Maintenant, dans ce didacticiel d'apprentissage automatique, apprenons les applications du Machine Learning :

Augmentation:

  • L'apprentissage automatique, qui assiste les humains dans leurs tâches quotidiennes, personnelles ou commerciales, sans avoir un contrôle total sur le résultat. Un tel apprentissage automatique est utilisé de différentes manières, telles que l'assistant virtuel, l'analyse de données et les solutions logicielles. L'utilisateur principal est de réduire les erreurs dues aux préjugés humains.

Automatisation:

  • L'apprentissage automatique, qui fonctionne de manière totalement autonome dans n'importe quel domaine, sans aucune intervention humaine. Par exemple, les robots exécutant les étapes essentielles du processus dans les usines de fabrication.

Industrie de la finance

  • L’apprentissage automatique gagne en popularité dans le secteur financier. Les banques utilisent principalement le ML pour trouver des modèles dans les données, mais aussi pour prévenir la fraude.

Organisation gouvernementale

  • Le gouvernement utilise le ML pour gérer la sécurité publique et les services publics. Prenons l’exemple de la Chine avec la reconnaissance faciale massive. Le gouvernement utilise intelligence artificielle pour empêcher Jaywalker.

L'industrie de la santé

  • La santé a été l’une des premières industries à utiliser l’apprentissage automatique avec la détection d’images.

Marketing

  • L'IA est largement utilisée dans le marketing grâce à un accès abondant aux données. Avant l’ère des données de masse, les chercheurs développent des outils mathématiques avancés comme l’analyse bayésienne pour estimer la valeur d’un client. Avec l’essor de la data, le service marketing s’appuie sur l’IA pour optimiser la relation client et la campagne marketing.

Exemple d’application du Machine Learning dans la Supply Chain

L'apprentissage automatique donne d'excellents résultats en matière de reconnaissance visuelle de formes, ouvrant ainsi la voie à de nombreuses applications potentielles en matière d'inspection physique et de maintenance sur l'ensemble du réseau de la chaîne d'approvisionnement.

L’apprentissage non supervisé peut rapidement rechercher des modèles comparables dans un ensemble de données diversifié. À son tour, la machine peut effectuer une inspection de qualité dans tout le centre logistique, ainsi que des expéditions présentant des dommages et de l'usure.

Par exemple, IBMLa plateforme Watson de peut déterminer les dommages causés aux conteneurs maritimes. Watson combine des données visuelles et basées sur des systèmes pour suivre, générer des rapports et formuler des recommandations en temps réel.

Au cours de l'année écoulée, le gestionnaire des stocks s'appuie largement sur la méthode principale pour évaluer et prévoir l'inventaire. En combinant big data et machine learning, de meilleures techniques de prévision ont été mises en œuvre (une amélioration de 20 à 30 % par rapport aux outils de prévision traditionnels). En termes de ventes, cela signifie une augmentation de 2 à 3 % due à la réduction potentielle des coûts de stocks.

Exemple d'apprentissage automatique Google Car

Par exemple, tout le monde connaît la voiture Google. La voiture est pleine de lasers sur le toit qui lui indiquent où elle se trouve par rapport aux environs. Il est équipé d'un radar à l'avant, qui informe la voiture de la vitesse et du mouvement de toutes les voitures qui l'entourent. Il utilise toutes ces données pour déterminer non seulement comment conduire la voiture, mais également pour déterminer et prédire ce que feront les conducteurs potentiels autour de la voiture. Ce qui est impressionnant, c'est que la voiture traite près d'un gigaoctet de données par seconde.

Application de l'apprentissage automatique

Pourquoi l'apprentissage automatique est-il important ?

L'apprentissage automatique est jusqu'à présent le meilleur outil pour analyser, comprendre et identifier un modèle dans les données. L’une des principales idées derrière l’apprentissage automatique est que l’ordinateur peut être entraîné à automatiser des tâches qui seraient exhaustives, voire impossibles pour un être humain. La rupture évidente avec l’analyse traditionnelle est que l’apprentissage automatique peut prendre des décisions avec une intervention humaine minimale.

Prenons l'exemple suivant pour ce didacticiel ML ; un agent de vente au détail peut estimer le prix d'une maison en fonction de sa propre expérience et de sa connaissance du marché.

Une machine peut être entraînée pour traduire les connaissances d’un expert en fonctionnalités. Les caractéristiques sont toutes les caractéristiques d'une maison, d'un quartier, de l'environnement économique, etc. qui font la différence de prix. Pour l’expert, il lui a fallu sans doute quelques années pour maîtriser l’art d’estimer le prix d’une maison. Son expertise s'améliore de plus en plus après chaque vente.

Pour la machine, il faut des millions de données (c'est-à-dire des exemples) pour maîtriser cet art. Au tout début de son apprentissage, la machine commet une erreur, un peu à l’image du jeune vendeur. Une fois que la machine a vu tous les exemples, elle a acquis suffisamment de connaissances pour faire son estimation. En même temps, avec une précision incroyable. La machine est également capable d'ajuster son erreur en conséquence.

La plupart des grandes entreprises ont compris la valeur de l’apprentissage automatique et de la conservation des données. McKinsey a estimé que la valeur de l'analyse va de $9.5 billions à $15.4  milliards tandis que $5 à 7 milliards peuvent être attribués aux techniques d’IA les plus avancées.

Lire aussi Qu'est-ce que la logique floue ? Architecture, application et exemple : Cliquez ici