Comment télécharger et installer NLTK

⚡ Résumé intelligent

Téléchargez et installez NLTK sur Windows, Mac ou Linux en installant Python d'abord, puis en ajoutant le naturel Language Toolkit via pip ou Anaconda et téléchargement des ensembles de données du corpus.

  • Exigence: Installer Python avant d'ajouter NLTK.
  • ⚙️ Installez: Utilisez pip, easy_install ou Anaconda.
  • 📚 Jeux de données: Exécutez nltk.download() pour récupérer les corpus.
  • (I.e. Vérifier: importer nltk dans le Python coquille.
  • 🤖 Utilisation de l'IA : Tokenisation et étiquetage pour les pipelines NLP.

Téléchargez et installez NLTK

Installation de NLTK dans Windows

Apprenez à configurer NLTK sur Windows à partir de l'invite de commandes. Les instructions ci-dessous supposent Python n'est pas encore installé, la première étape consiste donc à l'installer Python.

Pose Python in Windows

Étape 1) Ouvrez le lien https://www.python.org/downloads/, et sélectionnez le plus récent Windows libérer.

Pose Python in Windows

NotePour consulter une version antérieure, rendez-vous dans l'onglet Téléchargements pour voir toutes les versions.

Pose Python in Windows

Étape 2) Cliquez sur le fichier d'installation téléchargé.

Pose Python in Windows

Étape 3) Sélectionnez Personnaliser l'installation.

Pose Python in Windows

Étape 4) Cliquez sur SUIVANT.

Pose Python in Windows

Étape 5) Sur l'écran suivant:

  1. Sélectionnez les options avancées.
  2. Indiquez un emplacement d'installation personnalisé. Dans cet exemple, un dossier du lecteur C est choisi pour un accès plus facile.
  3. Cliquez sur Installer.

Pose Python in Windows

Étape 6) Cliquez sur le bouton Fermer une fois l'installation terminée.

Pose Python in Windows

Étape 7) Copiez le chemin de votre dossier Scripts.

Pose Python in Windows

Étape 8) Dans l' Windows invite de commandes :

  • Accédez à l'emplacement du dossier pip.
  • Saisissez la commande pour installer NLTK :
    pip3 install nltk
  • L'installation devrait se terminer correctement.

Pose Python in Windows

REMARQUE: Pour Python 2, utilisez la commande pip2 install nltk.

Étape 9) Extrait du Windows Menu Démarrer, recherchez et ouvrez le Python Coquille.

Pose Python in Windows

Étape 10) Vérifiez que l'installation fonctionne en exécutant la commande ci-dessous :

import nltk

Pose Python in Windows

Si aucune erreur ne s'affiche, l'installation est terminée.

Installer NLTK sous Mac/Linux

L'installation de NLTK sur Mac ou Linux nécessite Python Le gestionnaire de paquets pip. Si pip n'est pas installé, suivez les instructions ci-dessous pour terminer le processus.

Étape 1) Mettre à jour l'index des paquets par typing la commande ci-dessous :

sudo apt update

Étape 2) Installer pip pour Python 3:

sudo apt install python3-pip

Vous pouvez également installer pip via easy_install :

sudo apt-get install python-setuptools  python-dev build-essential

Une fois easy_install installé, exécutez la commande ci-dessous pour installer pip :

sudo easy_install pip

Étape 3) Utilisez la commande suivante pour installer NLTK :

sudo pip install -U nltk
sudo pip3 install -U nltk

Installation de NLTK via Anaconda

Étape 1) Installez Anaconda en visitant https://www.anaconda.com/products/individual et en sélectionnant le Python la version dont vous avez besoin.

Installation de NLTK via Anaconda

Remarque : Reportez-vous à ce didacticiel pour connaître les étapes détaillées à suivre. installer Anaconda.

Étape 2) Dans le prompt Anaconda :

  1. Entrez la commande:
    conda install -c anaconda nltk
  2. RevConsultez les informations relatives à la mise à niveau, à la rétrogradation et à l'installation du package, puis saisissez « oui ».
  3. NLTK est téléchargé et installé.

Installation de NLTK via Anaconda

Ensemble de données NLTK

Le module NLTK est fourni avec de nombreux jeux de données que vous devez télécharger avant utilisation. Techniquement, chaque jeu de données est appelé un corpus. Les exemples courants incluent mots vides, gutenberg, framenet_v15, large_grammars, marron et Wordnet.

Comment télécharger tous les packages de NLTK

Étape 1) Exécutez le Python interprète in Windows ou Linux.

Étape 2)

  1. Saisissez les commandes :
import nltk
nltk.download ()
  1. La fenêtre du téléchargeur NLTK s'ouvre. Cliquez sur le bouton Télécharger pour récupérer le jeu de données. La durée de ce processus dépend de votre connexion Internet.

Téléchargez tous les packages de NLTK

NOTE: Vous pouvez modifier l'emplacement de téléchargement en cliquant sur Fichier > Modifier le répertoire de téléchargement.

Téléchargez tous les packages de NLTK

Étape 3) Pour tester les données installées, utilisez le code suivant :

>>> from nltk.corpus import brown
>>>brown.words()

['Le', 'Fulton', 'Comté', 'Grand', 'Jury', 'dit', …]

Téléchargez tous les packages de NLTK

Exécuter le script PNL

Cette section explique comment un script NLP s'exécute sur un ordinateur local. Le choix de la bibliothèque appropriée dépend de vos besoins. Consultez la liste officielle des bibliothèques. Bibliothèques PNL pour des alternatives telles que spaCy, gensim et TextBlob.

Comment exécuter le script NLTK

Étape 1) Dans votre éditeur de code préféré, copiez le code et enregistrez le fichier sous NLTKsample.py:

from nltk.tokenize import RegexpTokenizer
tokenizer = RegexpTokenizer(r'\w+')
filterdText=tokenizer.tokenize('Hello Guru99, You have build a very good site and I love visiting your site.')
print(filterdText)

Exécuter le script NLTK

Code Explication:

  1. L'objectif de ce programme est de supprimer toute forme de ponctuation d'un texte donné. Nous avons importé « RegexpTokenizer », un module de NLTK qui supprime toute expression, symbole, caractère ou valeur numérique de votre choix.
  2. Une expression régulière est transmise au module « RegexpTokenizer ».
  3. Le texte est tokenisé à l'aide de la méthode « tokenize », et le résultat est stocké dans la variable « filterText ».
  4. Le résultat est imprimé à l'aide de la fonction « print() ».

Étape 2) Dans l'invite de commandes :

  • Accédez à l'emplacement où vous avez enregistré le fichier.
  • Exécuter la commande python NLTKsample.py.

Exécuter le script NLTK

La sortie est:

['Bonjour', 'Guru99', 'Vous', 'avez', 'construisez', 'un', 'très', 'bon', 'site', 'et', 'j', 'aime', 'visiter', 'votre', 'site']

FAQ

La commande pip installe la bibliothèque elle-même, tandis que nltk.download() récupère les corpus et les modèles entraînés tels que les mots vides, Punkt et WordNet. Ces deux étapes sont nécessaires avant la tokenisation ou l'étiquetage du texte.

Oui. NLTK reste populaire pour le prétraitement des textes destinés aux modèles de langage, notamment pour la tokenisation, la suppression des mots vides, la racinisation et l'étiquetage morphosyntaxique. Il est également largement utilisé dans l'enseignement et la recherche grâce à son API claire et à ses corpus classiques.

NLTK est idéal pour apprendre les fondamentaux du traitement automatique du langage naturel (TALN). spaCy est plus rapide pour la production, tandis que Transformateurs de visage étreignant propose des modèles d'apprentissage profond pré-entraînés. De nombreux projets d'IA combinent le prétraitement NLTK avec l'inférence par transformeur.

Résumez cet article avec :