Cómo descargar e instalar NLTK

⚡ Resumen inteligente

Descarga e instala NLTK en Windows, Mac o Linux instalando Python primero, luego agregando el Natural Language Toolkit a través de pip o Anaconda y descarga de los conjuntos de datos del corpus.

  • Requisito: Instale Python antes de agregar NLTK.
  • ⚙️ Instalar: Utilice pip, easy_install o Anaconda.
  • 📚 Conjuntos de datos: Ejecuta nltk.download() para obtener los corpus.
  • 🐍 Verificar: importar nltk en el Python cáscara.
  • 🤖 Uso de la IA: Tokenización y etiquetado para flujos de trabajo de PLN.

Descarga e instala NLTK

Instalación de NLTK en Windows

Aprenda cómo configurar NLTK en Windows desde la línea de comandos. Las instrucciones a continuación asumen Python aún no está instalado, por lo que el primer paso es instalarlo. Python.

La instalación de Python in Windows

Paso 1) Abre el enlace https://www.python.org/downloads/, y seleccione lo último Windows en libertad.

La instalación de Python in Windows

Nota: Para obtener una versión anterior, visite la pestaña Descargas para ver todas las versiones.

La instalación de Python in Windows

Paso 2) Haz clic en el archivo de instalación descargado.

La instalación de Python in Windows

Paso 3) Seleccione Personalizar instalación.

La instalación de Python in Windows

Paso 4) Haga clic en Siguiente.

La instalación de Python in Windows

Paso 5) En la siguiente pantalla:

  1. Seleccione las opciones avanzadas.
  2. Proporcione una ubicación de instalación personalizada. En este ejemplo, se elige una carpeta en la unidad C para facilitar el acceso.
  3. Haga clic en Instalar.

La instalación de Python in Windows

Paso 6) Haz clic en el botón Cerrar una vez que finalice la instalación.

La instalación de Python in Windows

Paso 7) Copie la ruta de su carpeta Scripts.

La instalación de Python in Windows

Paso 8) En la sección Windows símbolo del sistema:

  • Navegue hasta la ubicación de la carpeta pip.
  • Introduzca el comando para instalar NLTK:
    pip3 install nltk
  • La instalación debería completarse con éxito.

La instalación de Python in Windows

NOTA: Por Python 2. Utilice el comando pip2 install nltk.

Paso 9) En el campo Windows Menú Inicio, busque y abra el Python Cáscara.

La instalación de Python in Windows

Paso 10) Verifique que la instalación funcione ejecutando el siguiente comando:

import nltk

La instalación de Python in Windows

Si no aparece ningún error, la instalación se ha completado.

Instalación de NLTK en Mac/Linux

La instalación de NLTK en Mac o Linux requiere lo siguiente: Python Gestor de paquetes pip. Si pip no está instalado, siga las instrucciones a continuación para completar el proceso.

Paso 1) Actualizar el índice del paquete por typing El comando a continuación:

sudo apt update

Paso 2) Instalar pip para Python 3:

sudo apt install python3-pip

También puedes instalar pip a través de easy_install:

sudo apt-get install python-setuptools  python-dev build-essential

Una vez instalado easy_install, ejecute el siguiente comando para instalar pip:

sudo easy_install pip

Paso 3) Utilice el siguiente comando para instalar NLTK:

sudo pip install -U nltk
sudo pip3 install -U nltk

Instalación de NLTK a través de Anaconda

Paso 1) Instale Anaconda visitando https://www.anaconda.com/products/individual y seleccionando el Python versión que necesitas.

Instalación de NLTK a través de Anaconda

Nota: Consulte este tutorial para conocer los pasos detallados para instalar Anaconda.

Paso 2) En la indicación de Anaconda:

  1. Ingrese el comando:
    conda install -c anaconda nltk
  2. RevVea la información sobre la actualización, degradación e instalación del paquete y, a continuación, escriba "sí".
  3. NLTK se ha descargado e instalado.

Instalación de NLTK a través de Anaconda

Conjunto de datos NLTK

El módulo NLTK incluye muchos conjuntos de datos que debe descargar antes de usarlo. Técnicamente, cada conjunto de datos se llama cuerpo. Los ejemplos comunes incluyen Para las palabras, Gutenberg, framenet_v15, gramáticas_grandes, marrón, el red de palabras.

Cómo descargar todos los paquetes de NLTK

Paso 1) Ejecute el Python Interprete in Windows o Linux.

Paso 2)

  1. Introduzca los comandos:
import nltk
nltk.download ()
  1. Se abrirá la ventana del descargador de NLTK. Haga clic en el botón Descargar para obtener el conjunto de datos. Este proceso puede tardar un tiempo, dependiendo de su conexión a internet.

Descargue todos los paquetes de NLTK

NOTA: Puedes cambiar la ubicación de descarga haciendo clic en Archivo > Cambiar directorio de descarga.

Descargue todos los paquetes de NLTK

Paso 3) Para probar los datos instalados, utilice el siguiente código:

>>> from nltk.corpus import brown
>>>brown.words()

['El', 'Fulton', 'Condado', 'Grand', 'Jurado', 'dijo',...]

Descargue todos los paquetes de NLTK

Ejecutando el script de PNL

Esta sección explica cómo se ejecuta un script de PNL en un PC local. La elección de la biblioteca adecuada depende de sus requisitos. Consulte la lista oficial de bibliotecas de PNL para alternativas como spaCy, gensim y TextBlob.

Cómo ejecutar el script NLTK

Paso 1) En su editor de código favorito, copie el código y guarde el archivo como NLTKsample.py:

from nltk.tokenize import RegexpTokenizer
tokenizer = RegexpTokenizer(r'\w+')
filterdText=tokenizer.tokenize('Hello Guru99, You have build a very good site and I love visiting your site.')
print(filterdText)

Ejecutar secuencia de comandos NLTK

Code Explicación:

  1. El objetivo de este programa es eliminar todo tipo de puntuación de un texto dado. Importamos “RegexpTokenizer”, un módulo de NLTK que elimina cualquier expresión, símbolo, carácter o valor numérico que elijas.
  2. Se pasa una expresión regular al módulo “RegexpTokenizer”.
  3. El texto se tokeniza utilizando el método “tokenize”, y el resultado se almacena en la variable “filterdText”.
  4. El resultado se imprime usando “print()”.

Paso 2) En el símbolo del sistema:

  • Navegue hasta la ubicación donde guardó el archivo.
  • Ejecuta el comando python NLTKsample.py.

Ejecutar secuencia de comandos NLTK

El resultado es:

['Hola', 'Guru99', 'Tú', 'has', 'construido', 'un', 'sitio', 'muy', 'bueno', 'y', 'me encanta', 'visitar', 'tu', 'sitio']

Preguntas Frecuentes

El comando pip instala la biblioteca, mientras que nltk.download() descarga los corpus y los modelos entrenados, como stopwords, punkt y wordnet. Ambos pasos son necesarios antes de tokenizar o etiquetar el texto.

Sí. NLTK sigue siendo popular para el preprocesamiento de texto que alimenta los modelos de lenguaje natural (LLM), incluyendo la tokenización, la eliminación de palabras vacías, la lematización y el etiquetado de partes de la oración. También se utiliza ampliamente en la docencia y la investigación gracias a su API clara y sus corpus clásicos.

NLTK es el mejor para aprender los fundamentos del PLN. spaCy es más rápido para la producción, mientras que Transformadores de cara abrazados Ofrece modelos de aprendizaje profundo preentrenados. Muchos proyectos de IA combinan el preprocesamiento NLTK con la inferencia de transformadores.

Resumir este post con: