Como baixar e instalar o NLTK em Windows/Mac
Instalando o NLTK em Windows
Nesta parte aprenderemos como fazer a configuração do NLTK via terminal (prompt de comando no windows).
As instruções fornecidas abaixo são baseadas na suposição de que você não possui o python instalado. Então, o primeiro passo é instalar o python.
Instalando Python in Windows
Passo 1) Ir para o link https://www.python.org/downloads/, e selecione a versão mais recente para Windows.
Observação: Se não quiser baixar a versão mais recente, você pode visitar a aba de download e ver todos os lançamentos.
Passo 2) Clique no arquivo baixado
Passo 3)Selecione Personalizar instalação
Passo 4) Clique em NEXT
Passo 5) Na próxima tela
- Selecione as opções avançadas
- Forneça um local de instalação personalizado. No meu caso, uma pasta na unidade C é escolhida para facilitar a operação
- Clique em Instalar
Passo 6) Clique no botão Fechar quando a instalação for concluída.
Passo 7) Copie o caminho da sua pasta Scripts.
Passo 8) No prompt de comando do Windows
- Navegue até o local da pasta pip
- Digite o comando para instalar o NLTK
pip3 install nltk
- A instalação deve ser feita com sucesso
NOTA: Para Python2 use o comandopip2 install nltk
Passo 9) In Windows Menu Iniciar, pesquise e abra Pythonconcha
Passo 10) Você pode verificar se a instalação está correta fornecendo o comando abaixo
import nltk
Se você não encontrar nenhum erro, a instalação estará concluída.
Instalando NLTK no Mac/Linux
A instalação do NLTK no Mac/Unix requer o gerenciador de pacotes python pip para instalar o nltk. Se o pip não estiver instalado, siga as instruções abaixo para concluir o processo
Passo 1) Atualize o índice do pacote digitando o comando abaixo
sudo apt update
Passo 2) Instalando pip para Python 3:
sudo apt install python3-pip
Você também pode instalar o pip usando easy_install.
sudo apt-get install python-setuptools python-dev build-essential
Agora easy_install está instalado. Execute o comando abaixo para instalar o pip
sudo easy_install pip
Passo 3)Use o seguinte comando para instalar o NLTK
sudo pip install -U nltk sudo pip3 install -U nltk
Instalando NLTK através do Anaconda
Passo 1) Por favor instale o anaconda (que também pode ser usado para instalar pacotes diferentes) visitando https://www.anaconda.com/products/individual e selecione qual versão do python você precisa instalar para o anaconda.
Nota: Consulte este tutorial para obter etapas detalhadas para instalar anaconda
Passo 2)No prompt do Anaconda,
- Digite o comando
conda install -c anaconda nltk
- Revveja o pacote de atualização, downgrade, instale as informações e digite sim
- NLTK é baixado e instalado
Conjunto de dados NLTK
O módulo NLTK tem muitos conjuntos de dados disponíveis que você precisa baixar para usar. Mais tecnicamente é chamado corpus. Alguns dos exemplos são palavras irrelevantes, Gutenberg, framenet_v15, gramáticas_grandese assim por diante.
Como baixar todos os pacotes do NLTK
Passo 1)execute o Python intérprete in Windows ou Linux
Passo 2)
- Digite os comandos
import nltk nltk.download ()
- A janela baixada do NLTK é aberta. Clique no botão Download para baixar o conjunto de dados. Este processo levará algum tempo, dependendo da sua conexão com a Internet
OBSERVAÇÃO: Você pode alterar o local de download clicando em Arquivo> Alterar diretório de download
Passo 3) Para testar os dados instalados use o seguinte código
>>> from nltk.corpus import brown >>>brown.words()
['O', 'Fulton', 'Condado', 'Grande', 'Júri', 'disse',…]
Executando o script de PNL
Discutiremos como o script de PNL será executado em nosso PC local. Existem muitas bibliotecas para Processamento de Linguagem Natural presentes no mercado. Portanto, a escolha de uma biblioteca depende de atender às suas necessidades. Aqui está a lista de Bibliotecas de PNL.
Como executar o script NLTK
Passo 1) No seu editor de código favorito, copie o código e salve o arquivo como "NLTKsample.py "
from nltk.tokenize import RegexpTokenizer
tokenizer = RegexpTokenizer(r'\w+')
filterdText=tokenizer.tokenize('Hello Guru99, You have build a very good site and I love visiting your site.')
print(filterdText)
Explicação do código:
- Neste programa, o objetivo era remover todo tipo de pontuação de um determinado texto. Importamos “RegexpTokenizer” que é um módulo de NLTK. Remove todas as expressões, símbolos, caracteres, numéricos ou qualquer coisa que você desejar.
- Você acabou de passar a expressão regular para o módulo “RegexpTokenizer”.
- Além disso, tokenizamos a palavra usando o módulo “tokenize”. A saída é armazenada na variável “filterdText”.
- E imprimi-los usando “print().”
Passo 2) No prompt de comando
- Navegue até o local onde você salvou o arquivo
- Execute o comando Python NLTKsample.py
Isso mostrará a saída como:
['Olá', 'Guru99', 'Você', 'tem', 'construir', 'a', 'muito', 'bom', 'site', 'e', 'Eu', 'amo', ' visitando', 'seu', 'site']


















