如何下载和安装 NLTK

⚡ 智能摘要

下载并安装 NLTK Windows通过安装,可在 Mac 或 Linux 系统上使用。 Python 首先,然后添加天然成分 Language Tool通过 pip 或 Anaconda 安装 kit 并下载语料库数据集。

  • 要求: 安装 Python 在添加 NLTK 之前。
  • ⚙️ 安装: 使用 pip、easy_install 或 Anaconda。
  • 📚 数据集: 运行 nltk.download() 获取语料库。
  • 🐍 双重验证: 在导入 nltk 时 Python 贝壳。
  • 🤖 人工智能应用: NLP流程中的分词和标注。

下载并安装 NLTK

在中安装 NLTK Windows

了解如何在系统上设置 NLTK Windows 从命令提示符运行。以下说明假设 Python 尚未安装,因此第一步是安装 Python.

安装 Python in Windows

步骤1) 打开链接 https://www.python.org/downloads/, 并选择最新信息 Windows 释放。

安装 Python in Windows

注意:如需旧版本,请访问“下载”选项卡查看所有版本。

安装 Python in Windows

步骤2) 点击下载的安装程序文件。

安装 Python in Windows

步骤3) 选择“自定义安装”。

安装 Python in Windows

步骤4) 点击下一步。

安装 Python in Windows

步骤5) 在下一个屏幕上:

  1. 选择高级选项。
  2. 提供自定义安装位置。在本例中,为了方便访问,选择 C ​​盘上的一个文件夹。
  3. 点击“安装”。

安装 Python in Windows

步骤6) 安装完成后,点击“关闭”按钮。

安装 Python in Windows

步骤7) 复制脚本文件夹的路径。

安装 Python in Windows

步骤8) 在 Windows 命令提示符:

  • 导航到 pip 文件夹所在的位置。
  • 输入命令安装 NLTK:
    pip3 install nltk
  • 安装应该会顺利完成。

安装 Python in Windows

注意:对 Python 2,使用命令 pip2 install nltk.

步骤9) 来自 Windows 从开始菜单搜索并打开 Python 贝壳。

安装 Python in Windows

步骤10) 运行以下命令验证安装是否成功:

import nltk

安装 Python in Windows

如果没有出现错误,则安装完成。

在 Mac/Linux 中安装 NLTK

在 Mac 或 Linux 上安装 NLTK 需要 Python 软件包管理器 pip。如果 pip 尚未安装,请按照以下说明完成安装过程。

步骤1) 更新包索引ping 以下命令:

sudo apt update

步骤2) 安装 pip Python 3:

sudo apt install python3-pip

您也可以通过 easy_install 安装 pip:

sudo apt-get install python-setuptools  python-dev build-essential

安装 easy_install 后,运行以下命令安装 pip:

sudo easy_install pip

步骤3) 使用以下命令安装 NLTK:

sudo pip install -U nltk
sudo pip3 install -U nltk

通过 Anaconda 安装 NLTK

步骤1) 请访问以下链接安装 Anaconda https://www.anaconda.com/products/individual 并选择 Python 您需要的版本。

通过 Anaconda 安装 NLTK

注意:请参阅本教程以了解详细步骤 安装 Anaconda.

步骤2) 在 Anaconda 提示符中:

  1. 输入命令:
    conda install -c anaconda nltk
  2. Rev查看软件包升级、降级和安装信息,然后输入“是”。
  3. NLTK 已下载并安装。

通过 Anaconda 安装 NLTK

NLTK 数据集

NLTK 模块附带许多数据集,使用前需要下载这些数据集。严格来说,每个数据集都称为一个数据块。 文集. 常见的例子包括 停用词, 古滕贝格, 框架网络_v15, 大型语法, 棕色字网.

如何下载 NLTK 的所有软件包

步骤1) 运行 Python 翻译员 in Windows 或Linux。

步骤2)

  1. 请输入以下命令:
import nltk
nltk.download ()
  1. NLTK 下载器窗口打开。点击“下载”按钮获取数据集。此过程所需时间取决于您的网络连接速度。

下载所有 NLTK 软件包

注意: 您可以通过点击“文件”>“更改下载目录”来更改下载位置。

下载所有 NLTK 软件包

步骤3) 要测试已安装的数据,请使用以下代码:

>>> from nltk.corpus import brown
>>>brown.words()

['富尔顿', '县', '大', '陪审团', '说', …]

下载所有 NLTK 软件包

运行 NLP 脚本

本节介绍自然语言处理 (NLP) 脚本如何在本地计算机上运行。选择合适的库取决于您的具体需求。请参阅官方列表。 自然语言处理库 其他替代方案包括 spaCy、gensim 和 TextBlob。

如何运行 NLTK 脚本

步骤1) 在您喜欢的代码编辑器中,复制代码并将文件另存为 NLTK示例:

from nltk.tokenize import RegexpTokenizer
tokenizer = RegexpTokenizer(r'\w+')
filterdText=tokenizer.tokenize('Hello Guru99, You have build a very good site and I love visiting your site.')
print(filterdText)

运行 NLTK 脚本

Code 说明:

  1. 该程序的目标是从给定的文本中删除所有类型的标点符号。我们导入了“RegexpTokenizer”模块,该模块…… NLTK 它可以删除您选择的任何表达式、符号、字符或数值。
  2. 将正则表达式传递给“RegexpTokenizer”模块。
  3. 使用“tokenize”方法对文本进行分词,并将输出存储在“filterdText”变量中。
  4. 使用“print()”函数打印结果。

步骤2) 在命令提示符中:

  • 找到你保存文件的位置。
  • 运行该命令 python NLTKsample.py.

运行 NLTK 脚本

输出是:

['你好', 'Guru99', '你', '有', '建造', '一个', '非常', '好', '网站', '并且', '我', '喜欢', '访问', '你的', '网站']

常见问题

pip 命令用于安装库本身,而 nltk.download() 则用于获取语料库和已训练的模型,例如停用词模型、Punkt 模型和 WordNet 模型。在进行文本分词或标注之前,这两个步骤都是必需的。

是的。NLTK 仍然是语言学习模型 (LLM) 常用的文本预处理工具,其功能包括分词、停用词去除、词干提取和词性标注。此外,由于其清晰的 API 和经典的语料库,NLTK 也被广泛应用于教学和科研领域。

NLTK最适合学习NLP基础知识。spaCy速度更快,更适合生产环境。 拥抱脸变形金刚 提供预训练的深度学习模型。许多人工智能项目将 NLTK 预处理与 Transformer 推理相结合。

总结一下这篇文章: