如何在 Windows/ 苹果电脑
在中安装 NLTK Windows
在本部分中,我们将学习如何通过终端(Windows 中的命令提示符)设置 NLTK。
以下给出的说明基于您尚未安装 python 的假设。因此,第一步是安装 python。
安装 Python in Windows
步骤1) 转至链接 https://www.python.org/downloads/, 并选择适用于 Windows 的最新版本。
备注:如果您不想下载最新版本,您可以访问下载选项卡并查看所有版本。
步骤2) 点击下载的文件
步骤3)选择自定义安装
步骤4) 点击下一步
步骤5) 在下一个屏幕中
- 选择高级选项
- 提供自定义安装位置。在我的例子中,选择 C 盘上的文件夹以方便操作
- 单击安装
步骤6) 安装完成后单击“关闭”按钮。
步骤7) 复制脚本文件夹的路径。
步骤8) 在 Windows 命令提示符中
- 导航到 pip 文件夹的位置
- 输入命令安装NLTK
pip3 install nltk
- 安装应该成功完成
注意:对 Python2 使用命令pip2 install nltk
步骤9) In Windows 开始菜单,搜索并打开 Python外壳
步骤10) 您可以使用以下命令来验证安装是否正确
import nltk
如果没有看到错误,则安装完成。
在 Mac/Linux 中安装 NLTK
在 Mac/Unix 中安装 NLTK 需要使用 Python 包管理器 pip 来安装 nltk。如果未安装 pip,请按照以下说明完成此过程
步骤 1) 通过输入以下命令来更新包索引
sudo apt update
步骤 2) 安装 pip Python 3:
sudo apt install python3-pip
您也可以使用 easy_install 安装 pip。
sudo apt-get install python-setuptools python-dev build-essential
现在 easy_install 已经安装完毕。运行以下命令安装 pip
sudo easy_install pip
步骤 3)使用以下命令安装NLTK
sudo pip install -U nltk sudo pip3 install -U nltk
通过 Anaconda 安装 NLTK
步骤 1) 请访问以下网址安装 anaconda(也可用于安装不同的软件包) https://www.anaconda.com/products/individual 并选择您需要为anaconda安装的python版本。
注意:请参阅本教程以了解详细步骤 安装蟒蛇
步骤2)在 Anaconda 提示中,
- 输入命令
conda install -c anaconda nltk
- Rev查看软件包升级、降级、安装信息并输入 yes
- NLTK 已下载并安装
NLTK 数据集
NLTK 模块有许多可用的数据集,你需要下载才能使用。更技术性地说,它被称为 文集. 一些例子是 停用词, 古滕贝格, 框架网络_v15, 大型语法等等。
如何下载 NLTK 的所有软件包
步骤1)运行 Python 翻译员 in Windows 或 Linux
步骤2)
- 输入命令
import nltk nltk.download ()
- NLTK 下载窗口打开。单击下载按钮下载数据集。此过程将需要一些时间,具体取决于您的互联网连接
注意: 您可以通过单击“文件”>“更改下载目录”来更改下载位置
步骤3) 要测试已安装的数据,请使用以下代码
>>> from nltk.corpus import brown >>>brown.words()
['富尔顿', '县', '大', '陪审团', '说', …]
运行 NLP 脚本
我们将讨论如何在本地 PC 上执行 NLP 脚本。市场上有许多用于自然语言处理的库。因此,选择一个库取决于是否符合您的要求。以下是 自然语言处理库.
如何运行 NLTK 脚本
步骤 1) 在您喜欢的代码编辑器中,复制代码并将文件另存为 “NLTK示例 “
from nltk.tokenize import RegexpTokenizer tokenizer = RegexpTokenizer(r'\w+') filterdText=tokenizer.tokenize('Hello Guru99, You have build a very good site and I love visiting your site.') print(filterdText)
代码说明:
- 在这个程序中,目标是从给定的文本中删除所有类型的标点符号。我们导入了“RegexpTokenizer”,它是 NLTK。它会删除所有表达式、符号、字符、数字或任何您想要的东西。
- 您刚刚将正则表达式传递给了“RegexpTokenizer”模块。
- 此外,我们使用“tokenize”模块对单词进行标记。输出存储在“filterdText”变量中。
- 并使用“print()”打印它们。
步骤 2) 在命令提示符下
- 导航到保存文件的位置
- 运行该命令 Python NLTK示例
这将显示输出如下:
['你好', 'Guru99', '您', '已经', '建立', '一个', '非常', '好', '网站', '并且', '我', '喜欢', '访问', '您的', '网站']