自然语言处理教程:什么是 NLP?示例

什么是自然语言处理?

自然语言处理(NLP) 是人工智能的一个分支,它帮助计算机理解、解释和操纵英语或印地语等人类语言,以分析和得出其含义。NLP 帮助开发人员组织和构建知识以执行翻译、摘要、命名实体识别、关系提取、语音识别、主题分割等任务。

自然语言处理的历史

以下是自然语言处理历史上的重要事件:

1950- NLP 始于艾伦图灵发表的一篇名为“机器与智能”的文章。

1950- 尝试实现俄语和英语之间的自动翻译

1960- 乔姆斯基等人关于形式语言理论和生成句法的研究

1990- 概率和数据驱动模型已经变得相当标准

2000- 大量语音和文本数据可用

接下来在本 NLP 教程中,我们将学习 NLP 的工作原理。

NLP 是如何运作的?

在了解 NLP 的工作原理之前,让我们先了解一下人类如何使用语言:

每天,我们都会说上千个单词,而其他人会将其解释为无数种意思。我们认为这是一种简单的交流,但我们都知道,单词的含义远不止于此。我们总会从我们所说的内容和说话方式中得出一些背景信息。 人工智能 从不关注语音调制;它确实借鉴了上下文模式。

计费示例:

Man is to woman as king is to __________?
Meaning (king) – meaning (man) + meaning ( woman)=?
The answer is-  queen

在这里,我们很容易联系起来,因为男人是男性,女人是女性。同样,国王是男性,而其女性是女王。

计费示例:

Is King to kings as the queen is to_______?
The answer is--- queens 

这里,我们可以看到两个词 kings 和 kings,其中一个是单数,另一个是复数。因此,当单词 queen 出现时,它会自动与 queens 相关联,再次是单数和复数。

这里最大的问题是,我们如何知道这些词的意思?比如说,谁会称它为女王?

NLP工作

答案是我们通过经验来学习这种思维。然而,这里的主要问题是计算机如何知道这一点?

我们需要为机器学习提供足够的数据。我们可以提供以下细节:

  • 女王陛下。
  • 女王在国事访问期间的演讲
  • 伊丽莎白女王的王冠
  • 王后的母亲
  • 女王很慷慨。

通过上述例子,机器理解了女王这个实体。

机器创建词向量的方式如下。词向量是使用周围的单词构建的。

NLP工作

机器创建这些向量

  • 因为它从多个数据集中学习
  • 使用机器学习(例如深度学习算法)
  • 使用周围的词语构建词向量。

这是公式:

意(国王)-意(男人)+意(女人)=?

这相当于对词向量执行简单的代数运算:

矢量(国王)-矢量(男人)+矢量(女人)=矢量(?)

机器回答说女王。

接下来在本自然语言处理教程中,我们将学习 NLP 的组成部分。

NLP 的组成部分

人工智能中自然语言处理的五个主要组成部分是:

  • 形态和词汇分析
  • 句法分析
  • 语义分析
  • 话语整合
  • 务实分析
NLP 的组成部分
NLP 的组成部分

形态和词汇分析

词汇分析是包含单词和表达方式的词汇表。它描述了对单词结构的分析、识别和描述。它包括将文本划分为段落、单词和句子

单个单词被分析成其组成部分,并且非单词标记(例如标点符号)从单词中分离出来。

语义分析

语义分析是由句法分析器创建的结构,用于赋予含义。该组件将单词的线性序列转换为结构。它显示了单词之间的关联方式。

语义学只关注单词、短语和句子的字面意义。这只会从给定的上下文中抽象出字典意义或真实意义。句法分析器指定的结构总是具有指定的含义

例如“无色的绿色理念”。赛门铁克的分析会将其视为无色而拒绝;绿色没有任何意义。

务实分析

语用分析研究整体的交流和社会内容及其对解释的影响。它意味着抽象或推导出语言在特定情境中有意义的用法。在这种分析中,主要关注点始终是重新解释所说的内容。

语用分析通过应用一组描述合作对话的规则帮助用户发现预期效果。

例如,“关上窗户?”应该被理解为请求而不是命令。

语法分析

词被普遍认为是句法的最小单位。句法是指任何一种语言的句子结构的原则和规则。

句法关注的是单词的正确排序,因为这会影响其含义。这涉及根据句子的语法结构分析句子中的单词。将单词转换为结构以显示单词如何相互关联。

话语整合

它意味着对上下文的感觉。任何单个句子的含义都取决于该句子。它还考虑了下一个句子的含义。

例如,“他想要那个”这个句子中的“那个”这个词取决于先前的话语背景。

接下来在本 NLP 教程中,我们将学习 NLP 和书写系统。

NLP 和书写系统

语言使用的书写系统类型是确定文本预处理最佳方法的决定性因素之一。书写系统可以是

  1. 表意文字:大量单个符号代表单词。例如日语、普通话
  2. 音节:单个符号代表音节
  3. 字母表:单个符号代表声音

大多数书写系统都使用音节或字母系统。即使是基于罗马字母的相对简单的书写系统英语,也使用表意符号,包括阿拉伯数字、货币符号(S、£)和其他特殊符号。

这姿势以下挑战

  • 从文本中提取含义(语义)是一项挑战
  • 人工智能中的 NLP 依赖于语料库的质量。如果领域太广,理解上下文就很困难。
  • 依赖于字符集和语言

如何实现 NLP

下面给出了自然学习过程常用的方法:

机器学习: 机器学习过程中使用的学习 nlp 程序。它会自动关注最常见的情况。因此,当我们手动编写规则时,它通常根本不正确,担心人为错误。

统计推断: NLP 可以利用统计推断算法。它可以帮助您生成强大的模型。例如,包含众所周知的单词或结构。

NLP 示例

如今,自然过程学习技术是被广泛应用的技术。

以下是常见的自然语言处理技术:

信息检索和网络搜索

Google、雅虎、Bing 和其他 搜索引擎 他们的机器翻译技术以 NLP 深度学习模型为基础。它允许算法读取网页上的文本,解释其含义并将其翻译成另一种语言。

语法纠正:

NLP 技术被 MS-word 等文字处理软件广泛用于拼写纠正和语法检查。

语法纠正

问题回答

输入关键词以自然语言提出问题。

文字摘要

总结来源中的重要信息以产生简短版本的过程

机器翻译

使用计算机应用程序将文本或语音从一种自然语言翻译成另一种自然语言。

机器翻译

情绪分析

NLP 帮助公司分析大量产品评论。它还允许客户对特定产品进行评论。

NLP 的未来

  • 人类可读的自然语言处理是人工智能最大的问题,它与解决人工智能的核心问题、使计算机像人一样聪明几乎是一样的。
  • 未来的计算机或机器在NLP的帮助下将能够从在线信息中学习并将其应用于现实世界,但是,在这方面还需要做大量的工作。
  • 自然语言工具包或 nltk 变得更加有效
  • 结合自然语言生成,计算机将更有能力接收和提供有用且丰富的信息或数据。

自然语言与计算机语言

以下是自然语言和计算机语言之间的主要区别:

产品型号 自然语言 计算机语言
暧昧 它们的本质是模棱两可的。 它们的设计明确无误。
冗余 自然语言采用大量冗余。 形式语言的冗余度较低。
字面意思 自然语言由习语和隐喻组成 形式语言的意思正是它们想要表达的意思

自然语言处理的优势

  • 用户可以询问任何主题的问题并在几秒钟内得到直接答复。
  • NLP 系统以自然语言提供问题的答案
  • NLP 系统提供问题的准确答案,没有不必要或不需要的信息
  • 答案的准确性会随着问题中提供的相关信息的数量而增加。
  • NLP 过程帮助计算机用人类的语言与人类交流,并扩展其他与语言相关的任务
  • 允许您以无疲劳、公正且一致的方式执行与人类相比更多的基于语言的数据处理。
  • 构建高度非结构化的数据源

NLP 的缺点

  • 复杂的查询语言——对于措辞不当或含糊不清的问题,系统可能无法提供正确的答案。
  • 该系统仅为单一特定的任务而构建;由于功能有限,无法适应新领域和问题。
  • NLP 系统没有用户界面,缺乏允许用户进一步与系统交互的功能

结语

  • 自然语言处理是人工智能的一个分支,它可以帮助计算机理解、解释和操纵人类语言。
  • NLP 始于艾伦图灵发表的一篇名为“机器与智能”的文章。
  • NLP 从不关注语音调节;它确实借鉴了语境模式
  • 人工智能中自然语言处理的五个基本组成部分是1)形态和词汇分析2)句法分析3)语义分析4)话语整合5)语用分析
  • 自然过程书写系统的三种类型是 1) 表意文字 2) 音节文字 3) 字母文字
  • 机器学习和统计推断是实现自然过程学习的两种方法
  • NLP 的基本应用包括信息检索和网络搜索、语法校正问答、文本摘要、机器翻译等。
  • 未来的计算机或机器在 NLP 和 数据科学 能够从网上的信息中学习,并将其应用于现实世界,然而,在这方面还有很多工作要做
  • NLP 具有歧义性,而开源计算机语言旨在消除歧义
  • 人工智能系统中 NLP 的最大优势在于它能够为问题提供准确的答案,不会包含不必要或不需要的信息
  • NLP 系统的最大缺点是仅针对单一特定任务而构建,因此由于功能有限,无法适应新领域和新问题