자연어 처리 튜토리얼: NLP란 무엇입니까? 예

자연어 처리 란 무엇입니까?

자연 언어 처리 (NLP) 컴퓨터가 영어나 힌디어와 같은 인간 언어를 이해하고 해석하고 조작하여 그 의미를 분석하고 도출하도록 돕는 AI의 한 분야입니다. NLP는 개발자가 번역, 요약, 명명된 엔터티 인식, 관계 추출, 음성 인식, 주제 분할 등과 같은 작업을 수행하기 위해 지식을 구성하고 구조화하는 데 도움이 됩니다.

NLP의 역사

다음은 자연어 처리 역사상 중요한 사건입니다.

1950- NLP는 Alan Turing이 "기계와 지능"이라는 기사를 발표하면서 시작되었습니다.

1950- 러시아어와 영어 간 번역을 자동화하려는 시도

1960- 형식 언어 이론과 생성 구문에 관한 촘스키 등의 연구

1990- 확률론적 및 데이터 기반 모델이 상당히 표준이 되었습니다.

2000- 대량의 음성 및 문자 데이터를 사용할 수 있게 됩니다.

다음으로 이 NLP 튜토리얼에서는 NLP 작동 방식을 배웁니다.

NLP는 어떻게 작동하나요?

NLP의 작동 방식을 배우기 전에 인간이 언어를 사용하는 방식을 이해해 보겠습니다.

매일 우리는 다른 사람들이 해석하는 수천 개의 단어를 말하며 수많은 일을 합니다. 우리는 그것을 단순한 의사소통이라고 생각하지만, 말은 그보다 훨씬 더 깊은 의미를 담고 있다는 것을 우리 모두는 알고 있습니다. 우리가 말하는 내용과 말하는 방식에서 파생되는 맥락이 항상 있습니다., NLP 인공 지능 결코 음성 변조에 초점을 맞추지 않습니다. 상황에 맞는 패턴을 활용합니다.

예:

Man is to woman as king is to __________?
Meaning (king) – meaning (man) + meaning ( woman)=?
The answer is-  queen

여기서 남자는 남성이고 여자는 여성이기 때문에 우리는 쉽게 상호 연관될 수 있습니다. 마찬가지로 왕은 남성이고, 여성은 여왕이다.

예:

Is King to kings as the queen is to_______?
The answer is--- queens 

여기에서 우리는 하나는 단수이고 다른 하나는 복수인 왕과 왕이라는 두 단어를 볼 수 있습니다. 그러므로 세계의 여왕이 오면 다시 단수복수로 자동적으로 여왕과 연관됩니다.

여기서 가장 큰 질문은 단어의 의미를 어떻게 알 수 있느냐는 것입니다. 누가 그것을 여왕이라고 부를 것인가?

NLP 작업

대답은 우리가 경험을 통해 이것이 생각한다는 것을 배우는 것입니다. 그러나 여기서 주요 질문은 컴퓨터가 이에 대해 어떻게 알 수 있느냐는 것입니다.

기계가 경험을 통해 학습할 수 있도록 충분한 데이터를 제공해야 합니다. 우리는 드에게 먹일 수 있습니다tails 처럼

  • 여왕 폐하.
  • 국빈 방문 중 여왕의 연설
  • 엘리자베스 여왕의 왕관
  • 퀸즈의 어머니
  • 여왕은 게이다nero우리.

위의 예를 통해 기계는 Queen이라는 엔터티를 이해합니다.

기계는 아래와 같이 단어 벡터를 생성합니다. 단어 벡터는 주변 단어를 사용하여 만들어집니다.

NLP 작업

기계는 이러한 벡터를 생성합니다

  • 여러 데이터 세트에서 학습하므로
  • 기계 학습 사용(예: 딥 러닝 알고리즘)
  • 단어 벡터는 주변 단어를 사용하여 만들어집니다.

공식은 다음과 같습니다.

의미(왕) – 의미(남자) + 의미(여자)=?

이는 단어 벡터에 대해 간단한 대수 연산을 수행하는 것과 같습니다.

벡터(왕) – 벡터(남자) + 벡터(여자)= 벡터(?)

기계가 여왕에게 응답합니다.

다음으로 자연어 처리 튜토리얼에서는 NLP의 구성 요소에 대해 알아봅니다.

NLP의 구성요소

AI의 자연어 처리의 다섯 가지 주요 구성 요소는 다음과 같습니다.

  • 형태론적 및 어휘적 분석
  • 구문 분석
  • 의미 분석
  • 담론 통합
  • 실용적인 분석
NLP의 구성요소
NLP의 구성요소

형태론적 및 어휘적 분석

어휘 분석은 단어와 표현을 포함하는 어휘입니다. 이는 단어의 구조를 분석하고, 식별하고, 설명하는 것을 묘사합니다. 텍스트를 단락, 단어, 문장으로 나누는 것을 포함합니다.

개별 단어는 해당 구성 요소로 분석되고 구두점과 같은 비단어 토큰은 단어에서 분리됩니다.

의미 분석

의미 분석은 의미를 할당하는 구문 분석기에 의해 생성된 구조입니다. 이 구성 요소는 단어의 선형 시퀀스를 구조로 전송합니다. 단어가 서로 어떻게 연관되어 있는지 보여줍니다.

의미론은 단어, 구, 문장의 문자 그대로의 의미에만 초점을 맞춥니다. 이는 주어진 문맥에서 사전적 의미나 실제 의미만 추상화합니다. 구문 분석기에 의해 할당된 구조에는 항상 할당된 의미가 있습니다.

예. “무색 녹색 아이디어.” 이는 시만텍 분석에서 무색으로 간주되어 거부됩니다. 녹색은 의미가 없습니다.

실용적인 분석

화용론적 분석은 전반적인 의사소통 및 사회적 내용과 그것이 해석에 미치는 영향을 다룬다. 이는 상황에서 언어의 의미 있는 사용을 추상화하거나 도출하는 것을 의미합니다. 이 분석에서는 항상 말한 내용을 재해석하여 의미하는 바에 중점을 둡니다.

실용적 분석은 협력적 대화를 특징짓는 일련의 규칙을 적용하여 사용자가 의도한 효과를 발견하는 데 도움이 됩니다.

예를 들어 "창문을 닫으시겠어요?" 명령이 아닌 요청으로 해석되어야 합니다.

구문 분석

단어는 일반적으로 구문의 가장 작은 단위로 받아들여집니다. 구문은 개별 언어의 문장 구조를 지배하는 원칙과 규칙을 나타냅니다.

구문은 의미에 영향을 줄 수 있는 단어의 올바른 순서에 중점을 둡니다. 여기에는 follo의 문장 내 단어 분석이 포함됩니다.wing 문장의 문법적 구조. 단어는 구조로 변환되어 단어가 서로 어떻게 관련되어 있는지 보여줍니다.

담론 통합

맥락에 대한 감각을 의미한다. 해당 문장에 따라 달라지는 단일 문장의 의미입니다. 또한 follo의 의미를 고려합니다.wing 문장.

예를 들어, “He want that”이라는 문장에서 “that”이라는 단어는 이전 담화 맥락에 따라 달라집니다.

다음으로 이 NLP 튜토리얼에서는 NLP와 쓰기 시스템에 대해 배웁니다.

NLP 및 작문 시스템

언어에 사용되는 쓰기 시스템의 종류는 텍스트 전처리에 대한 최상의 접근 방식을 결정하는 결정적인 요소 중 하나입니다. 쓰기 시스템은 다음과 같습니다.

  1. 로고그래픽: 다수의 개별 기호가 단어를 나타냅니다. 예 일본어, 중국어
  2. 음절: 개별 기호는 음절을 나타냅니다.
  3. 알파벳: 개별 기호는 소리를 나타냅니다.

대부분의 쓰기 시스템은 음절 또는 알파벳 시스템을 사용합니다. 로마 알파벳을 기반으로 하는 상대적으로 단순한 표기 체계를 지닌 영어조차도 아라비아 숫자, 통화 기호(S, £) 및 기타 특수 기호를 포함하는 로고 그래픽 기호를 활용합니다.

이 포즈는 다음과 같습니다wing 과제

  • 텍스트에서 의미(의미)를 추출하는 것이 어렵습니다.
  • AI의 NLP는 코퍼스의 품질에 따라 달라집니다. 도메인이 넓으면 맥락을 이해하기 어렵습니다.
  • 문자 집합과 언어에 따라 달라집니다.

NLP를 구현하는 방법

아래에는 자연 학습 프로세스에 사용되는 널리 사용되는 방법이 나와 있습니다.

기계 학습: 기계 학습 중에 사용되는 학습 nlp 절차입니다. 가장 일반적인 사례에 자동으로 초점을 맞춥니다. 그래서 우리가 손으로 규칙을 작성할 때 사람의 실수를 염려하여 전혀 정확하지 않은 경우가 많습니다.

통계적 추론: NLP는 통계적 추론 알고리즘을 사용할 수 있습니다. 견고한 모델을 생산하는 데 도움이 됩니다. 예를 들어, 모든 사람에게 알려진 단어나 구조를 포함합니다.

NLP 예

오늘날 자연 프로세스 학습 기술은 널리 사용되는 기술입니다.

다음은 일반적인 자연어 처리 기술입니다.

정보 검색 및 웹 검색

구글, 야후, 빙 등 검색 엔진 NLP 딥 러닝 모델을 기반으로 기계 번역 기술을 기반으로 합니다. 이를 통해 알고리즘은 웹페이지의 텍스트를 읽고, 그 의미를 해석하고, 다른 언어로 번역할 수 있습니다.

문법 수정:

NLP 기술은 철자 교정 및 문법 검사를 위해 MS-word와 같은 워드 프로세서 소프트웨어에서 널리 사용됩니다.

문법 교정

질문 답변

자연어로 질문하려면 키워드를 입력하세요.

텍스트 요약

소스의 중요한 정보를 요약하여 단축 버전을 제작하는 프로세스

기계 번역

텍스트나 음성을 하나의 자연 언어에서 다른 자연 언어로 번역하기 위해 컴퓨터 응용 프로그램을 사용합니다.

기계 번역

감정 분석

NLP는 기업이 제품에 대한 수많은 리뷰를 분석하는 데 도움이 됩니다. 또한 고객이 특정 제품에 대한 리뷰를 제공할 수도 있습니다.

NLP의 미래

  • 인간이 읽을 수 있는 자연어 처리가 가장 큰 AI 문제입니다. 이는 중앙 인공지능 문제를 해결하고 컴퓨터를 사람만큼 지능적으로 만드는 것과 거의 같습니다.
  • NLP의 도움을 받는 미래의 컴퓨터나 기계는 온라인 정보로부터 학습하고 이를 현실 세계에 적용할 수 있게 될 것입니다. 그러나 이와 관련하여 많은 작업이 필요합니다.
  • 자연어 툴킷 또는 nltk가 더욱 효과적입니다.
  • 자연어 생성과 결합하여 컴퓨터는 유용하고 유용한 정보나 데이터를 더 잘 수신하고 제공할 수 있게 됩니다.

자연어 대 컴퓨터 언어

다음은 자연어와 컴퓨터 언어의 주요 차이점입니다.

매개 변수 자연어 컴퓨터 언어
모호한 그들은 본질적으로 모호합니다. 그들은 명확하게 설계되었습니다.
여분 자연어는 많은 중복성을 사용합니다. 공식 언어는 덜 중복됩니다.
문자성 자연어는 관용어와 은유로 이루어진다 형식적인 언어는 그들이 말하고 싶은 것을 정확히 의미합니다.

NLP의 장점

  • 사용자는 모든 주제에 대해 질문하고 몇 초 내에 직접적인 응답을 받을 수 있습니다.
  • NLP 시스템은 질문에 대한 답변을 자연어로 제공합니다.
  • NLP 시스템은 불필요하거나 원치 않는 정보 없이 질문에 대한 정확한 답변을 제공합니다.
  • 질문에 제공된 관련 정보의 양에 따라 답변의 정확성이 높아집니다.
  • NLP 프로세스는 컴퓨터가 인간의 언어로 인간과 통신하고 다른 언어 관련 작업을 확장하도록 돕습니다.
  • 더 많은 언어 기반 데이터 구성을 수행할 수 있습니다.ares 피로함 없이 편견 없이 일관된 방식으로 인간에게 다가가는 것입니다.
  • 고도로 구조화되지 않은 데이터 소스 구조화

NLP의 단점

  • 와plex 쿼리 언어 - 단어가 잘못되었거나 모호한 질문에 대해서는 시스템이 올바른 답변을 제공하지 못할 수 있습니다.
  • 시스템은 단일하고 특정 작업만을 위해 구축되었습니다. 제한된 기능으로 인해 새로운 영역과 문제에 적응할 수 없습니다.
  • NLP 시스템에는 사용자가 시스템과 추가로 상호 작용할 수 있는 기능이 부족한 사용자 인터페이스가 없습니다.

요약

  • 자연어 처리는 컴퓨터가 인간의 언어를 이해하고 해석하고 조작할 수 있도록 돕는 AI의 한 분야입니다.
  • NLP는 Alan Turing이 "기계와 지능"이라는 기사를 발표하면서 시작되었습니다.
  • NLP는 결코 음성 변조에 초점을 맞추지 않습니다. 상황에 맞는 패턴을 활용합니다.
  • 인공지능 자연어 처리의 다섯 가지 필수 구성요소는 1) 형태적 및 어휘적 분석 2) 구문 분석 3) 의미 분석 4) 담화 통합 5) 화용적 분석입니다.
  • 자연 프로세스 쓰기 시스템의 세 가지 유형은 1) 로고그래픽 2) 음절 3) 알파벳입니다.
  • 기계 학습과 통계적 추론은 자연 프로세스 학습을 구현하는 두 가지 방법입니다.
  • NLP의 필수 응용 프로그램은 정보 검색 및 웹 검색, 문법 교정 질문 응답, 텍스트 요약, 기계 번역 등입니다.
  • NLP의 도움으로 미래의 컴퓨터 또는 기계 데이터 과학 온라인 정보를 통해 배우고 이를 현실 세계에 적용할 수 있지만 이와 관련하여 많은 작업이 필요합니다.
  • NLP는 모호하지만 오픈 소스 컴퓨터 언어는 모호하지 않도록 설계되었습니다.
  • 인공지능 시스템에서 NLP의 가장 큰 장점은 질문에 대한 정확한 답변을 제공하고 불필요하거나 원하지 않는 정보를 제공한다는 것입니다.
  • NLP 시스템의 가장 큰 단점은 하나의 특정 작업만을 위해 구축되었기 때문에 제한된 기능으로 인해 새로운 영역과 문제에 적응할 수 없다는 것입니다.