Урок по обработка на естествен език
⚡ Умно обобщение
Обработката на естествен език е клон на изкуствения интелект, който помага на компютрите да разбират, интерпретират и манипулират човешки езици като английски или хинди, като захранва задачи като превод, обобщаване, разпознаване на именувани обекти, разпознаване на реч и анализ на настроенията.

Какво представлява обработката на естествен език?
Обработка на естествен език (NLP) е клон на Изкуствен интелект което помага на компютрите да разбират, интерпретират и манипулират човешки езици като английски или хинди, за да анализират и извлекат значението им. НЛП помага на разработчиците да организират и структурират знания, за да изпълняват задачи като превод, обобщаване, разпознаване на именувани обекти, изразяване на взаимоотношенияtracция, разпознаване на реч и сегментиране по теми.
История на НЛП
Ето важни събития в историята на обработката на естествен език:
- 1950: НЛП започва, когато Алън Тюринг публикува статия, наречена „Изчислителна техника и интелигентност“.
- 1950: Правени са ранни опити за автоматизиране на превода между руски и английски език.
- 1960: Работата на Чомски и други по теория на формалните езици и генеративния синтаксис допринесе за развитието на тази област.
- 1990: Вероятностните и базирани на данни модели станаха доста стандартни.
- 2000: Големи количества говорими и текстови данни станаха достъпни.
- 2013: Google въведе Word2Vec, изучавайки вграждане на думи, което улавя семантичните връзки между думите.
- 2017: Архитектурата на Transformer дебютира в „Attention Is All You Need“, използвайки самовнимание за ефективна обработка на езика.
- 2018: OpenAI пусна GPT и Google пусна BERT, предварително обучени трансформаторни модели, които усъвършенстваха разбирането и генерирането на език.
- 2020: OpenAI стартира GPT-3, модел със 175 милиарда параметъра, който генерира човешки текст от кратки подкани.
- 2022: OpenAI пусна ChatGPT, с което представи разговорните модели за големи езици на широката аудитория.
- 2023: GPT-4 и други мултимодални модели добавиха разбиране на изображенията и по-силно разсъждение, докато модели с отворен код, като Llama, разшириха достъпа.
- 2024: Оптимизирани мултимодални модели като GPT-4o позволиха обработка на текст, глас и изображение в реално време.
- 2025: Моделите с голям език, фокусирани върху разсъжденията, подобриха многоетапното решаване на проблеми за сложни NLP задачи.
- 2026: НЛП все повече разчита на агентивни, мултимодални асистенти с изкуствен интелект, вградени в ежедневните инструменти и работни процеси.
Как работи НЛП?
Преди да научим как работи НЛП, нека разберем как хората използват езика. Всеки ден казваме хиляди думи, които други хора интерпретират, за да правят безброй неща. Смятаме го за проста комуникация, но думите са много по-дълбоки от това. Винаги има някакъв контекст, който извличаме от това, което казваме и как го казваме. НЛП в изкуствения интелект никога не се фокусира върху гласовата модулация; вместо това, то се основава на контекстуални модели.
Пример:
Man is to woman as king is to __________? Meaning(king) - meaning(man) + meaning(woman) = ? The answer is: queen
Тук можем лесно да направим корелация, защото мъжът е мъжки пол, а жената е женски. По същия начин, крал е мъжки пол, а женският му еквивалент е кралица.
Пример:
Is king to kings as queen is to _______? The answer is: queens
Тук виждаме две думи, king и kings, като едната е в единствено число, а другата в множествено число. Следователно, когато се появи думата queen, тя автоматично корелира с queens, отново като двойка единствено и множествено число.
Най-големият въпрос е: как знаем какво означават думите? Отговорът е, че научаваме това чрез опит. Следващият въпрос е как един компютър може да знае същото. Трябва да предоставим достатъчно данни, за да могат машините да се учат чрез опит. Можем да предоставим подробности като:
- Нейно величество кралицата.
- Речта на кралицата по време на държавното посещение.
- Короната на кралица Елизабет.
- Майката на кралицата.
- Кралицата е щедра.
С горните примери машината разбира обекта „Кралица“. След това машината създава вектори от думи, където вектор от думи се изгражда с помощта на околните думи.
Машината създава тези вектори, докато се учи от множество набори от данни, използвайки машинно обучение, като например алгоритми за дълбоко обучение, и изграждайки всеки вектор от думи от околните думи. Формулата е:
vector(king) - vector(man) + vector(woman) = vector(?)
Това се свежда до извършване на прости алгебрични операции върху вектори от думи, на които машината отговаря „дама“.
Компоненти на НЛП
Пет основни компонента на обработката на естествен език в изкуствения интелект са:
- Морфологичен и лексикален анализ
- Синтактичен анализ
- Семантичен анализ
- Интеграция на дискурса
- Прагматичен анализ
Компоненти на НЛП
Морфологичен и лексикален анализ
Лексикалният анализ обхваща речник, който включва думи и изрази. Той анализира, идентифицира и описва структурата на думите. Включва разделяне на текст на параграфи, изречения и думи. Отделните думи се анализират на техните компоненти, а несловните лексеми, като например пунктуационните знаци, се отделят от думите.
Синтактичен анализ
Думите са общоприети като най-малките единици на синтаксиса. Синтаксисът се отнася до принципите и правилата, които управляват структурата на изреченията на всеки отделен език. Синтаксисът се фокусира върху правилното подреждане на думите, което може да повлияе на тяхното значение. Това включва анализ на думите в изречението, като се следва неговата граматическа структура и се трансформират думите в структура, която показва как са свързани помежду си.
Семантичен анализ
Семантичният анализ е структура, създадена от синтактичния анализатор, която присвоява значение. Този компонент преобразува линейни поредици от думи в структури и показва как думите са свързани помежду си. Семантиката се фокусира само върху буквалното значение на думи, фрази и изречения, абс.tracизвличане на речниковото значение от дадения контекст. Например, „безцветна зелена идея“ би била отхвърлена от семантичния анализ, защото описанието няма смисъл.
Интеграция на дискурса
Дискурсивната интеграция означава усещане за контекста. Значението на всяко отделно изречение зависи от изреченията около него и също така влияе върху значението на следващото изречение. Например, думата „че“ в изречението „Той искаше това“ зависи от предходния дискурсен контекст.
Прагматичен анализ
Прагматичният анализ се занимава с цялостното комуникативно и социално съдържание и неговия ефект върху интерпретацията. Това означава извеждане на смислената употреба на езика в ситуации. В този анализ основният фокус винаги е върху казаното, преосмислено като това, което се има предвид. Например, „Да затворя ли прозореца?“ трябва да се тълкува като молба, а не като заповед. Прагматичният анализ помага на потребителите да открият този желан ефект, като прилага набор от правила, които характеризират кооперативните диалози.
НЛП и системи за писане
Видът писмена система, използвана за даден език, е един от решаващите фактори при определянето на най-добрия подход за предварителна обработка на текст. Писмени системи могат да бъдат:
- Логографски: Голям брой отделни символи представляват думи, например японски и мандарин.
- Сричкови: Отделните символи представляват срички.
- По азбучен ред: Отделните символи представляват звуци.
Повечето писмени системи използват сричкова или азбучна система. Дори английският език, със своята сравнително проста писмена система, базирана на римската азбука, използва логографски символи, които включват арабски цифри, валутни символи ($, £) и други специални символи. Това поставя следните предизвикателства:
- ExtracРазграничаването на значението (семантиката) от даден текст е предизвикателство.
- НЛП в ИИ зависи от качеството на корпуса. Ако областта е обширна, е трудно да се разбере контекстът.
- Има зависимост от набора от символи и езика.
Как да прилагаме НЛП
По-долу са изброени популярни методи, използвани за обработка на естествен език:
Машинно обучение: Тези процедури се използват по време на машинно обучение. Моделът автоматично се фокусира върху най-често срещаните случаи. Когато пишем правила на ръка, те често не са правилни поради човешки грешки.
Статистически извод: НЛП може да използва алгоритми за статистически извод. Те ви помагат да създавате модели, които са надеждни, дори когато съдържат непознати думи или структури.
Примери за НЛП
Днес технологията за обработка на естествен език се използва широко. Ето често срещани техники за обработка на естествен език:
Извличане на информация и търсене в мрежата: Google, Yahoo, Bing и други търсачки базират своята технология за машинен превод на модели за дълбоко обучение на естествения език (NLP). Това позволява на алгоритмите да четат текст на уеб страница, да интерпретират значението му и да го превеждат на друг език.
Граматическа корекция: Техниката NLP се използва широко от софтуер за текстообработка като MS Word за корекция на правописа и проверка на граматиката.
Отговор на въпрос: Потребителите въвеждат ключови думи, за да задават въпроси на естествен език.
Обобщение на текста: Това е процесът на обобщаване на важна информация от източник, за да се получи съкратена версия.
Машинен превод: Това е използването на компютърни приложения за превод на текст или реч от един естествен език на друг.
Анализ на настроението: НЛП помага на компаниите да анализират голям брой продуктови отзиви и позволява на клиентите да дават обратна връзка за определен продукт.
Бъдещето на НЛП
- Обработката на естествен език, разбираем от човек, е най-големият проблем на изкуствения интелект. Това е почти същото като решаването на централния проблем с изкуствения интелект и превръщането на компютрите в толкова интелигентни, колкото хората.
- С помощта на естественото езиково обучение (NLP), бъдещите машини ще могат да се учат от информация онлайн и да я прилагат в реалния свят, въпреки че все още е необходима много работа в това отношение.
- The Natural Language Toolкомплектът, или NLTK, продължава да става все по-ефективен.
- В комбинация с генерирането на естествен език, компютрите ще станат по-способни да получават и предоставят полезна и находчива информация или данни.
Естествен език срещу компютърен език
По-долу са изброени основните разлики между естествения език и компютърния език:
| Параметър | Естествен език | Компютърен език |
|---|---|---|
| неяснота | Те са двусмислени по природа. | Те са проектирани да бъдат недвусмислени. |
| Съкращаване | Естествените езици използват много излишъци. | Официалните езици са по-малко излишни. |
| Буквалност | Естествените езици са изградени от идиоми и метафори. | Формалните езици означават точно това, което казват. |
Предимства на НЛП
- Потребителите могат да задават въпроси по всяка тема и да получават директен отговор в рамките на секунди.
- НЛП системата предоставя отговори на въпроси на естествен език.
- НЛП системата предлага точни отговори, без излишна или нежелана информация.
- Точността на отговорите нараства с количеството подходяща информация, предоставена във въпроса.
- НЛП помага на компютрите да комуникират с хората на техния собствен език и мащабира други задачи, свързани с езика.
- Това ви позволява да извършвате повече езиково-базиран анализ от човек, без умора, по безпристрастен и последователен начин.
- Това помага за структурирането на силно неструктуриран източник на данни.
Недостатъци на НЛП
- Сложен език за заявки: Системата може да не е в състояние да предостави правилния отговор, ако въпросът е лошо формулиран или двусмислен.
- Системата е изградена само за една, специфична задача; тя не е в състояние да се адаптира към нови области и проблеми поради ограничените си функции.
- NLP системата може да няма потребителски интерфейс с функции, които позволяват на потребителите да взаимодействат допълнително със системата.


