Підручник з обробки природної мови: що таке НЛП? Приклади
Що таке обробка природною мовою?
Обробка природних мов (НЛП) це гілка штучного інтелекту, яка допомагає комп’ютерам розуміти, інтерпретувати та маніпулювати людськими мовами, такими як англійська чи хінді, для аналізу та отримання їх значення. НЛП допомагає розробникам упорядковувати та структурувати знання для виконання таких завдань, як переклад, резюмування, розпізнавання іменованих об’єктів, виділення зв’язків, розпізнавання мови, сегментація теми тощо.
Історія НЛП
Ось важливі події в історії обробки природної мови:
1950- НЛП почалося, коли Алан Тюрінг опублікував статтю під назвою «Машина та інтелект».
1950- Спроби автоматизувати переклад між російською та англійською мовами
1960- Робота Хомського та інших з формальної теорії мови та генеративного синтаксису
1990- Імовірнісні та керовані даними моделі стали досить стандартними
2000- Стає доступною велика кількість голосових і текстових даних
Далі в цьому посібнику з НЛП ми дізнаємося, як працює НЛП.
Як працює НЛП?
Перш ніж дізнатися, як працює НЛП, давайте зрозуміємо, як люди використовують мову.
Щодня ми вимовляємо тисячі слів, які інші люди інтерпретують як незліченну кількість речей. Ми вважаємо це простим спілкуванням, але ми всі знаємо, що слова набагато глибші за це. Завжди є певний контекст, який ми витягуємо з того, що ми говоримо і як ми це говоримо., НЛП в Штучний Інтелект ніколи не акцентує увагу на модуляції голосу; він спирається на контекстні моделі.
приклад:
Man is to woman as king is to __________? Meaning (king) – meaning (man) + meaning ( woman)=? The answer is- queen
Тут ми можемо легко співвідноситися, оскільки чоловік є чоловічою статтю, а жінка жіночою. Таким же чином, король є чоловічим родом, а його жіночий рід - королевою.
приклад:
Is King to kings as the queen is to_______? The answer is--- queens
Тут ми можемо побачити два слова царі та царі, де одне в однині, а інше у множині. Тому, коли приходить світова королева, вона автоматично співвідноситься з королевами знову в однині у множині.
Тут найбільше питання полягає в тому, як ми дізнаємося, що означають слова? Давайте, скажіть, хто це назве королевою?
Відповідь полягає в тому, що ми дізнаємося про це через досвід. Однак тут головне питання полягає в тому, як комп'ютер дізнається про те саме?
Нам потрібно надати достатньо даних, щоб машини могли навчатися на досвіді. Ми можемо подати такі деталі, як
- Її Величність Королева.
- Промова королеви під час державного візиту
- Корона королеви Єлизавети
- Мати королеви
- Королева щедра.
З наведеними вище прикладами машина розуміє сутність Queen.
Машина створює вектори слів, як показано нижче. Вектор слів будується за допомогою оточуючих слів.
Машина створює ці вектори
- Оскільки він навчається з кількох наборів даних
- Використовуйте машинне навчання (наприклад, алгоритми глибокого навчання)
- Вектор слів будується за допомогою оточуючих слів.
Ось формула:
Значення (король) – значення (чоловік) + значення (жінка)=?
Це зводиться до виконання простих алгебраїчних операцій над векторами слів:
Вектор (король) – вектор (чоловік) + вектор (жінка)= вектор(?)
На що машина відповідає королеві.
Далі в цьому посібнику з обробки природної мови ми дізнаємося про компоненти НЛП.
Компоненти НЛП
П’ять основних компонентів обробки природної мови в ШІ:
- Морфологічний і лексичний розбір
- Синтаксичний розбір
- Семантичний аналіз
- Інтеграція дискурсу
- Прагматичний аналіз
Морфологічний і лексичний розбір
Лексичний розбір - це словниковий запас, що включає його слова та вирази. Зображує аналіз, ідентифікацію та опис будови слів. Він включає поділ тексту на абзаци, слова та речення
Окремі слова розбираються на компоненти, а несловесні лексеми, такі як знаки пунктуації, відокремлюються від слів.
Семантичний аналіз
Семантичний аналіз — це структура, створена синтаксичним аналізатором, який призначає значення. Цей компонент перетворює лінійні послідовності слів у структури. Він показує, як слова асоціюються одне з одним.
Семантика зосереджена лише на буквальному значенні слів, фраз і речень. Це лише абстрагує словникове значення або справжнє значення з даного контексту. Структури, призначені синтаксичним аналізатором, завжди мають присвоєне значення
напр. «безбарвна зелена ідея». Це було б відхилено аналізом Symantec як безбарвне Тут; зелений не має сенсу.
Прагматичний аналіз
Прагматичний аналіз розглядає загальний комунікативний і соціальний зміст і його вплив на інтерпретацію. Це означає абстрагування або виведення осмисленого використання мови в ситуаціях. У цьому аналізі основна увага завжди приділяється тому, що було сказано, у переосмисленні того, що мається на увазі.
Прагматичний аналіз допомагає користувачам виявити цей передбачуваний ефект, застосовуючи набір правил, які характеризують кооперативні діалоги.
Наприклад, «закрити вікно?» слід тлумачити як прохання, а не наказ.
Синтаксичний аналіз
Слова зазвичай вважаються найменшими одиницями синтаксису. Синтаксис відноситься до принципів і правил, які керують структурою речень будь-яких окремих мов.
Синтаксис зосереджується на правильному порядку слів, що може вплинути на його значення. Це передбачає аналіз слів у реченні з дотриманням граматичної структури речення. Слова трансформуються в структуру, щоб показати, як слова пов’язані одне з одним.
Інтеграція дискурсу
Це означає відчуття контексту. Значення будь-якого окремого речення, яке залежить від цього речення. Він також розглядає значення наступного речення.
Наприклад, слово «що» в реченні «Він хотів цього» залежить від попереднього контексту дискурсу.
Далі в цьому підручнику з НЛП ми дізнаємося про НЛП і системи письма.
НЛП і системи письма
Тип системи письма, який використовується для мови, є одним із вирішальних факторів у визначенні найкращого підходу до попередньої обробки тексту. Системи письма можуть бути
- Логографічний: Велика кількість окремих символів представляє слова. Наприклад, японська, мандаринська
- Складові: Окремі символи представляють склади
- Алфавітний: окремі символи представляють звук
Більшість систем письма використовують складову або алфавітну систему. Навіть англійська мова з її відносно простою системою письма на основі латинського алфавіту використовує логографічні символи, які включають арабські цифри, символи валют (S, £) та інші спеціальні символи.
Це створює наступні проблеми
- Вилучення значення (семантики) з тексту є викликом
- НЛП в ШІ залежить від якості корпусу. Якщо домен великий, важко зрозуміти контекст.
- Є залежність від набору символів і мови
Як впроваджувати НЛП
Нижче наведено популярні методи, які використовуються для природного процесу навчання:
Машинне навчання: Процедури навчання nlp, які використовуються під час машинного навчання. Він автоматично фокусується на найпоширеніших випадках. Тож коли ми пишемо правила вручну, це часто некоректно, оскільки ми взагалі не стурбовані людськими помилками.
Статистичний висновок: НЛП може використовувати алгоритми статистичного висновку. Це допомагає створювати міцні моделі. наприклад, містить слова або структури, які відомі кожному.
Приклади НЛП
Сьогодні технологія навчання природних процесів є широко використовуваною технологією.
Ось загальні методи обробки природної мови:
Пошук інформації та веб-пошук
Google, Yahoo, Bing та ін пошукові системи будують свою технологію машинного перекладу на моделях глибокого навчання NLP. Це дозволяє алгоритмам читати текст на веб-сторінці, інтерпретувати його значення та перекладати на іншу мову.
Виправлення граматики:
Техніка НЛП широко використовується програмним забезпеченням текстового процесора, таким як MS-word, для виправлення орфографії та перевірки граматики.
Відповідь на запитання
Введіть ключові слова, щоб поставити запитання природною мовою.
Узагальнення тексту
Процес узагальнення важливої інформації з джерела для створення скороченої версії
Машинний переклад
Використання комп’ютерних програм для перекладу тексту чи мови з однієї природної мови на іншу.
Аналіз почуттів
НЛП допомагає компаніям аналізувати велику кількість відгуків про продукт. Це також дозволяє своїм клієнтам залишити відгук про конкретний продукт.
Майбутнє НЛП
- Зрозуміла для людини обробка природної мови є найбільшою проблемою Ал. Це майже те саме, що вирішити центральну проблему штучного інтелекту та зробити комп’ютери такими ж розумними, як люди.
- Майбутні комп’ютери чи машини за допомогою НЛП зможуть вивчати інформацію в Інтернеті та застосовувати її в реальному світі, однак над цим потрібно багато працювати.
- Набір інструментів природної мови або nltk стає ефективнішим
- У поєднанні з генеруванням природної мови комп’ютери стануть більш здатними отримувати та надавати корисну та ресурсну інформацію чи дані.
Природна мова проти мови комп’ютера
Нижче наведено основні відмінності між природною мовою та комп’ютерною мовою:
Параметр | Природна мова | Мова комп’ютера |
---|---|---|
Неоднозначне | Вони носять неоднозначний характер. | Вони створені для однозначності. |
надмірність | Природні мови використовують багато надмірностей. | Формальні мови менш зайві. |
Дослівність | Природні мови складаються з ідіом і метафор | Офіційні мови означають саме те, що вони хочуть сказати |
Переваги НЛП
- Користувачі можуть ставити запитання на будь-яку тему та отримувати пряму відповідь протягом кількох секунд.
- Система НЛП дає відповіді на запитання природною мовою
- Система НЛП пропонує точні відповіді на запитання, відсутність непотрібної чи непотрібної інформації
- Точність відповідей зростає в міру збільшення кількості релевантної інформації, поданої в запитанні.
- Процес НЛП допомагає комп’ютерам спілкуватися з людьми їхньою мовою та масштабує інші завдання, пов’язані з мовою
- Дозволяє виконувати більше мовних даних у порівнянні з людиною без втоми та неупереджено та послідовно.
- Структурування дуже неструктурованого джерела даних
Недоліки НЛП
- Складна мова запитів – система може бути не в змозі надати правильну відповідь на неправильно сформульоване або неоднозначне запитання.
- Система створена лише для однієї конкретної задачі; він не може адаптуватися до нових областей і проблем через обмежені функції.
- Система NLP не має інтерфейсу користувача, якому бракує функцій, які дозволяють користувачам далі взаємодіяти з системою
Підсумки
- Обробка природної мови – це гілка ШІ, яка допомагає комп’ютерам розуміти, інтерпретувати та маніпулювати людською мовою
- НЛП почалося, коли Алан Тюрінг опублікував статтю під назвою «Машина та інтелект».
- НЛП ніколи не фокусується на модуляції голосу; він спирається на контекстні моделі
- П’ять основних компонентів обробки природної мови в штучному інтелекті: 1) Морфологічний і лексичний аналіз 2) Синтаксичний аналіз 3) Семантичний аналіз 4) Інтеграція дискурсу 5) Прагматичний аналіз
- Три типи природної системи письма: 1) логографічна 2) складова 3) алфавітна
- Машинне навчання та статистичний висновок є двома методами впровадження природного процесного навчання
- Основними застосуваннями НЛП є пошук інформації та веб-пошук, граматичні виправлення, відповіді на запитання, резюмування тексту, машинний переклад тощо.
- Майбутні комп'ютери або машини за допомогою НЛП і наука даних зможе вчитися з інформації в Інтернеті та застосовувати її в реальному світі, однак над цим потрібно багато працювати
- НЛП є неоднозначним, тоді як комп’ютерна мова з відкритим кодом розроблена для однозначного
- Найбільша перевага НЛП в системі штучного інтелекту полягає в тому, що вона пропонує точні відповіді на запитання, відсутність непотрібної чи небажаної інформації.
- Найбільшим недоліком системи НЛП є те, що вона побудована лише для однієї конкретної задачі, тому вона не може адаптуватися до нових областей і проблем через обмежені функції.