Учебное пособие по обработке естественного языка: что такое НЛП? Примеры
Что такое обработка естественного языка?
Обработка естественного языка (НЛП) — это отрасль искусственного интеллекта, которая помогает компьютерам понимать, интерпретировать и манипулировать человеческими языками, такими как английский или хинди, для анализа и определения их значения. НЛП помогает разработчикам организовывать и структурировать знания для выполнения таких задач, как перевод, обобщение, распознавание именованных объектов, извлечение взаимосвязей, распознавание речи, сегментация тем и т. д.
История НЛП
Вот важные события в истории обработки естественного языка:
1950- НЛП началось, когда Алан Тьюринг опубликовал статью под названием «Машина и интеллект».
1950- Попытки автоматизировать перевод между русским и английским языками
1960- Работы Хомского и других по теории формального языка и порождающему синтаксису.
1990- Вероятностные и управляемые данными модели стали вполне стандартными.
2000- Становится доступным большое количество устных и текстовых данных.
Далее в этом уроке НЛП мы узнаем, как работает НЛП.
Как работает НЛП?
Прежде чем мы узнаем, как работает НЛП, давайте поймем, как люди используют язык.
Каждый день мы произносим тысячи слов, которые другие люди интерпретируют как бесчисленные действия. Мы считаем это простым общением, но все мы знаем, что слова имеют гораздо более глубокий смысл. Всегда существует некоторый контекст, который мы извлекаем из того, что мы говорим и как мы это говорим. НЛП в Искусственный интеллект никогда не фокусируется на модуляции голоса; он действительно опирается на контекстуальные шаблоны.
Это критически важно для анализа и выбора наиболее эффективных ключевых слов для улучшения рейтинга вашего сайта.
Man is to woman as king is to __________? Meaning (king) – meaning (man) + meaning ( woman)=? The answer is- queen
Здесь мы можем легко сопоставить, потому что мужчина — мужского пола, а женщина — женского пола. Точно так же король мужского рода, а его женский род — королева.
Это критически важно для анализа и выбора наиболее эффективных ключевых слов для улучшения рейтинга вашего сайта.
Is King to kings as the queen is to_______? The answer is--- queens
Здесь мы видим два слова «короли» и «короли», где одно стоит в единственном числе, а другое во множественном числе. Поэтому, когда приходит мировая королева, она автоматически соотносится с королевами снова в единственном числе и во множественном числе.
Здесь самый большой вопрос заключается в том, как мы узнаем, что означают слова? Скажем, кто назовет ее королевой?
Ответ в том, что мы узнаем об этом на собственном опыте. Однако здесь главный вопрос в том, откуда компьютеру знать об этом?
Нам необходимо предоставить достаточно данных, чтобы машины могли учиться на собственном опыте. Мы можем передать такие детали, как
- Ее Величество Королева.
- Речь королевы во время государственного визита
- Корона королевы Елизаветы
- Мать королевы
- Королева щедра.
В приведенных выше примерах машина понимает сущность Queen.
Машина создает векторы слов, как показано ниже. Вектор слов строится с использованием окружающих слов.
Машина создает эти векторы
- Поскольку он учится на нескольких наборах данных
- Используйте машинное обучение (например, алгоритмы глубокого обучения)
- Вектор слов строится с использованием окружающих слов.
Вот формула:
Значение (король) – значение (мужчина) + значение (женщина) =?
Это сводится к выполнению простых алгебраических операций над векторами слов:
Вектор (король) – вектор (мужчина) + вектор (женщина) = вектор(?)
На что машина отвечает королева.
Далее в этом уроке по обработке естественного языка мы узнаем о компонентах НЛП.
Компоненты НЛП
Пять основных компонентов обработки естественного языка в ИИ:
- Морфологический и лексический анализ
- Синтаксический анализ
- Семантический анализ
- Интеграция дискурса
- Прагматический анализ
Морфологический и лексический анализ
Лексический анализ – это словарь, включающий в себя слова и выражения. Он изображает анализ, выявление и описание структуры слов. Включает в себя деление текста на абзацы, слова и предложения.
Отдельные слова анализируются на их компоненты, а несловные лексемы, такие как знаки препинания, отделяются от слов.
Семантический анализ
Семантический анализ — это структура, созданная синтаксическим анализатором, который присваивает значения. Этот компонент переводит линейные последовательности слов в структуры. Он показывает, как слова связаны друг с другом.
Семантика фокусируется только на буквальном значении слов, фраз и предложений. Это лишь абстрагирует словарное значение или реальное значение от данного контекста. Структуры, заданные синтаксическим анализатором, всегда имеют присвоенное значение.
Например. «бесцветная зеленая идея». Анализ Symantec отвергнет это как бесцветное. Здесь; зеленый не имеет никакого смысла.
Прагматический анализ
Прагматический анализ занимается общим коммуникативным и социальным содержанием и его влиянием на интерпретацию. Это означает абстрагирование или получение осмысленного использования языка в ситуациях. В этом анализе основное внимание всегда уделяется тому, что было сказано, в переосмыслении того, что имеется в виду.
Прагматический анализ помогает пользователям обнаружить этот предполагаемый эффект, применяя набор правил, характеризующих совместные диалоги.
Например, «закрыть окно?» следует интерпретировать как просьбу, а не как приказ.
Синтаксический анализ
Слова обычно считаются наименьшими единицами синтаксиса. Синтаксис относится к принципам и правилам, которые управляют структурой предложений любого отдельного языка.
Синтаксис фокусируется на правильном порядке слов, который может повлиять на его значение. Это включает в себя анализ слов в предложении с учетом грамматической структуры предложения. Слова преобразуются в структуру, чтобы показать, как слова связаны друг с другом.
Интеграция дискурса
Это означает чувство контекста. Значение любого отдельного предложения, которое зависит от этого предложения. Он также учитывает смысл следующего предложения.
Например, слово «это» в предложении «Он этого хотел» зависит от предшествующего контекста дискурса.
Далее в этом уроке НЛП мы узнаем о НЛП и системах письма.
НЛП и системы письма
Тип системы письма, используемой в языке, является одним из решающих факторов при определении наилучшего подхода к предварительной обработке текста. Системы письма могут быть
- Логографический: Большое количество отдельных символов обозначают слова. Пример японский, мандаринский
- Слоговое письмо: отдельные символы обозначают слоги.
- Алфавитный: отдельные символы обозначают звук.
Большинство систем письма используют слоговую или алфавитную систему. Даже в английском языке с его относительно простой системой письма, основанной на латинском алфавите, используются логографические символы, включающие арабские цифры, символы валюты (S, £) и другие специальные символы.
Это создает следующие проблемы
- Извлечение смысла (семантики) из текста является непростой задачей.
- НЛП в ИИ зависит от качества корпуса. Если область обширна, трудно понять контекст.
- Есть зависимость от набора символов и языка
Как внедрить НЛП
Ниже приведены популярные методы, используемые для естественного процесса обучения:
Машинное обучение: Процедуры обучения NLP, используемые во время машинного обучения. Он автоматически фокусируется на наиболее распространенных случаях. Поэтому, когда мы пишем правила вручную, это часто вообще не правильно, поскольку мы беспокоимся о человеческих ошибках.
Статистические выводы: НЛП может использовать алгоритмы статистического вывода. Это помогает создавать надежные модели. например, содержащие слова или структуры, которые известны всем.
Примеры НЛП
Сегодня технология естественного процессного обучения широко используется.
Вот распространенные методы обработки естественного языка:
Поиск информации и веб-поиск
Google, Yahoo, Bing и другие поисковые системы основывают свою технологию машинного перевода на моделях глубокого обучения НЛП. Он позволяет алгоритмам читать текст на веб-странице, интерпретировать его значение и переводить на другой язык.
Грамматическая коррекция:
Техника НЛП широко используется в текстовых процессорах, таких как MS-word, для исправления орфографии и проверки грамматики.
Ответ на вопрос
Введите ключевые слова, чтобы задавать вопросы на естественном языке.
Обобщение текста
Процесс обобщения важной информации из источника для создания сокращенной версии.
Машинный перевод
Использование компьютерных приложений для перевода текста или речи с одного естественного языка на другой.
Анализ настроений
НЛП помогает компаниям анализировать большое количество отзывов о продукте. Это также позволяет клиентам оставить отзыв о конкретном продукте.
Будущее НЛП
- Самая большая проблема в мире — обработка естественного языка, читаемого человеком. Это почти то же самое, что решить главную проблему искусственного интеллекта и сделать компьютеры такими же умными, как люди.
- Будущие компьютеры или машины с помощью НЛП смогут учиться на информации онлайн и применять ее в реальном мире, однако в этом отношении предстоит еще много поработать.
- Инструментарий естественного языка или nltk становится более эффективным
- В сочетании с генерацией естественного языка компьютеры станут более способными получать и предоставлять полезную и ценную информацию или данные.
Естественный язык против компьютерного языка
Ниже приведены основные различия между естественным языком и компьютерным языком:
Параметр | Естественный язык | Компьютерный язык |
---|---|---|
двусмысленный | Они неоднозначны по своей природе. | Они спроектированы однозначно. |
избыточность | Естественные языки используют много избыточности. | Формальные языки менее избыточны. |
Буквальность | Естественные языки состоят из идиом и метафор. | Формальные языки означают именно то, что хотят сказать. |
Преимущества НЛП
- Пользователи могут задавать вопросы на любую тему и получать прямой ответ в течение нескольких секунд.
- Система НЛП дает ответы на вопросы на естественном языке.
- Система НЛП предлагает точные ответы на вопросы, никакой лишней или нежелательной информации.
- Точность ответов возрастает с увеличением количества соответствующей информации, представленной в вопросе.
- Процесс НЛП помогает компьютерам общаться с людьми на их языке и масштабировать другие задачи, связанные с языком.
- Позволяет без усталости, беспристрастно и последовательно обрабатывать больше языковых данных по сравнению с человеком.
- Структурирование источника сильно неструктурированных данных
Недостатки НЛП
- Сложный язык запросов. Система может быть не в состоянии дать правильный ответ на вопрос, который плохо сформулирован или двусмысленен.
- Система создана только для одной конкретной задачи; он не способен адаптироваться к новым областям и проблемам из-за ограниченных функций.
- Система НЛП не имеет пользовательского интерфейса, в котором отсутствуют функции, позволяющие пользователям в дальнейшем взаимодействовать с системой.
Итого
- Обработка естественного языка — это отрасль искусственного интеллекта, которая помогает компьютерам понимать, интерпретировать и манипулировать человеческим языком.
- НЛП началось, когда Алан Тьюринг опубликовал статью под названием «Машина и интеллект».
- НЛП никогда не фокусируется на модуляции голоса; он опирается на контекстуальные шаблоны
- Пять основных компонентов обработки естественного языка в искусственном интеллекте: 1) Морфологический и лексический анализ 2) Синтаксический анализ 3) Семантический анализ 4) Интеграция дискурса 5) Прагматический анализ
- Три типа системы письма естественного процесса: 1) логографическая, 2) слоговая, 3) алфавитная.
- Машинное обучение и статистический вывод — два метода реализации естественного процесса обучения.
- Основными приложениями НЛП являются поиск информации и поиск в Интернете, ответы на вопросы по исправлению грамматики, обобщение текста, машинный перевод и т. Д.
- Будущие компьютеры или машины с помощью НЛП и Наука данных сможет учиться на информации в Интернете и применять ее в реальном мире, однако в этом отношении необходимо много поработать.
- НЛП неоднозначны, в то время как компьютерный язык с открытым исходным кодом предназначен для однозначного
- Самым большим преимуществом НЛП в системе искусственного интеллекта является то, что оно предлагает точные ответы на вопросы, без ненужной или нежелательной информации.
- Самый большой недостаток системы НЛП создан только для единственной и конкретной задачи, поэтому она не может адаптироваться к новым областям и проблемам из-за ограниченных функций.