Hướng dẫn xử lý ngôn ngữ tự nhiên: NLP là gì? Ví dụ
Xử lý ngôn ngữ tự nhiên là gì?
Xử lý ngôn ngữ tự nhiên (NLP) là một nhánh của AI giúp máy tính hiểu, diễn giải và xử lý các ngôn ngữ của con người như tiếng Anh hoặc tiếng Hindi để phân tích và rút ra ý nghĩa của nó. NLP giúp các nhà phát triển tổ chức và cấu trúc kiến thức để thực hiện các nhiệm vụ như dịch thuật, tóm tắt, nhận dạng thực thể được đặt tên, trích xuất mối quan hệ, nhận dạng giọng nói, phân đoạn chủ đề, v.v.
Lịch sử của NLP
Đây là những sự kiện quan trọng trong lịch sử Xử lý ngôn ngữ tự nhiên:
1950- NLP bắt đầu khi Alan Turing xuất bản một bài báo có tên “Máy móc và trí thông minh”.
1950- Nỗ lực tự động hóa bản dịch giữa tiếng Nga và tiếng Anh
1960- Công trình của Chomsky và những người khác về lý thuyết ngôn ngữ hình thức và cú pháp tạo sinh
1990- Các mô hình xác suất và dựa trên dữ liệu đã trở nên khá chuẩn
2000- Một lượng lớn dữ liệu nói và văn bản có sẵn
Tiếp theo trong hướng dẫn NLP này, chúng ta sẽ tìm hiểu Cách hoạt động của NLP.
NLP hoạt động như thế nào?
Trước khi tìm hiểu cách NLP hoạt động, hãy hiểu cách con người sử dụng ngôn ngữ-
Mỗi ngày chúng ta nói hàng nghìn lời mà người khác diễn giải để làm vô số việc. Chúng tôi coi đó là một cuộc giao tiếp đơn giản, nhưng tất cả chúng tôi đều biết rằng lời nói còn sâu sắc hơn thế nhiều. Luôn có một số bối cảnh mà chúng tôi rút ra từ những gì chúng tôi nói và cách chúng tôi nói., NLP trong Trí tuệ nhân tạo không bao giờ tập trung vào điều chế giọng nói; nó dựa trên các mô hình theo ngữ cảnh.
Ví dụ:
Man is to woman as king is to __________? Meaning (king) – meaning (man) + meaning ( woman)=? The answer is- queen
Ở đây chúng ta có thể dễ dàng liên hệ vì nam là giới tính nam và nữ là giới tính nữ. Tương tự như vậy, vua là giới tính nam và giới tính nữ là hoàng hậu.
Ví dụ:
Is King to kings as the queen is to_______? The answer is--- queens
Ở đây, chúng ta có thể thấy hai từ kings và kings trong đó một từ ở số ít và một ở số nhiều. Vì vậy, khi nữ hoàng thế giới đến, nó sẽ tự động liên kết với các nữ hoàng lại ở số ít.
Ở đây, câu hỏi lớn nhất là làm sao chúng ta biết được ý nghĩa của từ? Hãy nói xem ai sẽ gọi nó là nữ hoàng?
Câu trả lời là chúng ta học cách suy nghĩ này thông qua kinh nghiệm. Tuy nhiên, câu hỏi chính ở đây là làm sao máy tính biết được điều tương tự?
Chúng ta cần cung cấp đủ dữ liệu để Máy học thông qua kinh nghiệm. Chúng ta có thể cung cấp các chi tiết như
- Thưa Nữ hoàng.
- Bài phát biểu của Nữ hoàng trong chuyến thăm cấp Nhà nước
- Vương miện của Nữ hoàng Elizabeth
- Mẹ của Nữ hoàng
- Nữ hoàng rất hào phóng.
Với ví dụ trên máy hiểu được thực thể Queen.
Máy tạo vectơ từ như dưới đây. Một vectơ từ được xây dựng bằng cách sử dụng các từ xung quanh.
Máy tạo ra các vectơ này
- Khi nó học từ nhiều bộ dữ liệu
- Sử dụng Machine learning (ví dụ: thuật toán Deep Learning)
- Một vectơ từ được xây dựng bằng cách sử dụng các từ xung quanh.
Đây là công thức:
Nghĩa (vua) – nghĩa (đàn ông) + nghĩa (đàn bà)=?
Điều này tương đương với việc thực hiện các phép tính đại số đơn giản trên vectơ từ:
Vector ( vua) – vector (người đàn ông) + vector (người phụ nữ)= vector(?)
Máy trả lời nữ hoàng.
Tiếp theo trong hướng dẫn Xử lý ngôn ngữ tự nhiên này, chúng ta sẽ tìm hiểu về Các Thành phần của NLP.
Các thành phần của NLP
Năm thành phần chính của xử lý ngôn ngữ tự nhiên trong AI là:
- Phân tích hình thái và từ vựng
- Phân tích cú pháp
- Phân tích ngữ nghĩa
- Tích hợp diễn ngôn
- Phân tích thực dụng
Phân tích hình thái và từ vựng
Phân tích từ vựng là một từ vựng bao gồm các từ và cách diễn đạt của nó. Nó mô tả việc phân tích, xác định và mô tả cấu trúc của từ. Nó bao gồm việc chia văn bản thành các đoạn văn, từ và câu
Các từ riêng lẻ được phân tích thành các thành phần của chúng và các mã thông báo không phải từ như dấu chấm câu được tách ra khỏi các từ.
Phân tích ngữ nghĩa
Phân tích ngữ nghĩa là một cấu trúc được tạo bởi bộ phân tích cú pháp để gán ý nghĩa. Thành phần này chuyển các chuỗi từ tuyến tính thành cấu trúc. Nó cho thấy các từ được liên kết với nhau như thế nào.
Ngữ nghĩa chỉ tập trung vào nghĩa đen của từ, cụm từ và câu. Điều này chỉ trừu tượng hóa ý nghĩa từ điển hoặc ý nghĩa thực sự từ ngữ cảnh nhất định. Các cấu trúc được gán bởi bộ phân tích cú pháp luôn có ý nghĩa được gán
Ví dụ. “ý tưởng xanh không màu.” Điều này sẽ bị phân tích của Symantec bác bỏ vì đây là không màu; màu xanh lá cây không có ý nghĩa gì
Phân tích thực dụng
Phân tích thực dụng đề cập đến nội dung giao tiếp và xã hội tổng thể cũng như ảnh hưởng của nó đến việc diễn giải. Nó có nghĩa là trừu tượng hóa hoặc rút ra cách sử dụng ngôn ngữ có ý nghĩa trong các tình huống. Trong phân tích này, trọng tâm chính luôn là những gì được nói trong việc diễn giải lại ý nghĩa của nó.
Phân tích thực dụng giúp người dùng khám phá tác động dự kiến này bằng cách áp dụng một bộ quy tắc đặc trưng cho các cuộc đối thoại hợp tác.
Ví dụ: "đóng cửa sổ?" nên được hiểu là một yêu cầu thay vì một mệnh lệnh.
Phân tích cú pháp
Các từ thường được chấp nhận là đơn vị cú pháp nhỏ nhất. Cú pháp đề cập đến các nguyên tắc và quy tắc chi phối cấu trúc câu của bất kỳ ngôn ngữ riêng lẻ nào.
Cú pháp tập trung vào thứ tự thích hợp của các từ có thể ảnh hưởng đến ý nghĩa của nó. Điều này liên quan đến việc phân tích các từ trong một câu bằng cách tuân theo cấu trúc ngữ pháp của câu. Các từ được chuyển đổi thành cấu trúc để chỉ ra cách các từ liên quan với nhau.
Tích hợp diễn ngôn
Nó có nghĩa là ý nghĩa của ngữ cảnh. Ý nghĩa của bất kỳ câu đơn nào phụ thuộc vào câu đó. Nó cũng xem xét ý nghĩa của câu tiếp theo.
Ví dụ, từ “that” trong câu “He want that” phụ thuộc vào ngữ cảnh diễn ngôn trước đó.
Tiếp theo trong hướng dẫn NLP này, chúng ta sẽ tìm hiểu về NLP và hệ thống viết.
NLP và Hệ thống Viết
Loại hệ thống chữ viết được sử dụng cho một ngôn ngữ là một trong những yếu tố quyết định trong việc xác định cách tiếp cận tốt nhất để xử lý trước văn bản. Hệ thống chữ viết có thể
- Logographic: Một số lượng lớn các ký hiệu riêng lẻ đại diện cho các từ. Ví dụ tiếng Nhật, tiếng Quan Thoại
- Âm tiết: Các ký hiệu riêng lẻ đại diện cho âm tiết
- Chữ cái: Các ký hiệu riêng lẻ biểu thị âm thanh
Phần lớn các hệ thống chữ viết sử dụng hệ thống Âm tiết hoặc Bảng chữ cái. Ngay cả tiếng Anh, với hệ thống chữ viết tương đối đơn giản dựa trên bảng chữ cái La Mã, cũng sử dụng các ký hiệu logographic bao gồm chữ số Ả Rập, ký hiệu tiền tệ (S, £) và các ký hiệu đặc biệt khác.
Tư thế này sau những thử thách
- Trích xuất ý nghĩa (ngữ nghĩa) từ văn bản là một thách thức
- NLP trong AI phụ thuộc vào chất lượng của kho văn bản. Nếu miền rộng thì sẽ khó hiểu ngữ cảnh.
- Có sự phụ thuộc vào bộ ký tự và ngôn ngữ
Cách triển khai NLP
Dưới đây là các phương pháp phổ biến được sử dụng cho Quá trình học tập tự nhiên:
Máy học: Các quy trình học tập NLP được sử dụng trong quá trình học máy. Nó tự động tập trung vào các trường hợp phổ biến nhất. Vì vậy, khi chúng ta viết các quy tắc bằng tay, nó thường không chính xác chút nào do có lỗi của con người.
Suy luận thống kê: NLP có thể sử dụng các thuật toán suy luận thống kê. Nó giúp bạn tạo ra các mô hình mạnh mẽ. ví dụ: chứa các từ hoặc cấu trúc mà mọi người đều biết.
Ví dụ về NLP
Ngày nay, công nghệ học theo quy trình tự nhiên là công nghệ được sử dụng rộng rãi.
Dưới đây là các kỹ thuật xử lý ngôn ngữ tự nhiên phổ biến:
Truy xuất thông tin & Tìm kiếm trên web
Google, Yahoo, Bing và các dịch vụ khác công cụ tìm kiếm dựa trên công nghệ dịch máy của họ trên các mô hình học sâu NLP. Nó cho phép các thuật toán đọc văn bản trên trang web, giải thích ý nghĩa của nó và dịch nó sang ngôn ngữ khác.
Chỉnh sửa ngữ pháp:
Kỹ thuật NLP được sử dụng rộng rãi bởi các phần mềm xử lý văn bản như MS-word để sửa lỗi chính tả và kiểm tra ngữ pháp.
Trả lời câu hỏi
Nhập từ khóa để đặt câu hỏi bằng ngôn ngữ tự nhiên.
Tóm tắt văn bản
Quá trình tóm tắt những thông tin quan trọng từ một nguồn để tạo ra bản rút gọn
Dịch máy
Sử dụng các ứng dụng máy tính để dịch văn bản hoặc lời nói từ ngôn ngữ tự nhiên này sang ngôn ngữ tự nhiên khác.
Phân tích tình cảm
NLP giúp các công ty phân tích một số lượng lớn các đánh giá về một sản phẩm. Nó cũng cho phép khách hàng của họ đưa ra đánh giá về sản phẩm cụ thể.
Tương lai của NLP
- Việc xử lý ngôn ngữ tự nhiên mà con người có thể đọc được là vấn đề lớn nhất của Al-. Tất cả đều giống như việc giải quyết vấn đề trí tuệ nhân tạo trung tâm và làm cho máy tính trở nên thông minh như con người.
- Các máy tính hoặc máy móc trong tương lai với sự trợ giúp của NLP sẽ có thể học hỏi từ thông tin trực tuyến và áp dụng thông tin đó trong thế giới thực, tuy nhiên, cần phải làm rất nhiều việc về vấn đề này.
- Bộ công cụ ngôn ngữ tự nhiên hoặc nltk trở nên hiệu quả hơn
- Kết hợp với việc tạo ngôn ngữ tự nhiên, máy tính sẽ có khả năng tiếp nhận và cung cấp thông tin hoặc dữ liệu hữu ích và hữu ích hơn.
Ngôn ngữ tự nhiên so với ngôn ngữ máy tính
Dưới đây là những khác biệt chính giữa Ngôn ngữ tự nhiên và Ngôn ngữ máy tính:
Tham số | Ngôn ngữ tự nhiên | Ngôn ngữ máy tính |
---|---|---|
Mơ hồ | Chúng có bản chất mơ hồ. | Chúng được thiết kế để rõ ràng. |
Dư | Ngôn ngữ tự nhiên sử dụng rất nhiều sự dư thừa. | Ngôn ngữ hình thức ít dư thừa hơn. |
Chữ nghĩa | Ngôn ngữ tự nhiên được tạo thành từ thành ngữ và ẩn dụ | Ngôn ngữ trang trọng có nghĩa chính xác những gì họ muốn nói |
Ưu điểm của NLP
- Người dùng có thể đặt câu hỏi về bất kỳ chủ đề nào và nhận được phản hồi trực tiếp trong vòng vài giây.
- Hệ thống NLP cung cấp câu trả lời cho các câu hỏi bằng ngôn ngữ tự nhiên
- Hệ thống NLP đưa ra câu trả lời chính xác cho các câu hỏi, không có thông tin không cần thiết hoặc không mong muốn
- Độ chính xác của câu trả lời tăng theo lượng thông tin liên quan được cung cấp trong câu hỏi.
- Quá trình NLP giúp máy tính giao tiếp với con người bằng ngôn ngữ của họ và thực hiện các nhiệm vụ khác liên quan đến ngôn ngữ
- Cho phép bạn thực hiện nhiều dữ liệu dựa trên ngôn ngữ hơn so với con người mà không bị mệt mỏi và theo cách khách quan, nhất quán.
- Cấu trúc nguồn dữ liệu phi cấu trúc cao
Nhược điểm của NLP
- Ngôn ngữ truy vấn phức tạp - hệ thống có thể không cung cấp được câu trả lời chính xác cho câu hỏi được diễn đạt kém hoặc mơ hồ.
- Hệ thống được xây dựng chỉ cho một nhiệm vụ duy nhất và cụ thể; nó không thể thích ứng với các lĩnh vực và vấn đề mới vì chức năng hạn chế.
- Hệ thống NLP không có giao diện người dùng, thiếu các tính năng cho phép người dùng tương tác sâu hơn với hệ thống
Tổng kết
- Xử lý ngôn ngữ tự nhiên là một nhánh của AI giúp máy tính hiểu, giải thích và xử lý ngôn ngữ của con người
- NLP bắt đầu khi Alan Turing xuất bản một bài báo có tên “Máy móc và trí thông minh”.
- NLP không bao giờ tập trung vào điều chế giọng nói; nó dựa trên các mẫu ngữ cảnh
- Năm thành phần thiết yếu của Xử lý ngôn ngữ tự nhiên trong Trí tuệ nhân tạo là 1) Phân tích hình thái và từ vựng 2) Phân tích cú pháp 3) Phân tích ngữ nghĩa 4) Tích hợp diễn ngôn 5) Phân tích thực dụng
- Ba loại hệ thống chữ viết theo quy trình tự nhiên là 1)Logographic 2) Âm tiết 3) Chữ cái
- Học máy và suy luận thống kê là hai phương pháp để thực hiện Học quy trình tự nhiên
- Các ứng dụng thiết yếu của NLP là Truy xuất thông tin & Tìm kiếm trên web, Trả lời câu hỏi sửa ngữ pháp, Tóm tắt văn bản, Dịch máy, v.v.
- Máy tính hoặc máy móc trong tương lai với sự trợ giúp của NLP và Khoa học dữ liệu sẽ có thể học hỏi từ thông tin trực tuyến và áp dụng thông tin đó vào thế giới thực, tuy nhiên, cần phải làm rất nhiều việc về vấn đề này
- NLP không rõ ràng trong khi ngôn ngữ máy tính nguồn mở được thiết kế để rõ ràng
- Ưu điểm lớn nhất của NLP trong hệ thống Trí tuệ nhân tạo là đưa ra câu trả lời chính xác cho các câu hỏi, không có thông tin không cần thiết hoặc không mong muốn
- Hạn chế lớn nhất của hệ thống NLP là chỉ được xây dựng cho một nhiệm vụ cụ thể và duy nhất nên nó không thể thích ứng với các lĩnh vực và vấn đề mới do chức năng hạn chế.