Φροντιστήριο Επεξεργασίας Φυσικής Γλώσσας: Τι είναι το NLP; Παραδείγματα

Τι είναι η επεξεργασία φυσικής γλώσσας;

Επεξεργασία φυσικής γλώσσας (NLP) είναι ένας κλάδος της τεχνητής νοημοσύνης που βοηθά τους υπολογιστές να κατανοούν, να ερμηνεύουν και να χειρίζονται ανθρώπινες γλώσσες όπως τα αγγλικά ή τα χίντι για να αναλύουν και να αντλούν το νόημά του. Το NLP βοηθά τους προγραμματιστές να οργανώσουν και να δομήσουν τη γνώση για την εκτέλεση εργασιών όπως η μετάφραση, η περίληψη, η αναγνώριση ονομαστικών οντοτήτων, η εξαγωγή σχέσεων, η αναγνώριση ομιλίας, η τμηματοποίηση θεμάτων κ.λπ.

Ιστορία του NLP

Ακολουθούν σημαντικά γεγονότα στην ιστορία της Επεξεργασίας Φυσικής Γλώσσας:

1950- Το NLP ξεκίνησε όταν ο Άλαν Τούρινγκ δημοσίευσε ένα άρθρο με τίτλο «Μηχανή και Νοημοσύνη».

1950- Προσπάθειες αυτοματοποίησης της μετάφρασης μεταξύ ρωσικών και αγγλικών

1960- Το έργο του Τσόμσκι και άλλων για την επίσημη γλωσσική θεωρία και τη γενετική σύνταξη

1990- Τα πιθανοτικά και βασισμένα σε δεδομένα μοντέλα είχαν γίνει αρκετά τυπικά

2000- Γίνεται διαθέσιμος ένας μεγάλος όγκος προφορικών και κειμενικών δεδομένων

Στη συνέχεια, σε αυτό το σεμινάριο NLP, θα μάθουμε πώς λειτουργεί το NLP.

Πώς λειτουργεί το NLP;

Πριν μάθουμε πώς λειτουργεί το NLP, ας καταλάβουμε πώς χρησιμοποιούν οι άνθρωποι τη γλώσσα-

Κάθε μέρα, λέμε χιλιάδες λέξεις που άλλοι άνθρωποι ερμηνεύουν ότι κάνουν αμέτρητα πράγματα. Εμείς, το θεωρούμε ως μια απλή επικοινωνία, αλλά όλοι γνωρίζουμε ότι τα λόγια είναι πολύ πιο βαθιά από αυτό. Υπάρχει πάντα κάποιο πλαίσιο που αντλούμε από αυτό που λέμε και πώς το λέμε., NLP μέσα Τεχνητή νοημοσύνη Ποτέ δεν εστιάζει στη διαμόρφωση φωνής. βασίζεται σε μοτίβα συμφραζομένων.

Παράδειγμα:

Man is to woman as king is to __________?
Meaning (king) – meaning (man) + meaning ( woman)=?
The answer is-  queen

Εδώ, μπορούμε εύκολα να συσχετιστούμε επειδή ο άνδρας είναι αρσενικό και η γυναίκα είναι γυναικείο. Με τον ίδιο τρόπο, ο βασιλιάς είναι αρσενικό και το γυναικείο φύλο είναι η βασίλισσα.

Παράδειγμα:

Is King to kings as the queen is to_______?
The answer is--- queens 

Εδώ, μπορούμε να δούμε δύο λέξεις βασιλιάδες και βασιλιάδες όπου η μία είναι ενικός και η άλλη είναι πληθυντικός. Επομένως, όταν έρχεται η βασίλισσα του κόσμου, αυτόματα συσχετίζεται με βασίλισσες και πάλι ενικού πληθυντικού.

Εδώ, το μεγαλύτερο ερώτημα είναι πώς ξέρουμε τι σημαίνουν οι λέξεις; Ας πούμε ποιος θα το πει βασίλισσα;

Εργασία NLP

Η απάντηση είναι ότι μαθαίνουμε ότι αυτό σκέφτεται μέσω της εμπειρίας. Ωστόσο, εδώ το κύριο ερώτημα είναι πώς ο υπολογιστής γνωρίζει το ίδιο;

Πρέπει να παρέχουμε αρκετά δεδομένα ώστε οι Μηχανές να μάθουν μέσω της εμπειρίας. Μπορούμε να τροφοδοτήσουμε λεπτομέρειες όπως

  • Η Αυτού Μεγαλειότητα η Βασίλισσα.
  • Ομιλία της Βασίλισσας κατά την Κρατική επίσκεψη
  • Το στέμμα της βασίλισσας Ελισάβετ
  • Η Μητέρα των Βασίλισσων
  • Η βασίλισσα είναι γενναιόδωρη.

Με τα παραπάνω παραδείγματα το μηχάνημα κατανοεί την οντότητα Queen.

Το μηχάνημα δημιουργεί διανύσματα λέξεων όπως παρακάτω. Ένα διάνυσμα λέξεων δημιουργείται χρησιμοποιώντας τις περιβάλλουσες λέξεις.

Εργασία NLP

Η μηχανή δημιουργεί αυτά τα διανύσματα

  • Όπως μαθαίνει από πολλαπλά σύνολα δεδομένων
  • Χρήση μηχανικής μάθησης (π.χ. αλγόριθμοι Deep Learning)
  • Ένα διάνυσμα λέξεων δημιουργείται χρησιμοποιώντας τις περιβάλλουσες λέξεις.

Εδώ είναι ο τύπος:

Σημασία (βασιλιάς) – σημαίνει (άνδρας) + σημαίνει (γυναίκα)=;

Αυτό ισοδυναμεί με την εκτέλεση απλών αλγεβρικών πράξεων σε διανύσματα λέξεων:

Διάνυσμα (βασιλιάς) – διάνυσμα (άνδρας) + διάνυσμα (γυναίκα)= διάνυσμα(;)

Στο οποίο το μηχάνημα απαντά βασίλισσα.

Στη συνέχεια, σε αυτό το σεμινάριο επεξεργασίας φυσικής γλώσσας, θα μάθουμε για τα συστατικά στοιχεία του NLP.

Συστατικά του NLP

Πέντε βασικά συστατικά της επεξεργασίας φυσικής γλώσσας στην τεχνητή νοημοσύνη είναι:

  • Μορφολογική και Λεξική Ανάλυση
  • Συντακτική Ανάλυση
  • Σημασιολογική Ανάλυση
  • Ολοκλήρωση λόγου
  • Πραγματική Ανάλυση
Συστατικά του NLP
Συστατικά του NLP

Μορφολογική και Λεξική Ανάλυση

Η λεξιλογική ανάλυση είναι ένα λεξιλόγιο που περιλαμβάνει λέξεις και εκφράσεις. Απεικονίζει την ανάλυση, τον προσδιορισμό και την περιγραφή της δομής των λέξεων. Περιλαμβάνει τη διαίρεση ενός κειμένου σε παραγράφους, λέξεις και προτάσεις

Οι μεμονωμένες λέξεις αναλύονται στα συστατικά τους στοιχεία και τα διακριτικά μη λέξεων, όπως τα σημεία στίξης, διαχωρίζονται από τις λέξεις.

Σημασιολογική Ανάλυση

Η Semantic Analysis είναι μια δομή που δημιουργείται από τον συντακτικό αναλυτή που εκχωρεί νοήματα. Αυτό το στοιχείο μεταφέρει γραμμικές ακολουθίες λέξεων σε δομές. Δείχνει πώς οι λέξεις συνδέονται μεταξύ τους.

Η σημασιολογία εστιάζει μόνο στην κυριολεκτική σημασία λέξεων, φράσεων και προτάσεων. Αυτό αφαιρεί μόνο το νόημα του λεξικού ή το πραγματικό νόημα από το δεδομένο πλαίσιο. Οι δομές που εκχωρούνται από τον συντακτικό αναλυτή έχουν πάντα εκχωρημένο νόημα

Π.χ. "άχρωμη πράσινη ιδέα." Αυτό θα απορριφθεί από την ανάλυση της Symantec ως άχρωμο Εδώ. το πράσινο δεν έχει νόημα.

Πραγματική Ανάλυση

Η Πραγματική Ανάλυση ασχολείται με το συνολικό επικοινωνιακό και κοινωνικό περιεχόμενο και την επίδρασή του στην ερμηνεία. Σημαίνει αφαίρεση ή εξαγωγή της ουσιαστικής χρήσης της γλώσσας σε καταστάσεις. Σε αυτή την ανάλυση, η κύρια εστίαση πάντα σε αυτό που ειπώθηκε σε επανερμηνεία σχετικά με το τι εννοείται.

Η πραγματιστική ανάλυση βοηθά τους χρήστες να ανακαλύψουν αυτό το επιδιωκόμενο αποτέλεσμα εφαρμόζοντας ένα σύνολο κανόνων που χαρακτηρίζουν τους συνεργατικούς διαλόγους.

Π.χ., «κλείσε το παράθυρο;» θα πρέπει να ερμηνεύεται ως αίτημα αντί για εντολή.

Συντακτική ανάλυση

Οι λέξεις είναι κοινώς αποδεκτές ως οι μικρότερες συντακτικές μονάδες. Η σύνταξη αναφέρεται στις αρχές και τους κανόνες που διέπουν τη δομή των προτάσεων κάθε μεμονωμένης γλώσσας.

Η σύνταξη επικεντρώνεται στη σωστή σειρά των λέξεων που μπορεί να επηρεάσει το νόημά της. Αυτό περιλαμβάνει ανάλυση των λέξεων σε μια πρόταση ακολουθώντας τη γραμματική δομή της πρότασης. Οι λέξεις μετατρέπονται στη δομή για να δείξουν πώς η λέξη σχετίζεται μεταξύ τους.

Ολοκλήρωση λόγου

Σημαίνει μια αίσθηση του πλαισίου. Το νόημα οποιασδήποτε μεμονωμένης πρότασης που εξαρτάται από αυτές τις προτάσεις. Λαμβάνει επίσης υπόψη το νόημα της παρακάτω πρότασης.

Για παράδειγμα, η λέξη «αυτό» στην πρόταση «Το ήθελε αυτό» εξαρτάται από το προηγούμενο πλαίσιο λόγου.

Στη συνέχεια, σε αυτό το σεμινάριο NLP, θα μάθουμε για το NLP και τα συστήματα γραφής.

NLP και Συστήματα Γραφής

Το είδος του συστήματος γραφής που χρησιμοποιείται για μια γλώσσα είναι ένας από τους αποφασιστικούς παράγοντες για τον καθορισμό της καλύτερης προσέγγισης για την προεπεξεργασία κειμένου. Τα συστήματα γραφής μπορούν να είναι

  1. Λογογραφικό: ένας μεγάλος αριθμός μεμονωμένων συμβόλων αντιπροσωπεύουν λέξεις. Παράδειγμα Ιαπωνικά, Mandarin
  2. Συλλαβικά: Τα μεμονωμένα σύμβολα αντιπροσωπεύουν συλλαβές
  3. Αλφαβητική: Τα μεμονωμένα σύμβολα αντιπροσωπεύουν ήχο

Η πλειονότητα των συστημάτων γραφής χρησιμοποιεί το Συλλαβικό ή Αλφαβητικό σύστημα. Ακόμη και τα αγγλικά, με το σχετικά απλό σύστημα γραφής που βασίζεται στο ρωμαϊκό αλφάβητο, χρησιμοποιούν λογογραφικά σύμβολα που περιλαμβάνουν αραβικούς αριθμούς, σύμβολα νομισμάτων (S, £) και άλλα ειδικά σύμβολα.

Αυτό θέτει τις ακόλουθες προκλήσεις

  • Η εξαγωγή νοήματος (σημασιολογίας) από ένα κείμενο είναι μια πρόκληση
  • Το NLP στο AI εξαρτάται από την ποιότητα του σώματος. Εάν ο τομέας είναι τεράστιος, είναι δύσκολο να κατανοήσετε το πλαίσιο.
  • Υπάρχει μια εξάρτηση από το σύνολο χαρακτήρων και τη γλώσσα

Πώς να εφαρμόσετε το NLP

Παρακάτω, δίνονται δημοφιλείς μέθοδοι που χρησιμοποιούνται για τη φυσική διαδικασία μάθησης:

Μηχανική εκμάθηση: Οι διαδικασίες εκμάθησης nlp που χρησιμοποιούνται κατά τη μηχανική εκμάθηση. Εστιάζει αυτόματα στις πιο συνηθισμένες περιπτώσεις. Έτσι, όταν γράφουμε κανόνες με το χέρι, συχνά δεν είναι καθόλου σωστό να ανησυχούμε για ανθρώπινα λάθη.

Στατιστικά συμπεράσματα: Το NLP μπορεί να κάνει χρήση αλγορίθμων στατιστικών συμπερασμάτων. Σας βοηθά να παράγετε μοντέλα που είναι στιβαρά. π.χ. περιέχει λέξεις ή δομές που είναι γνωστές σε όλους.

Παραδείγματα NLP

Σήμερα, η τεχνολογία εκμάθησης φυσικής διαδικασίας είναι ευρέως χρησιμοποιούμενη τεχνολογία.

Ακολουθούν κοινές τεχνικές Επεξεργασίας Φυσικής Γλώσσας:

Ανάκτηση πληροφοριών & Αναζήτηση στο Web

Google, Yahoo, Bing και άλλα μηχανές αναζήτησης βασίζουν την τεχνολογία μηχανικής τους μετάφρασης σε μοντέλα βαθιάς μάθησης NLP. Επιτρέπει στους αλγόριθμους να διαβάζουν κείμενο σε μια ιστοσελίδα, να ερμηνεύουν το νόημά του και να το μεταφράζουν σε άλλη γλώσσα.

Διόρθωση γραμματικής:

Η τεχνική NLP χρησιμοποιείται ευρέως από λογισμικό επεξεργασίας κειμένου όπως το MS-word για ορθογραφική διόρθωση και γραμματικό έλεγχο.

Διόρθωση Γραμματικής

Απάντηση στην ερώτηση

Πληκτρολογήστε λέξεις-κλειδιά για να κάνετε ερωτήσεις στη φυσική γλώσσα.

Σύνοψη κειμένου

Η διαδικασία της σύνοψης σημαντικών πληροφοριών από μια πηγή για την παραγωγή μιας συντομευμένης έκδοσης

Μηχανική μετάφραση

Χρήση εφαρμογών υπολογιστή για τη μετάφραση κειμένου ή ομιλίας από μια φυσική γλώσσα σε άλλη.

Μηχανική μετάφραση

Ανάλυση συναισθημάτων

Το NLP βοηθά τις εταιρείες να αναλύσουν μεγάλο αριθμό κριτικών για ένα προϊόν. Επιτρέπει επίσης στους πελάτες τους να δώσουν μια κριτική για το συγκεκριμένο προϊόν.

Το μέλλον του NLP

  • Η επεξεργασία φυσικής γλώσσας αναγνώσιμη από τον άνθρωπο είναι το μεγαλύτερο πρόβλημα. Είναι σαν να λύνεις το κεντρικό πρόβλημα τεχνητής νοημοσύνης και να κάνεις τους υπολογιστές τόσο έξυπνους όσο οι άνθρωποι.
  • Οι μελλοντικοί υπολογιστές ή μηχανές με τη βοήθεια του NLP θα μπορούν να μάθουν από τις πληροφορίες στο διαδίκτυο και να το εφαρμόσουν στον πραγματικό κόσμο, ωστόσο, χρειάζεται πολλή δουλειά σε αυτό το θέμα.
  • Η εργαλειοθήκη φυσικής γλώσσας ή το nltk γίνονται πιο αποτελεσματικά
  • Σε συνδυασμό με τη δημιουργία φυσικής γλώσσας, οι υπολογιστές θα γίνουν πιο ικανοί να λαμβάνουν και να δίνουν χρήσιμες και ευρηματικές πληροφορίες ή δεδομένα.

Φυσική γλώσσα εναντίον Γλώσσας υπολογιστή

Παρακάτω είναι οι κύριες διαφορές μεταξύ της φυσικής γλώσσας και της γλώσσας υπολογιστή:

Παράμετρος Φυσική γλώσσα Γλώσσα υπολογιστή
Ασαφής Έχουν διφορούμενο χαρακτήρα. Έχουν σχεδιαστεί για να είναι ξεκάθαρα.
Πλεονασμός Οι φυσικές γλώσσες χρησιμοποιούν πολύ πλεονασμό. Οι επίσημες γλώσσες είναι λιγότερο περιττές.
Η κυριολεξία Οι φυσικές γλώσσες αποτελούνται από ιδίωμα και μεταφορά Οι επίσημες γλώσσες σημαίνουν ακριβώς αυτό που θέλουν να πουν

Πλεονεκτήματα του NLP

  • Οι χρήστες μπορούν να κάνουν ερωτήσεις για οποιοδήποτε θέμα και να λάβουν άμεση απάντηση μέσα σε λίγα δευτερόλεπτα.
  • Το σύστημα NLP παρέχει απαντήσεις στις ερωτήσεις σε φυσική γλώσσα
  • Το σύστημα NLP προσφέρει ακριβείς απαντήσεις στις ερωτήσεις, χωρίς περιττές ή ανεπιθύμητες πληροφορίες
  • Η ακρίβεια των απαντήσεων αυξάνεται με τον όγκο των σχετικών πληροφοριών που παρέχονται στην ερώτηση.
  • Η διαδικασία NLP βοηθά τους υπολογιστές να επικοινωνούν με τους ανθρώπους στη γλώσσα τους και κλιμακώνει άλλες εργασίες που σχετίζονται με τη γλώσσα
  • Σας επιτρέπει να εκτελείτε περισσότερα δεδομένα βασισμένα στη γλώσσα σε σύγκριση με έναν άνθρωπο χωρίς κόπωση και με αμερόληπτο και συνεπή τρόπο.
  • Δόμηση μιας εξαιρετικά μη δομημένης πηγής δεδομένων

Μειονεκτήματα του NLP

  • Σύνθετη γλώσσα ερωτημάτων - το σύστημα μπορεί να μην είναι σε θέση να δώσει τη σωστή απάντηση στην ερώτηση που είναι κακώς διατυπωμένη ή διφορούμενη.
  • Το σύστημα έχει κατασκευαστεί για μια ενιαία και συγκεκριμένη εργασία μόνο. δεν είναι σε θέση να προσαρμοστεί σε νέους τομείς και προβλήματα λόγω περιορισμένων λειτουργιών.
  • Το σύστημα NLP δεν διαθέτει διεπαφή χρήστη που δεν διαθέτει χαρακτηριστικά που επιτρέπουν στους χρήστες να αλληλεπιδρούν περαιτέρω με το σύστημα

Σύνοψη

  • Η Επεξεργασία Φυσικής Γλώσσας είναι ένας κλάδος της τεχνητής νοημοσύνης που βοηθά τους υπολογιστές να κατανοούν, να ερμηνεύουν και να χειρίζονται την ανθρώπινη γλώσσα
  • Το NLP ξεκίνησε όταν ο Άλαν Τούρινγκ δημοσίευσε ένα άρθρο με τίτλο «Μηχανή και Νοημοσύνη».
  • Το NLP δεν εστιάζει ποτέ στη διαμόρφωση φωνής. βασίζεται σε μοτίβα συμφραζομένων
  • Πέντε βασικά στοιχεία της Επεξεργασίας Φυσικής Γλώσσας στην Τεχνητή Νοημοσύνη είναι 1) Μορφολογική και Λεξική Ανάλυση 2) ​​Συντακτική Ανάλυση 3) Σημασιολογική Ανάλυση 4) Ολοκλήρωση Λόγου 5) Πραγματική Ανάλυση
  • Τρεις τύποι του συστήματος γραφής φυσικής διαδικασίας είναι 1) Λογογραφικό 2) Συλλαβικό 3) Αλφαβητικό
  • Η μηχανική μάθηση και το στατιστικό συμπέρασμα είναι δύο μέθοδοι για την εφαρμογή της εκμάθησης φυσικής διαδικασίας
  • Βασικές εφαρμογές του NLP είναι η ανάκτηση πληροφοριών και η αναζήτηση στον Ιστό, η διόρθωση ερωτήσεων γραμματικής, η σύνοψη κειμένου, η μηχανική μετάφραση κ.λπ.
  • Μελλοντικοί υπολογιστές ή μηχανές με τη βοήθεια του NLP και Επιστήμη δεδομένων θα είναι σε θέση να μάθει από τις πληροφορίες στο διαδίκτυο και να το εφαρμόσει στον πραγματικό κόσμο, ωστόσο, χρειάζεται πολλή δουλειά σε αυτό το θέμα
  • Το NLP είναι διφορούμενο ενώ η γλώσσα υπολογιστή ανοιχτού κώδικα έχει σχεδιαστεί ώστε να είναι ξεκάθαρη
  • Το μεγαλύτερο πλεονέκτημα του συστήματος NLP στην Τεχνητή Νοημοσύνη είναι ότι προσφέρει ακριβείς απαντήσεις στις ερωτήσεις, χωρίς περιττές ή ανεπιθύμητες πληροφορίες
  • Το μεγαλύτερο μειονέκτημα του συστήματος NLP έχει δημιουργηθεί μόνο για μια ενιαία και συγκεκριμένη εργασία, επομένως δεν μπορεί να προσαρμοστεί σε νέους τομείς και προβλήματα λόγω περιορισμένων λειτουργιών