Tutorial Pemrosesan Bahasa Alami: Apa itu NLP? Contoh

Apa itu pemrosesan bahasa alami?

Pemrosesan Bahasa Alami (NLP) adalah cabang AI yang membantu komputer memahami, menginterpretasi, dan memanipulasi bahasa manusia seperti bahasa Inggris atau Hindi untuk menganalisis dan memperoleh maknanya. NLP membantu pengembang untuk mengatur dan menyusun pengetahuan guna melakukan tugas-tugas seperti penerjemahan, peringkasan, pengenalan entitas bernama, ekstraksi hubungan, pengenalan ucapan, segmentasi topik, dll.

Sejarah NLP

Berikut adalah peristiwa penting dalam sejarah Pemrosesan Bahasa Alami:

1950- NLP dimulai ketika Alan Turing menerbitkan sebuah artikel berjudul “Mesin dan Kecerdasan.”

1950- Upaya untuk mengotomatiskan terjemahan antara bahasa Rusia dan Inggris

1960- Karya Chomsky dan lainnya tentang teori bahasa formal dan sintaksis generatif

1990- Model probabilistik dan berbasis data telah menjadi standar

2000- Sejumlah besar data lisan dan tekstual tersedia

Selanjutnya dalam tutorial NLP ini, kita akan mempelajari Cara kerja NLP.

Bagaimana Cara Kerja NLP?

Sebelum kita mempelajari cara kerja NLP, mari kita pahami bagaimana manusia menggunakan bahasa-

Setiap hari, kita mengucapkan ribuan kata yang ditafsirkan orang lain untuk melakukan banyak hal. Kami menganggapnya sebagai komunikasi sederhana, tetapi kami semua tahu bahwa kata-kata jauh lebih dalam dari itu. Selalu ada konteks yang kita peroleh dari apa yang kita katakan dan bagaimana kita mengatakannya., NLP in Kecerdasan Buatan tidak pernah fokus pada modulasi suara; itu memang mengacu pada pola kontekstual.

Contoh:

Man is to woman as king is to __________?
Meaning (king) – meaning (man) + meaning ( woman)=?
The answer is-  queen

Di sini, kita dapat dengan mudah saling berhubungan karena laki-laki berjenis kelamin laki-laki dan perempuan berjenis kelamin perempuan. Dengan cara yang sama, raja berjenis kelamin laki-laki, dan jenis kelamin perempuan adalah ratu.

Contoh:

Is King to kings as the queen is to_______?
The answer is--- queens 

Di sini, kita dapat melihat dua kata raja dan raja yang satu berbentuk tunggal dan lainnya jamak. Oleh karena itu, ketika ratu dunia datang, secara otomatis berhubungan dengan ratu lagi dalam bentuk jamak tunggal.

Di sini, pertanyaan terbesarnya adalah bagaimana kita mengetahui arti sebuah kata? Katakanlah siapa yang akan menyebutnya ratu?

Pekerjaan NLP

Jawabannya adalah kita mempelajari hal ini melalui pengalaman. Namun, di sini pertanyaan utamanya adalah bagaimana komputer mengetahui hal yang sama?

Kita perlu menyediakan data yang cukup bagi Mesin untuk belajar melalui pengalaman. Kita dapat memasukkan rincian seperti

  • Yang Mulia Ratu.
  • Pidato Ratu saat kunjungan kenegaraan
  • Mahkota Ratu Elizabeth
  • Ibu Ratu
  • Ratu itu murah hati.

Dengan contoh di atas, mesin memahami entitas Queen.

Mesin membuat vektor kata seperti di bawah ini. Vektor kata dibangun menggunakan kata-kata di sekitarnya.

Pekerjaan NLP

Mesin menciptakan vektor-vektor ini

  • Saat ia belajar dari berbagai kumpulan data
  • Gunakan Pembelajaran Mesin (misalnya, algoritma Pembelajaran Mendalam)
  • Vektor kata dibangun menggunakan kata-kata di sekitarnya.

Berikut ini rumusnya:

Arti (raja) – arti (pria) + arti (wanita)=?

Hal ini sama saja dengan melakukan operasi aljabar sederhana pada vektor kata:

Vektor ( raja) – vektor (pria) + vektor (wanita)= vektor(?)

Yang dijawab mesin itu ratu.

Selanjutnya dalam tutorial pemrosesan bahasa alami ini, kita akan belajar tentang Komponen NLP.

Komponen NLP

Lima Komponen utama pemrosesan Bahasa Alami di AI adalah:

  • Analisis Morfologi dan Leksikal
  • Analisis sintaksis
  • Analisis Semantik
  • Integrasi Wacana
  • Analisis Pragmatis
Komponen NLP
Komponen NLP

Analisis Morfologi dan Leksikal

Analisis leksikal adalah kosakata yang mencakup kata-kata dan ungkapannya. Ini menggambarkan analisis, mengidentifikasi dan deskripsi struktur kata-kata. Ini termasuk membagi teks menjadi paragraf, kata, dan kalimat

Kata-kata individual dianalisis menjadi komponen-komponennya, dan tanda-tanda non-kata seperti tanda baca dipisahkan dari kata-kata tersebut.

Analisis Semantik

Analisis Semantik adalah struktur yang dibuat oleh penganalisis sintaksis yang memberikan makna. Komponen ini mentransfer rangkaian kata linier ke dalam struktur. Ini menunjukkan bagaimana kata-kata tersebut berhubungan satu sama lain.

Semantik hanya berfokus pada makna literal kata, frasa, dan kalimat. Ini hanya mengabstraksi arti kamus atau arti sebenarnya dari konteks yang diberikan. Struktur yang diberikan oleh penganalisis sintaksis selalu memiliki makna yang diberikan

Misalnya. “ide hijau tak berwarna.” Hal ini akan ditolak oleh analisis Symantec sebagai Here yang tidak berwarna; hijau tidak masuk akal.

Analisis Pragmatis

Analisis Pragmatis berkaitan dengan keseluruhan konten komunikatif dan sosial serta pengaruhnya terhadap interpretasi. Artinya mengabstraksi atau memperoleh makna penggunaan bahasa dalam berbagai situasi. Dalam analisis ini, fokus utama selalu pada apa yang diucapkan dan diinterpretasikan kembali pada apa yang dimaksud.

Analisis pragmatis membantu pengguna menemukan efek yang diinginkan dengan menerapkan serangkaian aturan yang menjadi ciri dialog kooperatif.

Misalnya, “tutup jendelanya?” harus diartikan sebagai permintaan, bukan perintah.

Analisis sintaksis

Kata-kata tersebut secara umum diterima sebagai unit sintaksis terkecil. Sintaks mengacu pada prinsip dan aturan yang mengatur struktur kalimat setiap bahasa.

Sintaksis berfokus pada urutan kata yang tepat yang dapat memengaruhi maknanya. Ini melibatkan analisis kata-kata dalam kalimat dengan mengikuti struktur tata bahasa kalimat tersebut. Kata-kata tersebut diubah menjadi struktur untuk menunjukkan bagaimana kata-kata tersebut saling terkait.

Integrasi Wacana

Artinya, makna konteks. Makna dari setiap kalimat tunggal yang bergantung pada kalimat tersebut. Makna tersebut juga mempertimbangkan makna kalimat berikutnya.

Misalnya, kata “itu” dalam kalimat “Dia menginginkan itu” bergantung pada konteks wacana sebelumnya.

Selanjutnya pada tutorial NLP kali ini kita akan belajar tentang NLP dan sistem penulisannya.

NLP dan Sistem Penulisan

Jenis sistem penulisan yang digunakan untuk suatu bahasa merupakan salah satu faktor penentu dalam menentukan pendekatan terbaik untuk pra-pemrosesan teks. Sistem penulisan bisa saja

  1. Logografis: sejumlah besar simbol individu mewakili kata-kata. Contoh bahasa Jepang, Mandarin
  2. Suku kata: Simbol individual mewakili suku kata
  3. Abjad: Simbol individu mewakili suara

Mayoritas sistem penulisan menggunakan sistem Suku Kata atau Abjad. Bahkan bahasa Inggris, dengan sistem penulisan yang relatif sederhana berdasarkan alfabet Romawi, menggunakan simbol logografik yang meliputi angka Arab, simbol Mata Uang (S, £), dan simbol khusus lainnya.

Pose ini mengikuti tantangan

  • Mengekstraksi makna (semantik) dari sebuah teks merupakan sebuah tantangan
  • NLP dalam AI bergantung pada kualitas korpus. Jika domainnya luas, sulit untuk memahami konteksnya.
  • Ada ketergantungan pada karakter dan bahasa

Bagaimana Menerapkan NLP

Di bawah ini, diberikan metode populer yang digunakan untuk Proses Pembelajaran Alami:

Pembelajaran mesin: Prosedur pembelajaran nlp yang digunakan selama pembelajaran mesin. Secara otomatis berfokus pada kasus yang paling umum. Jadi ketika kita menulis peraturan dengan tangan, seringkali tidak benar sama sekali karena khawatir akan kesalahan manusia.

Inferensi statistik: NLP dapat memanfaatkan algoritme inferensi statistik. Ini membantu Anda menghasilkan model yang tangguh, misalnya, berisi kata-kata atau struktur yang diketahui semua orang.

Contoh NLP

Saat ini, teknologi pembelajaran proses alamiah merupakan teknologi yang banyak digunakan.

Berikut adalah teknik Pemrosesan Bahasa Alami yang umum:

Pengambilan informasi & Pencarian Web

Google, Yahoo, Bing, dan lainnya mesin pencari mendasarkan teknologi penerjemahan mesin mereka pada model pembelajaran mendalam NLP. Hal ini memungkinkan algoritme untuk membaca teks pada halaman web, menafsirkan maknanya, dan menerjemahkannya ke bahasa lain.

Koreksi Tata Bahasa:

Teknik NLP banyak digunakan oleh perangkat lunak pengolah kata seperti MS-word untuk koreksi ejaan & pemeriksaan tata bahasa.

Koreksi tata bahasa

Menjawab pertanyaan

Ketikkan kata kunci untuk mengajukan Pertanyaan dalam Bahasa Alami.

Peringkasan Teks

Proses meringkas informasi penting dari suatu sumber untuk menghasilkan versi yang dipersingkat

Mesin penerjemah

Penggunaan aplikasi komputer untuk menerjemahkan teks atau ucapan dari satu bahasa alami ke bahasa lain.

Mesin penerjemah

Analisis sentimen

NLP membantu perusahaan untuk menganalisis sejumlah besar ulasan suatu produk. Hal ini juga memungkinkan pelanggan mereka untuk memberikan ulasan tentang produk tertentu.

Masa depan NLP

  • Pemrosesan bahasa alami yang dapat dibaca manusia adalah masalah AI terbesar. Semuanya hampir sama dengan memecahkan masalah kecerdasan buatan dan membuat komputer secerdas manusia.
  • Komputer atau mesin masa depan dengan bantuan NLP akan dapat belajar dari informasi online dan menerapkannya di dunia nyata, namun masih banyak pekerjaan yang perlu dilakukan dalam hal ini.
  • Toolkit bahasa alami atau nltk menjadi lebih efektif
  • Dikombinasikan dengan generasi bahasa alami, komputer akan menjadi lebih mampu menerima dan memberikan informasi atau data yang berguna dan banyak akal.

Bahasa Alami vs. Bahasa Komputer

Di bawah ini adalah perbedaan utama antara Bahasa Alami dan Bahasa Komputer:

Parameter Bahasa Alami Bahasa Komputer
Ambigu Sifatnya ambigu. Mereka dirancang untuk tidak ambigu.
Redundansi Bahasa alami menggunakan banyak redundansi. Bahasa formal tidak terlalu berlebihan.
Keaksaraan Bahasa alami terbuat dari idiom & metafora Bahasa formal mempunyai arti yang tepat seperti yang ingin mereka sampaikan

Kelebihan NLP

  • Pengguna dapat mengajukan pertanyaan tentang subjek apa pun dan mendapatkan tanggapan langsung dalam hitungan detik.
  • Sistem NLP memberikan jawaban atas pertanyaan dalam bahasa alami
  • Sistem NLP menawarkan jawaban yang tepat atas pertanyaan, tidak ada informasi yang tidak perlu atau tidak diinginkan
  • Keakuratan jawaban meningkat seiring dengan banyaknya informasi relevan yang diberikan dalam pertanyaan.
  • Proses NLP membantu komputer berkomunikasi dengan manusia dalam bahasa mereka dan menskalakan tugas terkait bahasa lainnya
  • Memungkinkan Anda melakukan lebih banyak data berbasis bahasa dibandingkan dengan manusia tanpa kelelahan dan dengan cara yang tidak bias dan konsisten.
  • Menyusun sumber data yang sangat tidak terstruktur

Kekurangan NLP

  • Bahasa Kueri yang Kompleks - sistem mungkin tidak dapat memberikan jawaban yang benar jika pertanyaannya disusun dengan buruk atau ambigu.
  • Sistem ini dibangun untuk satu tugas tertentu saja; ia tidak dapat beradaptasi dengan domain dan masalah baru karena keterbatasan fungsi.
  • Sistem NLP tidak memiliki antarmuka pengguna sehingga tidak memiliki fitur yang memungkinkan pengguna untuk berinteraksi lebih jauh dengan sistem

Ringkasan

  • Natural Language Processing adalah cabang AI yang membantu komputer memahami, menafsirkan, dan memanipulasi bahasa manusia
  • NLP dimulai ketika Alan Turing menerbitkan sebuah artikel berjudul “Mesin dan Kecerdasan”.
  • NLP tidak pernah berfokus pada modulasi suara; itu memang mengacu pada pola kontekstual
  • Lima komponen penting Pemrosesan Bahasa Alami dalam Kecerdasan Buatan adalah 1) Analisis Morfologis dan Leksikal 2) Analisis Sintaksis 3) Analisis Semantik 4) Integrasi Wacana 5) Analisis Pragmatis
  • Tiga jenis sistem penulisan proses Alami adalah 1) Logografik 2) Suku kata 3) Alfabet
  • Pembelajaran mesin dan inferensi Statistik adalah dua metode penerapan Pembelajaran Proses Alami
  • Aplikasi penting NLP adalah pencarian informasi dan pencarian web, koreksi tata bahasa, tanya jawab, peringkasan teks, penerjemahan mesin, dan lain-lain.
  • Komputer atau mesin masa depan dengan bantuan NLP dan Ilmu Data akan dapat belajar dari informasi online dan menerapkannya di dunia nyata, namun, banyak pekerjaan yang perlu dilakukan dalam hal ini
  • NLP bersifat ambigu sedangkan bahasa komputer open source dirancang agar tidak ambigu
  • Keuntungan terbesar NLP dalam sistem Kecerdasan Buatan adalah ia menawarkan jawaban yang tepat atas pertanyaan, tidak ada informasi yang tidak perlu atau tidak diinginkan
  • Kelemahan terbesar dari sistem NLP adalah dibangun untuk tugas tunggal dan spesifik saja sehingga tidak mampu beradaptasi dengan domain dan masalah baru karena keterbatasan fungsi.