Pembelajaran Mesin yang Diawasi: Apa itu, Algorithms dengan Contoh
Apa itu Pembelajaran Mesin yang Diawasi?
Pembelajaran Mesin yang Diawasi adalah algoritma yang belajar dari data pelatihan berlabel untuk membantu Anda memprediksi hasil untuk data yang tidak terduga. Dalam Pembelajaran yang diawasi, Anda melatih mesin menggunakan data yang “diberi label” dengan baik. Artinya beberapa data sudah ditandai dengan jawaban yang benar. Hal ini dapat dibandingkan dengan belajar di hadapan seorang supervisor atau seorang guru.
Berhasil membangun, menskalakan, dan menerapkan tepat model pembelajaran mesin yang diawasi membutuhkan waktu dan keahlian teknis dari tim ilmuwan data yang sangat terampil. Lebih-lebih lagi, Data ilmuwan harus membangun kembali model untuk memastikan wawasan yang diberikan tetap benar hingga datanya berubah.
Cara Kerja Pembelajaran yang Diawasi
Pembelajaran mesin yang diawasi menggunakan kumpulan data pelatihan untuk mencapai hasil yang diinginkan. Kumpulan data ini berisi masukan dan keluaran yang benar yang membantu model belajar lebih cepat. Misalnya, Anda ingin melatih mesin untuk membantu Anda memperkirakan berapa lama waktu yang Anda perlukan untuk berkendara pulang dari tempat kerja Anda.
Di sini, Anda mulai dengan membuat sekumpulan data berlabel. Data ini meliputi:
- Kondisi cuaca
- Waktu dalam hari
- Liburan
Semua rincian ini adalah masukan Anda dalam contoh pembelajaran Terbimbing ini. Outputnya adalah jumlah waktu yang dibutuhkan untuk berkendara pulang pada hari tertentu.
Anda secara naluriah tahu bahwa jika di luar hujan, Anda akan membutuhkan waktu lebih lama untuk berkendara pulang. Namun mesin tersebut membutuhkan data dan statistik.
Mari kita lihat beberapa contoh Pembelajaran yang diawasi tentang bagaimana Anda dapat mengembangkan model pembelajaran yang diawasi dari contoh ini yang membantu pengguna menentukan waktu perjalanan. Hal pertama yang perlu Anda buat adalah set pelatihan. Set pelatihan ini akan berisi total waktu perjalanan dan faktor terkait seperti cuaca, waktu, dll. Berdasarkan set pelatihan ini, mesin Anda mungkin melihat adanya hubungan langsung antara jumlah hujan dan waktu yang Anda perlukan untuk sampai di rumah.
Jadi, dipastikan semakin deras hujan, semakin lama pula Anda berkendara untuk pulang ke rumah. Ini mungkin juga melihat hubungan antara waktu Anda pulang kerja dan waktu Anda akan berada di jalan.
Semakin dekat Anda ke jam 6 sore, semakin lama waktu yang Anda perlukan untuk sampai di rumah. Mesin Anda mungkin menemukan beberapa hubungan dengan data berlabel Anda.
Ini adalah awal dari Model Data Anda. Hal ini mulai berdampak pada bagaimana hujan berdampak pada cara orang mengemudi. Hal ini juga mulai terlihat bahwa lebih banyak orang melakukan perjalanan pada waktu tertentu dalam sehari.
Jenis Pembelajaran Mesin yang Diawasi Algorithms
Berikut ini adalah jenis algoritma Supervised Machine Learning:
Regresi
Teknik regresi memprediksi nilai keluaran tunggal menggunakan data pelatihan.
Example: Anda dapat menggunakan regresi untuk memprediksi harga rumah dari data pelatihan. Variabel masukannya adalah lokalitas, ukuran rumah, dll.
Kekuatan: Output selalu memiliki interpretasi probabilistik, dan algoritme dapat diatur untuk menghindari overfitting.
Kelemahan: Regresi logistik mungkin tidak berfungsi dengan baik jika terdapat beberapa batasan keputusan atau non-linier. Metode ini tidak fleksibel, sehingga tidak dapat menangkap hubungan yang lebih kompleks.
Regresi logistik:
Metode regresi logistik digunakan untuk memperkirakan nilai diskrit berdasarkan sekumpulan variabel independen tertentu. Ini membantu Anda memprediksi kemungkinan terjadinya suatu peristiwa dengan memasukkan data ke fungsi logit. Oleh karena itu, ini juga dikenal sebagai regresi logistik. Saat memprediksi probabilitas, nilai keluarannya berada di antara 0 dan 1.
Berikut adalah beberapa jenis Regresi Algorithms
Klasifikasi
Klasifikasi berarti mengelompokkan keluaran di dalam suatu kelas. Jika algoritma mencoba memberi label masukan ke dalam dua kelas berbeda, ini disebut klasifikasi biner. Memilih antara lebih dari dua kelas disebut sebagai klasifikasi multikelas.
Example: Menentukan apakah seseorang akan mangkir pinjaman atau tidak.
Kekuatan: Pohon klasifikasi berkinerja sangat baik dalam praktiknya
Kelemahan: Jika tidak dibatasi, setiap pohon cenderung mengalami overfitting.
Berikut adalah beberapa jenis Klasifikasi Algorithms
Pengklasifikasi Naive Bayes
Model Naive Bayesian (NBN) mudah dibuat dan sangat berguna untuk kumpulan data besar. Metode ini terdiri dari grafik asiklik langsung dengan satu orang tua dan beberapa anak. Ini mengasumsikan independensi antara node anak yang terpisah dari induknya.
Pohon Keputusan
Pohon keputusan mengklasifikasikan instance dengan mengurutkannya berdasarkan nilai fitur. Dalam metode ini, setiap mode adalah fitur dari sebuah instance. Itu harus diklasifikasikan, dan setiap cabang mewakili nilai yang dapat diasumsikan oleh node. Ini adalah teknik klasifikasi yang banyak digunakan. Dalam metode ini, klasifikasi adalah pohon yang disebut pohon keputusan.
Ini membantu Anda memperkirakan nilai sebenarnya (biaya pembelian mobil, jumlah panggilan, total penjualan bulanan, dll.).
Mendukung Mesin Vektor
Support vector machine (SVM) merupakan salah satu jenis algoritma pembelajaran yang dikembangkan pada tahun 1990. Metode ini didasarkan pada hasil teori pembelajaran statistik yang diperkenalkan oleh Vap Nik.
Mesin SVM juga terkait erat dengan fungsi kernel yang merupakan konsep sentral untuk sebagian besar tugas pembelajaran. Kerangka kerja kernel dan SVM digunakan di berbagai bidang. Ini mencakup pengambilan informasi multimedia, bioinformatika, dan pengenalan pola.
Teknik pembelajaran Mesin yang Diawasi vs. Tanpa Pengawasan
Berdasarkan | Teknik pembelajaran mesin yang diawasi | Teknik pembelajaran mesin tanpa pengawasan |
---|---|---|
Memasukan data | Algorithms dilatih menggunakan data berlabel. | Algorithms digunakan terhadap data yang tidak diberi label |
Kompleksitas Komputasi | Pembelajaran yang diawasi adalah metode yang lebih sederhana. | Pembelajaran tanpa pengawasan memiliki kompleksitas komputasi |
Ketepatan | Metode yang sangat akurat dan dapat dipercaya. | Less metode yang akurat dan dapat dipercaya. |
Tantangan dalam pembelajaran mesin yang diawasi
Berikut adalah tantangan yang dihadapi dalam pembelajaran mesin yang diawasi:
- Fitur masukan yang tidak relevan pada data pelatihan saat ini dapat memberikan hasil yang tidak akurat
- Persiapan dan pra-pemrosesan data selalu menjadi tantangan.
- Akurasi menurun ketika nilai yang tidak mungkin, tidak mungkin, dan tidak lengkap dimasukkan sebagai data pelatihan
- Jika pakar yang bersangkutan tidak tersedia, maka pendekatan lainnya adalah “brute force.” Artinya, Anda perlu memikirkan fitur yang tepat (variabel masukan) untuk melatih mesin. Ini mungkin tidak akurat.
Keuntungan Pembelajaran yang Diawasi
Berikut keuntungan dari Supervised Machine learning:
- Pembelajaran yang diawasi di Pembelajaran mesin memungkinkan Anda mengumpulkan data atau menghasilkan keluaran data dari pengalaman sebelumnya
- Membantu Anda mengoptimalkan kriteria kinerja menggunakan pengalaman
- Pembelajaran mesin yang diawasi membantu Anda memecahkan berbagai jenis masalah komputasi dunia nyata.
Kekurangan Pembelajaran yang Diawasi
Berikut adalah kelemahan pembelajaran Mesin yang Diawasi:
- Batasan keputusan mungkin dilatih secara berlebihan jika rangkaian pelatihan Anda tidak memiliki contoh yang ingin Anda miliki di kelas
- Anda perlu memilih banyak contoh bagus dari setiap kelas saat Anda melatih pengklasifikasi.
- Mengklasifikasikan data besar bisa menjadi tantangan nyata.
- Pelatihan untuk pembelajaran yang diawasi membutuhkan banyak waktu komputasi.
Praktik terbaik untuk Pembelajaran yang Diawasi
- Sebelum melakukan hal lain, Anda perlu memutuskan jenis data apa yang akan digunakan sebagai set pelatihan
- Anda perlu memutuskan struktur fungsi yang dipelajari dan algoritma pembelajaran.
- Kumpulkan keluaran yang sesuai baik dari pakar manusia atau dari pengukuran
Ringkasan
- Dalam algoritma pembelajaran terbimbing, Anda melatih mesin menggunakan data yang “diberi label” dengan baik.
- Anda ingin melatih mesin yang membantu Anda memprediksi berapa lama waktu yang Anda perlukan untuk berkendara pulang dari tempat kerja Anda adalah contoh Pembelajaran yang diawasi.
- Regresi dan Klasifikasi adalah dua dimensi dari algoritma Supervised Machine Learning.
- Pembelajaran terawasi adalah metode yang lebih sederhana sementara Pembelajaran Tanpa Pengawasan adalah metode yang kompleks.
- Tantangan terbesar dalam pembelajaran yang diawasi adalah fitur masukan yang tidak relevan sehingga data pelatihan dapat memberikan hasil yang tidak akurat.
- Keuntungan utama pembelajaran terawasi adalah memungkinkan Anda mengumpulkan data atau menghasilkan keluaran data dari pengalaman sebelumnya.
- Kelemahan dari model ini adalah batasan keputusan mungkin menjadi berlebihan jika set pelatihan Anda tidak memiliki contoh yang ingin Anda miliki di kelas.
- Sebagai praktik terbaik dalam mengawasi pembelajaran, pertama-tama Anda harus memutuskan jenis data apa yang harus digunakan sebagai set pelatihan.