Tutorial Penambangan Data: Apa itu Penambangan Data? Teknik, Proses
Apa itu Data Mining?
Data Mining adalah proses menemukan pola yang berpotensi berguna dari kumpulan data yang sangat besar. Ini adalah keterampilan multi-disiplin yang digunakan Mesin belajar, statistik, dan AI untuk mengekstrak informasi guna mengevaluasi kemungkinan kejadian di masa depan. Wawasan yang diperoleh dari Data Mining digunakan untuk pemasaran, deteksi penipuan, penemuan ilmiah, dll.
Penambangan Data adalah tentang menemukan hubungan yang tersembunyi, tidak terduga, dan sebelumnya tidak diketahui namun valid di antara data. Penambangan data disebut juga Knowledge Discovery in Data (KDD), Ekstraksi Pengetahuan, analisis data/pola, pengumpulan informasi, dll.
Jenis Data
Penambangan data dapat dilakukan pada jenis data berikut
- Database relasional
- Gudang data
- DB tingkat lanjut dan repositori informasi
- Database berorientasi objek dan relasional objek
- Database Transaksional dan Spasial
- Basis data heterogen dan lama
- Basis data multimedia dan streaming
- Basis data teks
- Penambangan teks dan penambangan Web
Proses Implementasi Data Mining
Mari kita pelajari proses implementasi Data Mining secara detail
pengertian bisnis
Pada fase ini, tujuan bisnis dan penambangan data ditetapkan.
- Pertama, Anda perlu memahami tujuan bisnis dan klien. Anda perlu mendefinisikan apa yang diinginkan klien Anda (yang seringkali bahkan mereka sendiri tidak mengetahuinya)
- Perhatikan skenario penambangan data saat ini. Pertimbangkan sumber daya, asumsi, kendala, dan faktor penting lainnya dalam penilaian Anda.
- Dengan menggunakan tujuan bisnis dan skenario saat ini, tentukan tujuan penambangan data Anda.
- Rencana penambangan data yang baik sangat rinci dan harus dikembangkan untuk mencapai tujuan bisnis dan penambangan data.
Pemahaman data
Pada fase ini, pemeriksaan kewarasan pada data dilakukan untuk memeriksa apakah data tersebut sesuai untuk tujuan penambangan data.
- Pertama, data dikumpulkan dari berbagai sumber data yang tersedia di organisasi.
- Sumber data ini dapat mencakup beberapa basis data, flat filer, atau kubus data. Ada beberapa masalah seperti pencocokan objek dan integrasi skema yang dapat muncul selama proses Integrasi Data. Ini adalah proses yang cukup rumit dan sulit karena data dari berbagai sumber tidak mungkin cocok dengan mudah. Misalnya, tabel A berisi entitas bernama cust_no sedangkan tabel lain B berisi entitas bernama cust-id.
- Oleh karena itu, cukup sulit untuk memastikan apakah kedua objek yang diberikan ini memiliki nilai yang sama atau tidak. Di sini, Metadata harus digunakan untuk mengurangi kesalahan dalam proses integrasi data.
- Langkah selanjutnya adalah mencari properti dari data yang diperoleh. Cara yang baik untuk mengeksplorasi data adalah dengan menjawab pertanyaan data mining (diputuskan dalam fase bisnis) menggunakan alat kueri, pelaporan, dan visualisasi.
- Berdasarkan hasil query, kualitas data harus dipastikan. Data hilang jika ada yang harus diperoleh.
Persiapan data
Pada fase ini, data sudah siap diproduksi.
Proses persiapan data menghabiskan sekitar 90% waktu proyek.
Data dari berbagai sumber harus dipilih, dibersihkan, diubah, diformat, dianonimkan, dan dibuat (jika diperlukan).
Pembersihan data adalah proses untuk “membersihkan” data dengan menghaluskan data yang berisik dan mengisi nilai yang hilang.
Misalnya, untuk profil demografi pelanggan, data usia tidak ada. Data tidak lengkap dan harus diisi. Dalam beberapa kasus, mungkin terdapat outlier data. Misalnya, umur mempunyai nilai 300. Data mungkin tidak konsisten. Misalnya, nama pelanggan berbeda di tabel yang berbeda.
Operasi transformasi data mengubah data agar berguna dalam penambangan data. Transformasi berikut dapat diterapkan
Transformasi data
Operasi transformasi data akan berkontribusi terhadap keberhasilan proses penambangan.
Menghaluskan: Ini membantu menghilangkan noise dari data.
Pengumpulan: Operasi ringkasan atau agregasi diterapkan pada data. Yaitu, data penjualan mingguan diagregasi untuk menghitung total bulanan dan tahunan.
Generalisasi: Pada langkah ini, data tingkat rendah digantikan oleh konsep tingkat tinggi dengan bantuan hierarki konsep. Misalnya, kota digantikan oleh kabupaten.
Normalisasi: Normalisasi dilakukan ketika data atribut diperbesar atau diperkecil. Contoh: Data harus berada dalam kisaran -2.0 hingga 2.0 pasca normalisasi.
Konstruksi atribut: atribut-atribut ini dibuat dan menyertakan kumpulan atribut tertentu yang berguna untuk penambangan data.
Hasil dari proses ini adalah kumpulan data akhir yang dapat digunakan dalam pemodelan.
Pemodelan
Pada fase ini, model matematika digunakan untuk menentukan pola data.
- Berdasarkan tujuan bisnis, teknik pemodelan yang sesuai harus dipilih untuk kumpulan data yang disiapkan.
- Buat skenario untuk menguji kualitas dan validitas model.
- Jalankan model pada kumpulan data yang telah disiapkan.
- Hasilnya harus dinilai oleh seluruh pemangku kepentingan untuk memastikan model tersebut dapat memenuhi tujuan penambangan data.
Evaluasi
Pada fase ini, pola yang diidentifikasi dievaluasi berdasarkan tujuan bisnis.
- Hasil yang dihasilkan oleh model penambangan data harus dievaluasi berdasarkan tujuan bisnis.
- Mendapatkan pemahaman bisnis adalah proses yang berulang. Faktanya, sambil memahami, persyaratan bisnis baru mungkin muncul karena penambangan data.
- Keputusan lanjutkan atau tidak diambil untuk memindahkan model dalam fase penerapan.
Penyebaran
Pada fase penerapan, Anda mengirimkan penemuan data mining Anda ke operasi bisnis sehari-hari.
- Pengetahuan atau informasi yang ditemukan selama proses data mining harus dibuat mudah dipahami oleh pemangku kepentingan non-teknis.
- Rencana penyebaran terperinci, untuk pengiriman, pemeliharaan, dan pemantauan penemuan data mining dibuat.
- Laporan proyek akhir dibuat dengan pembelajaran dan pengalaman penting selama proyek berlangsung. Hal ini membantu meningkatkan kebijakan bisnis organisasi.
Teknik Penambangan Data
1. Klasifikasi
Analisis ini digunakan untuk mengambil informasi penting dan relevan tentang data, dan metadata. Metode penambangan data ini membantu mengklasifikasikan data dalam kelas yang berbeda.
2. Clustering
ClusterAnalisis adalah teknik penambangan data untuk mengidentifikasi data yang mirip satu sama lain. Proses ini membantu untuk memahami perbedaan dan persamaan antar data.
3. Regresi
Analisis regresi adalah metode penambangan data untuk mengidentifikasi dan menganalisis hubungan antar variabel. Ini digunakan untuk mengidentifikasi kemungkinan suatu variabel tertentu, dengan adanya variabel lain.
4. Aturan Asosiasi
Teknik penambangan data ini membantu menemukan hubungan antara dua Item atau lebih. Ia menemukan pola tersembunyi dalam kumpulan data.
5. Deteksi luar
Jenis teknik penambangan data ini mengacu pada observasi item data dalam kumpulan data yang tidak sesuai dengan pola atau perilaku yang diharapkan. Teknik ini dapat digunakan di berbagai domain, seperti intrusi, deteksi, penipuan atau deteksi kesalahan, dll. Deteksi luar disebut juga Analisis Outlier atau Penambangan Outlier.
6. Pola Berurutan
Teknik data mining ini membantu menemukan atau mengidentifikasi pola atau tren serupa pada data transaksi untuk periode tertentu.
7. Ramalan
Prediksi telah menggunakan kombinasi teknik penambangan data lainnya seperti tren, pola sekuensial, pengelompokan, klasifikasi, dll. Prediksi ini menganalisis peristiwa atau kejadian masa lalu dalam urutan yang tepat untuk memprediksi peristiwa di masa depan.
Tantangan Implementasi Data Mine
- Pakar yang terampil diperlukan untuk merumuskan pertanyaan penambangan data.
- Overfitting: Karena ukuran database pelatihan yang kecil, suatu model mungkin tidak sesuai dengan kondisi di masa mendatang.
- Penambangan data membutuhkan database besar yang terkadang sulit dikelola
- Praktik bisnis mungkin perlu dimodifikasi untuk menentukan penggunaan informasi yang ditemukan.
- Jika kumpulan datanya tidak beragam, hasil data mining mungkin tidak akurat.
- Integrasi informasi yang dibutuhkan dari database heterogen dan sistem informasi global bisa jadi rumit
Contoh penambangan data
Nah pada kursus Data Mining ini, mari kita belajar tentang Data mining dengan contoh:
Contoh 1:
Pertimbangkan seorang kepala pemasaran penyedia layanan telekomunikasi yang ingin meningkatkan pendapatan layanan jarak jauh. Untuk ROI yang tinggi pada upaya penjualan dan pemasarannya, pembuatan profil pelanggan adalah hal yang penting. Dia memiliki kumpulan data informasi pelanggan yang luas seperti usia, jenis kelamin, pendapatan, riwayat kredit, dll. Namun tidak mungkin menentukan karakteristik orang yang lebih menyukai panggilan jarak jauh dengan analisis manual. Dengan menggunakan teknik penambangan data, ia dapat mengungkap pola antara pengguna panggilan jarak jauh dan karakteristiknya.
Misalnya, dia mungkin mengetahui bahwa pelanggan terbaiknya adalah wanita menikah berusia antara 45 dan 54 tahun yang berpenghasilan lebih dari $80,000 per tahun. Upaya pemasaran dapat ditargetkan pada demografi tersebut.
Contoh 2:
Sebuah bank ingin mencari cara baru untuk meningkatkan pendapatan dari operasi kartu kreditnya. Mereka ingin memeriksa apakah penggunaan akan berlipat ganda jika biaya dikurangi setengahnya.
Bank memiliki catatan rata-rata saldo kartu kredit selama beberapa tahun, jumlah pembayaran, penggunaan batas kredit, dan parameter penting lainnya. Mereka membuat model untuk memeriksa dampak dari usulan kebijakan bisnis baru. Hasil data menunjukkan bahwa memotong setengah biaya untuk basis pelanggan yang ditargetkan dapat meningkatkan pendapatan sebesar $10 juta.
Alat Penambangan Data
Berikut ini adalah 2 yang populer Alat Penambangan Data banyak digunakan di Industri
Bahasa R:
Bahasa R. adalah alat sumber terbuka untuk komputasi statistik dan grafik. R memiliki beragam statistik, uji statistik klasik, analisis deret waktu, klasifikasi, dan teknik grafis. Ini menawarkan fasilitas penyerahan dan penyimpanan data yang efektif.
Oracle Penambangan Data:
Oracle Data Mining dikenal sebagai ODM adalah modul Oracle Basis Data Analisis Tingkat Lanjut. Alat penambangan data ini memungkinkan analis data menghasilkan wawasan terperinci dan membuat prediksi. Ini membantu memprediksi perilaku pelanggan, mengembangkan profil pelanggan, mengidentifikasi peluang penjualan silang.
Manfaat Penambangan Data
- Teknik data mining membantu perusahaan mendapatkan informasi berbasis pengetahuan.
- Penambangan data membantu organisasi membuat penyesuaian yang menguntungkan dalam operasi dan produksi.
- Penambangan data adalah solusi yang hemat biaya dan efisien dibandingkan dengan aplikasi data statistik lainnya.
- Penambangan data membantu proses pengambilan keputusan.
- Memfasilitasi prediksi otomatis terhadap tren dan perilaku serta penemuan otomatis pola tersembunyi.
- Hal ini dapat diimplementasikan dalam sistem baru maupun platform yang sudah ada
- Ini adalah proses cepat yang memudahkan pengguna menganalisis data dalam jumlah besar dalam waktu lebih singkat.
Kerugian dari Penambangan Data
- Ada kemungkinan perusahaan menjual informasi berguna tentang pelanggannya kepada perusahaan lain demi mendapatkan uang. Misalnya, American Express telah menjual pembelian kartu kredit pelanggannya kepada perusahaan lain.
- Banyak perangkat lunak analitik penambangan data yang sulit dioperasikan dan memerlukan pelatihan terlebih dahulu untuk dapat digunakan.
- Alat penambangan data yang berbeda bekerja dengan cara yang berbeda karena algoritma berbeda yang digunakan dalam desainnya. Oleh karena itu, pemilihan alat data mining yang tepat adalah tugas yang sangat sulit.
- Teknik data mining tidak akurat sehingga dapat menimbulkan konsekuensi serius pada kondisi tertentu.
Aplikasi Penambangan Data
Aplikasi | penggunaan |
---|---|
komunikasi | Teknik penambangan data digunakan di sektor komunikasi untuk memprediksi perilaku pelanggan guna menawarkan kampanye yang sangat bertarget dan relevan. |
Asuransi | Penambangan data membantu perusahaan asuransi menentukan harga produk mereka yang menguntungkan dan mempromosikan penawaran baru kepada pelanggan baru atau lama mereka. |
Pendidikan | Penambangan data bermanfaat bagi pendidik untuk mengakses data siswa, memprediksi tingkat prestasi, dan menemukan siswa atau kelompok siswa yang memerlukan perhatian ekstra. Misalnya siswa yang lemah dalam mata pelajaran matematika. |
Manufaktur | Dengan bantuan Data Mining, Produsen dapat memprediksi keausan aset produksi. Mereka dapat mengantisipasi pemeliharaan yang membantu mereka menguranginya untuk meminimalkan waktu henti. |
Perbankan | Penambangan data membantu sektor keuangan untuk mendapatkan gambaran risiko pasar dan mengelola kepatuhan terhadap peraturan. Ini membantu bank untuk mengidentifikasi kemungkinan orang yang mangkir untuk memutuskan apakah akan menerbitkan kartu kredit, pinjaman, dll. |
Retail | Teknik Data Mining membantu mal ritel dan toko kelontong mengidentifikasi dan mengatur sebagian besar barang yang dapat dijual dalam posisi yang paling hati-hati. Ini membantu pemilik toko untuk memberikan penawaran yang mendorong pelanggan untuk meningkatkan pembelanjaan mereka. |
Penyedia Layanan | Penyedia layanan seperti industri telepon seluler dan utilitas menggunakan Data Mining untuk memprediksi alasan pelanggan meninggalkan perusahaan mereka. Mereka menganalisis detail penagihan, interaksi layanan pelanggan, keluhan yang disampaikan kepada perusahaan untuk menetapkan skor probabilitas bagi setiap pelanggan dan menawarkan insentif. |
E-commerce | Situs web e-niaga menggunakan Data Mining untuk menawarkan penjualan silang dan penjualan atas melalui situs web mereka. Salah satu nama yang paling terkenal adalah Amazon, yang menggunakan teknik penambangan data untuk menarik lebih banyak pelanggan ke toko eCommerce mereka. |
Pasar Super | Penambangan Data memungkinkan aturan pengembangan supermarket untuk memprediksi apakah pembeli mereka akan mengharapkan sesuatu. Dengan mengevaluasi pola pembelian, mereka dapat menemukan pelanggan wanita yang kemungkinan besar sedang hamil. Mereka bisa mulai menyasar produk-produk seperti bedak bayi, baby shop, popok dan lain sebagainya. |
Investigasi Kejahatan | Penambangan Data membantu lembaga investigasi kejahatan untuk mengerahkan tenaga polisi (di mana kejahatan paling mungkin terjadi dan kapan?), siapa yang harus digeledah di perbatasan, dll. |
Bioinformatika | Penambangan Data membantu menambang data biologis dari kumpulan data besar yang dikumpulkan dalam bidang biologi dan kedokteran. |
Ringkasan
- Definisi Data Mining: Data Mining adalah tentang menjelaskan masa lalu dan memprediksi masa depan melalui Analisis data.
- Penambangan data membantu mengekstraksi informasi dari kumpulan data yang sangat besar. Ini adalah prosedur menambang pengetahuan dari data.
- Proses penambangan data meliputi pemahaman bisnis, Pemahaman Data, Persiapan Data, Pemodelan, Evolusi, Penerapan.
- Teknik penambangan data yang penting adalah Klasifikasi, pengelompokan, Regresi, Aturan asosiasi, Deteksi luar, Pola sekuensial, dan prediksi.
- bahasa R dan Oracle Penambangan data adalah alat dan teknik penambangan data yang menonjol.
- Teknik data mining membantu perusahaan mendapatkan informasi berbasis pengetahuan.
- Kelemahan utama penambangan data adalah banyaknya perangkat lunak analitik yang sulit dioperasikan dan memerlukan pelatihan tingkat lanjut untuk mengoperasikannya.
- Penambangan data digunakan di berbagai industri seperti Komunikasi, Asuransi, Pendidikan, Manufaktur, Perbankan, Ritel, Penyedia Layanan, eCommerce, Supermarket Bioinformatika.