Veri Madenciliği Eğitimi: Veri Madenciliği Nedir? Teknikler, Süreç
Veri Madenciliği nedir?
Veri Madenciliği büyük veri kümelerinden potansiyel olarak yararlı modeller bulma sürecidir. kullanan multi-disipliner bir beceridir. makine öğrenmeGelecekteki olayların olasılığını değerlendirmek amacıyla bilgi çıkarmak için istatistikler ve yapay zeka. Veri Madenciliğinden elde edilen bilgiler pazarlama, sahtekarlık tespiti, bilimsel keşif vb. için kullanılır.
Veri Madenciliği tamamen veriler arasındaki gizli, şüphelenmeyen ve önceden bilinmeyen ancak geçerli ilişkileri keşfetmeyle ilgilidir. Veri madenciliği aynı zamanda Veride Bilgi Keşfi (KDD), Bilgi çıkarma, veri/örüntü analizi, bilgi toplama vb. olarak da adlandırılır.
Veri Türleri
Veri madenciliği aşağıdaki veri türleri üzerinde gerçekleştirilebilir:
- İlişkisel veritabanları
- Veri depoları
- Gelişmiş veritabanı ve bilgi havuzları
- Nesne yönelimli ve nesne ilişkisel veritabanları
- İşlemsel ve Mekansal veritabanları
- Heterojen ve eski veritabanları
- Multimedya ve akış veritabanı
- Metin veritabanları
- Metin madenciliği ve Web madenciliği
Veri Madenciliği Uygulama Süreci
Veri Madenciliği uygulama sürecini detaylı olarak inceleyelim
İş anlayışı
Bu aşamada iş ve veri madenciliği hedefleri belirlenir.
- Öncelikle iş ve müşteri hedeflerini anlamanız gerekir. Müşterinizin ne istediğini tanımlamanız gerekir (ki çoğu zaman onlar bile bunu bilmezler)
- Mevcut veri madenciliği senaryosunu değerlendirin. Değerlendirmenizde kaynakları, varsayımları, kısıtlamaları ve diğer önemli faktörleri hesaba katın.
- İş hedeflerini ve mevcut senaryoyu kullanarak veri madenciliği hedeflerinizi tanımlayın.
- İyi bir veri madenciliği planı çok ayrıntılıdır ve hem iş hem de veri madenciliği hedeflerini gerçekleştirmek için geliştirilmelidir.
Veri anlayışı
Bu aşamada, veri madenciliği hedeflerine uygun olup olmadığını kontrol etmek için veriler üzerinde akıl sağlığı kontrolü gerçekleştirilir.
- İlk olarak, veriler kuruluşta mevcut olan birden fazla veri kaynağından toplanır.
- Bu veri kaynakları birden fazla veritabanı, düz dosyalayıcı veya veri küpleri içerebilir. Veri Entegrasyonu süreci sırasında ortaya çıkabilecek nesne eşleştirme ve şema entegrasyonu gibi sorunlar vardır. Çeşitli kaynaklardan gelen verilerin kolayca eşleşmesi pek olası olmadığından oldukça karmaşık ve zor bir süreçtir. Örneğin, A tablosu cust_no adlı bir varlık içerirken, başka bir B tablosu cust-id adlı bir varlık içerir.
- Dolayısıyla verilen bu nesnelerin her ikisinin de aynı değere atıfta bulunup bulunmadığından emin olmak oldukça zordur. Burada veri entegrasyon sürecindeki hataları azaltmak için Meta Veri kullanılmalıdır.
- Sonraki adım, elde edilen verilerin özelliklerini aramaktır. Verileri keşfetmenin iyi bir yolu, veri madenciliği sorularını (iş aşamasında kararlaştırılan) sorgulama, raporlama ve görselleştirme araçlarını kullanarak yanıtlamaktır.
- Sorgu sonuçlarına göre veri kalitesi tespit edilmelidir. Varsa eksik veriler elde edilmelidir.
Veri Hazırlama
Bu aşamada veriler üretime hazır hale getirilir.
Veri hazırlama süreci proje süresinin yaklaşık %90'ını tüketir.
Farklı kaynaklardan gelen veriler seçilmeli, temizlenmeli, dönüştürülmeli, formatlanmalı, anonimleştirilmeli ve (gerekirse) oluşturulmalıdır.
Veri temizleme, gürültülü verileri yumuşatarak ve eksik değerleri doldurarak verileri "temizleme" işlemidir.
Örneğin, bir müşteri demografik profili için yaş verileri eksik. Veriler eksik ve doldurulması gerekiyor. Bazı durumlarda verilerde aykırı değerler olabilir. Örneğin, yaş 300 değerine sahiptir. Veriler tutarsız olabilir. Örneğin farklı tablolarda müşterinin adı farklı.
Veri dönüştürme işlemleri, veriyi veri madenciliğinde kullanışlı hale getirmek için değiştirir. Aşağıdaki dönüşüm uygulanabilir
Veri dönüşümü
Veri dönüştürme işlemleri madencilik sürecinin başarısına katkıda bulunacaktır.
yumuşatma: Verilerdeki gürültüyü gidermeye yardımcı olur.
Toplama: Verilere özetleme veya toplama işlemleri uygulanır. Yani haftalık satış verileri toplanarak aylık ve yıllık toplam hesaplanır.
genelleme: Bu adımda, Düşük seviyeli veriler, kavram hiyerarşilerinin yardımıyla daha yüksek seviyeli kavramlarla değiştirilir. Örneğin, şehir ilçe ile değiştirilir.
normalleştirme: Öznitelik verilerinin ölçeği büyütüldüğünde veya küçültüldüğünde normalleştirme gerçekleştirilir. Örnek: Veriler normalizasyon sonrası -2.0 ile 2.0 aralığında olmalıdır.
Özellik yapısı: Bu nitelikler, veri madenciliği için yararlı olan belirli nitelikler kümesini oluşturur ve içerir.
Bu sürecin sonucunda modellemede kullanılabilecek nihai bir veri seti elde edilir.
Modelleme
Bu aşamada veri örüntülerini belirlemek için matematiksel modeller kullanılır.
- İş hedeflerine göre hazırlanan veri seti için uygun modelleme teknikleri seçilmelidir.
- Modelin kalitesini ve geçerliliğini test etmek için bir senaryo oluşturun.
- Modeli hazırlanan veri kümesi üzerinde çalıştırın.
- Modelin veri madenciliği hedeflerini karşılayabildiğinden emin olmak için sonuçlar tüm paydaşlar tarafından değerlendirilmelidir.
Değerlendirme
Bu aşamada belirlenen modeller iş hedeflerine göre değerlendirilir.
- Veri madenciliği modelinin ürettiği sonuçlar iş hedeflerine göre değerlendirilmelidir.
- İş anlayışını kazanmak yinelenen bir süreçtir. Aslında anlarken veri madenciliği nedeniyle yeni iş gereksinimleri ortaya çıkabilir.
- Dağıtım aşamasında modeli taşımak için git veya gitme kararı alınır.
açılma
Dağıtım aşamasında, veri madenciliği keşiflerinizi günlük iş operasyonlarına gönderirsiniz.
- Veri madenciliği süreci sırasında keşfedilen bilgi veya bilgilerin teknik olmayan paydaşlar için anlaşılması kolay hale getirilmelidir.
- Veri madenciliği keşiflerinin nakliyesi, bakımı ve izlenmesi için ayrıntılı bir dağıtım planı oluşturulur.
- Proje sırasında öğrenilen dersler ve önemli deneyimler ile nihai bir proje raporu oluşturulur. Bu, kuruluşun iş politikasının geliştirilmesine yardımcı olur.
Veri Madenciliği Teknikleri
1. Sınıflandırma
Bu analiz, veriler ve meta veriler hakkında önemli ve ilgili bilgileri almak için kullanılır. Bu veri madenciliği yöntemi, verilerin farklı sınıflarda sınıflandırılmasına yardımcı olur.
2. Clustering
ClusterAnaliz, birbirine benzeyen verileri tanımlamaya yönelik bir veri madenciliği tekniğidir. Bu süreç veriler arasındaki farklılıkların ve benzerliklerin anlaşılmasına yardımcı olur.
3. Regresyon
Regresyon analizi, değişkenler arasındaki ilişkinin belirlenmesi ve analiz edilmesi için kullanılan veri madenciliği yöntemidir. Başka değişkenlerin varlığı göz önüne alındığında, belirli bir değişkenin olasılığını belirlemek için kullanılır.
4. Birliktelik Kuralları
Bu veri madenciliği tekniği, iki veya daha fazla Öğe arasındaki ilişkiyi bulmaya yardımcı olur. Veri kümesindeki gizli bir modeli keşfeder.
5. Dış tespit
Bu tür veri madenciliği tekniği, veri kümesindeki beklenen bir kalıpla veya beklenen davranışla eşleşmeyen veri öğelerinin gözlemlenmesini ifade eder. Bu teknik izinsiz giriş, tespit, dolandırıcılık veya hata tespiti vb. gibi çeşitli alanlarda kullanılabilir. Dış tespite Aykırı Değer Analizi veya Aykırı Değer madenciliği de denir.
6. Sıralı Desenler
Bu veri madenciliği tekniği, belirli bir süre için işlem verilerindeki benzer kalıpları veya eğilimleri keşfetmeye veya tanımlamaya yardımcı olur.
7. Tahmin
Tahmin, eğilimler, sıralı modeller, kümeleme, sınıflandırma vb. gibi diğer veri madenciliği tekniklerinin bir kombinasyonunu kullanmıştır. Gelecekteki bir olayı tahmin etmek için geçmiş olayları veya örnekleri doğru bir sırayla analiz eder.
Veri madeni Uygulamasının Zorlukları
- Veri madenciliği sorgularını formüle etmek için Nitelikli Uzmanlara ihtiyaç vardır.
- Aşırı Uyum: Eğitim veri tabanının küçük olması nedeniyle bir model gelecekteki durumlara uymayabilir.
- Veri madenciliği bazen yönetilmesi zor olan büyük veritabanlarına ihtiyaç duyar
- Ortaya çıkan bilgilerin kullanılmasının belirlenmesi için iş uygulamalarının değiştirilmesi gerekebilir.
- Veri seti çeşitli değilse veri madenciliği sonuçları doğru olmayabilir.
- Heterojen veri tabanlarından ve küresel bilgi sistemlerinden ihtiyaç duyulan entegrasyon bilgileri karmaşık olabilir
Veri madenciliği Örnekleri
Şimdi bu Veri Madenciliği kursunda Veri madenciliği hakkında örneklerle bilgi edelim:
Örnek 1:
Uzak mesafe hizmetlerinden elde edilen geliri artırmak isteyen bir telekomünikasyon hizmeti pazarlama yöneticisinin olduğunu düşünün. Satış ve pazarlama çalışmalarından elde edilen yüksek yatırım getirisi için müşteri profilinin çıkarılması önemlidir. Yaş, cinsiyet, gelir, kredi geçmişi gibi müşteri bilgilerinin yer aldığı geniş bir veri havuzuna sahiptir. Ancak şehirlerarası aramaları tercih eden kişilerin özelliklerini manuel analizle belirlemek imkansızdır. Veri madenciliği tekniklerini kullanarak, uzun mesafeli arama kullanıcıları ile onların özellikleri arasındaki kalıpları ortaya çıkarabilir.
Örneğin, en iyi müşterilerinin yılda 45 dolardan fazla kazanan, 54 ila 80,000 yaş arası evli kadınlar olduğunu öğrenebilir. Pazarlama çabaları bu tür demografiyi hedefleyebilir.
Örnek 2:
Bir banka, kredi kartı operasyonlarından elde ettiği geliri artırmanın yeni yollarını aramak istiyor. Ücretler yarıya indirilirse kullanımın iki katına çıkıp çıkmayacağını kontrol etmek istiyorlar.
Bankanın ortalama kredi kartı bakiyeleri, ödeme tutarları, kredi limiti kullanımı ve diğer önemli parametreler konusunda birden fazla yıllık kaydı bulunmaktadır. Önerilen yeni iş politikasının etkisini kontrol etmek için bir model oluştururlar. Veri sonuçları, hedeflenen müşteri tabanı için ücretlerin yarıya indirilmesinin gelirleri 10 milyon dolar artırabileceğini gösteriyor.
Veri Madenciliği Araçları
Aşağıda 2 popüler Veri Madenciliği Araçları Endüstride yaygın olarak kullanılır
R dili:
R dili istatistiksel hesaplama ve grafikler için açık kaynaklı bir araçtır. R, çok çeşitli istatistiksel, klasik istatistiksel testler, zaman serisi analizi, sınıflandırma ve grafik tekniklerine sahiptir. Etkili veri işleme ve depolama olanağı sunar.
Oracle Veri madenciliği:
Oracle Veri Madenciliği Halk arasında ODM olarak bilinen bir modüldür. Oracle Gelişmiş Analitik Veritabanı. Bu Veri madenciliği aracı, veri analistlerinin ayrıntılı bilgiler oluşturmasına ve tahminlerde bulunmasına olanak tanır. Müşteri davranışını tahmin etmeye, müşteri profilleri geliştirmeye, çapraz satış fırsatlarını belirlemeye yardımcı olur.
Veri Madenciliğinin Faydaları
- Veri madenciliği tekniği şirketlerin bilgiye dayalı bilgi edinmelerine yardımcı olur.
- Veri madenciliği, kuruluşların operasyon ve üretimde karlı ayarlamalar yapmasına yardımcı olur.
- Veri madenciliği diğer istatistiksel veri uygulamalarına göre uygun maliyetli ve verimli bir çözümdür.
- Veri madenciliği karar verme sürecine yardımcı olur.
- Trendlerin ve davranışların otomatik olarak tahmin edilmesinin yanı sıra gizli kalıpların otomatik olarak keşfedilmesini de kolaylaştırır.
- Mevcut platformların yanı sıra yeni sistemlerde de uygulanabilmektedir.
- Kullanıcıların büyük miktarda veriyi daha kısa sürede analiz etmesini kolaylaştıran hızlı süreçtir.
Veri Madenciliğinin Dezavantajları
- Şirketlerin müşterilerinin yararlı bilgilerini para karşılığında diğer şirketlere satma olasılıkları vardır. Örneğin American Express müşterilerinin kredi kartı alışverişlerini başka firmalara satmıştır.
- Çoğu veri madenciliği analiz yazılımının çalıştırılması zordur ve üzerinde çalışmak için ileri düzeyde eğitim gerekir.
- Farklı veri madenciliği araçları, tasarımlarında kullanılan farklı algoritmalar nedeniyle farklı şekillerde çalışır. Bu nedenle doğru veri madenciliği aracının seçimi oldukça zor bir iştir.
- Veri madenciliği teknikleri doğru değildir ve bu nedenle bazı durumlarda ciddi sonuçlara neden olabilir.
Veri Madenciliği Uygulamaları
Uygulamalar | kullanım |
---|---|
İletişim | Veri madenciliği teknikleri iletişim sektöründe yüksek hedefli ve alakalı kampanyalar sunmak amacıyla müşteri davranışlarını tahmin etmek için kullanılmaktadır. |
Sigorta | Veri madenciliği, sigorta şirketlerinin ürünlerini karlı bir şekilde fiyatlandırmalarına ve yeni veya mevcut müşterilerine yeni teklifler sunmalarına yardımcı olur. |
Eğitim | Veri madenciliği eğitimcilere öğrenci verilerine erişme, başarı düzeylerini tahmin etme ve ekstra ilgi gerektiren öğrencileri veya öğrenci gruplarını bulma konusunda fayda sağlar. Örneğin matematik konusunda zayıf olan öğrenciler. |
Üretim | Veri Madenciliği'nin yardımıyla Üreticiler, üretim varlıklarının aşınma ve yıpranmasını tahmin edebilir. Arıza süresini en aza indirmek için bakımları azaltmalarına yardımcı olacak bakımları öngörebilirler. |
Bankacılık | Veri madenciliği, finans sektörünün piyasa risklerini görmesine ve mevzuat uyumluluğunu yönetmesine yardımcı olur. Bankaların, kredi kartı, kredi vb. ihraç edip etmeyeceklerine karar vermeleri için olası temerrüde düşenleri tespit etmelerine yardımcı olur. |
Perakende | Veri Madenciliği teknikleri, perakende alışveriş merkezlerinin ve marketlerin en satılabilir ürünleri belirlemesine ve en dikkatli konumlarda düzenlemesine yardımcı olur. Mağaza sahiplerinin, müşterileri harcamalarını artırmaya teşvik eden teklifler sunmalarına yardımcı olur. |
Servis Sağlayıcıları | Mobil telefon ve kamu hizmetleri endüstrileri gibi hizmet sağlayıcılar, bir müşterinin şirketlerinden ayrılma nedenlerini tahmin etmek için Veri Madenciliğini kullanır. Fatura ayrıntılarını, müşteri hizmetleri etkileşimlerini, şirkete yapılan şikayetleri analiz ederek her müşteriye bir olasılık puanı atar ve teşvikler sunar. |
E-ticaret | E-ticaret web siteleri, web siteleri aracılığıyla çapraz satış ve üst satış sunmak için Veri Madenciliği'ni kullanır. En ünlü isimlerden biri Amazone-Ticaret mağazalarına daha fazla müşteri çekmek için Veri madenciliği tekniklerini kullananlar. |
Süper Marketler | Veri Madenciliği, süpermarketin geliştirme kurallarının, alışveriş yapanların beklenti içinde olup olmayacağını tahmin etmesine olanak tanır. Satın alma kalıplarını değerlendirerek büyük olasılıkla hamile olan kadın müşterileri bulabilirler. Bebek pudrası, bebek mağazası, bebek bezi vb. ürünleri hedeflemeye başlayabilirler. |
Suç Soruşturması | Veri Madenciliği, suç soruşturma kurumlarının polis işgücünü görevlendirmesine (suçun meydana gelme olasılığı en yüksek olan yer ve ne zaman?), sınır geçişinde kimin aranacağı vb. konularda yardımcı olur. |
Biyoinformatik | Veri Madenciliği, biyoloji ve tıpta toplanan devasa veri kümelerinden biyolojik verilerin çıkarılmasına yardımcı olur. |
ÖZET
- Veri Madenciliği tanımı: Veri Madenciliği tamamen geçmişi açıklamak ve geleceği tahmin etmekle ilgilidir. Veri analizi.
- Veri madenciliği, büyük veri kümelerinden bilgi çıkarmaya yardımcı olur. Verilerden bilgi madenciliği prosedürüdür.
- Veri madenciliği süreci; iş anlayışı, Veri Anlama, Veri Hazırlama, Modelleme, Geliştirme, Dağıtımı içerir.
- Önemli Veri madenciliği teknikleri Sınıflandırma, kümeleme, Regresyon, Birliktelik kuralları, Dış tespit, Sıralı Desenler ve tahmindir.
- R dili ve Oracle Veri madenciliği öne çıkan veri madenciliği araçları ve teknikleridir.
- Veri madenciliği tekniği şirketlerin bilgiye dayalı bilgi edinmelerine yardımcı olur.
- Veri madenciliğinin ana dezavantajı, birçok analiz yazılımının çalıştırılmasının zor olması ve üzerinde çalışmak için ileri eğitim gerektirmesidir.
- Veri madenciliği İletişim, Sigorta, Eğitim, İmalat, Bankacılık, Perakende, Hizmet sağlayıcılar, e-Ticaret, Süpermarketler Biyoenformatik gibi çeşitli sektörlerde kullanılmaktadır.