Veri madenciliğinde kullanılan teknikler ve algoritmalar nelerdir?
Verinin bilgiye dönüştürülmesi için kullanılan algoritmalar;
- Yapay Sinir Ağları,
- Genetik Algoritmalar,
- İstatistik Teknikler,
- Karar Ağaçları,
- Kural Çıkarımı,
- Bulanık Kümeler,
- Duruma Dayalı Nedensellik.
Peki, veri madenciliğinde kullanılan yöntemler nelerdir?
Burada asıl bahsedilen, yani veri madenciliği yöntemleri dediğimiz; verinin veri madenciliği ile bilgiye nasıl dönüştürülebileceğidir. Veri madenciliği yöntemleri, bilgi keşfinin hedeflenen çıktılarına bağlı olarak çok farklı amaçlara sahip olabilirler. İstenen sonucu başarılı bir şekilde sağlamak amacıyla farklı amaçlara sahip birçok yöntem birlikte uygulanabilir.
1-Sınıflama:
En popüler veri madenciliği çeşitlerinden birisidir. Temel olarak yaptığı şey yeni bir nesnenin niteliklerini inceleme ve bu nesneyi önceden tanımlanmış bir sınıfa atamaktadır.
Örneğin: Genç kadınlar küçük araba satın alır, yaşlı, zengin erkekler büyük, lüks araba satın alır.
2-Kümeleme:
Kümeleme analizi, sınıflama analizinden farklı olarak denetimsizdir. Öngörülecek alanların belirlenmesini ve birbirine benzeyen verilerin altkümelere ayrılmasını hedefler. Kümeleme analizinin hedefi, veri setinde doğal olarak meydana gelen altsınıfları bulmaktır.
Kümeleme, müşterilere ait bir veri deposunda yapılırken müşteriler, birçok özellikleriyle birlikte analiz edilir ve sonuçta müşteri kimlikleriyle, müşteri adlarına, posta kodlarına veya tanımlanan müşteri numarasına göre kendiliğinden gruplanırlar. Tüm müşteriler, kendisiyle benzer özelliklere, niteliklere sahip olan müşterilerle aynı gruba atanır.
Kendi içinde çok çeşitli açılardan benzer özellikler, benzer tutum ve davranışlar gösteren bu grupların pazarlama faaliyetlerinde de benzer tepkiler oluşturacağı varsayılmaktadır.
3-Tahminleyici Modelleme:
Popüler veri madenciliği yöntemlerinden biridir. Bir nesnenin varlığı ile diğer bir nesnenin varlığı arasında tahmin yürütülerek ilişki kurulur. Tahmin edilecek alan eğer sayısal (sürekli) bir değişken ise tahmin problemi bir regresyon problemidir. Eğer tahmin edilecek alan kategorik bir değişken ise sınıflama problemidir.
4- Veri Görselleştirme:
Veri görselleştirme karar verme sürecinde görsellik ihtiyaçları fazla olan son kullanıcı açısından oldukça kullanışlı bir yöntemdir. Veri görselleştirme, bazı durumlarda verilerin en iyi şekilde anlaşılabileceği bir yöntemdir. Veri görselleştirme kısaca verilerin grafikle sunulması olarak anlaşılmaktadır.
Grafik ve haritalar gibi veri görselleştirme araçlarının yardımıyla, verideki; eğilimler, değişkenlik veya benzerlik, verilerin hangi alanlarda kümelendiği veya ayrıştığı, nasıl bir trend izlediği hakkında fikir sahibi olmak veya ortalamadan sapan farklı birimleri, örneğin suç oranı bakımından ortalamanın çok üstünde olan yerleşim birimlerinin dağılımlarını veya tutum ve davranışları farklılaşan müşterileri tanımlamak mümkündür.
5- Değişim ve Sapma Tespiti Analizi:
Değişim ve Sapma Tespitinde amaç, verilerde görülen genel yapıya uymayan kural dışı davranışların ve özelliklerin tespit edilmesidir. Sıkça görülen bir davranışı göstermeyen veya veri modeline uymayan, diğer verilerden çok daha fazla farklılık gösteren verilere sıradışı veri adı verilir. Bu tür verileri ortaya çıkarma sürecine de sıradışılık analizi denir.
Sıradışı veriler okuma, kayıt etme, ölçüm, uygulama veya hesaplama sırasında oluşan hatalardan dolayı oluşmaktadır. Örneğin, bir insanın yaşı programa girilirken 44 yerine 445 olarak yazılabilir.
Veri madenciliği algoritmalarının çoğu sıradışı verilerin etkisini en aza indirmeyi veya tamamen ortadan kaldırmayı amaçlamaktadır.
Sıradışı analizi, geniş bir uygulama alanına sahiptir. Kredi kartlarının olağandışı kullanımının tespiti, telekomünikasyon servislerindeki olağandışılığın tespiti gibi dolandırıcılık tespitinde kullanılmaktadır. Çeşitli tıbbi tedavilerde olağandışı sonuçları bulmak için kullanılmaktadır.
6- Birliktelik Kuralları:
Birliktelik kuralları, birbiriyle ilişkili olan değişkenlerin ortaya çıkarılması ve aralarındaki bağlantının büyüklüğünün tespit edilmesine yöneliktir. Birliktelik kuralları belirli türlerdeki veri yapıları arasındaki ilişkileri tanımlamaya çalışan bir yöntemdir.
Bağıntı analizleriyle cinsiyet ile eğitim durumu gibi çeşitli değişkenler arasında anlamlı ve kuvvetli bir bağıntı kurulabilir. Müşteri yaşı ve gelir seviyesi ile satın alma tutum ve davranışları arasında da bir bağıntı kurulabilir.
Müşteriye sunulacak herhangi bir ürün-hizmet teklifinin müşteri tarafından kabul edilip edilmemesi, eğer kişi hakkındaki bir demografik veri veya onun bir diğer tutum ve davranışıyla ilişkilendirilebilirse pazarlama faaliyetleri bakımından önemli bir bilgi birikimi elde edilmiş olur.
Örneğin; bankadan hizmet alan müşterilerin maaş hesabı sahip olmalarıyla ile özel emeklilik sigortasına sahip olmaları arasında kuvvetli bir ilişki bulunmuşsa, maaş hesabı bulunan diğer müşterilere özel emeklilik sigortası konusunda bir teklif sunulabilir.
Bağıntı analizi esasına dayanan ve veri madenciliği uygulamalarında çok kullanılan yöntemlerden birisi sepet analizidir. Sepet analizi, özellikle işlemsel veriyi ilişkilendirir.
Örneğin; A hizmetinin talep edilmesiyle B hizmetinin veya C hizmetinin talep edilmesi arasında bir bağlantı olup olmadığı, varsa, bu bağlantının kuvvet ve önem derecesi sepet analizleriyle ortaya çıkarılmaya çalışılır. Amaç bu analizin sonucunda A hizmeti talebiyle B hizmeti talebi arasında kuvvetli bir bağıntı bulunması durumunda A hizmeti talep eden müşteriye B hizmetini de sunmaktır. Bu şekilde çapraz satış ve üst seviye satış imkânı doğmaktadır.
Burada asıl bahsedilen, yani veri madenciliği yöntemleri dediğimiz; verinin veri madenciliği ile bilgiye nasıl dönüştürülebileceğidir. Veri madenciliği yöntemleri, bilgi keşfinin hedeflenen çıktılarına bağlı olarak çok farklı amaçlara sahip olabilirler. İstenen sonucu başarılı bir şekilde sağlamak amacıyla farklı amaçlara sahip birçok yöntem birlikte uygulanabilir.
Yorumlar
Yorum Gönder