SSAS ile Veri Madenciliğine Giriş

SSAS ile Veri Madenciliğine Giriş

SSAS ile veri madenciliğine konusuna geçmeden önce veri madenciliği ile ilgili bazı terimleri açıklayalım.Veri madenciliğinin ortaya çıkış amacı,elimizdeki mevcut bilgileri analiz ederek geleceği tahmin etmektir.Veri madenciliği kısaca büyük veri kümesi içerisinde yer alan kalıpların keşfedildiği bir süreç olarak tanımlayabiliriz.Bir başka deyişle veri madenciliği,tarihsel veriyi kullanarak (ilişkisel veri tabanı veya küp içindeki veri) geleceği tahmin eden uzman sistemlerdir.Şimdi veri madenciliğini bir örnek üzerinde ele alarak neler yapılabileceğini anlatalım: AdventureWorks isimli bir şirketinizin olduğunu düşünelim. Bu şirketin bisiklet üretip sattığını varsayalım.Bir müşterinin bisiklet alıp almayacağını tahmin etmek istiyorum.Bunu nasıl gerçekleştirebilirim?Bunun cevabı : Veri madenciliği
Veri madenciği ile bir müşterinin yüksek veya düşük olasılıkla bisiklet alması için hangi özelliklere sahip olması gerektiğini bulabiliriz. Microsoft SQL Server Analysis Services içerisinde Veri madenciliğini kullanabileceğimiz bir araçla gelmektedir. Böylece bir SSAS projesi kullanmadan doğrudan ilişkisel veri tabanları ile de çalışabiliriz. Kullanıcılar genellikle veri madenciliği ile çalışmak için SSAS üzerinde oluşturulan bir kübe ihtiyaç duyulacağını düşünebilirler.Ama bu doğru bir düşünce değildir.
Veri Madenciliği ile ilgili değineceğimiz önemli bir konu da geleceği tahmin etmek çok veriye ihtiyaç duyulmasıdır. Eğer analiz edilecek veri setimizde birkaç satır varsa araştırma modeli de yanlış olacaktır. Ne kadar daha fazla veriyle çalışırsak o kadar daha doğru model belirlememize yardımcı olacaktır.Veri madenciliği ile ilgili diğer önemli bir konu da araştırma modeli için önemli olan verileri belirlemektir. AdventureWorks örneğine geri dönüp bir müşteriye nasıl bisiklet satabileceğimizi düşünelim. Örneğin bir müşterinin aylık aldığı maaş bilgisi, bisiklet almak için önemli bir ölçüttür. Çünkü müşterinin parası yoksa bisiklet alamaz. Veya bir ailenin 4 arabası olduğunu düşünelim. Bu aile için arabanın bisiklet yerine tercih edilen bir ulaşım aracı olduğunu söyleyebiliriz. Bir müşterinin bisiklet satın almasını tahmin etmemize yarayacak çeşitli bilgiler vardır. Bu bilgilerden önemli olan veya olmayanları nasıl belirleyebiliriz? Müşterinin adresi veya e-posta adresi bizim modelimiz için önemli mi? Bir müşterinin Gmail veya Hotmail kullanıcısı olması bisiklet almasını etkiler mi? Sanırım hayır .O halde modelimizde bu kolonu giriş verisinden çıkartabiliriz.İşte veri madenciliği araçları ,müşterinin bisiklet satın alıp almamasını etkileyecek olan sütunların belirlenmesini de sağlamaktadır.
Bir veri madenciliği modeli oluştururken başlangıçta doğru algoritma seçimi her zaman kolay değildir. Bazen isteklerimizi çözebilecek birkaç veri madenciliği algoritmaları olabilir.İlk olarak sorunumuzu çözecek algoritmaları tanımlamamız gerekiyor.Daha sonra bu algoritmalar üzerinde verilerimizi işleyip analiz ederek yeni sonuçlar ortaya çıkarmalıyız.Ardından her bir algoritma üzerinde ince ayarlar yaparak iş ihtiyaçlarımız için maksimum sonuçlar elde edebiliriz.Veri madenciliği için doğru bir modeli belirledikten sonra daha detaylı analiz için özel algoritmalar kullanabilirsiniz.

Yorumlar