Veri Ambarı – ETL – Veri Madenciliği

Veri ambarı nedir?
İlk olarak bilinmesi gerekir ki veri ambarı bir program ya da ürün değildir. Veri ambarı bir ortamdır bir mimari yapıdır. Veri ambarı farklı operasyonel sistemler, çağrı merkezleri ve benzeri kaynaklardan veriyi alıp, temizleyip değiştirdikten sonra anlaşılabilir ve kolay erişilebilir bir yapıda toplar ve geçmiş veriler için bir depo teşkil ederler.
Yani veri ambarı, veritabanı hareketinden çok sorgulama ve analiz için kullanılmak üzere dizayn edilmiş ilişkisel bir veritabanıdır. Genelde hareket verisinden elde edilmiş tarihi bilgiler içerdiği gibi başka kaynaklardan gelen bilgiler de içerebilir. Veritabanı hareketlerinden kaynaklanan is yüküyle, analiz yükünü birbirinden ayırır ve bu sayede değişik kaynaklardan toplanan bilgilerin daha kolay bir şekilde organize edilmesine olanak sağlar.
Yukarıda da belirttiğim gibi veri ambarına alınacak bilgiler veri ambarına aktarılmadan önce bir takım işlemlerden geçerler. Veriler veri ambarına girmeden önce ETL sürecinden geçerler. Bu şekilde verinin ne şekilde kullanılacağına göre veriler istenilen formata sokulur.

solutions
Peki, nedir bu ETL?
İlk olarak ETL’in açılımına bakalım isterseniz. ETL;
Extract:  Veriyi kaynak sistemden alma,
Transform: Verilerin bizim yapımıza uygun olması için belli bir dönüşümlerden geçmesi gerekmektedir. Yani bir nevi verinin temizlenmesi ve kalitesinin arttırılması,
Load: Verilerin hedef sisteme yüklenmesi anlamına gelir.
etl_process_lg_2
Kısaca ETL; verinin kaynak sistemden alınıp, uygun şekilde değiştirilip, veri ambarına yüklenmesidir.
Bir diğer data quality yöntemi ise ELT’dir. ELT (Extract Load Transfor) ise; veri yine kaynak sistemden alınır fakat bu sefer sisteme yüklendikten sonra transform olayı gerçekleştirilir.
ELT
Bu işlemler ile gerçekleştirdiğimiz olaylara;
Data Cleaning,
Data Conforming,
Data Qualty denir.
Peki, veri ambarındaki verinin kalitesi neden bu kadar önemlidir?
Veri ambarındaki veriler çok düzensiz ve alelade üzerinde işlem yapmaya müsait olmayan bir durumda bulunsaydı sorgularımızda yanlış sonuçlar elde edebilirdik. Örneğin; 18 yaşının üzerinde evlenmemiş bayanları seçmek istediğimizde cinsiyet bloğundaki veri Bayan, Kadın, K vb. şekillerde girilmiş olabilir. Bu durumda sorgumuzu Bayan olarak çektiğimizde gelecek olan verilerin önemli bir kısmını kaybetmiş olacağız. Sonuç olarak yanlış değerler alacağız.
where-red-fits-with-etl-tools
Şirketlerin bu sonuçlara göre göre yatırım yaptıklarını, şirketlerin yönlerini buna göre belirlediklerini düşünürsek felakete neden olabilecek sonuçlar ortaya çıkabilir.
Peki, veri ambarı neden ortaya çıkmıştır?
canias-erp_olp-hpic1-okB

Veri ambarı kavramı, karar vermede kullanılabilecek yapısal kaliteli bilgiye kolay erişimi sağlama ihtiyacından ortaya çıkmıştır. Dolayısıyla veri ambarları, karar verme ve çözümleme amacıyla kullanılacak olan kaliteli veriye kolayca erişmek için kurulur.
İş dünyasının rekabet ortamında bilginin kuruluşa önemli avantajlar sağlayacağı genel olarak kabul edilmektedir. Kuruluşların büyük miktarda verileri olmasına rağmen, ne yazık ki bu verilere erişmek ve kullanmak, veri miktarı arttıkça daha da zorlaşmaktadır.
Veri ambarları farklı düzlemlerdeki veri kaynaklarına erişerek veriyi temizleyip, süzüp değiştirdikten sonra, anlaşılabilir ve kolay erişilebilir bir yapıda saklarlar. Bu veri daha sonra sorgulama, raporlama ve veri çözümlemede kullanılır.
Bu sorgulama ve raporlama teknikleri nelerdir?
sordulamabanner
Çözümleme için günümüzde en çok kullanılan teknikler; sorgulama ve raporlama (query and reporting), çok boyutlu çözümleme (multidimensional analysis) ve veri madenciliği (data mining) teknikleridir.
Peki, veri madenciliği nedir? Yararları nelerdir?
xCRM_veri_ambari
Veri madenciliği ile ilgili söylenecek çok şey var, bunlardan bazıları:
Veri madenciliği; istatistiksel veri analizi ve bilgi keşfi için kullanılır. İstatistiksel veri analizi, verideki alışılmamış örüntüleri belirler ve bu örüntüleri açıklamak üzere istatistiksel ve matematiksel modelleme tekniklerini uygular. Bu modeller daha sonra tahmin ve kestirim için kullanılır.
Veri madenciliği; verinin en faydalı kullanım yolunu keşfetmektir.
Veri madenciliği; kullanıcının aklına bile gelmeyen soruların yanıtlarını vererek, sorgulama ve raporlama ya da çok boyutlu çözümleme ile bulunamayacak yeni bakış açıları kazandırır. Henüz sorulmamış sorulara yanıt arar.
Veri madenciliği; diğer tekniklere oranla daha yeni bir çözümleme tekniğidir. Araştırma tekniği (discovery technique) adı verilen bir yöntem kullanması nedeniyle, raporlama sorgulama ve çok boyutlu çözümleme tekniklerinden çok farklıdır. Veriden belirli bir sorunun yanıtını çıkartmak yerine veriyi çözümleyerek bulunanları raporlayan özel algoritmalar kullanır.

Yorumlar