“…hiçbir şeyden tamamen emin olamazsın; o zaman tahmin yürütmek için kullanılan denklemler hataları en aza indirgemek içindir, hata payını ortadan kaldırmak için değil.”
“Neden hataları ortadan kaldırmak istemeyelim ki?” diye sordu siyah saçlı Colleen adlı öğrenci.
“İstersin. Ama hataları tamamen ortadan kaldırmak mümkün değildir; çünkü hatasız bir tahmin denklemini oluşturmak için gerekli olan tüm bilgileri asla edinmezsin.”
“Neden olmasın?”

“Olasılık teorisi, bilim adamlarının bir cevaptan %100 emin olmasalar da doğru olduğunu söyleyebilmelerini sağlar. Çünkü olasılık teorisine göre yanılma payı çok ama çok az olduğu zaman gerçeği buldunuz demektir.”
– Adam Fawer, Olasılıksız-

İşte tam da bu aşamada veri madenciliği devreye giriyor. Dilimize veri madenciliği olarak çevrilmiş olsa da bu kavramın, yapılan işte, asıl amacın verinin çıkarılmasındansa bilginin elde edilmesi olduğu için bilgi madenciliği olarak aklımızın bir ucunda kalması iyi olur.

Peki, nedir veri madenciliği? Birbirleriyle ilgisiz verilerden oluşmuş bir yığından işinize yarayacak bilgilerin elde edilmesidir. Madencilik kavramı da buradan geliyor. Taş – toprak arasından altın, gümüş gibi değerli madenin çıkarılması.

Ne işimize yarar? Örnekle başladık örnekle devam edelim. Misafirlerinize küçük kâselerle çerez ikram ediyorsunuz. Eğer sadece çekirdek veya sadece fındık ikram ediyorsanız misafirlerinizin tabaklarında kalan çerezlerden kimin ikramınızı (örneğin çekirdeği) sevdiğini bilebilirsiniz. Diyelim ki her tür çereziniz var ve misafirlerinizin hangi çerezi daha çok sevdiğini bilmek istiyorsunuz. Her birinin tabağında kalanları çıkarabilirsiniz ama bu size sevilmeyen çerezi verir. Eğer misafirlerinizi izleyebildiğiniz bir kameranız olsaydı hangi çerezi yerken daha keyif aldığını, hangisini önce yiyip hangisini sona sakladığını hatta misafirleriniz arasında değiş tokuş edilerek paylaşılan çerezleri gözlemleyebilirdiniz.

Misafirinizin hadi daha açık konuşalım müşterinizin memnuniyeti tabii ki önemli ama daha önemlisi sizin bu iş alanındaki kazancınız. Eğer her müşteriye, sadece istediği çerezi sunabiliyor olsaydınız; hangi çerezden ne kadar kullanacağınızı, kime ne sunacağınızı en başından bilirdiniz. Müşterinize sunduğunuz çerez tabağında, gereksiz yere yer kaplayan veya başka müşteriye sunabileceğiniz çerezler olmayacaktır. Müşteriniz, onun ne sevdiğini bilerek sunum yaptığınızda size bağlılık duyacak, öncelikli olarak sizi tercih edebilecektir.

Belki de siz, müşterinizin en sevdiği çerezin yanında ikinci en sevdiği çerezi de bilip bir adım ileri gitmek veya o çerezle iyi giden içeceği müşterinize sunmak isteyeceksiniz. Bu durumda ne yapabiliriz? Yine veri madenciliği yardımımıza koşacaktır. Hadi örnekten yola çıkarak veri madenciliği kavramlarını ilişkilendirip soluklanalım.

A veya B tipi çerez seven müşterilerinizin belirlenmesi kümeleme, potansiyel müşterinizin A veya B tipi çerez sevdiğinin çıkarılması ise sınıflandırma olarak kabul edilebilir. A tipi çerez seven müşterinin X tipi içeceği sevmesi ise ilişkilendirme olarak karşımıza çıkar.

Sizin, potansiyel müşterinizin hangi tür çerezi sevdiğini tahmin ederek o çerezin yanında başka ikincil çerez veya içeceği satmanız ise doğruluk oranı yüksek bir modelde başarılı olarak sınıflandırılmış bir satışta, doğru ilişkilendirilmiş bir ürünle çapraz satış yapmanız demektir. Ki ihtiyaçlarını bildiğiniz ve ona göre ürün sunup gereksiz çerezlerle uğraştırmadığınız bir müşterinin, müşteriniz olarak kalması olasılığı hayli yüksektir.
Dikkatli okuyucular, aradaki satırları da okuyanlardır. Başarının temelinde o satır arasındaki “doğruluk oranı yüksek bir model” yatmaktadır.

Veri madenciliğinde elimizdeki tüm verilerden (örnekteki kamera görüntüleri) bir model oluşturulur. Bu model, gerçek verilerle eğitilir ve doğruluk oranı test edilir. Eğer modelin hata payı düşükse (bkz. yukarıdaki Olasılıksız kitabının alıntısı) o zaman model tahmininin doğru olacağı kabul edilir.

Satır arasında vermediğim ama veri madenciliğinin temel iki sürecini de esirgemeden bu makaledeki son adımları atalım. Elimizdeki tüm verilerden model oluşturmadan önce geçilmesi gereken en önemli süreç bu verilerin temizlenmesidir. Ön işleme diye adlandırılan bu işlemde veri istatistiki gözlem ve ölçümler ile fazlalıklarından temizlenir; benzer veriler, kolay işlenmek üzere normalize edilir. Bu aşamayı, örneğimizdeki kamera görüntülerinin düzenlenmesi olarak düşünebiliriz. Müşteriler gelmeden önceki çekimlerin atılması, görüntü bozukluklarının düzeltilmesi ve benzer karelerin sıkıştırılması tam da buna denk gelir.

Modelin doğruluğu da sabit kalmayacaktır. Davranışlar değiştikçe modelin kendini güncellemesi, yeni verilerle doğruluğun artırılması uzman uygulayıcıların vurgulayacağı son süreçtir. Zaman geçtikçe oluşturduğumuz model, araştırılan probleme daha detaylı bakarak istenilen çözüme doğru adımların atılmasını sağlayacaktır. Bu, hataların azaltılması demektir. Kameramız, zoom yaparak, aslında fıstık seven müşterimizin, o gün parmağı yara olduğu için tuzlu çerezlere uzanmamış olacağını fark edecektir. Onu, fıstık sevmeyenler sınıfına almak yerine, müşterimize kabuksuz fıstık sunmak da modelin başarılı bir sonucu olacaktır.

TechSiN Bilişim Çözümleri, veri madenciliği ürün ve çözümleri ile başından sonuna sizi hedefinize ulaştırmak için atılacak en doğru adımdır. Neyse ki TechSiN’in bu alanda doğru tercihiniz olduğunu bulmak için bir modele ihtiyacınız yok. Ne de olsa TechSiN, “başarınızın bilişim ortağı”dır. Alanında tecrübeli firmamızla iletişim için https://www.techsin.com.tr/bize-ulasin/

Yazıyı bir spoiler ile tamamlayalım. Eğer işinizi ve hedefinizi beraber modellersek müşterinizi size en uygun şekilde yönlendirebiliriz.

“Ağır kokuyu ikinci kez duyduğunda birden çikolatalı dondurma çekmişti canı” – Olasılıksız –