Müşteri Kayıp Analizi İçin Sınıflandırma Algoritmalarının Karşılaştırılması

Bu çalışmada kaggle.com üzerinden yayınlanan toplam iki veri seti ile çalışılmıştır. İlk veri seti bir banka müşterilerine, ikinci veri seti ise telefon operatörü müşterilerine aittir. Kullanılan iki veri seti için de çeşitli nitelikler incelenerek müşteri kayıp analizi yapılmıştır. Çalışmada Logistic Regression, Naive Bayes, Desicion Tree, K-NN, SVM ve LDA sınıflandırma modelleri kullanılmıştır. İncelemede toplam 13.000 müşteri bilgisi üzerinden belirlenen yöntemler ile çalışma yapılmıştır. Algoritmanın uygulanması kolay ve literatür çalışması fazla olduğu python programlama dili seçilmiştir. Kullanılan sınıflandırma yöntemleri her iki veri seti için de uygulanmış ve doğruluk oranları karşılaştırılmıştır. En kararlı sonucu karar ağaçları algoritması olduğu gözlemlenmiştir. Tüm sonuçların %70’ten daha fazla bir doğruluk oranı vermesi başarılı bir çalışma yapıldığını ortaya çıkarmaktadır.

Anahtar Kelimeler:

Müşteri Kayıp Analizi, Logistic Regression, Naive Bayes, Desicion Tree, K-NN

Comparing Classification Algorithms of Customer Loss Analysis

Total of two data sets which is published from kaggle.com has been used in this study. The first data set belongs bank customers, and the second data set contains telephone operator customers. Customer loss analysis was conducted by examining various attributes with using the two data sets. In this study, Logistic Regression, Naive Bayes, Desicion Tree, K-NN, SVM and LDA classification modeling are used. The methods which are determined from 13.000 customer information are used in this research. Python Programming Language, which is easy to implement and has many literature studies, has been chosen. The classification methods used were applied for both data sets and their accuracy rates were compared. It has been observed that the most decisive result is the decision trees algorithm. More than 70% of all results give an accuracy rate, a successful study is revealed.

Keywords:

Customer Loss Analysis, Logistic Regression, Naive Bayes, Desicion Tree, K-NN,

PDF

___

Akbulut S. (2006). Veri madenciliği teknikleri ile bir kozmetik markanın ayrılan müşteri analizi ve müşteri segmentasyonu, (Yüksek lisans tezi). Gazi Üniversitesi Fen Bilimleri Enstitüsü, Ankara.
Arifoğlu E. (2011). Churn management by using Fuzzy C-Means, (Yüksek lisans tezi). Bahçeşehir Üniversitesi Fen Bilimleri Enstitüsü, İstanbul.
Asilkan Ö. (2008). Veri madenciliği kullanılarak ikinci el otomobil pazarında fiyat tahmini, (Doktora tezi). Akdeniz Üniversitesi Sosyal Bilimler Enstitüsü, Antalya.
Ayhan, S. ve Erdoğmuş, Ş. (2014). Destek vektör makineleriyle sınıflandırma problemlerinin çözümü için çekirdek fonksiyonu seçimi. İibf Dergisi, 9(1), 175- 198.
Çimenli S. (2015). Churn analysis andpPrediction with decısion tree and artificial neural network, (Yüksek lisans tezi). Kadir Has Üniversitesi Fen Bilimleri Enstitüsü, İstanbul.
Deconinck, E., Hancock, T., Coomans, D., Massart, D.L. and Heyden, Y.V. (2005). Classica on of drugs in absorp on classes using the classi ca on and regression trees (CART) methodology. Journal of Pharmaceu cal and Biomedical Analysis, 39, 91–103.
Ercan P. (2015). Detection of churners in internet games using crm approach: a case study on pishti plus, (Yüksek lisans tezi). Orta Doğu Teknik Üniversitesi Fen Bilimleri Enstitüsü, Ankara.
Fisher, R. A. (1936). The use of multiple measurements in taxonomic problems. Annals of Eugenics, 7(2), 179-188.
Gujarati, D.N. (1999). Temel ekonometri, (Şenesen, Ü. ve Şenesen, G.G., Çev.), İstanbul: Literatür Yayıncılık (Orijinal çalışma basım tarihi 1978).
Hua, Y. and Yang, J. (2001). A direct LDA algorithm for high-dimensional data-with application to face recognition, Pattern Recognition.
Karagülle, F. (2008). Destek vektör makinelerin kullanarak yüz bulma. (Yüksek lisans tezi).
Kecman, V. (2001). Learning and Support Vector Machines Neural Networks And Fuzzy Logic Models. Kılınç, D., Borandağ, E., Yücelar, E., Tunalı, V., Şimşek, M. ve Özçiftçi, A. (2016). KNN algoritması ve R dili ile metin madenciliği kullanılarak bilimsel makale tasnifi. Marmara Fen Bilimleri Dergisi, (3), 89-94.
Kim, N., Jung, K. H., Kim, Y. S., and Lee, J. (2012). Uniformly subsampled ensemble (USE) for churn management: Theory and implementation. Expert Systems with Applications, 39(15), 11839–11845.
Koçtürk Y. (2010). Veri madenciliğinde bağlılık, (Yüksek lisans tezi). İstanbul Teknik Üniversitesi Fen Bilimleri Enstitüsü, İstanbul.
Kotler, P. (2003). Marketing Insights from A to Z. New Jersey.
M. Accardi-Petersen. (2011). Agile marketing. New York: Apress. Commercial data mining: processing, Analysis and Modeling for Predictive Analytics Projects.
Martinez, A. M. and Kak, A. C. (2001). PCA versus LDA(PDF). IEEE Transactions on Pattern Analysis and Machine Intelligence, 23(2), 228-233.
Perriere, G. and Thioulouse, J. (2003). Use of correspondence discriminant analysis to predict the subcellular location of bacterial proteins. Computer Methods and Programs in Biomedicine, 70, 99–105.
Sengur, A. (2019). Ulticlass least-squares support vector machines for analog modulation classification, expert systems with applications, 36(3), 6681-6685.
Sezer, O., Erçil, A. ve Keskinöz, M. (2005). Destek vektör makinesi kullanarak bağımsız bileşen tabanlı 3B nesne tanıma, Sabanci University Computer Vision and Pattern Analysis Laboratory.
Teng, J., Lin, K. and Ho, B. (2007). Applica on of classica on tree and logis c regression for the management and health interven on plans in a community-based study, Journal of Evalua on in Clinical Pracce, 13, 741-748.
Tosun T. (2006). Veri madenciliği teknikleriyle kredi kartlarında müşteri kaybetme analizi (Yüksek lisans tezi). İstanbul Teknik Üniversitesi Fen Bilimleri Enstitüsü, İstanbul.
Tsiptsis, K., and Chorianopoulos, A. (2009). Data mining tecniques in CRM: Inside Customer Segmentation. John Wiley & Sons, Ltd.