Lojistik Regresyon ve CART Yöntemlerinin Tahmin Edici Performanslarının Yaşam Memnuniyeti Verileri için Karşılaştırılması

Makine öğrenimi içinde yer alan sınıflandırma ve regresyon, veri sınıflarını ortaya koyan ve değişkenler arasındaki ilişkileri modelleyenyöntemlerdir. Sınıflama ve regresyon yöntemlerinden karar ağaçları, eğitim verisini kullanarak sınıflandırma kurallarını oluşturup testverisinde bu kuralları dener ve algoritma başarısını belirler. Lojistik regresyonda kurulan model ile sınıflandırma yapılıp performanslarbulunur. Bu yöntemler, yorumunun kolay olması, büyük veri setlerine uygulabilirliği ve varsayım gerektirmemesi sebebi ile sonzamanlarda birçok farklı disiplinlerde kullanılmaktadır. Yaşam memnuniyeti kavramı, günümüzde birçok farklı disiplinlerin ilgi alanınagiren bir konudur. Yaşam memnuniyeti, bireyin sürdürmekte olduğu yaşamdan ne kadar zevk aldığının bir bütün olarak ele alınmasıdır.Bu çalışmanın amacı, karar ağacı yöntemlerinden olan CART ve lojistik regresyon çözümlemelerinin performanslarının Türkiyeİstatistik Kurumuna ait (TÜİK) 2017 dönemini kapsayan yaşam memnuniyeti verilerini (n=8430) kullanarak yapılmasıdır. Bu amaçlayapılan çalışmada, yaşam memnuniyetini açıklayan en iyi modelin performans kriterlerine (doğruluk, duyarlılık, seçicilik, kesinlik, Fskor, ROC eğrisi $R^2$) bağlı olarak lojistik regresyon modeli olduğuna karar verilmiştir. Bu modelde yaşam memnuniyeti; cinsiyet,medeni durum, okul durumu, gelir, sosyal hayat, sağlık ve ulaşım değişkenleri ile açıklanmıştır.

Comparison of Predictive Performance of Logistic Regression and CART Methods for Life Satisfaction Data

Classification and regression in machine learning are methods that reveal data classes and model the relationships between variables. Decision trees, one of the classification and regression methods, create the classification rules by using the training data, test these rules in the test data and determine the algorithm success. Classification is made with the model established in logistic regression and performances are found. These methods have been used in many different disciplines recently due to their easy interpretation, application to large data sets and no assumptions. The concept of life satisfaction is an issue of many different disciplines today. Life satisfaction is a consideration of how much the individual enjoys the life the individual lives. The purpose of this study, the performance of the CART and logistic regression analysis of the decision tree method of Turkey Statistical Institute (TSI), covering the period 2017 to life satisfaction data (n = 8430) is made using. In this study, it was decided that the best model that explains life satisfaction is the logistic regression model based on performance criteria (accuracy, sensitivity, selectivity, precision, F-score, ROC curve $R^2$). In this model, life satisfaction; It is explained by variables of gender, marital status, school status, income, social life, health and transportation.

___