Gokhan AKSU, Cigdem Reyhanlioglu KECEOGLU

Yordayıcı Değişkenlerin Belirlenmesinde Kullanılan Yöntemler: Lojistik Regresyon, Veri Madenciliği Yöntemleri ve CHAID Analizi

Problem Durumu: Ülkelerin eğitim politikalarına yön vermek amacıyla göz önünde bulundurulan birçok durum vardır. Dünya genelinde politika belirleyicileri, kendi ülkelerindeki öğrencilerin bilgi ve beceri düzeylerini araştırmaya katılan diğer ülkelerdeki öğrencilerin bilgi ve beceri düzeyleriyle karşılaştırmak, eğitim düzeyinin yükseltilmesi amacıyla standartlar oluşturmak ve eğitim sistemlerinin güçlü ve zayıf yönlerini belirlemek amacıyla uygulanan uluslararası uygulamaların sonuçlarından yararlanılmaktadır. Ülkeler bu bilgiler sayesinde eğitim süreçlerini uluslararası bir perspektife göre değerlendirebilmektedir. Ülkelerin eğitim politikalarının şekillendirilmesinde önemli rol oynayan uluslararası sınavlardan elde edilen bulgular, farklı alanlarda değişkenlerin ölçüldüğü büyük ölçekli bir veri tabanından elde edilmektedir. Çok büyük ölçekli veriler, farklı alanlardaki büyük ölçekli veri tabanları içinde değerli verileri bulunduran bir veri madeni gibi düşünülebilir. Veri madenciliği yöntemleri sayesinde ülkelerin eğitim politikalarına yön veren uygulamalardan elde edilen karmaşık veriler üzerinden bağımlı değişkeni yordayan bağımsız değişkenlere dair maksimum bilgi elde edilebilir. Bağımlı (yordanan) değişkenin üzerinde etkili olan bağımsız (yordayıcı) değişkenlerin belirlenmesi bilimsel araştırmaların temel odağında yer alan konulardan bir tanesidir. Bu amaçla gerçekleştirilmiş çalışmalarda yordayıcı değişkenlerin belirlenmesinde çeşitli yöntemlerden yararlanılır. Bu yöntemlerin ortak özelliği bağımsız değişkenlerin bağımlı değişkenler üzerindeki etkilerinin anlamlılığını test etmesidir. Kullanılan yöntemlerin ortak özellikleri kadar birbirinden farklılaşan özellikleri de bulunmaktadır. Kullanılan yöntemleri birbirinden ayıran temel özelliklerden biri uygulanabildiği veri türüdür. İstatistiksel yöntemlerin bazıları sadece sürekli verilere uygulanabilirken, bazıları kategorik verilere de uygulanabilmektedir. Kategorik veri analizi eğitim uygulamalarında sıklıkla kullanılan bir yöntemdir. Her ne kadar öğrencilerin akademik başarılarını belirlemek için kullanılan ölçme araçları eşit aralık ölçek düzeyinde kabul edilerek, ölçme sonuçları sürekli puanlar olarak elde edilse de, öğrenciler hakkında karar verme sürecinde başarı puanları belli bir ölçüt puana göre başarılı/başarısız şeklinde kategorik verilere dönüştürülmektedir. Sonuç olarak bir bağımlı değişken olarak öğrenci başarıları üzerinde anlamlı etkiye sahip olan faktörlerin belirlenmesi için veri madenciliği ile parametrik olmayan iki yöntem olan Lojistik Regresyon analizi ve CHAID analizi yöntemlerinin sonuçlarından yararlanılabilir. Her üç yöntemin de ortak özelliği bağımlı değişken üzerinde anlamlı etkiye sahip olan bağımsız değişkenleri belirlemeyi hedeflemesidir. Bununla birlikte üç yöntemi birbirinden ayıran en temel özellik arka planda çalıştırdığı öğrenme algoritmasıdır. Tüm bunlara bağlı olarak başarı üzerinde anlamlı bir etkiye sahip olduğu düşünülen bağımsız değişkenlerin belirlenmesi ve bu değişkenlerin önem sırasının ortaya konulması birçok bilimsel çalışmanın ortak amaçlarından biridir. Ayrıca değişkenlerin önem sırasının kullanılan yöntemlere göre değişmesi çalışmalarda hangi yöntemin kullanılması gerektiği konusunda karışıklık yaratacaktır. Araştırmanın Amacı: Çalışma kapsamında ele alınan üç farklı yönteme göre bağımsız değişken olarak kabul edilen matematik dersine ilişkin ilgi, tutum, motivasyon, algı, öz yeterlik, kaygı ve çalışma disiplini değişkenlerine göre öğrencilerin başarı durumları bakımından nasıl sınıflandıkları araştırılmıştır. Bu çalışmada öğrencilerin matematik başarısını yordayan değişkenlerin belirlenmesi amacıyla Lojistik Regresyon (LR) ve CHAID analizi ile veri madenciliği yöntemlerinden yararlanılmaktadır. Mevcut bir durumun sonuçlarının belirlenmesi sebebiyle çalışma ilişskisel (korelasyonel) bir araştırma niteliğindedir. Çalışmada kullanılan veriler PISA 2012 öğrenci anketinde yer alan ve uygulamaya katılan öğrencilerin ilgi, tutum, özyeterlik, algı, motivasyon, kaygı ve çalışma disiplini alt ölçeklerine verdikleri yanıtlar yardımıyla elde edilmiştir. Çalışmanın evreni PISA 2012 öğrenci anketine katılan ve tabakalı seçkisiz örnekleme yöntemiyle belirlenen 4818 öğrenciden oluşmaktadır. Ancak analizler sistematik örnekleme yöntemi ile seçilmiş 1000 öğrenci üzerinden gerçekleştirilmiştir. Verilerin analizi LR ve CHAID analizi ile veri madenciliği yöntemlerinden REPTree algoritmasına göre gerçekleştirilmiştir. Böylece her üç yönteme göre öğrencilerin matematik başarısı üzerinde anlamlı etkisi olan bağımsız değişkenler belirlenmiştir. LR, CHAID analizi ve REPTree algoritması yöntemlerinin karşılaştırılması öğrencilerin başarı durumuna göre anlamlı etkisi olan değişkenlerin ve her bir yönteme ilişkin öğrencilerin matematik başarılarına göre doğru sınıflandırma oranlarının belirlenmesi ile gerçekleştirilmiştir. Araştırmanın Bulguları: Elde edilen sonuçlara göre her bir yönteme ilişkin öğrencilerin matematik başarısı üzerinde anlamlı etkisi olan değişkenler birbirinden farklı çıkmıştır. Bunun yanı sıra her ne kadar farklı yöntemlere göre bağımlı değişken üzerinde anlamlı etkiye sahip olan bağımsız değişkenler farklı olsa da, değişkenlerin önem sırasının kullanılan yönteme göre değişmediği belirlenmiştir. Çalışmada ayrıca farklı yöntemler tarafından öğrencileri PISA matematik okuryazarlığı bakımından sınıflamada elde edilen doğru sınıflama oranlarının farklılık gösterdiği belirlenmiştir. Araştırmanın Sonuçları ve Öneriler: LR analizine göre bağımlı değişken üzerinde anlamlı etkiye sahip olan bağımsız değişkenler özyeterlik, tutum, kaygı ve çalışma disiplini şeklinde sıralanırken, CHAID analizine göre bağımlı değişken üzerinde anlamlı etkisi olan yordayıcı değişkenler ve bu değişkenlerin önem sırası özyeterlik, tutum ve çalışma disiplini şeklindedir. Veri madenciliğinde kullanılan REPTree algortimasına göre belirlenen yordayıcı değişkenler ve bu değişkenlerin önem sırası ise özyeterlik, tutum ve kaygı şeklinde belirlenmiştir. En büyük sınıflandırma oranı LR analizi, ikinci olarak CHAID analizi ve en küçük sınıflandırma sonucu ise REPTree algoritmasına aittir. REPTree algoritması ile elde edilen sınıflama oranının düşük çıkma sebeplerinden bir tanesi karar ağacının SPSS programında gerçekleşen CHAID analizinde olduğu gibi 3 düzeyle sınırlandırmayarak ağaç için elde edilecek düzey sayısının serbest bırakılmasından kaynaklanabileceği düşünülmektedir. Çalışmada matematik başarısı bakımından öğrencileri sınıflandırmada bağımsız değişkenlerin önem sırası kullanılan yönteme göre benzerlik göstermiştir. Bağımlı değişken üzerinde anlamlı etkiye sahip olan bağımsız değişkenlerin önem sırasının ortaya konmasının amaçlandığı çalışmalarda LR ve CHAID analizi ile REPTree algoritmasından herhangi biri tercih edilebilir. Bireylerin başarı durumları açısından sınıflandırılmasının amaçlandığı çalışmalarda CHAID analizi ile REPTree algoritması birbirinin alternatifi olabilir. Ancak LR analizi diğer iki yönteme göre anlamlı derecede farklı sonuçlar vereceği için alternatif bir yöntem olarak düşünülmemelidir.

Anahtar Kelimeler:

CHAID Analizi, Lojistik Regresyon Analizi, Veri Madenciliği, PISA

Comparison of Results Obtained from Logistic Regression, CHAID Analysis and Decision Tree Methods

Purpose: In this study, Logistic Regression (LR), CHAID (Chi-squared Automatic Interaction Detection) analysis and data mining methods are used to investigate the variables that predict the mathematics success of the students. Research Methods: In this study, a quantitative research design was employed during the data collection and the analysis phases. Findings: The findings obtained in this study showed that the variables, which had significant effects on the mathematical success of the students in each method, differ from each other. Although the independent variables with a significant effect on the dependent variable were different according to different methods, the findings indicated that the importance order of the variables did not change according to the method used. In this study, the correct classification ratios obtained by the class concerning PISA mathematics literacy differed by different methods. Implications for Research and Practice: CHAID analysis and REPTree algorithm may be an alternative for one another in the studies that aimed to classify individuals concerning their success. However, LR analysis should not be considered as an alternative method since it will provide significantly different results compared to the other two methods.

Keywords:

CHAID Analysis, Logistic Regression Analysis, Data Mining, PISA,

PDF

___

Abessi, M., & Yazdi, E. H. (2015). Marketing data mining classifiers: Criteria selection issues in customer segmentation. International Journal of Computer Applications, 106(10), 5-10.
Almuniri, I., & Said, A. M. (2017). School's performance evaluation based on data mining. International Journal of Engineering and Information Systems, 1(9), 56-62.
Albayrak, A.S., & Koltan-Yılmaz, Ş. (2009). Veri madenciliği: Karar ağacı algoritmaları ve imkb verileri üzerine bir uygulama. Süleyman Demirel Üniversitesi İktisadi ve İdari Bilimler Fakültesi Dergisi, 14(1), 31-52.
Antipov, E., & Pokryshevskaya, E. (2010). Applying CHAID for logistic regression diagnostics and classification accuracy improvement, Journal of Targeting, Measurement and Analysis for Marketing, 18(2), 109 – 117. doi: 10.1057/jt.2010.3 New York: Routledge.
Baran-Kılıçalan, M. (2018). Hanehalkı işgücü araştirma verileri ile veri madenciliği yöntemlerinin uygulanmasi ve modellerin karşilaştirilmasi. Yayımlanmamış Yüksek Lisans Tezi. Hacettepe Üniversitesi İstatistik Ana bilim Dalı, Ankara.
Baştürk, R. (2016). Bütün yönleriyle SPSS örnekli nonparametrik yöntemler (3. Baskı). Ankara: Anı Yayıncılık.
Bush S. (2015). Sample size determination for logistic regression: A simulation study. Communications in Statistics - Simulation and Computation, 44, 360–373.
Büyüköztürk, Ş., Kılıç Çakmak, E., Akgün, Ö.E., Karadeniz, Ş., & Demirel, F. (2016). Bilimsel araştırma yöntemleri (20. Baskı). Ankara: Pegem Akademi.
Can, Ş., Özdil, T., & Yılmaz, C. (2018). Üniversite öğrencilerinin ders başarısını etkileyen faktörlerin lojistik regresyon analizi ile tahminlenmesi. International Review of Economics and Menagement, 6(1), 28-49.
Cohen, L., Manion, L., & Morrison, K. (2007). Research methods in education (6. Baskı). London: Routledge.
Çokluk Ö., Şekercioğlu G., & Büyüköztürk Ş. (2012). Sosyal bilimler için çok değişkenli istatistik SPSS ve LISREL uygulamaları. Pegem yayınları, Ankara.
Díaz-Pérez, F. M., & Bethencourt-Cejas, M. (2016). CHAID algorithm as an appropriate analytical method for tourism market segmentation. Journal of Destination Marketing & Management, 5, 275-282. Doi: http://dx.doi.org/10.1016/j.jdmm.2016.01.006
Duran, A. E., Pamukçu, A., & Bozkurt, H. (2014). Comparison og data mining techniques for direct marketing campaings. Sigma, 32, 142-152.
Garson, D. (2015). Missing values analysis and imputation methods. USA: Statistical Publishing Associates.
Guldal, H., & Çakıcı, Y. (2017) Ders yönetim sistemi yazılımı kullanıcı etkileşimlerinin sınıflandırma algoritmaları ile analizi. Atatürk Üniversitesi Sosyal Bilimler Enstitüsü Dergisi, 21(4),1355-1367.
Groves, R. M. (2006). Nonresponse rates and nonresponse bias in house hold surveys. Public Opinion Quartely, 7(5), 646-675
Heckert, A., & Gondolf, E. (2004). Battered women's perceptions of risk versus risk factors and instruments in predicting repeat reassault. Journal of Interpersonal Violence, 19, 778−800.
Kilic, S. (2000). Lojistik regresyon analizi ve pazarlama araştırmalarında bir uygulama. Yayınlanmamış Yüksek Lisans Tezi. İstanbul Teknik Üniversitesi, Fen Bilimleri Enstitüsü, İstanbul.
Koc Basaran Y. (2017) Sosyal bilimlerde Örnekleme Kuramı, Akademik Sosyal Araştırmalar Dergisi, 5(47), 480-495.
Kurt, I., Ture, M., & Kurum, A. T. (2008). Comparing performances of logistic regression, classification and regression tree, and neural networks for predicting coronary artery disease. Expert Systems xith Applications, 34, 366-374.
Lehmann, E. L. (2006). On likelihood ratio tests, In IMS Lecture Notes- 2nd Lehmann Symposium, 49, 1–8.
Larose, D. T., & Larose, C. D. (2014). Discovering Knowledge in Data: An Introduction to Data Mining. 2nd Edition. NewJersey, USA: John and Wiley Sons Incorporated,.
Massey, A., & Miller, S. J. (2006). Tests of hypotheses using statistics. Mathematics Department, Brown University, Providence, RI, 2912.
McCarty, J. A., & Hastak, M. (2007). Segmentation approaches in data-mining: A comparison of RFM, CHAID, and logistic Regression. Journal of Business Research, 60, 656–662.
Mertler, C.A., & Vannatta, R. A. (2005). Advanced and multivariate statistical methods: Practical application and interpretation (3rd Edition). Glendale, CA: Pyrczak Publishing.
Nisbet, R., Miner, G., & Yale, K. (2017). Handbook of statistical analysis and data mining applications (2nd Edition). Elsevier Science Inc., ISBN: 0124166326,9780124166325
Ozekes, S. (2003). Veri madenciliği modelleri ve uygulama alanları. İstanbul Ticaret Üniversitesi Fen Bilimleri Dergisi, 2(3), 65-82.
Park, H. (2013). An introduction to logistic regression: From basic concepts to interpretation with particular attention to nursing domain. Journal of Korean Academy of Nursing, 43(2), 154–164.
Peng, C.Y.J., Lee, K.L., & Ingersoll, G.M. (2002). An introduction to logistic regression analysis. The Journal of Educational Research, 96 (1), 3-14.
Rudd, J. M., & Priestley, J. L. (2017). A Comparison of Decision Tree with Logistic Regression Model for Prediction of Worst Nonfinancial Payment Status in Commercial Credit, Grey Literature from PhD Candidates. 5. http://digitalcommons.kennesaw.edu/dataphdgreylit/5
Sokolova, M., & Lapalme, G. (2009). A systematic analysis of performance measures for classification tasks, Information Processing and Management, 45, 427-437.
SPSS White Paper Inc. (1999). Answer tree algorithm summary. ATALGWP-0599, USA.
Sata, M., & Cakan, M. (2018). Comparison of results of CHAID analysis and logistic regression analysis. Dicle University Journal of Ziya Gökalp Faculty of Education, 33, 48-56.
Tabachnick, B. G., & Fidell, L. S. (2001). Using multivariate statistics (4th ed.). Needham Heights, MA: Allyn& Bacon.
Tabachnick, B. G., & Fidell, L. S. (2014). Using multivariate statistics. USA: Pearson Education Limited.
Tutek, H., & Gumusoglu, Ş. (2008). İşletme istatistiği, İstanbul: Beta Basım Yayım Dağıtım A.Ş.
Mehdiyev, N., Enke, D., Fettke, P., & Loos, P. (2016). Evaluating forecasting methods by considering different accuracy measures. Procedia Computer Science, 95, 264 – 271.
Milli Eğitim Bakanlığı-Ölçme, Değerlendirme ve Sınav Hizmetleri Genel Müdürlüğü, (2015). Uluslararası Öğrenci Değerlendirme Programı PISA 2015 Ulusal Raporu, Ankara.
Milli Eğitim Bakanlığı-Ölçme, Değerlendirme ve Sınav Hizmetleri Genel Müdürlüğü, (2016). Uluslararası Matematik ve Fen Eğilimleri Araştırması (TIMSS) 2015 Ulusal Matematik Ve Fen Ön Raporu. Ankara.
Vale, J. B. (2012). Using Data mining to predict automobile insurance fraud. Dissertation of the degree of MSc in Business Administration. Universidade Católica Portuguesa.
Zuckerman, I., & Albrecht, D.W. (2001). Predictive statistical models for user modeling. User Modeling and User Adapted Interaction, 11(1-2), 5-18.