Early Prediction of Students' Grade Point Averages at Graduation: A Data Mining Approach

Problem Durumu: Son zamanlarda, eğitim kurumlarının veri tabanlarında depolanan veriler giderek artmakta ve bu verilere büyük bir ilgi bulunmaktadır. Eğitim kurumlarındaki öğrenciler, dersler, akademik ve idari personel, yönetim sistemleri vb. veriler stratejik verilerdir. Stratejik verilerin çözümlenerek anlamlı bilgilerin ortaya çıkarılması, eğitim kurumlarının birtakım tedbirler alarak, eğitimdeki kaliteyi artırmasını sağlayacaktır. Eğitim kurumları daha çok öğrenci ve mezunların yol haritalarını tahmin etmeye odaklanmalıdır. Eğitimsel veri madenciliği, eğitim alanında mevcut verileri incelemek ve ondan gizli bilgiyi ortaya çıkarmak için kullanılır. Veriyi çözümlemek veanlamlı bilgileri ortaya çıkarmada istatistiki yöntemler her zaman kullanışlı olmayabilmektedir. Bu durumlarda verileri işlemek ve çözümlemek için veri madenciliği yöntemleri kullanılmaktadır. Yapay Sinir Ağları, Destek Vektör Makineleri ve benzeri sınıflama ve regresyon yöntemleri, eğitim verilerinde tahmin amaçlı kullanılabilir. Bu tahmin, akademik başarısı zayıf öğrencilerin belirlemesinde ve onların başarılarının artırılmasında yardımcı olacaktır. Araştırmanın Amacı: Bu çalışmanın amacı zamanında mezun olamayacak veya düşük bir ortalama ile mezun olabilecek başarısız öğrencilerin önceden tespit edilerek, mezun olabilecek bir seviyeye getirmek veya daha yüksek bir ortalama ile mezun olmalarına yardımcı olabilmektir. Bu amaçla, veri madenciliğinde kullanılan bazı tahmin teknikleri, eğitim kurumlarına yardımcı olmak üzere, öğrencilerin mezuniyet notlarının tahmininde kullanılmıştır. Bu tahmin, bir öğrencinin düşük bir lisans ortalaması ile mezun olacağını bildirirse, o zaman öğrencinin başarısının artırılması için ekstra çaba gösterilecektir. Araştırmanın Yöntemi: Veri madenciliğinde kümeleme, birliktelik kuralları ve sınıflandırma yöntemleri ile veriler analiz edilmektedir. Literatürde en çok kullanılan sınıflandırma yöntemleri arasında Yapay Sinir Ağları(YSA), Destek Vektör Makineleri (DVM) ve Ekstrem Öğrenme Makinesi (EÖM) algoritmaları bulunmaktadır. Bu çalışmada Bilgisayar ve Öğretim Teknolojileri Eğitimi bölümü öğrencilerinin lisans mezuniyet notlarının tahmininde bu sınıflandırma yöntemlerikullanılmıştır. Öğrencilerin mezun olması için gerekli olan 49 adet mesleki ve kültürel ders, veri kümesinin özniteliklerini oluşturmaktadır. Veri kümesi oluşturulurken 127 öğrencinin ders notları göz önüne alınmıştır. Böylece 127x49'lik bir veri matrisi elde edilmiştir. Çalışmada iki farklı uygulama gerçekleştirilmiştir. Bunların ilkinde, öğrencilerin sadece ilk iki yılda aldıkları yılsonu notları göz önüne alınmıştır. Böylece toplam 24 adet dersin yılsonu notlarından, öğrencilerin mezuniyet notları YSA, DVM ve EÖM ile tahmin edilmiştir. İkinci uygulamada ise öğrencilerin ilk üç yılsonunda almış oldukları 38 adet dersin yılsonu notları kullanılarak, öğrencilerin mezuniyet notları YSA, DVM ve EÖM sınıflandırma yöntemleri ile tahmin edilmiştir. Gerçekleştirilen bilgisayar benzetimlerinde 5 katlı çapraz geçerlilik kullanılmıştır. Böylece, kullanılan sınıflandırma yöntemlerinde eğitim için yaklaşık 101 örnek ve test için de 26 örnek kullanılmıştır.Araştırmanın Bulguları: Her iki uygulama için de gerçekleştirilen karşılaştırmalı analizler DVM tekniğinin en iyi sonuçları ürettiğini göstermiştir. DVM tekniğinin başarımı birinci uygulama için %93.06 ve ikinci uygulama için ise % 97.98'dir. Diğer taraftan EÖM ikinci en iyi tahmin başarımını göstermiştir. Korelasyon katsayısı değerlendirme kriterine göre birinci uygulama için %92.41 ve ikinci uygulama için ise % 94.92'lik bir başarım kaydedilmiştir. En kötü tahmin performansı YSA tarafından elde edilmiştir. Buradaki başarım birinci uygulama için %84.94 ve ikinci uygulama için ise % 93.76'dır.Araştırmanın Sonuçları ve Önerileri: Günümüzde, veri madenciliği yöntemlerinin eğitim amaçlı kullanımı hızla artmaktadır. Öğrenci ihtiyaç değerlendirmesi, öğrencilerin okuldan ayrılma tahmini ve öğrencinin performans analizi, eğitim kurumları için önemli veri madenciliği uygulamalarından bazılarıdır. Eğitim kurumlarının çözülemeyecek gibi görülen bazı problemlerin analizinde ve çözümünde, veri madenciliği yetenekleri önemli rehberlik hizmeti verebilecektir. Gerçekleştirilmiş çalışmanın sonuçları incelendiğinde, kullanılan veri madenciliği yöntemlerinden elde edilen başarımlara göre, ikinci sınıf sonunda öğrencilerin mezuniyet notları en düşük %84.94 doğruluk ile tahmin edilmektedir. Böylece ikinci sınıfın sonundan itibaren, öğrencilere verilecek rehberlik hizmetleri ile öğrenci başarıları artırılabilecektir. Şöyle ki; öğrencilere etkili çalışma becerileri öğretilecek, derslerin teorik yapısı yanında uygulamalar yapmaya teşvik edilecek ve ders/ödev/projelerinin mutlaka zamanında yapılarak teslim edilmesi konusunda uyarılabilecektir. Bu ve benzeri yönlendirmeler ile öğrencinin lisans mezuniyet notunun yükseltilmesi sağlanabilecektir. Son zamanlarda, veri madenciliği yöntemlerini kullanan tahmin uygulamalarında, tek bir tahmin yöntemi kullanmak yerine, daha iyi bir başarım için topluluk modelleri (ensemble model) veya birkaç farklı sınıflandırıcının kombinasyonu şeklindeki yapılar bir hayli dikkat çekmektedir. Diğer bir ifade ile çok sayıda sınıflandırma sonuçlarının çoğunluk oylaması (majority voting) ve ortalama gibi yöntemler ile birleştirilmesi dayanıklı tahmin yapıları oluşturabilmektedir. Bu gibi yapılar, ileriki çalışmalar da kullanılabilir. Diğer taraftan veri boyutlarının yüksek olması nedeniyle ortaya çıkan hesaplama yükü ağırlığı önemli bir problem olarak ortaya çıkmaktadır. Bu problemin çözümü için de özellik seçimi (feature selection) algoritmaları, yine ileriki çalışmalarda kullanılabilir.

Öğrencinin Mezuniyet Notunun Erken Tahmini: Bir Veri Madenciliği Yaklaşımı

Problem Statement: There has recently been interest in educational databases containing a variety of valuable but sometimes hidden data that can be used to help less successful students to improve their academic performance. The extraction of hidden information from these databases often implements aspects of the educational data mining (EDM) theory, which aims to study available data in order to shed light on more valuable, hidden information. Data clustering, classification, and regression methods such as K-means clustering, neural networks (NN), extreme learning machine (ELM), and support vector machines (SVM) can be used for to predict aspects of the educational data. EDM outputs can ultimately identify which students will need additional help to improve their grade point averages (GPAs) at graduation. Purpose of Study: This study aims to implement several prediction techniques in data mining to assist educational institutions with predicting their students' GPAs at graduation. If students are predicted to have low GPAs at graduation, then extra efforts can be made to improve their academic performance and, in turn, GPAs. Methods: NN, SVM, and ELM algorithms are applied to data of computer education and instructional technology students to predict their GPAs at graduation.Findings and Results: A comparative analysis of the results indicates that the SVM technique yielded more accurate predictions at a rate of 97.98%. By contrast, the ELM method yielded the second most accurate prediction rate (94.92%) evaluated based on the criterion of correlation coefficient. NN reported the least accurate prediction rate (93.76%).Conclusions and Recommendations: The use of data mining methodologies has recently expanded for a variety of educational purposes. The assessment of students' needs, dropout liability, performance, and placement test improvement are some important emerging data mining applications in education. Since educational institutions have several seemingly unsolvable domain-related problems, this study's results reveal that EDM can assist with how educational institutions analyze and solve these problems. Furthermore, ensemble models can be used to obtain improved results, while feature selection algorithms can beused to reduce the computational complexity of the prediction methods.

___

  • AI-Radaideh, Q. A., AI-Shawakfa, E. W., and AI-Najjar, M. I. (2006).Mining student data using decision trees. International Arab Conference on Information Technology (ACIT'2006), Yarmouk University, Jordan.
  • Ben-Zadok G., Hershkovitz, A., Mintz, R. andNachmias, R.(2009). Examining online learning processes based on log files analysis: a case study. Research, Reflection and Innovations in Integrating ICT in Education.
  • Bharadwaj, B.K. and Pal, S. (2011a). Data Mining: A prediction for performance improvement using classification. International Journal of Computer Science and Information Security (IJCSIS), 9(4), 136-140.
  • Bharadwaj, B.K. and Pal, S. (2011b). Mining Educational Data to Analyze Students' Performance. International Journal of Advance Computer Science and Applications (IJACSA), 2(6), 63-69.
  • Bulut, O.,& Kan, A. (2012). Application of computerized adaptive testing to entrance examination for graduate studies in Turkey. Egitim Arastirmalari- Eurasian Journal of Educational Research, 49, 61-80.
  • Erdoğan, Ş., Timor, M. (2005). A Data Mining Application in a Student Database. Havacılık ve Uzay Dergisi. 2(2), 57-64.
  • Esen, H., Inalli, M., Sengur, A., Esen, M.(2008a). Forecasting of a ground-coupled heat pump performance using neural networks with statistical data weighting pre-processing. Int. J. Thermal Sciences, 47(4), 431-41.
  • Esen, H., Inalli, M., Sengur, A., Esen, M. (2008b). Modelling a ground-coupled heat pump system by a support vector machines. Renewable Energy, 33(8), 1814- 1823.
  • Esen, H., Ozgen, F., Esen, M. andSengur, A. (2009). Modelling of a new solar air heater through least-squares support vector machines. Expert Systems with Applications, 36(7), 10673-10682.
  • Feng, M., Beck, J., Heffernan, N., &Koedinger, K. (2008). Can an intelligent tutoring system predict math proficiency as well as a standardized test? In Baker & Beck (Eds.), Proceedings of the 1st international conference on education data mining, 107-116, Montreal, CA.
  • Guldemir, H, Şengür, A. (2007). Online Modulation Recognition of Analog Communication Signals using Neural Network. Expert Systems with Applications, 33 (1).
  • Han, J. Kamber, M. (2008). Data Mining: concepts and techniques. 2nd Edition, Morgan Kaufmann publishers.
  • Haykin, S. (2008). Neural networks and learning machines (3rd ed.)., New Jersey: Prentice Hall.
  • http://en.wikipedia.org/wiki/Support_vector_machine
  • Huang, G.-B., Zhu, Q.-Y. and Siew, C.-K. (2006). Extreme Learning Machine: Theory and Applications, Neurocomputing, vol. 70, 489-501.
  • Kotsiantis, S. B., Patriarcheas, K., Xenos, M. N. (2010). A combinational incremental ensemble of classifiers as a technique for predicting students' performance in distance education. Knowl.-Based Syst. 23(6), 529-535.
  • Kovacic, Z. J. (2010). Early prediction of student success: Mining student enrollment data. Proceedings of Informing Science & IT Education Conference.
  • Luan, J. (2002). Data Mining, Knowledge Management in Higher Education, Potential Applications. 42nd Associate of Institutional Research International Conference (Toronto,Canada: 2002), 1.
  • Milewski, G. B., Camara, W. J., &Kobrin, J. L. (2002). Students with discrepant high school GPA and SAT scores. College Board Research.
  • Minaei-Bidgoli, B., Kashy, D. A., Kortmeyer, G., & Punch, W. F. (2003). Predicting student performance: An application of data mining methods with an educational web-based system. In The proceedings of the 33rd ASEE/IEEE frontiers in education conference, Boulder, CO.
  • Ramaswami, M., & Bhaskaran, R. (2009). A study on feature selection techniques in educational data mining. Journal of Computing, 1(1), 7-11.
  • Sen, B.,Ucar, E. and Delen, D. (2012). Predicting and analyzing secondary education placement-test scores: A data mining approach. Expert Systems with Applications, 39, 9468-9476.
  • Shaeela A., Tasleem M., Ahsan Raza S., Khan. M. I. (2010). Data mining model for higher education system. Europen Journal of Scientific Research, 43(1), 24-29.
  • Suykens, Johan A. K., Vandewalle, Joos P. L. (1999). Least squares support vector machine classifiers, Neural Processing Letters, 9(3), 293-300.
  • Vranic, M., Pintar, D., Skocır, Z. (2007). The Use of Data Mining in Education Environment, ConTEL 2007 (Zagrep 13-15 June 2007), 243.
  • Yukselturk, E., Ozekes, S., Turel, Y. K. (2014). Predicting Dropout Student: An Application of Data Mining Methods in an Online Education Program, European Journal of Open, Distance and e-Learning, 17(1), 118-133.