ÖĞRENCİLERİN STEM KARİYER TERCİHLERİNİN VERİ MADENCİLİĞİ YAKLAŞIMI İLE TAHMİN EDİLMESİ

Bu çalışmada ortaokul öğrencilerinin, ASSISTments isimli zeki öğretim sistemindeki etkileşim verileri kullanılarak, eğitim ve mesleki kariyerlerine STEM ile ilgili bir alanda devam edip etmeyeceklerini tahmin edecek bir model oluşturulması amaçlanmıştır. Analizler 2017 yılında aynı amaçla düzenlenen ASSISTments Veri Madenciliği Yarışması’nda (ASSISTments Data Mining Competition 2017) katılımcılara sunulan veri seti ile gerçekleştirilmiştir. Veri seti, 2004-2007 yılları arasında sistemi kullanan 1709 öğrenciye ilişkin yaklaşık 1 milyon satırlık tıklama verisini içermektedir. Veriler, öğrencileri tanımlayan bilgiler silinerek katılımcılara sunulmuştur. Veri setinde 514 öğrencinin STEM kariyerine devam edip etmedikleri bilgisini içeren bir eğitim veri seti yer almaktadır. Tahmin modeli oluşturmak amacıyla Random Forest (RF), kNN, SVM (Support Vector Machine) ve GMB (Generalized Regression Models Boosted) algoritmaları kullanılmıştır. Veri setinde STEM tercih eden ve etmeyen öğrenciler arasında dengesiz dağılım bulunmaktadır. Bu nedenle farklı veri dengeleme yöntemlerinin modellerin tahmin performansına etkisi de test edilmiştir. Sonuçların değerlendirilmesi için 10-katlı çapraz geçerlilik yöntemi kullanılmıştır. Yapılan analizler sonucunda en iyi sınıflama performansına SVM algoritması ile yukarı örnekleme yönteminin birlikte kullanıldığı durumda ulaşılmıştır. Bu durumda oluşturulan tahmin modeli, STEM kariyeri tercih eden öğrencilerin %66’sını doğru olarak tahmin etmiştir. Aynı zamanda öğrencilerin STEM kariyer tercihlerini belirlemede önemli olan değişkenler de analiz edilmiştir.

PREDICTING STUDENTS’ STEM CAREER INTERESTS BY USING DATA MINING APPROACH

In this study, it is aimed at creating a model that will predict whether secondary school students will continue their education and professional careers in an area related to STEM or not. Interaction dataset made available to the participants in ASSISTments Data Mining Competition 2017 is analyzed. This anonymized dataset consists of approximately 1 million click-stream records collected from 1709 students who used the intelligent tutoring system between 2004-2007. The dataset also contained a training dataset that includes information about whether 514 students in the dataset continued their STEM careers or not. For prediction, the performance of the Random Forest (RF), kNN, SVM (Support Vector Machine) and GMB (Generalized Regression Models Boosted) algorithms are compared. There was a class imbalance problem in training dataset, therefore, we compared various data balancing algorithms’ effect on the prediction algorithms. A 10-fold cross-validation was used to evaluate the performance of prediction models. As a result, the best performance was obtained when SVM algorithm and oversampling method were used together. In this case, the prediction model predicted over the students who prefer STEM careers with an accuracy of 66%. Features that are important while predicting STEM career preferences of students were also analyzed.

___

  • Baker, R. S. J. d. (2007). Modeling and understanding students' off-task behavior in intelligent tutoring systems. Paper presented at the Proceedings of the SIGCHI Conference on Human Factors in Computing Systems, San Jose, California, USA.
  • Chawla, N. V. (2005). Data Mining for Imbalanced Datasets: An Overview. In O. Maimon & L. Rokach (Eds.), Data Mining and Knowledge Discovery Handbook (pp. 853-867). Boston, MA: Springer US.
  • Desmarais, M. C., & Baker, R. S. (2012). A review of recent advances in learner and skill modeling in intelligent learning environments. User Modeling and User-Adapted Interaction, 22(1-2), 9-38. doi: 10.1007/s11257-011-9106-8
  • Feng, M., Heffernan, N., & Koedinger, K. (2009). Addressing the assessment challenge with an online system that tutors as it assesses. User Modeling and User-Adapted Interaction, 19(3), 243-266. doi: 10.1007/s11257-009-9063-7
  • Heffernan, N. T., & Heffernan, C. L. (2014). The ASSISTments Ecosystem: Building a Platform that Brings Scientists and Teachers Together for Minimally Invasive Research on Human Learning and Teaching. International Journal of Artificial Intelligence in Education, 24(4), 470-497. doi: 10.1007/s40593-014-0024-x
  • Koedinger, K., Baker, R., Cunningham, K., Skogsholm, A., Leber, B., & Stamper, J. (2010). A data repository for the EDM community: The PSLC DataShop. Handbook of educational data mining, 43. doi: citeulike-article-id:13242329
  • Kowarik, A., & Templ, M. (2016). Imputation with the R Package VIM. 2016, 74(7), 16. doi: 10.18637/jss.v074.i07
  • Kuhn, M. (2008). Building Predictive Models in R Using the caret Package. 2008, 28(5), 26. doi: 10.18637/jss.v028.i05
  • Olmo, J. L., Romero, C., Gibaja, E., & Ventura, S. (2015). Improving Meta-learning for Algorithm Selection by Using Multi-label Classification: A Case of Study with Educational Data Sets. International Journal of Computational Intelligence Systems, 8(6), 1144-1164. doi: 10.1080/18756891.2015.1113748
  • Pardos, Z. A., Baker, R. S. J. D., San Pedro, M., Gowda, S. M., & Gowda, S. M. (2014). Affective States and State Tests: Investigating How Affect and Engagement during the School Year Predict End-of-Year Learning Outcomes. 2014, 1(1), 22. doi: 10.18608/jla.2014.11.6
  • Pedro, M. O., Baker, R., Bowers, A., & Heffernan, N. (2013). Predicting college enrollment from student interaction with an intelligent tutoring system in middle school. Paper presented at the Educational Data Mining 2013.
  • Pedro, M. O., Ocumpaugh, J., Baker, R., & Heffernan, N. (2014). Predicting STEM and non-STEM college major enrollment from middle school interaction with mathematics educational software. Paper presented at the Educational Data Mining 2014.
  • Peña-Ayala, A. (2014). Educational data mining: A survey and a data mining -based analysis of recent works. Expert Systems with Applications, 41(4, Part 1), 1432-1462. doi: doi.org/10.1016/j.eswa.2013.08.042
  • R Core Team. (2017). R: A language and environment for statistical computing: R Foundation for Statistical Computing. Retrieved from https://www.R-project.org/
  • Refaeilzadeh, P., Tang, L., & Liu, H. (2016). Cross-Validation. In L. Liu & M. T. Özsu (Eds.), Encyclopedia of Database Systems (pp. 1-7). New York, NY: Springer New York.
  • San Pedro, M. O. C. Z., Baker, R. S. J. d., & Rodrigo, M. M. T. (2011). Detecting Carelessness through Contextual Estimation of Slip Probabilities among Students Using an Intelligent Tutor for Mathematics, Berlin, Heidelberg.
  • San Pedro, M. O. Z., Baker, R. S. J. d., Gowda, S. M., & Heffernan, N. T. (2013). Towards an Understanding of Affect and Knowledge from Student Interaction with an Intelligent Tutoring System. In H. C. Lane, K. Yacef, J. Mostow & P. Pavlik (Eds.), Artificial Intelligence in Education: 16th International Conference, AIED 2013, Memphis, TN, USA, July 9-13, 2013. Proceedings (pp. 41-50). Berlin, Heidelberg: Springer Berlin Heidelberg.
  • Stamper, J., Koedinger, K., Baker, R. S. J. d., Skogsholm, A., Leber, B., Rankin, J., & Demi, S. (2010). PSLC DataShop: A Data Analysis Service for the Learning Science Community, Berlin, Heidelberg.
  • Yu, H.-F., Lo, H.-Y., Hsieh, H.-P., Lou, J.-K., McKenzie, T. G., Chou, J.-W., . . . Lin, C.-J. (2010). Feature Engineering and Classifier Ensemble for KDD Cup 2010.
Eğitim Teknolojisi Kuram ve Uygulama-Cover
  • ISSN: 2147-1908
  • Yayın Aralığı: Yılda 2 Sayı
  • Başlangıç: 2011
  • Yayıncı: Tolga Güyer
Sayıdaki Diğer Makaleler

ÖĞRENCİLERİN STEM KARİYER TERCİHLERİNİN VERİ MADENCİLİĞİ YAKLAŞIMI İLE TAHMİN EDİLMESİ

Gökhan AKÇAPINAR, Erdal COŞGUN

UYARLANABİLİR ÖĞRENME ORTAMLARINDA FELDER VE SILVERMAN ÖĞRENME STİLLERİNE GÖRE GELİŞTİRİLMİŞ İÇERİKLERİN ÖĞRENCİ BAŞARISI ÜZERİNDEKİ ETKİSİNİN İNCELENMESİ

Yıldız ÖZAYDIN AYDOĞDU, Şeyhmus AYDOĞDU, Mehmet Akif OCAK

3D TASARIM ÖĞRENME DENEYİMİNİN SÜREÇ DEĞERLENDİRMESİ VE EĞİTSEL ÇIKTILARININ KEŞFEDİLMESİ

Akça Okan YÜKSEL, Ekmel ÇETİN, Burcu BERİKAN

BİLİŞİM TEKNOLOJİLERİ ALANINDA MESLEK SEÇİMİNİ YORDAYAN DEĞİŞKENLER

Ömür UYSAL, Deniz DERYAKULU

HERKÜL’ÜN HİKÂYESİ: EĞİTSEL BİR OYUN GELİŞTİRME MODELİ ÖNERİSİ

Fatma BAYRAK, Pınar NUHOĞLU, Şeyma ÇAĞLAR ÖZHAN, Selay Arkün KOCADERE

VİDEO KAPILMA ÖLÇEĞİNİN UYARLAMA, GEÇERLİK VE GÜVENİRLİK ÇALIŞMASI

Deniz DERYAKULU, Raziye SANCAR, Ömer Faruk URSAVAŞ

ÇEVRİMİÇİ ÖDEV GÖNDERME VE DÖNÜT ALMA SÜRECİNDE ÖĞRENCİ KATILIM DAVRANIŞLARI

Özden ŞAHİN İZMİRLİ, Gökhan ÇALIŞKAN, Serkan İZMİRLİ

3B TASARIM ÖĞRENME DENEYİMİNİN SÜREÇ DEĞERLENDİRMESİ VE EĞİTSEL ÇIKTILARININ KEŞFEDİLMESİ

Akça Okan YÜKSEL, Burcu BERİKAN, Ekmel ÇETİN

SOSYAL MEDYADA YARATICI DÜŞÜNME EĞİTİMİNİN ÖĞRETMENLERİN YARATICI DÜŞÜNMEYE YÖNELİK FARKINDALIKLARINA ETKİSİ

Ayşe BAĞRIACIK YILMAZ, Serçin KARATAŞ

EĞİTİMDE SANAL GERÇEKLİK UYGULAMALARINDA ERİŞİLEBİLİRLİK VE UYUMLULUK

Mehmet BÜTÜN, Veli Özcan BUDAK, Murat SELÇUK, İlkim Ecem EMRE, İrfan ŞİMŞEK