Türkçe Metinlerde Makine Öğrenmesi Algoritmalarının Duygu Analizi Problemi Üzerindeki Performansının Kıyaslanması

Günümüzde gittikçe yaygınlaşan sosyal medya kullanımı ile duygular ve fikirler bu platformlar üzerinden ifade edilmektedir. Bu platformlarda paylaşılan fikirler ile büyük miktarda veri ortaya çıkmaktadır. Bu verilerin sınıflandırılmasının ve analizinin manuel olarak yapılması büyük bir iş gücü gerektirdiğinden bazı algoritmalar ile duygu analizi yapılması gereksinimi ortaya çıkmıştır. Bu çalışmada çeşitli platformlardan alınan beş farklı veri kümesi ve her bir veri kümesi için dört farklı makine öğrenmesi algoritması(KNN, Naif Bayes, Rastgele Orman, DVM) kullanılmıştır. Çalışma sonucunda DVM algoritması ile veri setlerinin genelinde daha doğru sonuçlar, Rastgele Orman ve Naif Bayes algoritmaları ile veri setleri ve eğitim yüzdelerine göre değişken sonuçlar elde edilmiştir. KNN algoritması ile veri setlerinin genelinde doğruluğu en düşük sonuçlar elde edilmiştir.

Comparison of the Performance of Machine Learning Algorithms on Sentiment Analysis Problem in Turkish Texts

Recently, with the use of social media, which is becoming more and more widespread today, emotions and ideas are expressed through these platforms. Huge amounts of data emerge with ideas shared on these platforms. Since the classification and analysis of these data requires a large labor force, the need for sentiment analysis with some algorithms has emerged. In this study, five different datasets from various platforms and four different machine learning algorithms (kNN, Naive Bayes, Random Forest, SVM) were used for each dataset. As a result of the study, more accurate results were obtained in general with the SVM algorithm, and variable results were obtained with the Random Forest and Naive Bayes algorithms according to the data sets and training percentages. With the KNN algorithm, the lowest accuracy results were obtained across the data sets.

___

  • Akgül, E. S., Ertano, C., Diri, B. (2016). Twitter verileri ile duygu analizi, Pamukkale University Journal of Engineering Sciences, 22(2).
  • Arroyo, J, and Carlos, M. (2009). Forecasting histogram time series with k-nearest neighbours methods." International Journal of Forecasting 25(1), 192-207.
  • Aytekin, Y. E., Keskin, Ö. (2019). Türkiye’de Faizsiz Finans Sisteminin Duygu Analizi Bağlamında Değerlendirilmesi,” Uluslararası İslam Ekonomisi ve Finansı Araştırmaları Dergisi, 5(3), 87-112.
  • Breiman, (2001). Random Forests, Machine Learning, 1,5-32.
  • Demir, Ö., Chawai, A. I. B., & Doğan, B. Türkçe Metinlerde Sözlük Tabanli Yaklaşimla Duygu Analizi Ve Görselleştirme (2020). International Periodical of Recent Technologies in Applied Engineering, 1(2), 58-66.
  • Eryılmaz, E. E., Şahin, D. Ö., Kılıç, E. (2020). Türkçe İstenmeyen E-postaların Farklı Öznitelik Seçim Yöntemleri Kullanılarak Makine Öğrenmesi Algoritmaları ile Tespit Edilmesi,” Türkiye Bilişim Vakfı Bilgisayar Bilimleri ve Mühendisliği Dergisi, 13(2), 57-77.
  • Kaynar, O., Aydın, Z., Görmez, Y. (2019). Sentiment analizinde öznitelik düşürme yöntemlerinin oto kodlayıcılı derin öğrenme makinaları ile karşılaştırılması, Bilişim Teknolojileri Dergisi, 10(3), 319-326.
  • Lin, C. J., Chang, C. C. (2001). LIBSVM: a library for support vector machines.
  • Platt, J. (1999). Probabilistic outputs for support vector machines and comparisons to regularized likelihood methods, Advances in large margin classifiers, 10(3), 61-74.
  • Shah, K., Patel, H., Sanghvi, D., Shah, M. (2020). A comparative analysis of logistic regression, random forest and KNN models for the text classification, Augmented Human Research, 5(1), 1-16.
  • Tuzcu, S. (2020). Çevrimiçi Kullanıcı Yorumlarının Duygu Analizi ile Sınıflandırılması,” Eskişehir Türk Dünyası Uygulama ve Araştırma Merkezi Bilişim Dergisi, 1(2), 1-5.
  • Williams, B. Halloin, C. Löbel, W., Finklea, F., Lipke, E., Zweigerdt, R., Cremaschi, S. (2020). Data-Driven Model Development for Cardiomyocyte Production Experimental Failure Prediction”, 48, 1639-1644.
  • Zhang, H. (2004). The Optimality of Naive Bayes, Conference: Proceedings of the Seventeenth International Florida Artificial Intelligence Research Society Conference.