Konvolüsyonel Sinir Ağları Tabanlı Türkçe Metin Sınıflandırma

Bu çalışmada makine öğrenmesi teknikleri ve konvolüsyonel sinir ağları (KSA) tabanlı bir derin öğrenme modeli kullanılarak iki farklı Türkçe metin veri kümesi sınıflandırılmıştır. Metin sınıflandırma çalışmasında Rastgele Orman (RO), Naive Bayes (NB), Destek Vektör Makineleri (DVM), K-En Yakın Komşu (KNN) Algoritmaları ve geliştirilen KSA tabanlı derin öğrenme modeli seçilen veri kümelerine uygulanmıştır. Türkçe dilinde seçilen veri kümeleri, metin ve sınıf adedi olarak birbirinden farklı yapıda tercih edilmiş böylece kelime vektör boyutunun aynı deney ortamında sınıflandırma başarısına etkisi araştırılmıştır. Kelime temsil yöntemi olarak Terim Frekansı-Ters Doküman Frekansı (TF-IDF) belirlenmiş olup, sınıflandırma işlemi öncesi veri kümelerine uygulanan durdurma kelimeleri filtreleme ve kök bulma önişlemlerinin de sınıflandırma sonuçlarına katkısı değerlendirilmiştir. Ayrıca kelime temsil vektörlerine öznitelik seçimi uygulanarak boyutları düşürülmüş, böylece nihai vektör boyutunun da sonuçlara etkisi araştırılmıştır. Bahsedilen tüm ön işlemlerin farklı birleşimleri uygulanarak ortaya çıkan kelime vektörlerinin sınıflandırması sonucunda doğruluk ve F1-skor değerleri karşılaştırılmıştır. Karşılaştırmalar her bir sınıflandırma algoritması özelinde ayrı tablolar halinde sunulmuştur. Ayrıca tüm algoritmaların birbiri ile karşılaştırmasını içeren tablolar oluşturularak sonuçlar analiz edilmiştir.

Convolutional Neural Networks Based Turkish Text Classification

In this study, a text classification has been carried out on two different Turkish datasets using machine learning techniques and a deep learning model based on convolutional neural networks (CNN). In the text classification study, Random Forest, Naive Bayes, Support Vector Machines, K-Nearest Neighbor algorithms and a CNN based deep learning model were used. The datasets selected in Turkish are different from each other in terms of the number of texts and the number of classes. In this way, the effect of word embedding size on classification success was investigated. As a word embedding method, we preferred Term Frequency-Inverse Document Frequency (TF-IDF). The effects of the stopwords eliminating and lemmatizing pre-processes applied before the classification study, on the classification success was also evaluated. In addition, the size of the word embeddings was reduced by applying feature selection, and the effect of the final vector size on the results was investigated. The accuracy and F1-score values were compared as a result of the classification of the feature vectors by applying different combinations of the pre-processes. The comparisons are represented in separate tables for each classification algorithm used. In addition, F1-score comparison tables of the algorithms with each other are presented and the values were analyzed.

___

  • R. Aşlıyan, K. Günel, “Metin İçerikli Türkçe Dokümanların Sınıflandırılması'', Akademik Bilişim Konferansı,529-535, 2010.
  • Y. F. Muliono, F. Tanzil, “A Comparison of Text Classification Methods k-NN, Naïve Bayes, and Support Vector Machine for News Classification”, Jurnal Informatika: Jurnal Pengembangan IT, 3(2), 157-160, 2018.
  • J. Liu, J. Li, L. Liu, W. Kang, “A Semantics Aware Random Forest for Text Classification”, 28th ACM International Conference, 1061-1070, 2019.
  • H. Chen, W. Jiang, C. Li, R. Li, “A Heuristic Feature Selection Approach for Text Categorization by Using Chaos Optimization and Genetic Algorithm”, Hindawi Publishing Corporation Mathematical Problems in Engineering, 2013(1), 1-6, 2013.
  • B. Xu, X. Guo, Y. Ye, J. Cheng, “An Improved Random Forest Classifier for Text Categorization”, Journal of Computers, 7(12), 2913-2920, 2012.
  • S. Venkatraman, B. Surendiran, P. Arun Raj Kumar, “Spam e‐mail classification for the Internet of Things environment using semantic similarity approach”, The Journal of Supercomputing, 76(2), 756-776, 2020.
  • R. Abascal-Mena, E. Lopez-Ornelas, “Author detection: Analyzing tweets by using a Na ̈ıve Bayes classifier”, Journal of Intelligent & Fuzzy Systems, 39(2), 2331-2339, 2020.
  • D. Kılınç, A. Özçift, F. Bozyigit, P. Yıldırım, F. Yücalar, E. Borandag, “TTC-3600: A New Benchmark Dataset For Turkish Text Categorization”, Journal of Information Science, 43(2), 174–185, 2017.
  • Ç. İnan Acı, A. Çırak, “Türkçe Haber Metinlerinin Konvolüsyonel Sinir Ağları ve Word2Vec Kullanılarak Sınıflandırılması'', Bilişim Teknolojileri Dergisi, 12(3), 219-228, 2019.
  • A. Uçan, M. Dörterler, E. A. Sezer, “A study of Turkish emotion classification with pretrained language models”, Journal of Information Science, 48(6), 857–865, 2022.
  • M. Aydoğan, A. Karcı, “Improving the accuracy using pre-trained word embeddings on deep neural networks for Turkish text classification”, Physica A: Statistical Mechanics and its Applications, 541, 123288, 2019.
  • İ. H. Toroslu, P. Karagöz, “Personality Analysis Using Classification on Turkish Tweets”, International journal of cognitive informatics & natural intelligence, 15(4), DOI: 10.4018/IJCINI.287596, 2021.
  • Ş. Yıldırım, T. Yıldız, “A comparative analysis of text classification for Turkish language”, Pamukkale University Journal of Engineering Science, 24(5), 879-886, 2018.
  • Ö. Köksal, E. H. Yılmaz, “Improving automated Turkish text classification with learning-based algorithms”, Concurrency and Computation, 34(11), e6874, 2022.
  • Z. Deng, X. Zhu, D. Cheng, M. Zong, S. Zhang, “Efficient kNN Classification Algorithm for Big Data”, Neurocomputing, 195, 143-148, 2016.
  • Internet: File:Knn sample plot.png, http://www.scholarpedia.org/w/images/1/13/Knn_sample_plot.png, 27.01.2021.
  • L. Breiman, “Random forests” Machine Learning, 45(1), 5-32, 2001.
  • L. Xin, “A New Text Classifier Based on Random Forests”, Proceedings of the 2016 2nd International Conference on Materials Engineering and Information Technology Applications (MEITA 2016), Qingdao, China, 290-293, 24-25 Aralık, 2016.
  • P. L. Prasanna, D. R. Rao, “Text Classification Using Artificial Neural Networks”, International Journal of Engineering & Technology, 7(1), 603-606, 2018.
  • D. Jha, A. Yazidi, M. A. Riegler, D. Jonansen, H. D. Johansen, P. Halvorsen, “LightLayers: Parameter Efficient Dense and Convolutional Layers for Image Classification”, PDCAT, Shenzhen, China, 285-296, 28-30 Aralık, 2020.
  • Internet: S. Yıldırım, A Benchmark Data for Turkish Text Categorization, https://www.kaggle.com/ datasets/savasy/ttc4900, 18.11.2022.
  • Internet: M. Çabuk, E-Ticaret Ürün Yorumları, https://www.kaggle.com/datasets/mujdatcabuk/eticaret-urun-yorumlari/, 18.11.2022.