Türkçe Haber Metinlerinin Konvolüsyonel Sinir Ağları ve Word2Vec Kullanılarak Sınıflandırılması

Bu çalışmada, Konvolüsyonel Sinir Ağları (KSA) ve Word2Vec metodu kullanılarak Turkish Text Classification 3600 (TTC-3600) veri kümesi üzerinde metin sınıflandırma çalışması yapılmış ve aynı veri kümesi kullanılarak yapılan önceki çalışma ile kıyaslanmıştır. Çalışmada TTC-3600’ün ham ve Zemberek yazılımıyla gövdelenmiş halleri üzerinde iki farklı KSA eğitilmiş ve test edilmiştir. KSA ve Word2Vec metodu, klasik istatistiksel ve makine öğrenmesine dayalı sınıflandırma algoritmalarından daha iyi bir performans (%93,3 doğruluk) göstermiştir. Türkçe doğal dil işleme çalışmalarının azlığı ve bu alandaki özellik çıkarma yöntemlerinin limitli olması sebebiyle, kelimelerin semantik değerlerinin önceden eğitilmiş Word2Vec ağı ile sınıflandırmaya katılabilmesi KSA modellerinin doğruluk değerlerini arttırmıştır.

Turkish News Articles Categorization Using Convolutional Neural Networks and Word2Vec

In this study, a text classification study on the Turkish Text Classification 3600 (TTC-3600) dataset was conducted using Convolutional Neural Networks (CNN) and Word2Vec method and compared with the previous study using the same dataset. In the study, two different CNN s were trained and tested on the TTC-3600 raw and stuck with Zemberek software. CNN and Word2Vec method showed better performance (93.3% accuracy) than classical statistical and machine learning based classification algorithms. Due to the limited number of natural language processing operations in Turkish and the limited feature extraction methods in this area, the accuracy of the CNN models has increased by allowing the semantic values of the words to be included in the classification with the pre-trained Word2Vec network.

___

  • [1] Internet: World Internet Statistics. https://www.internetworldstats.com/stats.htm, 23.05.2019.
  • [2] Internet: International Data Corporation. https://www.idc.com/, 23.05.2019.
  • [3] N. Indurkhya, F.J. Damerau, Handbook of Natural Language Processing, Chapman & Hall/CRC, 2010.
  • [4] C.D. Manning, P. Raghavan, H. Schütze, Introduction to information retrieval, Cambridge University Press, 2008.
  • [5] E. Alpaydin, Machine learning : The New AI, The MIT Press, 2016.
  • [6] H. Uğuz, “A two-stage feature selection method for text categorization by using information gain, principal component analysis and genetic algorithm”, Knowledge-Based Systems, 24(7), 1024–1032, 2011.
  • [7] S. Jiang, G. Pang, M. Wu, L. Kuang, “An improved K-nearestneighbor algorithm for text categorization”, Expert Systems with Applications, 39(1), 1503–1509, 2012.
  • [8] T. Jo, “Normalized table-matching algorithm as approach to text categorization”, Soft Computing, 19(4), 839–849, 2015.
  • [9] B. Tang, H. He, P.M. Baggenstoss, S. Kay, “A Bayesian Classification Approach Using Class-Specific Features for Text Categorization”, IEEE Transactions on Knowledge and Data Engineering, 28(6), 1602–1606, 2016.
  • [10] M.F. Amasyali, T. Yıldırım, “Automatic text categorization of news articles”, Proceedings of the IEEE 12th Signal Processing and Communications Applications Conference, Kusadasi, Turkey, 224–226, 28-30 April 2004.
  • [11] R. Johnson, T. Zhang, “Effective Use of Word Order for Text Categorization with Convolutional Neural Networks”, arXiv:1412.1058v2, 2014.
  • [12] X. Zhang, J. Zhao, Y. LeCun, “Character-level Convolutional Networks for Text Classification”, Advances in Neural Information Processing Systems, 649-657, Curran Associates Inc., 2015.
  • [13] G. Biricik, “Sınıf Bilgisini Kullanan Boyut İndirgeme Yöntemlerinin Metin Sınıflandırmadaki Etkilerinin Karşılaştırılması”, 20. IEEE Sinyal İşleme ve İletişim Uygulamaları Kurultayı, Muğla, Türkiye, 1–4, 2012.
  • [14] A. Haltaş, A. Alkan, M. Karabulut, “Metin Sınıflandırmada Sezgisel Arama Algoritmalarının Performans Analizi”, Journal of the Faculty of Engineering and Architecture of Gazi University, 30(3), 2015.
  • [15] D. Kılınç, E. Borandağ, F. Yücalar, V. Tunalı, M. Şimşek, A. Özçift, “KNN Algoritması ve R Dili ile Metin Madenciliği Kullanılarak Bilimsel Makale Tasnifi”, Marmara Fen Bilimleri Dergisi, 28(3), 89–94, 2016.
  • [16] Ç. Çatal, K. Erbakırcı, Y. Erenler, “Computer-based Authorship Attribution for Turkish Documents”, Turkish Symposium on Artificial Intelligence and Neural Networks, 2003.
  • [17] M. F. Amasyalı, B. Diri, F. Türkoğlu, “Farklı Özellik Vektörleri ile Türkçe Dokümanların Yazarlarının Belirlenmesi”, 15th Turkish Symposium on Artificial Intelligence and Neural Network, Muğla, Türkiye, 2006.
  • [18] S. Doğan, B. Diri, “Türkçe Dokümanlar İçin N-gram Tabanlı Yeni Bir Sınıflandırma(Ng-ind): Yazar, Tür ve Cinsiyet”, Türkiye Bilişim Vakfı Bilgisayar Bilimleri ve Mühendisliği Dergisi, 3, 11– 20, 2010.
  • [19] G. Biricik, B. Diri, “Impact of a New Attribute Extraction Algorithm on Web Page Classification”, 5th International Conference on Data Mining, Las Vegas. A.B.D., 2009.
  • [20] R. Aşlıyan, K. Günel, “Metin İçerikli Türkçe Dokümanların Sınıflandırılması”, Akademik Bilişim Konferansı, 659–665, 2010.
  • [21] İ. Türkmen, B. Diri, G. Biricik, R. Doğan, “Konuşma Dili Kullanılarak Demografik Bilgilerin Sınıflandırılması” IEEE 19. Sinyal İşleme ve İletişim Uygulamaları Kurultayı, Antalya, Türkiye, 2011.
  • [22] M.F. Amasyalı, S. Balcı, E. Mete, E.N. Varlı, “Türkçe Metinlerin Sınıflandırılmasında Metin Temsil Yöntemlerinin Performans Karşılaştırılması”, EMO Bilimsel Dergi, 2(4), 2012.
  • [23] V.E. Levent, B. Diri, “Türkçe Dokümanlarda Yapay SinirAğları ile Yazar Tanıma”, 15. Akademik Bilişim Konferansı, 735–741, Mersin, 2014.
  • [24] S.Ş. Hüsem, Veri madenciliği teknikleriyle Türkçe web sayfalarının kategorize edilmesi, Yüksek Lisans Tezi, Fatih Sultan Mehmet Vakıf Üniversitesi, Mühendislik ve Fen Bilimleri Enstitüsü, 2017.
  • [25] Internet: Kemik - Veri Kümeleri. http://www.kemik.yildiz.edu.tr/?id=28, 23.05.2019.
  • [26] M.F. Amasyalı, T. Yıldırım, “Otomatik Haber Metinleri Sınıflandırma”, 13.Sinyal İşleme ve Uygulama Kurultayı, 224–226, Kuşadası, Türkiye, 2004.
  • [27] M.F. Amasyalı, A. Beken, “Türkçe Kelimelerin Anlamsal Benzerliklerinin Ölçülmesi ve Metin Sınıflandırmada Kullanılması”, IEEE 17. Sinyal İşleme ve İletişim Uygulamaları Kurultayı, Antalya, 2009.
  • [28] P. Tüfekci, E. Uzun, “Türkçe Dilbilgisi Özelliklerini Kullanarak Web Tabanlı Haber Metinlerinin Sınıflandırılması”, 21. IEEE Sinyal İşleme ve İletişim Uygulamaları Kurultayı, Girne, KKTC, 24-26 Nisan, 2013.
  • [29] B. Altınel, M.C. Ganiz, B. Diri, “A novel higher-order semantic kernel for text classification”, International Conference on Electronics, Computer and Computation (ICECCO), Ankara, 216–219, 2013.
  • [30] A. Guran, M.C. Ganiz, H.S. Naiboglu, H.O. Kaptikacti, “NMF based dimension reduction methods for Turkish text clustering”, Innovations in Intelligent Systems and Applications, 1–5, 2013.
  • [31] F. Baskaya, I. Aydin, “Haber metinlerinin farklı metin madenciliği yöntemleriyle sınıflandırılması”, International Artificial Intelligence and Data Processing Symposium (IDAP), Malatya, 1–5, 2017.
  • [32] O. Kaynar, Z. Aydın, Y. Görmez, "Sentiment Analizinde Öznitelik Düşürme Yöntemlerinin Oto Kodlayıcılı Derin Öğrenme Makinaları ile Karşılaştırılması", Bilişim Teknolojileri Dergisi, 10(3), 319 - 326, 2017.
  • [33] D. Kılınç, A. Özçift, F. Bozyigit, P. Yıldırım, F. Yücalar, E. Borandag, “TTC-3600: A new benchmark dataset for Turkish text categorization”, Journal of Information Science, 43(2), 174–185, 2017.
  • [34] H.H. Aghdam, E.J. Heravi, Guide to convolutional neural networks : a practical application to traffic-sign detection and classification, Springer, A.B.D., 2017.
  • [35] Y. Goldberg, O. Levy, “word2vec Explained: deriving Mikolov et al.’s negative-sampling word-embedding method”, arXiv:1402.3722, 2014.
  • [36] T. Mikolov, I. Sutskever, K. Chen, G. Corrado, J. Dean, “Distributed Representations of Words and Phrases and their Compositionality”, 26th International Conference on Neural Information Processing Systems, 3111-3119, Nevada, A.B.D., 2013.
  • [37] Internet: UCI-Machine Learning Repository. https://archive.ics.uci.edu/ml/datasets/TTC3600%3A+Benchmark+dataset+for+Turkish+text+categorization, 23.05.2019.
  • [38] A.A. Akın, M.D. Akın, “Zemberek, an open source NLP framework for Turkic Languages”, Structure, 10, 1-5, 2007.
  • [39] Internet: Google Code Archive- Zemberek, https://code.google.com/archive/p/zemberek/, 23.05.2019.
  • [40] A. Koç, “Eğitim Kümesi Seçiminin Kelime Temsillerine Etkisi ve Türkçe için Benzerlik Test Kümesi”, 24. IEEE Sinyal İşleme ve İletişim Uygulamaları Kurultayı, Zonguldak, Türkiye,16-19 Mayıs 2016.
  • [41] T. Mikolov, K. Chen, G. Corrado, J. Dean, “Efficient Estimation of Word Representations in Vector Space”, arXiv:1301.3781, 2013.
  • [42] O. Karasoy, S. Balli, “Classification Turkish SMS with deep learning tool Word2Vec”, International Conference on Computer Science and Engineering (UBMK), Antalya, Türkiye, 5-8 Ekim, 2017.
  • [43] D. Ayata, M. Saraclar, A. Özgür, “Makine Öğrenmesi Ve Kelime Vektör Temsili İle Türkçe Tweet Sentiment Analizi”, 25. Sinyal İşleme Ve İletişim Uygulamaları Kurultayı, Antalya, Türkiye, 15-18 Mayıs, 2017.
  • [44] G. Şahin, “Word2Vec ve SVM Tabanlı Türkçe Doküman Sınıflandırma”, 25. Sinyal İşleme Ve İletişim Uygulamaları Kurultayı, Antalya, Türkiye, 15-18 Mayıs, 2017.
  • [45] P.U. Hatipoğlu, Y.O. Artan, A. Atvar, “Metin Madenciliği Yöntemleri ile Yazılım Gereksinim İzlenebilirliğinin Analizi”, 25. Sinyal İşleme Ve İletişim Uygulamaları Kurultayı, Antalya, Türkiye, 15-18 Mayıs, 2017.
  • [46] J. Lilleberg, Y. Zhu, Y. Zhang, “Support vector machines and Word2vec for text classification with semantic features”, 14th International Conference on Cognitive Informatics & Cognitive Computing, 136–140, 2015.
  • [47] M. Seyfioğlu, M. Demirezen, “A Hierarchical Approach for Sentiment Analysis and Categorization of Turkish Written Customer Relationship Management Data”, Federated Conference on Computer Science and Information Systems, 361–365, 2017.
  • [48] L. Ge, Improving Text Classification with Word Embedding, Master of Science Thesis, San José State University, 2017.
  • [49] A. Hayran, M. Sert, “Kelime Gömme ve Füzyon Tekniklerine Dayalı Mikroblog Verileri Üzerinde Duygu Analizi”, 25. Sinyal İşleme Ve İletişim Uygulamaları Kurultayı, Antalya, Türkiye, 15-18 Mayıs, 2017.
  • [50] Ö. Çoban, I. Karabey, “Kelime ve Doküman Vektörleri ile Müzik Türü Sınıflandırması”, 25. Sinyal İşleme Ve İletişim Uygulamaları Kurultayı, Antalya, Türkiye, 15-18 Mayıs, 2017.
  • [51] E. Esen, S. Özkan, “TBMM Tutanaklarının Parti Bağdaşıklığı Açısından Analizi”, 25. Sinyal İşleme Ve İletişim Uygulamaları Kurultayı, Antalya, Türkiye, 15-18 Mayıs, 2017.
  • [52] O. Güngör, E. Yıldız, “Türkçe Sözcük Temsillerinde Dilbilimsel Özellikler”, 25. Sinyal İşleme Ve İletişim Uygulamaları Kurultayı, Antalya, Türkiye, 15-18 Mayıs, 2017.
  • [53] D. Ayata, M. Saraclar, A. Özgür, “Uzun-Kısa Süreli Bellek Özyinelemeli Ağlar ile Politik Yönelimlerin/Duyguların Twitter Verisi üzerinden Tahminlenmesi”, 25. Sinyal İşleme Ve İletişim Uygulamaları Kurultayı, Antalya, Türkiye, 15-18 Mayıs, 2017.
  • [54] M. Bilgin,, “Kelime Vektörü Yöntemlerinin Model Oluşturma Sürelerinin Karşılaştırılması”, Bilişim Teknolojileri Dergisi, 12(2), 141 - 146, 2019.
  • [55] H. Polat, M. Körpe, "TBMM Genel Kurul Tutanaklarından Yakın Anlamlı Kavramların Çıkarılması." Bilişim Teknolojileri Dergisi, 11(3), 235-244, 2018.
  • [56] L. Deng, D. Yu, “Deep Learning: Methods and Applications”, Foundations and Trends in Signal Processing, 7(3–4), 197–387, 2014.
  • [57] G. Isik, H. Artuner, “Recognition of radio signals with deep learning Neural Networks”, 24. IEEE Sinyal İşleme ve İletişim Uygulamaları Kurultayı, Zonguldak, Türkiye,16-19 Mayıs 2016.
  • [58] H. Yalçın, “Derin Anlama Ağları ile İnsan Aktiviteleri Tanıma”, Türkiye Robotbilim Konferansı, İstanbul, 26 - 27 Ekim 2015.
  • [59] E. Cengil, A. Çınar, “A New Approach For Image Classıfıcatıon: Convolutıonal Neural Network”, European Journal of Technic, 6(2), 2016.
  • [60] Y.S. Akgül, “Derin Öğrenme ile Göz Tespiti”, 24. IEEE Sinyal İşleme ve İletişim Uygulamaları Kurultayı, Zonguldak, Türkiye, 16-19 Mayıs 2016.
  • [61] H.K. Ekenel, “Evrişimsel Sinir Ağı Öznitelikleri ile Kişiyi Yeniden Tanıma”, 24. IEEE Sinyal İşleme ve İletişim Uygulamaları Kurultayı, Zonguldak, Türkiye,16-19 Mayıs 2016.
  • [62] S.E. Yüksel, “Hiperspektral Verilerin Derin Konvolüsyonel Sinir Ağlarıyla Sınıflandırılması”, 24. IEEE Sinyal İşleme ve İletişim Uygulamaları Kurultayı, Zonguldak, Türkiye,16-19 Mayıs 2016.
  • [63] P. Wang, J. Xu, B. Xu, C.-L. Liu, H. Zhang, F. Wang, H. Hao, “Semantic Clustering and Convolutional Neural Network for Short Text Categorization”, Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics, 352–357, 2015.
  • [64] D.J. Wu, “End-to-End Text Recognition with Convolutional Neural Networks in SearchWorks catalog”, Stanford Digital Repository, 2012.
  • [65] N. Kalchbrenner, E. Grefenstette, P. Blunsom, “A Convolutional Neural Network for Modelling Sentences”, arXiv:1404.2188, 2014.
  • [66] C. Nogueira, D. Santos, M. Gatti, “Deep Convolutional Neural Networks for Sentiment Analysis of Short Texts”, 25th International Conference on Computational Linguistics: Technical Papers, 69–78, Dublin, 2014.
  • [67] D. Tang, B. Qin, T. Liu, “Document Modeling with Gated Recurrent Neural Network for Sentiment Classification”, Conference on Empirical Methods in Natural Language Processing, 1422–1432, Lisbon, 2015.
  • [68] P. Wang, B. Xu, J. Xu, G. Tian, C.-L. Liu, H. Hao, “Semantic expansion using word embedding clustering and convolutional neural network for improving short text classification”, Neurocomputing, 174(B), 806–814, 2016.
  • [69] B.Hu, Z. Lu, H. Li, Q. Chen, “Convolutional Neural Network Architectures for Matching Natural Language Sentences”, Advances in Neural Information Processing Systems, 2042–2050, 2014.
  • [70] Internet: T. Ieleman, G. Hinton, “RMSProp, Neural Networks for Machine Learning”, https://www.cs.toronto.edu/~tijmen/csc321/slides/lecture_slides_l ec6.pdf, 23.05.2019.
  • [71] D.P.Kingma, J. Ba, “Adam: A Method for Stochastic Optimization”, 3rd International Conference for Learning Representations, San Diego, 2015.
  • [72] Internet: Python. https://www.python.org/doc/, 23.05.2019.
  • [73] M. Abadi, P. Barham, J. Chen, Z. Chen, A. Davis, …, “TensorFlow: A system for large-scale machine learning” 12th USENIX Symposium on Operating Systems Design and Implementation, 265–283, Savannah, 2016.
  • [74] Internet: Keras. https://github.com/keras-team/keras, 23.05.2019.