FastText ve Kelime Çantası Kelime Temsil Yöntemlerinin TuristikMekanlar İçin Yapılan Türkçe İncelemeler KullanılarakKarşılaştırılması

Günümüzde sosyal medya platformlarının sayısının ve kullanımının artmasıyla birlikte artık insanlar satın aldıkları bir ürünle veyagittikleri bir yer ile ilgili deneyimlerini sosyal medya platformlarında daha sıklıkla paylaşmaktadırlar. Sosyal medya platformlarındakiverilerin hacmi düşünüldüğünde, sosyal medya platformlarında paylaşılan incelemeler ve deneyimler içerisinde kurumlar veya şirketleriçin anlamlı birtakım bilgilerin olduğu düşünülmektedir. Hal böyle olunca sosyal medyada paylaşılan incelemeler ve deneyimler içerisinden anlamlı bilgi çıkarma yöntemlerini daha iyi hale getirmek ve hangi yöntemin daha iyi olduğunu bilmek önem arz etmektedir.Bu çalışmada turistik mekanlar için yapılan Türkçe incelemeler kullanılarak, yukarıda bahsedilen yöntemlerden biri olan duygu analiziyöntemindeki kelime temsil yöntemlerinden kelime çantası ve fastText kelime temsil yöntemlerinin sınıflandırma başarılarıkarşılaştırılmıştır. Ayrıca karşılaştırma işlemi gerçekleştirilirken duygu analizi işleminin ön hazırlık aşaması olan kelimeleri köklerineayırma ve kelimeleri olumsuzlaştırma işlemlerinin sınıflandırma başarısına katkılarının olup olmadığı ölçülmüştür. Çalışmada hem ikisınıflı (pozitif, negatif) duygu analizi hem de üç sınıflı (pozitif, negatif, nötr) duygu analizi gerçekleştirilmiştir. Bahsedilen karşılaştırmaişlemlerini gerçekleştirebilmek için altı adet veri seti oluşturulmuştur. Veri setleri önce metin madenciliğinde sıklıkla kullanılan NaiveBayes (NB), Multinom Naive Bayes (MNB), k-Nearest Neighbor (k-NN) ve Support Vector Machines (SVM) algoritmaları kullanılarakve kelime çantası kelime temsil yöntemi esas alınarak WEKA programıyla sınıflandırılmıştır. Tüm veri setlerinin kelime çantası kelimetemsil yöntemine göre test sonuçları elde edildikten sonra fastText kelime temsil yöntemine dair testler python programlama dilininfastText kütüphanesi kullanılarak gerçekleştirilmiştir. Sınıflandırma işlemleri 10 tekrarlı çapraz doğrulama yöntemiyle yapılaraksınıflandırma işlemlerinin f-skor değerleri elde edilmiştir. Nihayetinde iki sınıflı duygu analizinde kelime çantası kelime temsilyönteminin fastText kelime temsil yönteminden daha başarılı sınıflandırma gerçekleştirdiği, üç sınıflı duygu analizinde ise tam tersi bir şekilde fastText kelime temsil yönteminin kelime çantası kelime temsil yönteminden daha başarılı sınıflandırma işlemi gerçekleştirdiğitespit edilmiştir. Duygu analizi ön hazırlık işlemlerinden kelimeleri köklerine ayırma ve olumsuzlaştırma işlemlerinin fastText kelimetemsil yöntemiyle gerçekleştirilen sınıflandırma işlemlerinde olumlu ya da olumsuz bir katkı sağlamadığı görülmüştür. Ancak kelimeçantası kelime temsil yöntemi kullanılarak gerçekleştirilen duygu analizi işlemlerinde az da olsa bir katkısının olduğu tespit edilmiştir.İki sınıflı duygu analizinde en başarılı sınıflandırma sonucuna kelime çantası kelime temsil yöntemi kullanılarak 0.91 f-skoru değeriyleSVM algoritmasıyla oluşturulan makine öğrenmesi modeliyle ulaşılmıştır. Üç sınıflı duygu analizinde ise en başarılı sınıflandırmasonucuna 0.78 f-skoru değeriyle fastText kelime temsil yöntemi kullanılarak oluşturulan makine öğrenmesi modeliyle ulaşılmıştır.

Comparison of fastText and Bag of Words Word Representation Methods by Using Turkish Reviews Conducted for Touristic Places

Nowadays, with the increasing number and use of social media platforms, people now share their experiences about a product they havebought or a place they have been to on social media platforms more frequently. Considering the volume of data on social media platforms, it is considered that there is some meaningful information for institutions or companies in the reviews and experiences sharedon social media platforms. As such, it is important to improve the methods of extracting meaningful information from the reviews andexperiences shared on social media and to know which method is better. In this study, the classification successes of the bag of wordsand the fastText word representation methods, which are among the word representation methods in sentiment analysis methodsmentioned above, were compared by using Turkish reviews performed for touristic places. Besides, while performing the comparisonprocess, it was measured whether the process of separating the words into their roots and negation of the words, which is the preliminarystage of the sentiment analysis process, contributed to the classification success. In the study, both two-class (positive, negative)sentiment analysis and three-class (positive, negative, neutral) sentiment analysis were performed. Six data sets were created to carryout the mentioned comparison operations. The data sets were first classified using the Naive Bayes (NB), Multinomial Naive Bayes(MNB), k-Nearest Neighbor (k-NN) and Support Vector Machines (SVM) algorithms, which are frequently used in text mining, andbased on bag of words word representation method, they were classified with WEKA program. After the test results of all data sets wereobtained according to the bag of words word representation method, the tests of the fastText word representation method were carriedout using the fastText library of the Python programming language. Classification procedures were carried out with 10-fold cross validation methods, and f-score values of the classification processes were obtained. Finally, it was determined that bag of words wordrepresentation method performed a more successful classification than the fastText word representation method in two-class emotionanalysis, while the fastText word representation method performed a more successful classification process than bag of words wordrepresentation method in three-class emotional analysis. It was observed that the process of separating the words into their roots andnegating the words, which are the preliminary processes of sentiment analysis, did not contribute positively or negatively to theclassification processes performed with the fastText word representation method. However, it was determined that it had a minorcontribution to sentiment analysis processes performed by using bag of words word representation method. In the two-class sentimentanalysis, the most successful classification result was achieved by using the machine learning model created with the SVM algorithmwith the value of 0.91 f-score employing bag of words word representation method. In the three-class sentiment analysis, the mostsuccessful classification result was achieved with the machine learning model created using the fastText word representation methodwith the value of 0.78 f-score.

___

  • Ait Hammou, B., Ait Lahcen, A., & Mouline, S. (2020). Towards a real-time processing framework based on improved distributed recurrent neural network variants with fastText for social big data analytics. Information Processing & Management, 57(1), 1-15. https://doi.org/https://doi.org/10.1016/j.ipm.2019.102122
  • Akın, A. A., & Akın, M. D. (2007). Zemberek, an open source NLP framework for Turkic Languages. Structure, 10, 1-5.
  • Albayrak, A. (2018). Duygu analizinde farklı vektör temsil yöntemleri ve sınıflayıcıların karşılaştırılması [Yüksek Lisans Tezi, Sivas Cumhuriyet Üniversitesi]. Sivas Cumhuriyet Üniversitesi Akademik Arşiv Sistemi. https://hdl.handle.net/20.500.12418/12071
  • Alessa, A., Faezipour, M., & Alhassan, Z. (2018, June 4-7). Text classification of flu-related tweets using fasttext with sentiment and keyword features [Paper presentation]. 2018 IEEE International Conference on Healthcare Informatics, NY, USA.
  • Altunkaynak, B. (2017). Veri madenciliği yöntemleri ve R uygulamaları. Seçkin Yayıncılık.
  • Automatic hyperparameter optimization. (n.d.). fastText. https://fasttext.cc/docs/en/autotune.html
  • Aydoğan, E., & Akcayol, M. A. (2016, August 2-5). A comprehensive survey for sentiment analysis tasks using machine learning techniques [Paper presentation]. 2016 International Symposium on INnovations in Intelligent SysTems and Applications, Sinaia, Romania.
  • Aydoğan, M., & Karcı, A. (2019). Kelime temsil yöntemleri ile kelime benzerliklerinin incelenmesi. Çukurova Üniversitesi Mühendislik-Mimarlık Fakültesi Dergisi, 34(2), 181-196. https://doi.org/https://doi.org/10.21605/cukurovaummfd.609 119
  • Baccianella, S., Esuli, A., & Sebastiani, F. (2010, May 17-23). Sentiwordnet 3.0: an enhanced lexical resource for sentiment analysis and opinion mining [Paper presentation]. Proceedings of the Seventh International Conference on Language Resources and Evaluation, Valletta, Malta.
  • Bag-of-Words model. (2007, October 31). Retrieved July 20, 2020 from https://en.wikipedia.org/wiki/Bag-of-words_model
  • Bilgin, M., & Şentürk, İ. F. (2017, October 5-8). Sentiment analysis on Twitter data with semi-supervised Doc2Vec [Paper presentation]. 2017 International Conference on Computer Science and Engineering, Antalya, Turkey.
  • Bojanowski, P., Grave, E., Joulin, A., & Mikolov, T. (2017). Enriching word vectors with subword information. Transactions of the Association for Computational Linguistics, 5, 135-146. https://doi.org/https://doi.org/10.1162/tacl_a_00051
  • Can, Ü., & Alataş, B. (2017). Duygu analizi ve fikir madenciliği algoritmalarının incelenmesi. International Journal of Pure and Applied Sciences, 3(1), 75-111. https://dergipark.org.tr/tr/pub/ijpas/issue/29969/304149
  • Chicco, D., & Jurman, G. (2020). The advantages of the Matthews correlation coefficient (MCC) over F1 score and accuracy in binary classification evaluation. BMC genomics, 21(1), 6-6. https://doi.org/10.1186/s12864-019-6413-7
  • Çoban, Ö. (2016). Metin sınıflandırma teknikleri ile türkçe twitter duygu analizi [Yüksek Lisans Tezi, Atatürk Üniversitesi]. Atatürk Üniversitesi Dijital Arşiv Açık Erişim Sistemi. http://hdl.handle.net/123456789/4640
  • Çoban, Ö., Özyer, B., & Özyer, G. T. (2015, May 16-19). Sentiment analysis for Turkish Twitter feeds [Paper presentation]. 2015 23nd Signal Processing and Communications Applications Conference, Malatya, Turkey.
  • Esuli, A., & Sebastiani, F. (2006, May 22-28). Sentiwordnet: A publicly available lexical resource for opinion mining [Paper presentation]. Proceedings of the Fifth International Conference on Language Resources and Evaluation, Geona, Italy.
  • F1 score. (2006, February 9). Retrieved July 8, 2020 from https://en.wikipedia.org/wiki/F1_score
  • Gezici, G., & Yanıkoğlu, B. (2018). Sentiment analysis in Turkish. In K. Oflazer & M. Saraçlar (Eds.), Turkish Natural Language Processing (pp. 255-271). Springer International Publishing. https://doi.org/10.1007/978-3-319-90165-7_12
  • Google. (2019). Google Translation API. In [Application Program Interface]. https://cloud.google.com/translate/
  • Harris, Z. S. (1954). Distributional structure. Word, 10(2-3), 146- 162. https://doi.org/https://doi.org/10.1080/00437956.1954.11659 520
  • Joulin, A., Grave, E., Bojanowski, P., & Mikolov, T. (2017, April 3-7). Bag of tricks for efficient text classification [Conference presentation]. Proceedings of the 15th Conference of the European Chapter of the Association for Computational Linguistics, Valencia, Spain.
  • Karaoğlan, K. M., Temizkan, V., & Fındık, O. (2019, April 26- 28). Sentiment analysis for hotel reviews with recurrent neural network architecture [Conference presentation]. International Conference on Advanced Technologies, Computer Engineering and Science, Alanya, Turkey.
  • Kaya, M., Fidan, G., & Toroslu, I. H. (2012, December 4-7). Sentiment analysis of turkish political news [Paper presentation]. Proceedings of the The 2012 IEEE/WIC/ACM
  • International Joint Conferences on Web Intelligence and Intelligent Agent Technology, Macau, China.
  • Kaynar, O., Görmez, Y., Yıldız, M., & Albayrak, A. (2016, September 17-18). Makine öğrenmesi yöntemleri ile duygu analizi [Paper presentation]. International Artificial Intelligence and Data Processing Symposium, Malatya, Turkey.
  • Kızılkaya, Y. M. (2018). Duygu analizi ve sosyal medya alanında uygulama [Doktora Tezi, Uludağ Üniversitesi]. Bursa Uludağ Üniversitesi Açık Erişim Sistemi. https://acikerisim.uludag.edu.tr/bitstream/11452/1058/1/516 866.pdf
  • Köse, İ. (2018). Veri madenciliği teori uygulama ve felsefesi. Papatya Yayıncılık Eğitim.
  • Ku, L.-W., Liang, Y.-T., & Chen, H.-H. (2006, March 27-29). Opinion extraction, summarization and tracking in news and blog corpora [Paper presentation]. AAAI Spring Symposium, Stanford, CA, USA.
  • Kuyumcu, B., Aksakalli, C., & Delil, S. (2019, June 28-30). An automated new approach in fast text classification (fastText): A case study for Turkish text classification without preprocessing [Paper presentation]. 3rd International Conference on Natural Language Processing and Information Retrieval, Tokushima, Japan.
  • Liu, B. (2012). Sentiment Analysis and Opinion Mining. Morgan & Claypool Publishers.
  • Meral, M., & Diri, B. (2014, April 23-25). Sentiment analysis on Twitter [Paper presentation]. 22nd Signal Processing and Communications Applications Conference, Trabzon, Turkey.
  • Mikolov, T., Chen, K., Corrado, G. S., & Dean, J. (2013). Efficient Estimation of Word Representations in Vector Space. arXiv preprint arXiv:1301.3781.
  • Neri, F., Aliprandi, C., Capeci, F., Cuadros, M., & By, T. (2012, August 26-29). Sentiment analysis on social media [Paper presentation]. 2012 IEEE/ACM International Conference on Advances in Social Networks Analysis and Mining, İstanbul, Turkey.
  • Özyurt, B., & Akçayol, M. A. (2018). Fikir madenciliği ve duygu analizi, yaklaşımlar, yöntemler üzerine bir araştırma. Selçuk Üniversitesi Mühendislik, Bilim Ve Teknoloji Dergisi, 6(4), 668-693. http://sujest.selcuk.edu.tr/sumbtd/article/download/584/628
  • Pang, B., Lee, L., & Vaithyanathan, S. (2002, July 6-7). Thumbs up? Sentiment classification using machine learning techniques [Paper presentation]. Proceedings of the Conference on Empirical Methods in Natural Language Processing Philadelphia, USA. https://doi.org/10.3115/1118693.1118704
  • Parlar, T., & Özel, S. A. (2016, August 2-5). A new feature selection method for sentiment analysis of Turkish reviews [Paper presentation]. 2016 International Symposium on INnovations in Intelligent SysTems and Applications Sinaia, Romania.
  • Saad, M. K. (2010). The impact of text preprocessing and term weighting on arabic text classification [Master Thesis, The Islamic University ]. IUG Space. http://hdl.handle.net/20.500.12358/18770
  • Şeker, S. E. (2016). Duygu Analizi. Yönetim Bilişim Sistemleri Ansiklopedisi, 3(3), 21-36. http://ybsansiklopedi.com/wpcontent/uploads/2016/09/duygu_analizi.pdf
  • Sevindi, B. İ. (2013). Türkçe metinlerde denetimli ve sözlük tabanlı duygu analizi yaklaşımlarının karşılaştırılması [Yüksek Lisans Tezi, Gazi Üniversitesi, Yükseköğretim Kurulu Ulusal Tez Merkezi. https://tez.yok.gov.tr/UlusalTezMerkezi/tezDetay.jsp?id=- hunBqU7X8Xef7VsYSve5g&no=pshUKfJWw6uE0H0aVi WTEg
  • Shung, K. P. (2020, April 10). Accuracy, Precision, Recall or F1? Retrieved July 20, 2020 from https://towardsdatascience.com/accuracy-precision-recallor-f1-331fb37c5cb9
  • Silahtaroğlu, G. (2013). Veri madenciliği: Kavram ve algoritmaları. Papatya Yayıncılık Eğitim.
  • Türkmenoğlu, C. (2015). Türkçe metinlerde duygu analizi [Yüksek Lisans Tezi, İstanbul Teknik Üniversitesi]. İTÜ Dspace. http://hdl.handle.net/11527/12950
  • Türkmenoglu, C., & Tantug, A. C. (2014, June 21-26). Sentiment analysis in Turkish media [Paper presentation]. Proceedings of the 31st International Conference on International Conference on Machine Learning, Beijing, China.
  • Velioğlu, R., Yıldız, T., & Yıldırım, S. (2018, September 20-23). Sentiment analysis using learning approaches over emojis for Turkish tweets [Paper presentation]. 3rd International Conference on Computer Science and Application Engineering, Sanya, China.
  • Witten, I. H., Frank, E., Hall, M. A., & Pal, C. J. (2016). The WEKA Workbench. Online Appendix for "Data Mining: Practical Machine Learning Tools and Techniques" (Fourth Edition ed.). Morgan Kaufmann.
  • Yıldırım, E., Çetin, F. S., Eryiğit, G., & Temel, T. (2015). The impact of NLP on Turkish sentiment analysis. Türkiye Bilişim Vakfı Bilgisayar Bilimleri ve Mühendisliği Dergisi, 7(1), 41- 51. https://dergipark.org.tr/tr/pub/tbbmd/issue/22247/238817
  • Yüksel, A. S., & Gülşah, T. F. (2018). Metin madenciliği teknikleri ile sosyal ağlarda bilgi keşfi. Mühendislik Bilimleri ve Tasarım Dergisi, 6(2), 324-333. https://doi.org/https://doi.org/10.21923/jesd.384791