TWITTER MESAJLARI ÜZERINDE MAKİNE ÖĞRENMESİ YÖNTEMLERİNE DAYALI DUYGU ANALİZİ

Twitter, insanların güncel konular hakkında görüş bildirdikleri önemli bir sosyal mecradır. Twitter kullanıcılarının yaptıkları paylaşım ve görüş bildirimleri, araştırmacı ve uygulayıcılar için önemli bir bilgi kaynağı olarak işlev görmektedir. Twitter verileri, güncel olayları belirleme, yaygın hastalıklar hakkında bilgi toplama, kriz yönetimi gibi birçok farklı alanda kullanılabilmektedir. Duygu analizi, doğal dil işleme, istatistik, bilgisayar bilimleri gibi alanlardan yöntem ve tekniklerin kullanılması ile görüş sahibinin metin içerisinde belirttiği, duygu, görüş, tutum gibi öznel bilgilerin belirlenmesini amaçlayan güncel bir araştırma alanıdır. Makine öğrenmesi sınıflandırıcıları, aralarında duygu analizinin de yer aldığı, metin madenciliği ve web madenciliğine ilişkin birçok alanda başarıyla uygulanmaktadır. Metin sınıflandırıcılarının başarımlarında, ham metin belgelerinin temsil edilmesinde kullanılan öznitelikler büyük önem taşımaktadır. Bu doğrultuda, bu çalışma kapsamında Türkçe Twitter mesajlarının sınıflandırılmasında, üç temel makine öğrenmesi sınıflandırıcısı (Naive Bayes algoritması, destek vektör makineleri, lojistik regresyon) kullanılmıştır. Metin temsilinde, farklı öznitelik temsili (1-gram, 2-gram ve 3-gram) ve bu öznitelik temsilleri ile elde edilen farklı öznitelik setleri değerlendirilmiştir.

SENTIMENT ANALYSIS ON TWITTER MESSAGES BASED ON MACHINE LEARNING METHODS

Twitter is an important social platform, in which people can share their opinions about current issues. The opinions and ideas shared on Twitter can serve as an important source of information for researchers and practitioners. The data available on Twitter can be used to identify current events, to collect information about epidemic diseases and to support crisis management. Sentiment analysis is a recent research direction, which utilizes tools and techniques from several fields, such as natural language processing, statistics and computer science, to identify the subjective information of opinion holders. Machine learning classifiers have been successfully employed in several different application fields of text and web mining, including sentiment analysis. The representation schemes utilized to represent raw text documents are essential for the predictive performance of text classifiers. In this regard, three well-known machine learning classifiers (Naïve Bayes algorithm, support vector machines and logistic regression) on Turkish Twitter messages. In order to represent text documents, different feature representation schemes (1-gram, 2-gram and 3-gram) and their subsets are evaluated.

___

  • Agarwal, A., Xie, B., Vovsha, I., Rambow, O., & Passonneau, R. (2011, June). Sentiment analysis of twitter data. In Proceedings of the workshop on languages in social media (pp. 30-38). Association for Computational Linguistics.
  • Aggarwal, C. C., & Zhai, C. (2012). A survey of text classification algorithms. In Mining text data (pp. 163-222). Springer US.
  • Akgül, E.S., Ertano, C., & Diri, B. (2016). Twitter verileri ile duygu analizi. Pamukkale Üniversitesi Mühendislik Bilimleri Dergisi, 22(2), 106-110.
  • Bermingham, A., & Smeaton, A. F. (2010, October). Classifying sentiment in microblogs: is brevity an advantage?. In Proceedings of the 19th ACM international conference on Information and knowledge management (pp. 1833-1836). ACM.
  • Cheng, Z., Caverlee, J., & Lee, K. (2010, October). You are where you tweet: a content-based approach to geo-locating twitter users. In Proceedings of the 19th ACM international conference on Information and knowledge management (pp. 759-768). ACM.
  • Çoban, Ö., Özyer, B., & Özyer, G. T. (2015, May). Sentiment analysis for Turkish Twitter feeds. In Signal Processing and Communications Applications Conference (SIU), 2015 23th (pp. 2388-2391). IEEE.
  • Go, A., Bhayani, R., & Huang, L. (2009). Twitter sentiment classification using distant supervision. CS224N Project Report, Stanford, 1(12).
  • Han, J., Pei, J., & Kamber, M. (2011). Data mining: concepts and techniques. Elsevier.
  • Hecht, B., Hong, L., Suh, B., & Chi, E. H. (2011, May). Tweets from Justin Bieber's heart: the dynamics of the location field in user profiles. In Proceedings of the SIGCHI conference on human factors in computing systems (pp. 237-246). ACM.
  • Internet: About.twitter.com, http://about.twitter.com/company, 03.05.2017.
  • Kasaba, E., & Yıldıztepe, E. (2016). Destek vektör makinesi yöntemi ile bir duygu çözümlemesi. Akademik Bilişim 2016.
  • Kouloumpis, E., Wilson, T., & Moore, J. D. (2011). Twitter sentiment analysis: The good the bad and the omg!. Icwsm, 11(538-541), 164.
  • Mahmud, J., Nichols, J., & Drews, C. (2014). Home location identification of twitter users. ACM Transactions on Intelligent Systems and Technology (TIST), 5(3), 47.
  • Medhat, W., Hassan, A., & Korashy, H. (2014). Sentiment analysis algorithms and applications: A survey. Ain Shams Engineering Journal, 5(4), 1093-1113.
  • Meral, M., & Diri, B. (2014). Twitter üzerinde duygu analizi. IEEE 22. Sinyal İşleme ve İletişim Uygulamaları Kurultayı, 23-25.
  • Montejo-Ráez, A., Martínez-Cámara, E., Martin-Valdivia, M. T., & Urena-Lopez, L. A. (2012, July). Random walk weighting over sentiwordnet for sentiment polarity detection on twitter. In Proceedings of the 3rd Workshop in Computational Approaches to Subjectivity and Sentiment Analysis (pp. 3-10). Association for Computational Linguistics.
  • Nizam, H., & Akın, S. S. (2014). Sosyal Medyada Makine Öğrenmesi ile Duygu Analizinde Dengeli ve Dengesiz Veri Setlerinin Performanslarının Karşılaştırılması. XIX. Türkiye'de İnternet Konferansı.
  • Onan, A., & Korukoğlu, S. (2016). Makine öğrenmesi yöntemlerinin görüş madenciliğinde kullanılması üzerine bir literatür araştırması. Pamukkale Üniversitesi Mühendislik Bilimleri Dergisi, 22(2), 111-122.
  • Onan, A., & Korukoğlu, S. (2017). A feature selection model based on genetic rank aggregation for text sentiment classification. Journal of Information Science, 43(1), 25-38.
  • Onan, A., Korukoğlu, S., & Bulut, H. (2016). A multiobjective weighted voting ensemble classifier based on differential evolution algorithm for text sentiment classification. Expert Systems with Applications, 62, 1-16.
  • Pak, A., & Paroubek, P. (2010, May). Twitter as a Corpus for Sentiment Analysis and Opinion Mining. In LREc (Vol. 10, No. 2010).
  • Ravi, K., & Ravi, V. (2015). A survey on opinion mining and sentiment analysis: tasks, approaches and applications. Knowledge-Based Systems, 89, 14-46.
  • Shatkay, H., & Craven, M. (2012). Mining the biomedical literature. MIT Press.
  • Turkmen, A. C., & Cemgil, A. T. (2014, April). Political interest and tendency prediction from microblog data. In Signal Processing and Communications Applications Conference (SIU), 2014 22nd (pp. 1327-1330). IEEE.
  • Vapnik, V. (1995). The nature of statistical learning theory. Springer.