Futbol Müsabakaları ile İlgili Tweetlerin Anlık Duygu Analizi

Sosyal medya, insanların kendilerini ifade edebildikleri ortamlar olarak çok kullanılmaktadır. Bu sebeple Facebook, Instagram ve Twitter gibi sosyal medya ortamlarının kullanıcı sayıları giderek artmaktadır. Sosyal medya kullanıcılarının paylaşımları analiz edilerek ilgili konu hakkındaki duyguları ortaya çıkarılabilmektedir. Sosyal medya platformu olan Twitter da politikacılar, spor kulüpleri, şirketler, aktivistler kısaca neredeyse tüm bireyler ve kurumlar için kendilerini ifade etme ortamı haline gelmiştir. Hemen hemen tüm futbol takımlarının taraftarları için haberlerini paylaştıkları Twitter hesapları vardır. Kullanıcılar Twitter’da futbol müsabakası esnasında ve sonrasında da mesaj paylaşabilmektedir. Bu çalışmanın konusu, Twitter ortamında futbol takımları ve futbol müsabakaları hakkında Twitter kullanıcılarının paylaşımlarının duygu analizi ile ilgilidir. Bu çalışmada Twitter’da futbol müsabakaları hakkında paylaşılan 30.000 Türkçe tweet ile anlık duygu analizi yapılmıştır. Eğitim setlerindeki sınıflandırma hatalarını en aza indirmek için toplanmış olan tweetler el ile etiketlendikten sonra yine aynı kişi tarafından farklı zamanlarda beşer defa kontrol edilmiştir. Bu etiketlemede olumlu, olumsuz, tarafsız ve alakasız olarak 4 duygu sınıfı kullanılmıştır. Bu etiketlenmiş tweetlerden farklı özniteliklere sahip 12 farklı eğitim seti oluşturulmuştur. Oluşturulan bu eğitim setleri kullanılarak farklı sınıflama algoritmaları ile modeller çıkarılmış ve bu modellerin çapraz doğrulama ile sınıflama başarımları bulunmuştur. Farklı özniteliklere sahip olarak oluşturduğumuz eğitim setleri, belirlenen sınıflandırma algoritmaları ile test edilmiş ve algoritmalarının sınıflandırma doğrulukları; Naive Bayes algoritması için %84.30, K-En Yakın Komşu (KNN- K-Nearest Neighborhood) algoritması için %87.73, C4.5 algoritması için %89.60, Destek Vektör Makinesi (SVM- Support Vector Machine) algoritması için %92.30 olarak bulunmuştur. Çalışmada zemberek kütüphanesi kullanılarak Türkçe tweetlerde yaklaşık 48.000 kelimenin düzeltmesi, sınıflandırma başarımına olumlu katkı sağlamıştır. Ayrıca futbol müsabakaları hakkında paylaşılan tweetleri anlık olarak toplayıp, oluşturulan modeller ile bu tweetlerin sınıfını tespit ederek sınıflara ait sonuçları gerçek zamanlı görselleştiren bir uygulama geliştirilmiştir.

Real Time Sentiment Analysis of Tweets about Football Matches

Social media is frequently used as a platform where people can express themselves. For this reason, the number of users of social media platforms such as Facebook, Instagram and Twitter has been gradually increasing. By analyzing the shares of social media users, their feelings about the relevant subject can be revealed. Twitter, as a social media platform, has become a medium for politicians, sports clubs, companies, activists, briefly for almost all individuals and institutions, to express themselves. Almost all football teams have Twitter accounts where they share their news with their fans. Users can share messages on Twitter during and after the football matches. This study is about the sentiment analysis of Twitter users' posts about football teams and football matches on Twitter. Within the scope of this study, a real-time sentiment analysis was made by using 30,000 Turkish tweets shared about football matches on Twitter. In order to minimize the classification errors in the training sets, the collected tweets were manually tagged and then checked five times by the same annotator at different times. In the labeling process, 4 sentiment classes were used as positive, negative, neutral, and irrelevant. 12 different training sets with different attributes were created from these tagged tweets. Using these training sets, models were created with different classification algorithms and classification performance of these models with cross-validation was evaluated. The training sets that we have created with different attributes have been tested with the specified classification algorithms and the classification accuracies of the algorithms are 84.30% for Naive Bayes, 87.73% for K-Nearest Neighborhood (KNN- K-Nearest Neighborhood), 89.60% for C4.5, and 92.30% Support Vector Machine (SVM- Support Vector Machine. In this study, the correction of approximately 48,000 words in Turkish tweets by using the Zemberek library contributed positively to the classification performance. In addition, an application was developed that collects the tweets shared about football matches in real-time and it determines the class of these tweets with the models created and visualizes the class results.

___

  • [1] “What Happens in an Internet Minute in 2019?” [Çevrimiçi]. Available: https://www.visualcapitalist.com/what-happens-in-aninternet-minute-in-2019/. [Erişildi: 2020 09 07].
  • [2] LiveStats, I. (2018). Twitter usage statistics - Internet live stats. www.internetlivestats.com/twitter-statistics/. [Erişildi: 2019 09 08].
  • [3] Omnicore (2018). Twitter by the numbers: Stats, demographics & fun facts. https://www.omnicoreagency.com/twitter-statistics/. [Erişildi: 2019 09 09].
  • [4] Khritantsev, M., Shehadeh, M., A Thesis in the Field of Finance For the Degree of Master of Science in Finance Lund University, 2018.
  • [5] Sentiment Analysis. [Çevrimiçi]. Available: https://www.lexalytics.com/technology/sentiment [Erişildi: 2020 06 12].
  • [6] Evangelos Kalampokis, Efthimios Tambouris, Konstantinos. Tarabanis, Understanding the predictive power of social media, Internet Res. 23 (5)(2013) 544–559.
  • [7] A.S. Abrahams, J. Jiao, W. Fan, G.A. Wang, Z. Zhang, What's buzzing in theblizzard of buzz? Automotive component isolation in social media postings, Decis. Support Syst. 55 (4) (2013) 871–882.
  • [8] Augusto José Waszczynskyj Antunes das Neves, Patricia Zeni Marchiori, Qualidade percebida em produtos e serviços em eventos: técnicas eferramentas para análise de conteúdo Twitter, Turismo Desenvolvimento 2(21/22) (2014) 173–182.
  • [9] Sitaram Asur and Bernardo A. Huberman. Predicting the future with socialmedia. IEEE/WIC/ACM International Conference on Web Intelligence and In-telligent Agent Technology, 2010.
  • [10] Cynthia Chew and Gunther Eysenbach. Pandemics in the age of twitter: Contentanalysis of tweets during the 2009 h1n1 outbreak. PLoS ONE, 5(11), November2011.
  • [11] Takeshi Sakaki, Makoto Okazaki, and Yutaka Matsuo. Earthquake shakes twitterusers: Real-time event detection by social sensors.World Wide Web Conference(WWW), 2010.
  • [12] Ficamos, P., Liu, Y., A Topic based Approach for Sentiment Analysis on Twitter Data, (IJACSA) International Journal of Advanced Computer Science and Applications, Vol. 7, No. 12, pp.201-205, 2016.
  • [13] Kethavath, S., Classification of Sentiment Analysis on Tweets using Machine Learning Techniques, Department of Computer Science and Engineering National Institute of Technology Rourkela Rourkela, India, 2015.
  • [14] Liu, I. L. B. , Cheung, C. M. K., Lee, M. K. O., “Understanding Twitter Usage: What drive people Continue to Tweet,” in Proceedings of the Pacific Asia Conference on Information Systems, pp. 928–939, 2010.
  • [15] Bollen, J., Mao, H., Zeng, X.-J. (2011). Twitter mood predicts the stock market. Journal of computational science, 2(1), 1–8.
  • [16] O’Connor, B., Balasubramanyan, R., Routledge, B. R., Smith, N. A. (2010). From Tweets to Polls: Linking Text Sentiment to Public Opinion Time Series. In Proceedings of the Fourth International AAAI Conference on Weblogs and Social Media, pp. 122–129. AAAI Press.
  • [17] Mozetič, I., Grčar, H., Smailović, J., Multilingual Twitter Sentiment Classification: The Role of Human Annotators, 2016. (https://journals.plos.org/plosone/article?id=10.1371/journal.pone.0155036)
  • [18] Liu, B., Sentiment analysis and opinion mining. Synthesis Lectures on Human Language Technologies., Vol. 5, No. 1, Pages 1- 167, 2012 (https://doi.org/10.2200/S00416ED1V01Y201204HLT016).
  • [19] Liu, B., Sentiment Analysis: Mining Opinions, Sentiments, and Emotions. Cambridge University Press, 2015.
  • [20] Y. Yu and X. Wang, “World cup 2014 in the twitter world: A big data analysisof sentiments in us sports fans tweets,”Computers in Human Behavior, vol. 48,pp. 392–400, 2015
  • [21] T. Parlar, Feature Selection for Sentiment Analysisin Turkish Texts, Published Ph.D.Thesis, Adana, 2016.
  • [22] Akın, A. A. ve Akın, M. D. (2007). Zemberek, an open source nlp framework for turkish languages. Structure, 10:1–5.
  • [23] B. A. Kaplan, Sentiment Analysison Turkish Twitter Messages by Using Data Mining, Published Master's Thesis, İstanbul,2016.
  • [24] Nvidia. (2020). [Çevrimiçi]. Available: https://blogs.nvidia.com/blog/2016/07/29/whats-difference-artificial-intelligencemachine-learning-deep-learning-ai/. [Erişildi: 2020 08 17].
  • [25] Wu, X., Kumar, V., Quinlan, J. R., Ghosh, J., Yang, Q., Motoda, H., Steinberg, D. (2007). Top 10 algorithms in data mining. Springer-Verlag.
  • [26] Waikato, D. o. (2020). Weka 3: Data Mining Software in Java. [Çevrimiçi]. Available: http://www.cs.waikato.ac.nz/~ml/weka/. [Erişildi: 2020 07 27].