Naive Bayes Sınıflandırıcısı Kullanılarak YouTube Verileri Üzerinden Çok Dilli Duygu Analizi

Bu çalışma, Naive Bayes sınıflandırma algoritması kullanılarak sosyal medya verileri üzerinden dünya dillerinde yapılan yorum ve paylaşımların anlaşılmasına katkıda bulunmayı amaçlamaktadır. Duygu analizi veya fikir madenciliği, doğal dil işleme konularının bir alt bölümünde yer alır ve sosyal medya üzerinde yer alan verilerin anlamlandırabilmesi sağlanır. Yapay zekâ ve makine öğrenmesi gibi konularla birlikte günümüzde son derece popüler bir alandır. Küresel bir köye dönüşen dünyada, insanlar sosyal medya araçları üzerinden görüş, düşünce ve o konu hakkında memnuniyet durumları gibi pek çok veriyi paylaşmaktadır. Anlamlandırılmayı bekleyen bu veriler üzerinden insanların duygu ve düşünceleri ortaya çıkartabilmek mümkündür. Son dönemlerde Türkçe dilinde bir takım duygu analizi çalışmalarının yapıldığı görülmektedir. Ancak dünyadaki farklı dil ve lehçelerde yapılan yorumlar üzerinden çok dilli duygu analiz çalışması sınırlıdır. Bu çalışmada, Türkçe, İngilizce, Almanca, Fransızca, Arapça, Rusça ve Korece gibi farklı dünya dillerinden YouTube yorum verileri kullanılmıştır. PHP ile elde edilen bu ham veriler üzerinden anlamsız veriler temizlenerek belirli bir kalitede veri seti elde edilmiştir. Bu yorum verilerini İngilizce'ye çevirmek için Google çeviri aracı API'sı kullanılmıştır. Duygular, PHP Niiknow kütüphanesi üzerinden Naive Bayes algoritması kullanılarak pozitif, negatif ve nötr olarak sınıflandırılır. WEKA ile yapılan veri analizinde doğru sınıflandırma oranı %65,56 olarak bulunmuştur. Bu çalışma, 15.082 veri seti ve Google Çeviri aracı tarafından desteklenen 108 dil sayısı ile sınırlıdır.

Multilingual Sentiment Analysis on YouTube Data Using Naive Bayes Classifier

This study aims to contribute to the understanding of comments and shares made in world languages over social media data using the Naive Bayes classification algorithm. Sentiment analysis or opinion mining is a subsection of natural language processing and it is ensured that the data on social media can be interpreted. It is an extremely popular field today, along with topics such as artificial intelligence and machine learning. In the world that has turned into a global village, people share a lot of data such as opinions, thoughts and satisfaction about that subject through social media tools. It is possible to reveal people's feelings and thoughts through these data waiting to be interpreted. It is seen that some sentiment analysis studies have been carried out in Turkish language recently. However, multilingual sentiment analysis work is limited on interpretations made in different languages and dialects in the world. In this study, YouTube comment data from different world languages such as Turkish, English, German, French, Arabic, Russian and Korean have been used. A certain quality data set has been obtained by cleaning the meaningless data over these raw data obtained with PHP. The Google translation tool API has been used to translate this comment data into English. Emotions are classified as positive, negative and neutral using the Naive Bayes algorithm via the PHP Niiknow library. In the data analysis performed with WEKA, the correct classification rate has found to be 65.56%. This study is limited to 15,082 data sets and the number of 108 languages supported by the Google Translate tool.

___

  • [1] O. Sahinaslan ve E. Sahinaslan, "Cross-object information security: A study on new generation encryption", AIP Conference Proceedings, 2086, 030034, 2019, doi:10.1063/1.5095119.
  • [2] O. Sahinaslan, E. Sahinaslan ve E. Gunes, "Review of the contributions of contactless payment technologies in the COVID19 pandemic process", AIP Conference Proceedings, 2334, 070002, 2021, doi:10.1063/5.0042225.
  • [3] E. Sahinaslan, "On the internet of things: Security, threat and control", AIP Conference Proceedings, 2086, 030035, 2019.
  • [4] N. Tuna , A. Sebatlı Sağlam ve F. Çavdur , "Covid-19 Salgını ile İlgili Paylaşımlar Üzerinde Veri Analizi", Bilişim Teknolojileri Dergisi, 15(1), 13-23, 2022, doi:10.17671/gazibtd.928990.
  • [5] İnternet: Most popular social networks worldwide as of July 2021, ranked by number of active users, https://www.statista.com/statistics/272014/global-socialnetworks-ranked-by-number-of-users/, 12.08.2021.
  • [6] İ. Erkan, "Youtube Kullanma Amacının Youtube’da Yapılan Marka İşbirliklerine Yönelik Tutuma Etkisi", Cumhuriyet Üniversitesi İktisadi ve İdari Bilimler Dergisi, 128-145, 2020.
  • [7] W. Medhat, A. Hassan ve . H. Korashy, "Sentiment Analysis Algorithms And Applications:A Survey",Ain Shams Engineering Journal, 1093-1113, 2014.
  • [8] İnternet: Makine Öğrenmesi Nedir, https://www.ibm.com/trtr/cloud/learn/machine-learning., IBM,20.08.2021.
  • [9] D. Jurafsky, J. H. Martin, "Naive Bayes and Sentiment Classification", Speech and Language Processing, 2021.
  • [10] A. Severyn, A. Moschitti, O. Uryupina, B. Plank ve K. Filippova, "Multi-lingual Opinion Mining on YouTube", Information Processing and Management, 46-60, 2016.
  • [11] K. Arun ve A. Srinagesh, "Multi-Lingual Twitter Sentiment Analysis Using Machine Learning", International Journal of Electrical and Computer Engineering, 5992-6000, 2020.
  • [12] M. M. Agüero-Torales, J. I. Abreu Salas ve A. G. López-Herrera, "Deep Learning And Multilingual Sentiment Analysis On Social Media", Applied Soft Computing, 2021.
  • [13] A. Hogenboom, B. Heerschop, F. Frasincar, U. Kaymak ve F. De Jong, "Multi-Lingual Support For Lexicon-Based Sentiment Analysis Guided", Decision Support Systems, 43-53, 2014.
  • [14] T. Ma Ma, K. Yamamori, A. Thida, "A Comparative Approach to Naive Bayes Classifier and Support Vector Machine for Email Spam Classification", 2020 IEEE 9th Global Conference on Consumer Electronics (GCCE), 324-326, 2020.
  • [15] K. Asad Ullah Rafiq, K. Madiha ve M. B. Khan, "Naïve Multilabel Classification Of Youtube Comments Using", Procedia Computer Science, 2016.
  • [16] C. R. Stephens, H. F. Huerta ve A. R. Linares, "Why The Naive Bayes Approximation is Not As Naive",2015 6th International Conference on Information, Intelligence, Systems and Applications (IISA), 2015.
  • [17] I. Blekanov, M. Kukarkin, A. Maksimov, S. Bodrunova, "Sentiment Analysis for Ad Hoc Discussions Using Multilingual Knowledge-Based Approach", Proceedings of the 3rd International Conference on Applications in Information Technology, 2018.
  • [18] M. C. Yılmaz ve Z. Orman, "LSTM Derin Öğrenme Yaklaşımı ile Covid-19 Pandemi Sürecinde Twitter Verilerinden Duygu Analizi", Acta Infologica, https://doi.org/10.26650/acin.947747.
  • [19] İ. Sel ve D. Hanbay, "Ön Eğitimli Dil Modelleri Kullanarak Türkçe Tweetlerden Cinsiyet Tespiti", Fırat Üniversitesi Müh. Bil. Dergisi, 33, 2, 675-684, 20211.
  • [20] E. Karamehmetoğlu, S. Ersöz ve O. Karamehmetoğlu, "Sosyal Ağ Tabanlı Verilerden Faydalanarak Korona Virüs Konulu Duygu Analiz Çalışması", Ergonomi, 4(1), 47 - 54, 2021.
  • [21] J. Samuel, G. G. M. Nawaz Ali, M. Rahman, E. Esawi ve Y. Samuel, "COVID-19 Public Sentiment Insights and Machine Learning for Tweets Classification", Information, cilt 11(6), 314, 2020.
  • [22] İnternet: WEKA Data Mining, https://www.cs.waikato.ac.nz/~ml/WEKA, 08.09.2021.
  • [23] İnternet: YouTube Data API Overview, https://developers.google.com/youtube/v3/getting-started, 24.06.2021.
  • [24] İnternet, MySQL Database, https://www.mysql.com/, 24.09.2021.
  • [25] İnternet: Microsoft Veri Platformu, https://www.microsoft.com/tr-tr/sql-server/, MsSQL, 24.09.2021
  • [26] İnternet: Translation APIs & Reference, https://cloud.google.com/translate/docs/apis, 18.06.2021.
  • [27] Internet: Niiknow-Naive Bayes, https://github.com/niiknow/bayes/blob/e754145d52900fdf4c1e6 20cc561132954721cf9/src/Bayes.php, 19.06.2021.
  • [28] S. Alqaraleh , "Efficient Turkish Text Classification Approach for Crisis Management Systems", Gazi University Journal of Science, 34(3), 718-731, 2021, doi:10.35378/gujs.715296..
  • [29] Ö. Tonkal, H. Polat, “Traffic Classification and Comparative Analysis with Machine Learning Algorithms in Software Defined Networks”, Gazi University Journal of Science Part C: Design and Technology , 9 (1) , 71-83 . doi: 10.29109/gujsc.869418.
  • [30] S. A. Arpacı ve O. Kalıpsız, "A Comparison of Different Naive Bayes Technıques for Software Defect Classaification", Omer Halisdemir University Journal of Engineering Sciences, c.7(1), 1- 13, 2018. doi: 10.28948/ngumuh.383709.
  • [31] H. Deng, Y. Sun, Y. Chang ve J. Han, 2014, Probabilistic models for classification. in CC Aggarwal (ed.), Data Classification: Algorithms and Applications. CRC Press, 65-86.2014, doi:10.1201/b17320.
  • [32] Frank, E., Bouckaert, R. R., “Naive bayes for text classification with unbalanced classes”, In European Conference on Principles of Data Mining and Knowledge Discovery, Springer, Berlin, Heidelberg, 503-510, (2006).
  • [33] E. Çelik, D. Dal ve T. Aydin , "Duygu Analizi İçin Veri Madenciliği Sınıflandırma Algoritmalarının Karşılaştırılması", Avrupa Bilim ve Teknoloji Dergisi, 27, 880-889, 2021, doi:10.31590/ejosat.905259.
  • [34] G. Harman , "Destek Vektör Makineleri ve Naive Bayes Sınıflandırma Algoritmalarını Kullanarak Diabetes Mellitus Tahmini", Avrupa Bilim ve Teknoloji Dergisi, 32, 7-13, 2021, doi:10.31590/ejosat.1041186.
Bilişim Teknolojileri Dergisi-Cover
  • ISSN: 1307-9697
  • Yayın Aralığı: Yılda 4 Sayı
  • Başlangıç: 2008
  • Yayıncı: Gazi Üniversitesi Bilişim Enstitüsü