Elif Şevval DİNÇER, Duygu KAYAOĞLU, Sımara SAFARLI

Metin Madenciliği ve Duygu Analizi ile Siber Zorbalık Tespiti

Tarihte iletişim metotları teknolojinin gelişmesine bağlı olarak değişim göstermiştir. Günümüzde ise bu değişime bağlı olarak iletişim sosyal medya üzerine kaymıştır. Bu kapsamda bazı olumlu yönler olmakla birlikte bazı olumsuz yönleri de vardır. Bu olumsuz yönlerden en belirgin olanı ise siber zorbalıktır. Siber zorbalık daha çok gerçek hayatta insanların söyleyemediği ve söylediğinde karşısındakinden büyük tepki alacağı şeyleri gizli kimlikler aracılığıyla birilerini incitmeye ve kırmaya yönelik söylemlerdir. Bu projede siber zorbalığın tespitine yönelik çalışmalar yapılmıştır. Bu kapsamda öncelikle Twitter Application Programming Interface (API) kullanarak twitter üzerinden veriler elde edilmiş ve bu verileri düzenleyerek metin madenciliğinde yaygın olarak kullanılan yapay zeka yöntemlerinden Destek Vektör Makinesi (SVM), Lojistik Regresyon (LR), Naive Bayes (NB) yöntemleri ile analiz edilmiştir. Yapılan performans analizlerini değerlendirirken f1-skor, kesinlik, hassasiyet ve doğruluk değerlerinden yararlanılmıştır. Bu değerler göz önüne alınarak doğruluk değeri 87% olan LR hazır olarak elde edilen veri setinde kullanılmaya karar verilmiştir. Ve oluşturulan web sitesi bulut platform hizmetlerinden Amazon Web Services (AWS) kullanılarak gerekli ayarlamalar yapıldıktan sonra bulut platform üzerinde çalıştırılmıştır

Anahtar Kelimeler:

Siber Zorbalık, Destek Vektör Makinesi, Lojistik Regresyon, Naive Bayes

Cyberbullying Detection with Text Mining and Sentiment Analysis

In history, communication methods have changed depending on the development of technology. Today, depending on this change, communication has shifted to social media. In this context, although there are some positive aspects, there are also some negative aspects. The most obvious of these negative aspects is cyberbullying. Cyberbullying is the discourse that aims to hurt and offend someone through secret identities, which people cannot say in real life and will get a great reaction when they say it. In this project, studies were carried out to detect cyberbullying. In this context, first of all, data was obtained from Twitter using the Twitter Application Programming Interface (API), and by editing this data, it was analyzed with Support Vector Machine (SVM), Logistic Regression (LR), Naive Bayes (NB) methods, which are widely used in text mining. While evaluating the performance analysis, f1-score, precision, precision and accuracy values were used. Considering these values, it was decided to use the LR with an accuracy value of 87% in the ready-made data set. And the created website was run on the cloud platform after making the necessary adjustments using Amazon Web Services (AWS), one of the cloud platform services.

Keywords:

Cyberbullying, Support Vector Machine, Logistic Regression, Naive Bayes,

PDF

___

Flannery, D. J., Wester, K. L., Singer, M. I. 2004. Impact of Exposure to Violence in School on Child and Adolescent Mental Health and Behavior. Journal of community psychology, 32(5), 559-573. DOI:10.1002/jcop.20019
Dorukoğlu, B. 2017. Sosyal Medya ve Çocuklar https://dijitalmedyavecocuk.bilgi.edu.tr/2017/04/06/sosyal-medya-ve-cocuklar/. (Erişim Tarihi: 24.03.2022).
The Annual Bullying Survey, Ditch the Label. UK, June, 2017. p. 40. https://www.ditchthelabel.org/research-papers/the-annual-bullying-survey-2017/ (Erişim Tarihi 24.03.2022)
Erdur-Baker, Ö., Kavşut, F. 2007. Akran Zorbalığının Yeni Yüzü: Siber Zorbalık. Eurasian Journal of Educational Research, (27).
Özel, S. A., Saraç, E., Akdemir, S., Aksu, H. 2017. Detection of Cyberbullying on Social Media Messages in Turkish. In 2017 International Conference on Computer Science and Engineering, 5-8 Ekim, Antalya, 366-370.
Çürük, E., Acı, Ç., Eşsiz, E. S. 2018. Performance Analysis of Artificial Neural Network Based Classfiers for Cyberbulling Detection. In 2018 3rd International Conference on Computer Science and Engineering, 20-23 Eylül, Sarajevo, Bosnia and Herzegovina, 1-5.
Bozyiğit, A., Utku, S., Nasiboğlu, E. 2018. Sanal Zorbalık İçeren Sosyal Medya Mesajlarının Tespiti. In 3rd International Conference on Computer Sciences and Engineering, 20-23 Eylül, Sarajevo, Bosnia and Herzegovina, 281-281.
Dadvar, M., Trieschnigg, D., Ordelman, R., de Jong, F. 2013. Improving Cyberbullying Detection with User Context. In European Conference on Information Retrieval. Springer, Berlin, Heidelberg, 693-696.
Hosseinmardi, H., Mattson, S. A., Rafiq, R. I., Han, R., Lv, Q., Mishra, S. 2015. Analyzing Labeled Cyberbullying Incidents on the Instagram Social Network. In International conference on social informatics, 9-12 Aralık, Beijing, China, 49-66.
Yazğılı, E., Baykara, M. 2021. Siber Zorbalık Tespit Yöntemleri Potansiyel Uygulama Alanları ve Zorluklar. Dicle Üniversitesi Mühendislik Fakültesi Mühendislik Dergisi, 12(1), 23-35. DOI:10.24012/dumf.859651
Tuzcu, S. 2020. Çevrimiçi Kullanıcı Yorumlarının Duygu Analizi ile Sınıflandırılması. Eskişehir Türk Dünyası Uygulama ve Araştırma Merkezi Bilişim Dergisi, 1(2), 1-5.
Büyükeke, A., Sökmen, A., Gencer, C. 2020. Metin Madenciliği ve Duygu Analizi Yöntemleri ile Sosyal Medya Verilerinden Rekabetçi Avantaj Elde Etme: Turizm Sektöründe Bir Araştırma. Journal of Tourism and Gastronomy Studies, 8(1), 322-335. DOI:10.21325/jotags.2020.550
Gazioğlu, K., Şeker, Ş. E. 2017. Veri Madenciliği Yöntemleri ile Twitter Üzerinden Girişimcilik Analizi. YBS Ansiklopedi, 4(4).
Çürük, E. 2018. Sosyal Ağlardaki Siber Zorbalığın Yapay Zeka Algoritmaları İle Tespiti Ve Sınıflandırılması. Mersin Üniversitesi, Fen Bilimleri Enstitüsü, Yüksek Lisans Tezi, 99s, Mersin.
Raisi, E., & Huang, B. 2017. Cyberbullying Detection with Weakly Supervised Machine Learning. In Proceedings of the 2017 IEEE/ACM International Conference on Advances in Social Networks Analysis and Mining, 31 Temmuz–3 Ağustos, Sidney, NSW, Australia, 409-416.
Talpur, B. A., O’Sullivan, D. 2020. Cyberbullying Severity Detection: A machine learning approach. PloS one, 15(10). DOI:10.1371/journal.pone.0240924
Al-Garadi, M. A., Hussain, M. R., Khan, N., Murtaza, G., Nweke, H. F., Ali, I., Gani, A. 2019. Predicting Cyberbullying on Social Media in the Big Data Era Using Machine Learning Algorithms: Review of Literature and Open Challenges. IEEE Access, 7, 70701-70718. DOI:10.1109/ACCESS.2019.2918354
Rosa, H., Matos, D., Ribeiro, R., Coheur, L., Carvalho, J. P. 2018. A “Deeper” Look at Detecting Cyberbullying in Social Networks. In 2018 international joint conference on neural networks, 8-13 Temmuz, Rio De Jeneiro, Brazil, 1-8.
Febriana, T., Budiarto, A. 2019. Twitter Dataset for Hate Speech and Cyberbullying Detection in Indonesian Language. In 2019 International Conference on Information Management and Technology, 19-20 Ağustos, Jakarta/Bali, Indonesia, 379-382.
Perera, A., Fernando, P. 2021. Accurate Cyberbullying Detection and Prevention on Social Media. Procedia Computer Science, 181(2021), 605-611. DOI:10.1016/j.procs.2021.01.207
Sehgal, D., Agarwal, A. K. 2016. Sentiment Analysis of Big Data Applications Using Twitter Data with the Help of Hadoop Framework. In 2016 international conference system modeling & advancement in research trends, 25-27 Kasım, Moradabad, India, 251-255.
Tf-idf https://en.wikipedia.org/wiki/Tf%E2%80%93idf (Erişim Tarihi: 27.03.2022)
McCallum, A., Nigam, K. 1998. A Comparison of Event Models for Naive Bayes Text Classification. In AAAI-98 workshop on learning for text categorization (Vol. 752, No. 1, pp. 41-48).
Dilber, B. 2020. Algorithm: Naive Bayes Classifier. https://www.datasciencearth.com/algorithm-naive-bayes-classifier/ (Erişim Tarihi: 27.03.2022).
Muller, K. R., Mika, S., Ratsch, G., Tsuda, K., & Scholkopf, B. (2001). An Introduction to Kernel-Based Learning Algorithms. IEEE transactions on neural networks, 12(2), 181-201. DOI:10.1109/72.914517
Indra, S. T., Wikarsa, L., & Turang, R. 2016. Using Logistic Regression Method to Classify Tweets Into the Selected Topics. In 2016 international conference on advanced computer science and information systems, 15-16 Ekim, Malang, Indonesia, 385-390.
Çelik, G. 2019. Orantısal ODDS Lojistik Regresyon Modeli için Uyum İyiliği Testlerinin Performanslarının Benzetim Çalişması ile Değerlendirilmesi. Hacettepe Üniversitesi, Sağlık Bilimleri Enstitüsü, Yüksek Lisans Tezi, 104s, Ankara.
Wikipedia Precision and recall https://en.m.wikipedia.org/wiki/Precision_and_recall (Erişim Tarihi: 27.03.2022).
Yellowbrick Classification Report https://www.scikit-yb.org/en/latest/api/classifier/classification_report.html (Erişim Tarihi: 15.03.2022).