Spam Tespitinde Word2Vec ve TF-IDF Yöntemlerinin Karşılaştırılması ve Başarı Oranının Artırılması Üzerine Bir Çalışma

Elektronik posta, internet üzerinden gönderilen bir tür dijital mektuptur. Elektronik postalar aracılığı ile belge, resim, video, müzik gibi her türlü dosya gönderilip alınabilmektedir. Düşük maliyeti nedeniyle sıklıkla tercih edilmektedir. Elektronik postalar zaman ve para tasarrufu sağladığı için etkili bir iletişim yoludur. Düşük maliyetinden ve kullanımının kolaylığından dolayı reklam yapmak isteyenler tarafından etkin bir şekilde kullanılmaktadır. Bunun yanında siber saldırganlar da kurbanlarına bu tür elektronik postalar göndererek onlara zarar verebilmektedirler. Bu durumların önüne geçebilmek için, günümüzde makine öğrenmesi algoritmalarıyla spam elektronik postaları sınıflayan modeller tasarlanmaktadır. Bu çalışmanın amacı da spam tespiti konusunda literatürde sıklıkla yer alan Word2Vec ve Term Frequency – Inverse Document Frequency(TF-IDF) yöntemlerinin karşılaştırılmasını Türkçe bir veri seti üzerinde yapmak ve daha önce bahsedilen veri seti üzerinde yapılan çalışmalara göre başarı oranını artırmaktır. Bu amaç doğrultusunda, daha önce yapılan çalışmalar incelendiğinde, çalışmaların genellikle İngilizce veri setleri üzerinde yoğunlaştığı görülmektedir. Bu konudaki eksiği gidermek adına, Türkçe veri seti üzerinde yapılan bu çalışmada bahsedilen özellik çıkarma yöntemlerinin karşılaştırılması yapılarak iki farklı model oluşturulmuştur. Bu modellerde farklı sınıflayıcılar da kullanılarak en etkili yöntemin öne çıkarılması hedeflenmiştir.

A Study on Comparing Word2Vec and TF-IDF Methods and Increasing Success Rate for Spam Detection

Electronic mail is a kind of digital letter sent over the Internet. A lot of documents such as, images, videos, and music can be transferred via electronic mail. E-mails are often preferred due to their cheapness and easy usage. E-mail is an effective way of communication as it saves time and money. E-mails are used due to its easy usage and low cost by the people who want to advertise their products. Also, hackers can hurt their victims by sending e-mails to them. Nowadays, to prevent these situations, classifiers of the spam electronic mails with some machine algorithms are designed. The aim of this study is to compare Word2Vec and Term Frequency – Inverse Document Frequency (TF-IDF) methods which are frequently included in the literature on Spam Detection, on a Turkish data set and to increase the success rate over previous studies on the related data set. For this purpose, when the previous studies are examined, it is seen that studies generally focus on English data sets. In order to eliminate the lack in this matter, by comparing the mentioned feature extraction methods, two different models are created on a Turkish data set in this study. It is aimed to highlight the most effective method by using different classifiers in these models.

___

  • [1] Akçetin, E. & Çelik, U. (2015). İstenmeyen Elektronik Posta (Spam) Tespitinde Karar Ağacı Algoritmalarının Performans Kıyaslaması. İnternet Uygulamaları ve Yönetimi Dergisi, 5(2), 43-56.
  • [2] Sharaff A., Nagwani N. K. & Dhadse A. (2016). Comparative Study of Classification Algorithms for Spam Email Detection. Emerging Research in Computing, Information, Communication and Applications. Springer, New Delhi, India.
  • [3] Bozkır, A. S., Şahin, E., Aydos, M., Akçapınar Sezer, E. & Orhan, F. (2017). Spam E-Mail ClassificationbyUtilizing N-Gram Fatures of HyperlinkTexts. The 11th IEEE International Conference AICT2017. 20-22 September, Moscow, Russia, 1-5.
  • [4] Nazlı, N. (2018). Analysis of Machine Learning-Based Spam Fİlter Techniques. Yüksek Lisans Tezi, Çankaya Üniversitesi, Fen Bilimleri Enstitüsü, Ankara.
  • [5] Shajideen, N. M. & Bindu, V. (2018). Spam Filtering: A Comparison Between Different Machine Learning Classifiers. Proceedings of the 2nd International conference on Electronics, Communication and Aerospace Technology (ICECA 2018). 29-31 March, Coimbatore, India ,1919-1922.
  • [6] Özdemir, C., Kaya, Y. & Minaz, M. R. (2018). Motif Örüntüler Yöntemi ile Spam E-Postaların Filtrelenmesi. Uluslararası Mühendislik ve Teknoloji Sempozyumu (IETS’18). 3-5 Mayıs, Batman, 755.
  • [7] Dada, E.G. & Joseph, S.B. (2018). Random Forests Machine Learning Technique for Email Spam Filtering. University of Maiduguri Seminar Series,9(1).
  • [8] Aydoğan, M. & Karcı, A. (2018). Apache Spark ile Naïve Bayes Yöntemi Kullanarak Spam Mail Tespiti. International Conference on Artificial Intelligence and Data Processing (IDAP 2018). 28-30 Eylül, Malatya, 1-6.
  • [9] Dewangan, D. K. & Gupta, P. (2018). Email Spam Classification Using Support Vector Machine Algorithm. International Journal for Research in Applied Science & Engineering Technology (IJRASET), 6(6), 6-10.
  • [10] Gupta, A., Mohan, K. M. & Shidnal, S. (2018). Spam Filter using Naïve Bayesian Technique. International Journal of Computational Engineering Research (IJCER), 8(6), 26-32.
  • [11] Popovac, M., Karanovic, M., Sladojevic, S., Arsenovic, M. & Anderla, A. (2018). Convolutional Neural Network Based SMS Spam Detection. 26th Telecommunications forum TELFOR 2018. Belgrade, Serbia.
  • [12] Deniz, E., Erbay, H. & Coşar M. (2019). Türkçe E-Postaların Doc2Vec ile Sınıflandırılması. 1st International Informatics and Software Engineering Conference (UBMYK). 6-7 Kasım, Ankara,1-4.
  • [13] Krause, T., Uetz, R. & Kretschmann, T. (2019). Recognizing Email Spam from Meta Data Only. IEEE Conference on Communications and Network Security 2019. 10-12 June, Washington DC, USA, 178-186.
  • [14] Kumar, N., Sonowal, S. & Nishant. (2020). Email Spam Detection Using Machine Learn Algorithms. Proceedings of the 2nd International Conference on Inventive Research in Computing Applications (ICIRCA 2020). 15-17 July, Coimbatore, India, 108-113.
  • [15] Eryılmaz, E. E., Şahin, D. Ö. & Kılıç, E. (2020). Türkçe Yaramaz E-postaların Farklı Öznitelik Seçim Yöntemleri Kullanılarak Makine Öğrenmesi Algoritmaları İle Tespit Edilmesi. Türkiye Bilişim Vakfı Bilgisayar Bilimleri ve Mühendisliği Dergisi, 13(2), 77.
  • [16] Eryılmaz, E. E. & Kılıç, E. (2020). İstenmeyen Epostaların Tespiti için Kullanılan Yöntemlerin İncelenmesi. Dicle Üniversitesi Mühendislik Fakültesi Mühendislik Dergisi, 11 (3) , 977-987.
  • [17] Ahi, Ş. & Soğukpınar, İ. (2020). Derin Öğrenme Modelleri ile Kimlik Avı E-posta Tespiti. Türkiye Bilişim Vakfı Bilgisayar Bilimleri ve Mühendisliği Dergisi, 13 (2), 17-31.
  • [18] Yağanoğlu, M. & Irmak, E. (2021). Separation of Incoming E-Mails Through Artificial Intelligence Techniques. Avrupa Bilim ve Teknoloji Dergisi, (21), 690-696.
  • [19] Özdemir, C. (2019).Turkish Spam Dataset. Kaggle. https://www.kaggle.com/cuneytdemir/turkish-spam- dataset. (18.12.2020)
  • [20] Çilden, E. (2006) Stemming Turkish Words Using Snowball. http://snowball.tartarus.org/algorithms/turkish/stemmer.html, (11.04.2021).
  • [21] Yüksel, M. E., Turna, Ö. C. & Ertürk, M. A. (2009). Bilgiye Erişim Sistemlerinde Veri Arama ve Eşleştirme. XII. Akademik Bilişim Konferansı Bildirileri Kitapçığı. 10-12 Şubat, Muğla.
  • [22] Küçüksille, E. U. & Ateş, N. (2013). Destek Vektör Makineleri ile Yaramaz Elektronik Postaların Filtrelenmesi. Türkiye Bilişim Vakfı Bilgisayar Bilimleri ve Mühendisliği Dergisi, 6(1), 81-87.
  • [23] Agarwal, K. & Kumar, T. (2018). Email Spam Detection using integrated approach of Naïve Bayes and Particle Swarm Optimization. Proceedings of the Second International Conference on Intelligent Computing and Control Systems (ICICCS 2018). 14-15 June, Madurai, India, 685-690.
  • [24] Anihta, P. U., Guru Rao, C.R. & Babu, S. (2017). Email Spam Classification using Neighbor Probablity based Naive Bayes Algorithm. 2017 7th International Conference on Communication Systems and Network Technologies (CSNT). 11-13 November, Nagpur, India, 350-355.
  • [25] Annareddy, S. & Tammina, S. (2019). A Comparative Study of Deep Learning Methods for Spam Detection. Proceedings of the Third International Conference on I-SMAC (IoT in Social, Mobile, AnalyticsandCloud) (I-SMAC 2019). 12-14 December, Palladam, India, 66-72.
  • [26] Dewangan, D. K. & Gupta, P. (2018). Email Spam Classification Using Support Vector Machine Algorithm. International Journal for Research in Applied Science & Engineering Technology (IJRASET), 6(6), 6-10.
  • [27] Harisinghaney, A., Dixit, A., Gupta, S. & Arora A. (2014). Text and Image Based Spam Email Classification using KNN, Naive Bayes and Reverse DBSCAN Algorithm. 2014 International Conference on Reliability, Optimization and Information Technology - ICROIT 2014. 6-8 February, India, 153-155.
  • [28] Huang, T. (2019). A CNN Model for SMS Spam Detection. 2019 4th International Conference on Mechanical, Control and Computer Engineering (ICMCCE). 25-27 October, Hohhot, China, 851.
  • [29] Liu, G. & Yang, F. (2012). The Application of Data Mining in the Classification of Spam Messages. 2012 International Conference on Computer Scienceand Information Processing (CSIP). 24-26 August, Shaanxi, China, 1315-1317.
  • [30] Octaviani, N. L., Rachmawanto, E. K., Setiadi, I. M. & Sari, C. A. (2020). Comparison of Multinomial Naive Bayes Classifier, Support Vector Machine, and Recurrent Neural Network to Classify Email Spams. 2020 International Seminar on Application for Technology of Information and Communication (iSemantic). 19-20 September, Semerang, Indonesia, 17-21.
  • [31] Oskuie, M. D. & Razavi, S. N. (2014). A Survey of Web Spam Detection Techniques. International Journal of Computer Applications Technology and Research, 3(3), 180-185.
  • [32] Örnek, Ö. (2019). Orange 3 İle Türkçe ve İngilizce SMS Mesajlarında Spam Tespiti. ESTUDAM Bilişim Dergisi, 1(1), 1-4.
  • [33] Shrivastava, A. & Dubey, R. (2018). Classification of Spam Mail Using Different Machine Learning Algorithms. 2018 International Conference on Advanced Computation and Telecommunication (ICACAT). 28-29 December, Bhopal, India, 1-10.