Reklam İçerikli Epostaların Metin Madenciliği Yöntemleri İle Otomatik Tespiti

Elektronik posta (eposta), internet kullanımının yaygınlaşması, basit ve kolay erişilebilir olması sebebiyle son kırk yıl içinde ciddi oranda artarak, günümüzde en yaygın kullanılan iletişim aracı olmuştur. Artan eposta kullanımı birtakım sorunları da beraberinde getirmiştir. Ortaya çıkan önemli sorunlardan biri istenmeyen, reklam içerikli elektronik postalardır. Bunlar, eposta kullanıcılarını rahatsız etmekte, ayrıca gereksiz kaynak israfına yol açmaktadırlar. Reklam içerikli epostalar ile legal veya illegal pek çok ürünün tanıtımı yapılmakta, pek çok kaynaktan farklı amaçla yollanan milyonlarca istenmeyen eposta internet kullanıcılarının posta kutularını doldurmaktadır. Giderek büyük bir sorun haline gelen reklam epostaları, hem internet trafiğini hem de posta sunucularını meşgul etmektedir. İstenmeyen epostaların filtrelemesi üzerine pek çok çalışma yapılmış olmasına rağmen Türkçe içerikli reklam epostalarının filtrelenmesi üzerine yapılan çalışma çok azdır. Bu çalışmalar incelendiğinde ya başarı istenen düzeyde değildir ya da önerilen algoritmalar oldukça karmaşıktır. Bu çalışmada metin madenciliği yöntemleri kullanılarak Türkçe içerikli reklam epostalarının tespiti gerçekleştirilmiştir. Bu amaçla Destek Vektör Makinesi, k En Yakın Komşu ve Naive Bayes sınıflandırma algoritmaları kullanılmıştır. Çalışmada reklam içerikli eposta binary, frekans ve TF-IDF ağırlıklandırma yöntemleri ile vektörel olarak ifade edilmiştir. Yapılan çalışmada Reklam epostalarının tespit edilmesi için Türkçe içerikli 400'ü normal, 400'ü de reklam içerikli olmak üzere 800 eposta kullanılmıştır. Yapılan deneysel çalışmalarda reklam epostaları, kNN ile %96,5 doğrulukta sınıflandırma başarısı elde edilmiştir. Anahtar Kelimeler─ Spam, reklam eposta tespiti, metin madenciliği, sınıflandırma

─ Today, electronic mail (email) is one of the widely used communication tool because it is simple and easily accessible. With increasing number of internet usage, e-mail users have been increased dramatically in the last four decade. By the way, it has brought many problems. Unwanted email issue is one of the biggest problem for internet users. This type of emails often contains malicious codes and consumes redundant internet resources. At the same time, user’s run out of mail quota due to the legal or illegal content. In literature, many unwanted email filter approaches are proposed, however neither them are successfully applicable. In recent years, researchers try to find best, simple and feasible method. For that reason, one of the promising research field emerges to overcome this problem which is called text mining for filtering unwanted email. On the other hand, globalization is another concern for non English based email filtering such as Turkish. In this study, three different classification algorithms (Support Vector Machine, k Nearest Neighbor and, Naive Bayes) were used to determine unwanted Turkish contents. Our dataset contains 800 samples as 400 normal and 400 unwanted emails. In order to achieve these tasks, emails were transformed into binary, frequency and TF-IDF vectors for proper classification. The best accuracy was obtained with k-nearest-neighbor algorithm with respect to the 96.5% accuracy rate.

___

  • [1] M. Sasaki, H.Shinnou, Spam Detection Using Text Clustering International Conference on CYBERWORLDS, Singapore, 2005.
  • [2] J. Clark, I. Koprinska ve J. Poon, A Neural Network Based Approach To Automated E-mail Classification, Web Intelligence IEEE/WIC International Conference, 2003.
  • [3] G. Sakkis, I. Androutsopoulos, V. Karkaletsis, C. Spyropoulos ve P. Stamatopoulos, Stacking Classifiers For Anti-Spam Filtering of E￾mail, Empirical Methods In Natural Language Processing-EMNLP, 2001, pp 44–50.
  • [4] M. Sahami, S. Dumais, D. Heckerman ve E. Horvitz E, A Bayesian Approach To Filtering Junk E-mail, AAAI Technical Report WS-98- 05, 1998.
  • [5] W. Cohen, Learning Rules that Classify E-mail, AAAI Spring Symposium on Machine Learning in Information Access MLIA ’96, 1996
  • [6] Huai-bin Wang, Ying Yu, ve Zhen Liu, SVM Classifier Incorporating Feature Selection Using GA for Spam Detection, Embedded And Ubiquitous Computing – EUC 2005 Lecture Notes in Computer Science, 2005, Volume 3824/2005.
  • [7] L. Kun-Lun, L. Kai, H. Hou-Kuan, T. Sheng-Feng Active Learning With Simplified SVMs for Spam Categorization, Machine Learning and Cybernetics International Conference, 2002.
  • [8] C-C Lai ve M-C Tsai, An Empirical Performance Comparison of Machine Learning Methods for Spam E-mail Categorization, Fourth International Conference on Hybrid Intelligent Systems, Japan, 2004.
  • [9] P. Pantel ve D. Lin, SpamCop: A Spam Classification & Organization Program, AAAI Technical Report WS-98-05, 1998.
  • [10] V. Metsis, I. Androutsopoulos, G. Paliouras, Spam Filtering with Naive Bayes – Which Naive Bayes?”, 2006
  • [11] I. Androutsopoulos, G. Paliouras, V. Karkaletsis, G. Sakkis, C. Spyropoulos ve P. Stamatopoulos, Learning to Filter Spam E-mail: A Comparison of A Naive Bayesian And A Memory-Based Approach, 4th European Conference On Principles And Practice Of Knowledge Discovery İn Databases- PKDD, France, 2000.
  • [12] E. Blanzieri ve A. Bryl, Evaluation of The Highest Probability SVM Nearest Neighbor Classifier With Variable Relative Error Cost, Fourth Conference On E-mail And Anti-Spam, CEAS’2007, 2007.
  • [13] R. McCue, A Comparison of the Accuracy of Support Vector Machine and Naive Bayes Algorithms In Spam Classification, University of California at Santa Cruz, 2009.
  • [14] U.M. Fayyad, G. Piatetsky-Shapiro ve P. Smyth, From Data Mining to Knowledge Discovery: An Overview, AAAI Press/ MIT Press, Cambridge, 1996.
  • [15] A-H. Tan, Text Mining: The State of The Art and The Challenges, PAKDD'99 workshop on Knowledge Discovery from Advanced Databases, 1999.
  • [16] J. Han, M. Kamber, Data Mining: Concepts and Techniques, Second Edition, Morgan Kaufmann Publisher, San Francisco, 2006.
  • [17] E. Alpaydın, Yapay Öğrenme, Boğaziçi Üniversitesi Yayınevi, 2011.
  • [18] G. F. COOPER, A Bayesian Method for the Induction of Probabilistic Networks from Data, Kluwer Academic Publishers, Boston Manufactured in the Netherlands, 1992.
  • [19] D. Wettschereck, W. Aha, T. Mohri, A Review and Comparative Evaluation of Feature Weighting Methods for Lazy Learning Algorithms, Technical Report AIC-95-012 Naval Research Laboratory, Washington-USA, 1995.
  • [20] H. Drucker, D. Wu, V. Vapnik, Support Vector Machines For Spam Categorization, IEEE Transaction On Neural Networks, 10(5): 1048–1054,1999.
  • [21] E. Blanzieri ve A. Bryl, A Survey Of Learning-Based Techniques of E-mail Spam Filtering, Artificial Intelligence Review, 2008.