Yeniden Örnekleme Teknikleri Kullanarak SMS Verisi Üzerinde Metin Sınıflandırma Çalışması

SMS, mobil cihaz kullanıcılarının iletişimlerinde kullandıkları önemli araçlardan biridir. Günümüzde kullanıcıların almış olduğu çoğu bilginin kaynağı cep telefonlarıdır. Teknolojideki gelişmelerle birlikte cep telefonlarına gelen mesajların içeriği geniş bir alana yayılmakla beraber istenilen kaynaktan gelip gelmediği önemli bir konu teşkil etmektedir. Metin sınıflandırma çalışmalarında Türkçe çalışmaların azlığı dikkat çekicidir. Bu çalışmada çok sayıda kullanıcının telefonlarına gelen mesajlar incelenmiş ve veri ön işleme gibi çeşitli iyileştirme aşamalarından geçirilerek bir araya getirilmiştir. Bu aşamalardan sonra mevcut mesaj içerikleri makine öğrenmesi teknikleri aracılığıyla metin sınıflandırma uygulanarak incelenmiştir. Elde edilen veriler normal, reklam ve spam olacak şekilde 3 farklı kategoriye ayrılmıştır. Ayrıca dengesiz olan veri setini dengeli hale getirmek için Synthetic Minority Oversampling Technique (SMOTE), Condensed Nearest Neighbour (CNN), Undersampling Technique ve Random Undersampling Technique (RUS) uygulanarak sınıflandırma performansları incelenmiştir. 4203 adet SMS’in yer aldığı veri seti üzerinde yapılan çalışma sonucunda en iyi sonucu veren (OACC değerine göre) sınıflandırmalar SMOTE’ta yaklaşık %80.1 ile Lojistik Regresyon, CNN’de yaklaşık %62.1 ile XGBoost ve RUS’ta yaklaşık %73.8 ile Lojistik Regresyon olmuştur.

___

  • [1] Tantuğ, A. C. 2016. Metin Sınıflandırma. Türkiye Bilişim Vakfı Bilgisayar Bilimleri ve Mühendisliği Dergisi, 5(2).
  • [2] Chaffar, S., Inkpen, D. 2011. Using a heterogeneous dataset for emotion analysis in text. Butz C., Lingras P. (eds) Advances in Artificial Intelligence. AI 2011. Lecture Notes in Computer Science, vol 6657. Springer, Berlin, Heidelberg; pp. 62-71.
  • [3] Tüfekci, P., Uzun, E., & Sevinç, B. 2012. Text classification of web based news articles by using Turkish grammatical features. In 2012 20th Signal Processing and Communications Applications Conference (SIU) (pp. 1-4). IEEE.
  • [4] Amasyalı, M. F., & Yıldırım, T. 2004. Otomatik haber metinleri sınıflandırma. SIU 2004, 224-226.
  • [5] Amasyalı, M. F., & Diri, B. 2006. Automatic Turkish text categorization in terms of author, genre and gender. In International Conference on Application of Natural Language to Information Systems (pp. 221-226). Springer, Berlin, Heidelberg.
  • [6] Yildiz, H. K., Gençtav, M., Usta, N., Diri, B., & Amasyali, M. F. 2007. A new feature extraction method for text classification. In 2007 IEEE 15th Signal Processing and Communications Applications (pp. 1-4). IEEE.
  • [7] Güven, A., Bozkurt, Ö. Ö., & Kalıpsız, O. 2006. Advanced Information Extraction with n-gram based LSI. In Proceedings of World Academy of Science, Engineering and Technology (Vol. 17, pp. 13-18).
  • [8] Güran, A., Akyokuş, S., Bayazıt, N. G., & Gürbüz, M. Z. 2009. Turkish text categorization using n-gram words. In Proceedings of the International Symposium on Innovations in Intelligent Systems and Applications (INISTA 2009) (pp. 369-373).
  • [9] Vapnik, V. The nature of statistical learning theory. Springer, 2nd edition, 1995; New York, USA. pp: 32-40.
  • [10] Müller, K.R., Smola, A., Ratsch, G., Sch¨olkopf, B., Kohlmorgen, J., Vapnik, V. 1997. Predicting time series with support vector machines. International Conference on Artificial Neural Networks 1997; Springer, Berlin, Heidelberg, pp. 999-1004.
  • [11] Schlögl, A., Lee, F., Bischof, H., Pfurtscheller, G. 2005. Characterization of four-class motor imagery EEG data for the BCI- competition. Journal of neural engineering 2005; 2(4): L14. doi: 10.1088/1741-2560/2/4/L02
  • [12] Schwarm, S.E., Ostendorf, M. 2015. Reading level assessment using support vector machines and statistical language models. Proceedings of the 43rd Annual Meeting on Association for Computational Linguistics 2015; Association for Computational Linguistics, pp. 523-530. doi: 10.3115/1219840.1219905
  • [13] Friedl, M.A., Brodley, C.E. 1997. Decision tree classification of land cover from remotely sensed data. Remote sensing of environment 1997; 61(3): pp. 399-409. doi: 10.1016/S0034-4257(97)00049-7
  • [14] Petkovic, D., Altman, R., Wong, M., Vigil, A. 2018. Improving the explainability of Random Forest classifier–user centered approach. Pacific Symposium on Biocomputing. Pacific Symposium on Biocomputing 2018; Vol. 23. NIH Public Access. pp. 204-215. doi: 10.1142/9789813235533 0019
  • [15] Piras, P., Sheridan, R., Sherer, E.C., Schafer, W., Welch, C.J., Roussel, C. 2018. Modeling and predicting chiral stationary phase enantioselectivity: An efficient random forest classifier using an optimally balanced training dataset and an aggregation strategy. Journal of separation science; 41(6): pp. 1365-1375. doi: 10.1002/jssc.201701334
  • [16] Hu, J., Min, J. 2018 Automated detection of driver fatigue based on EEG signals using gradient boosting decision tree model. Cognitive Neurodynamics; pp. 431-440. doi: 10.1007/s11571-018-9485-1
  • [17] Yang, L., Zhang, X., Liang, S., Yao, Y., Jia, K., Jia, A. 2018. Estimating Surface Downward Shortwave Radiation over China Based on the Gradient Boosting Decision Tree Method. Remote Sensing; 10(2): 185. doi: 10.3390/rs10020185
  • [18] Monisha, A., Christina, S.S., Santiago, N. 2018. Decision Support System for a Chronic Disease-Diabetes. International Journal of Computer & Mathematical Sciences(IJCMS); ISSN 2347-8527, Volume 7, Issue 3, pp: 126-131.
  • [19] Celik, O., Osmanoglu, U.O. 2019. Comparing to Techniques Used in Customer Churn Analysis. Journal of Multidisciplinary Developments, 4(1), 30-38.
  • [20] Estabrooks, A. 2000. A combination scheme for inductive learning from imbalanced data sets, Diss. DalTech.
  • [21] Estabrooks, A., Jo, T., Japkowicz, N. 2004 A multiple resampling method for learning from imbalanced data sets. Compu tational intelligence; 20(1): pp. 18-36. doi: 10.1111/j.0824-7935.2004.t01-1-00228.x
  • [22] Sun, Y., Kamel, M. S., Wong, A. K., & Wang, Y. 2007. Cost-sensitive boosting for classification of imbalanced data. Pattern Recognition, 40(12), 3358-3378.
  • [23] https://www.researchgate.net/publication/310799885_Generalized_Confusion_Matrix_for_Multiple_Classes (Erişim Tarihi: 21/10/2020)
  • [24] https://github.com/scikit-learn-contrib/imbalanced-learn (Erişim Tarihi: 21/10/2020)
  • [25] https://docs.microsoft.com/en-us/azure/machine-learning/studio-module-reference/smote (Erişim Tarihi: 21/10/2020)
  • [26] Chawla, N. V., Bowyer, K. W., Hall, L. O., Kegelmeyer, W. P. 2002. SMOTE: synthetic minority over-sampling technique. Journal of artificial intelligence research, 16, 321-357.
  • [27] https://imbalanced-learn.readthedocs.io/en/stable/under_sampling.html#condensed-nearest-neighbors (Erişim Tarihi: 21/10/2020)
  • [28] Fernández, A., Garcia, S., Herrera, F., & Chawla, N. V. 2018. SMOTE for learning from imbalanced data: progress and challenges, marking the 15-year anniversary. Journal of artificial intelligence research, 61, 863-905.