Ağırlıklandırılmış Çizgelerde Tf-Idf ve Eigen Ayrışımı Kullanarak Metin Sınıflandırma

Günümüzde gerek metin gerekse cümle sınıflandırma problemleri üzerinde yoğunlukla çalışılmaktadır. Metinsınıflandırma işlemlerinde en önemli problemlerden biri sınıflandırılacak metinlerin yapısal olmamasıdır. Belli birformata sahip olmayan metinlerin öncelikle bir önişlemden geçirilmesi gerekmektedir. Bu çalışmada metinlerisınıflandırma işleminde öncelikle sınıflandırılacak metinlerin önişlemini yapmak amacıyla KUSH (Karci-UçkanSeyyarer-Hark) adında bir önişleme aracı geliştirildi. Sonrasında elde edilen işlenmiş metinlerinsınıflandırılmasında çizge tabanlı matematiksel bir yaklaşım sunulmaktadır. Yapılan çalışmada Türkiye’de iyibilinen 6 haber portalından ve 6 farklı alandan elde edilen metinleri içeren TTC-3600 veri seti kullanılmaktadır.Sınıflandırılacak metinler Tf (Terim frekansı) ve Idf (Ters doküman Frekansı) değerleri dikkate alınarak çeşitliönişlemlerden geçirildikten sonra kenar ve düğümlerden oluşan bir ağırlıklı çizge oluşturulmaktadır.Ağırlıklandırılmış çizgeler kullanılarak sınıflandırma işleminin etkililiği ve matematiksel verimliliği arttırılmıştır.Elde edilen çizgeyi ifade eden Komşuluk Matrisi ve Derece Matrisi kullanılarak Laplace Matrisi elde edilmektedir.Laplace Matrisinin özdeğer ayrışımı sonucunda elde edilen özdeğer ve özdeğer vektörleri ile metinlersınıflandırılmaktadır. Yapılan testler sonucunda sınıflandırma oranlarında dikkate değer bir doğruluk değerineulaşıldığı görülmektedir.

Text Classification Using Tf-Idf and Eigen Decomposition in Weighted Graphs

Today, both text and sentence classification problems are studied intensively. One of the most important problems in the text classification process is that the texts to be classified are not structural. Texts that do not have a specific format must first be pre-processed. In this study, a preliminary processing tool called KUSH (Karci-UçkanSeyyarer-Hark) was developed in order to pre-process the texts to be classified first. Afterwards, a graph based mathematical approach is presented in the classification of processed texts. Studies in six including well-known news portals and obtained the text from 6 different areas in Turkey TTC-3600 data sets are used. Texts to be classified are subjected to various pre-treatments taking into consideration the Tf (Term frequency) and Idf (Reverse document frequency) values, and then a weighted graph consisting of edges and nodes is formed. By using weighted charts, the efficiency and mathematical efficiency of the grading process were increased. By using the matrix of the neighborhood matrix and the degree matrix, the Laplace matrix is obtained. The eigenvalue and eigenvalue vectors and texts derived from the eigenvalue decomposition of the Laplace matrix are classified. As a result of the tests performed, it is seen that a significant accuracy value is reached in the classification rates.

___

  • [1] Mikhina E.K., Trifalenkov V.I. 2018. Text clustering as graph community detection. Procedia computer science, 123: 271-277.
  • [2] Aydemir, E. Türkçe Köşe Yazılarında Yapay Sinir Ağlarıyla Yazar ve Gazete Tahmin Etme. DÜMF Mühendislik Dergisi, 10 (1): 45-56.
  • [3] Le Q., Mikolov T. 2014. Distributed representations of sentences and documents. In International conference on machine learning (pp. 1188-1196).
  • [4] Jiang C., Coenen F., Sanderson R., Zito M. 2010. Text classification using graph mining-based feature extraction. In Research and Development in Intelligent Systems XXVI (pp. 21-34). Springer, London.
  • [5] Wan X. 2007. A novel document similarity measure based on earth mover’s distance. Information Sciences, 177 (18): 3718-3730.
  • [6] Zhao G., Luo B., Tang J., Ma J. 2007. Using eigen-decomposition method for weighted graph matching. In International Conference on Intelligent Computing (pp. 1283-1294). Springer, Berlin, Heidelberg.
  • [7] Ma T., Shao W., Hao Y., Cao J. 2018. Graph classification based on graph set reconstruction and graph kernel feature reduction. Neurocomputing, 296: 33-45.
  • [8] Slininger B. 2013. Fiedlers Theory of Spectral Graph Partitioning.
  • [9] Kılınç D. 2016. The Effect of Ensemble Learning Models on Turkish Text Classification. Celal Bayar Üniversitesi Fen Bilimleri Dergisi, 12 (2): 215-220 .
  • [10] Kılınç D., Özçift A., Bozyigit F., Yıldırım P., Yücalar F., Borandag E. 2017. TTC-3600: A new benchmark dataset for Turkish text categorization. Journal of Information Science, 43 (2): 174-185.
  • [11] Shang T., Xia X., Zheng J. 2018. MIME-KNN: Improve KNN Classifier Performance Include Classification Accuracy and Time Consumption. DEStech Transactions on Computer Science and Engineering, (csse).
  • [12] Barrett W., Francis A., Webb B. 2017. Equitable decompositions of graphs with symmetries. Linear Algebra and its Applications, 513: 409-434.
  • [13] Pothen A., Simon H.D., Liou K.P. 1990. Partitioning sparse matrices with eigenvectors of graphs. SIAM journal on matrix analysis and applications, 11 (3): 430-452.
  • [14] Naumov M., Moon T. 2016. Parallel spectral graph partitioning. NVIDIA Technical Report, NVR2016-001.
  • [15] Wang Q., Guo S., Hu J., Yang Y. 2018. Spectral partitioning and fuzzy C-means based clustering algorithm for big data wireless sensor networks. EURASIP Journal on Wireless Communications and Networking, 2018 (1): 54.
  • [16] Alupoaie S., Cunningham P. 2013. Using tf-idf as an edge weighting scheme in user-object bipartite networks. arXiv preprint arXiv:1308.6118.
  • [17] Robertson S. 2004. Understanding inverse document frequency: on theoretical arguments for IDF. Journal of documentation, 60 (5): 503-520.
  • [18] Kim D., Seo D., Cho S., Kang P. 2019. Multi-co-training for document classification using various document representations: TF–IDF, LDA, and Doc2Vec. Information Sciences, 477: 15-29.
  • [19] Bapat R.B. 2010. Graphs and matrices (Vol. 27). London: Springer.
  • [20] Barrat A., Barthelemy M., Vespignani A. 2008. Dynamical processes on complex networks. Cambridge university press.
  • [21] Dhillon I.S. 2001. Co-clustering documents and words using bipartite spectral graph partitioning. In Proceedings of the seventh ACM SIGKDD international conference on Knowledge discovery and data mining (pp. 269-274). ACM..
  • [22] Chung F.R. 1996. Lectures on spectral graph theory. CBMS Lectures, Fresno, 6: 17-21.