METİN MADENCİLİĞİ KULLANARAK İNGİLİZCE DOKÜMAN SINIFLAMA

Günümüzde metin tabanlı dokümanların sınıflandırılması özellikle kurumsal yazışmaların ve dijital dokümantasyonun çok yapıldığı durumlarda ciddi öneme sahiptir. Metin yığınlarından benzer olanları sınıflandırma üretkenliği arttıran bir faktördür. Bu makalede tema ve alt kavramı tespit edilmiş dokümanlarda benzerliğin tespiti ile ilgili bir model önerilmiş ve deneysel bulgular değerlendirilmiştir. Dokümanlarda tema ve alt kavramların tespiti için kullanılabilecek anlamlı sözcüklerin belirlenmesi amacıyla Helmholtz prensibi temelli Gestalt teorisi kullanılmıştır. Sınama doküman veri seti spor ve eğitim temalarında olup, toplam 14 alt kavram belirlenmiştir.Daha sonra doküman kümesinden rastgele seçilen dokümanların birbirlerine olan benzerlikleri hesaplanmıştır. Önceden belirlenmiş sınıflara sahip dokümanlar için Kosinüs, Jaccard ve PMI benzerlik ölçütleri karşılaştırılmıştır. Benzerlik oranı toplam doküman benzerlikleri ortalama değerin üzerinde olan dokümanların tümü baz alındığında Kosinüs benzerlik ölçütü %75, Jaccard Indeks’i %40, PMI benzerlik ölçütü ise %55 başarı sağlamıştır. Buna rağmen doğruluk değerleri baz alındığında Kosinüs benzerlik ölçütü %80, Jaccard Indeks’i %65 ve aynı şekilde PMI benzerlik ölçütü de %65 başarı sağlamıştır. Her bir dokümanın benzerlik katsayılarının ortalamaları baz alınarak yapılan sınıflama ise anlamlı kelimelerin yüzdelik değerlerine göre farklı başarımlar elde edilmiştir. Bu bakımdan PMI benzerlik ölçütü anlamlı kelime dağılımlarına adaptif bir yaklaşım sergiler iken Kosinüs benzerlik ölçütünde ve Jaccard Indeks’inde herhangi bir iyileşme gözlemlenmemiştir

English Document Classification Using Text Mining

Nowadays, the classification of text-based documents is very important, especially when corporate correspondence and digital documentation are intense. Classification of text sets according to similarities is an important factor that increases productivity.In this article, a model has been proposed to determine the similarity in the documents with the concept of theme and sub and the experimental findings are evaluated. The Gestalt theory based on the Helmholtz principle was used to determine the meaningful words that can be used to determine the themes and sub-concepts in the documents. The test document data set is in the sports and educational themes and a total of 14 sub-concepts have been determined. Cosine and PMI similarity criteria were compared for documents with predetermined classes. On the basis of all of the documents with a similarity rate on average, the similarity criterion of Kosinus was 75%, Jaccard Index was 40% and PMI similarity was 55%. On the other hand, based on the accuracy values, the cosine similarity criterion was 80%, Jaccard Index was 65%, and PMI similarity was 65%. According to the averages of the similarity coefficients of each document, different performances were obtained according to the percentage of meaningful words. In this respect, while the PMI similarity criterion exhibits an adaptive approach to meaningful word distributions, no improvement was observed in the cosine similarity criterion and in the Jaccard Index.

___

  • Dr.S.Vijayarani , International Journal of Computer Science & Communication Networks,Vol 5(1),7-16
  • Ögtelik, S., Turan, M., (2018), İngilizce Dokümanlarda Tema ve Alt Kavramlar Tespit Modeli, Düzce Üniversitesi Bilim ve Teknoloji Dergisi, 6(4), 754-764
  • K. Aas and L. Eikvil, Text Categorisation, “A Survey, Technical Report Raport NR 941,” Norwegian Computing Center, 1999
  • R. Agrawal and R. Srikant, “Fast Algorithms for Mining Association Rules in Large Databases,” Proc. 20th Int’l Conf. Very Large Data Bases (VLDB ’94), pp. 478-499, 1994.
  • R. Baeza-Yates and B. Ribeiro-Neto, “Modern Information Retrieval,” Addison Wesley, 1999. Y. Li, C. Zhang, and J.R. Swan, “An Information Filtering Model on the Web and Its Application in Jobagent,” KnowledgeBased Systems, vol. 13, no. 5, pp. 285-296, 2000.
  • Heyong Wang, Ming Hong, Supervised Hebb rule based feature selection for text classification, Information Processing & Management,Volume 56, Issue 1, 2019, Pages 167-191, ISSN 0306-4573, https://doi.org/10.1016/j.ipm.2018.09.004.
  • Kisayol, Ahmet & Turan, Metin. (2018). Paragraf Tabanlı Çıkarımsal Özetlemede Öbekleme Kullanan İki Yeni Yöntemin Kıyaslanması. Düzce Üniversitesi Bilim ve Teknoloji Dergisi. 6. 1047-1057. 10.29130/dubited.418453.
  • L. Guthrie, E. Walker. Document Classification by Machine: Theory and Practice. COLING, 1994
  • Xu, Yan & Jones, Gareth & Li, Jintao & Wang, Bin & Sun, Chunming. (2007). A Study on Mutual Information-based Feature Selection for Text Categorization. Journal of Computational Information Systems. 3.