KNN Algoritması ve R Dili ile Metin Madenciliği Kullanılarak Bilimsel Makale Tasnifi

Metin tabanlı veri setleri üzerinde analiz işlemi gerçekleştirebilmek için Veri Madenciliğinin alt alanı olan Metin Madenciliği (MM) alanındakiteknik ve yöntemler kullanılmaktadır. Bu çalışmada, akademik yayınlar üzerinde metin madenciliği yöntemleri kullanılarak akademikmakalelerin sınıflara ayrılarak tasnif edilme başarısı ölçülmüştür. Bu amaçla bir akademik bilgi paylaşım ağı olan Research Gate üzerindekibelirli akademik yayınların özetleri, geliştirilen yazılım araçları kullanılarak elde edilmiş ve bu özetlerden bir veri seti oluşturulmuştur. Veriseti içerisindeki yayınlar “Materials Science & Engineering” ve “Social Sciences & Humanities” olmak üzere iki ayrı kategoride yer almaktadırlar.Veri seti üzerinde R dili ve R Studio araçlarından yararlanılarak sınıflandırma amacıyla K-En Yakın Komşu (KNN) algoritmasıkullanılmıştır. Çalışma sonucunda %96,67 oranında doğruluk (ACC) değeri bulunarak yayınların hangi sınıfa ait olduğu tespit edilmiştir.

Classification of Scientific Articles Using Text Mining with KNN Algorithm and R Language

In order to perform analysis on text-based datasets, the techniques and methods in Text Mining (TM) which is a subdomain of Data Miningare used. In this study, it is aimed to evaluate the classification accuracy of academic articles which are produced in academic domain.In accordance with this purpose, the abstracts of the academic articles are obtained and a dataset is created from an academic knowledgesharing network named Research Gate by using self-developed software tools. The academic articles in the dataset fall into two categoriesas “Materials Science & Engineering” and “Social Sciences & Humanities”. KNN (k-nearest neighbors) classification algorithm is performedby utilizing R language

___

  • Korhonen, A., Séaghdha, D. Ó., Silins, I., Sun, L., Högberg, J., Stenius, U. (2012). “Text mining for literature review and knowledge discovery in cancer risk assessment and research”. PLoS One. 7(4)
  • Acun, G., Bilgin, T. T. (2015). “Yazılım hata logları kullanılarak veri madenciliği uygulaması gerçekleştirilmesi”. Marmara Fen Bilimleri Dergisi, 27(1).
  • Ananiadou, S., McNaught, J. (2006). “Text mining for biology and biomedicine”. Boston and London: Artech House. 33(1). 135-140.
  • Zweigenbaum, P., Demner-Fushman, D., Yu, H., Cohen, K.B. (2007). “Frontiers of biomedical text mining: current progress”. Briefings in Bioinformatics. 8(5). 358-375.
  • Cohen, K. B., Yu, H., Bourne, P. E., Hirschman, L. (2008). “Translating biology: Text mining tools that work”. Proceedings of the Pacific Symposium on Biocomputing (PSB-08). (13). 551-555.
  • Onan A., Korukoğlu S. (2016) “Makine öğrenmesi yöntemlerinin görüş madenciliğinde kullanılması üzerine bir literatür araştırması” Pamukkale Univ Muhendislik Bilimleri Dergisi, 22 (2), 111-122