Kendinden düzenlenen haritalar ile ders içeriklerinin sınıflandırılması

Elektronik dokümanların sayısının büyük bir hızla arttığı günümüzde, otomatik doküman sınıflandırma sistemlerinin, bilgi yönetiminin geleceği açısından çok kritik olduğu değerlendirilmektedir. Bu çalışmanın amacı, teknik dokümanları içeriklerine göre otomatik olarak sınıflandırmaktır. Teknik doküman olarak, birçok terimin sıralanmasıyla oluşan bilgisayar mühendisliği lisans programlarında açılan derslerin içerikleri kullanılmaktadır. Bu çalışmada, danışmansız öğrenme özelliğine sahip Kendinden Düzenlenen Haritalar (SOM) kullanılarak ders içeriklerini otomatik olarak sınıflandıran bir sistem önerilmektedir. Sınıflandırma işleminden önce ders içerikleri üzerinde çeşitli önişlemlerin uygulanması gerekmektedir. Dokümanlardaki durak kelimeleri (bağlaç, zamir v.s.) temizlendikten sonra kelimelerin kökleri bulunmaktadır. Sadece bir dokümanda geçen kelimeler ayırt edici olmadığından dolayı atılmaktadır. Çok tekrar eden kelimeler ise, diğer uygulamalardan farklı olarak burada oldukça anlamlı ve önemli terimler olarak görüldüğü için atılmamaktadır. Daha sonra terim frekansı ve ters doküman frekansı verileri kullanılarak ağırlık vektörleri hesaplanıp normalize edilmiştir. Her ders için hesaplanan bu vektörler kullanılarak kendinden düzenlenen haritalar yöntemi ile sınıflandırma yapılmıştır. Sonuçlar, karşılaştırma amacıyla k-ortalama algoritmasının çıktıları ile birlikte gösterilmiştir. Ders içeriklerini kullanarak yapılan bu sınıflandırma çalışması ile, bir bölümün derslerinin arasındaki içeriğe dayalı ilişkiler açık bir şekilde görülmektedir. Ayrıca farklı üniversitelerin farklı kodlara ve adlara sahip fakat içerik olarak benzer olan dersleri, SOM haritası üzerinde başarılı bir şekilde birbirine yakın çıkmaktadır.

Classification of course contents by using self-organizing maps

The number of electronic documents is growing at a high rate in today; therefore automatic document classification systems are becoming more important for the future of the information management. In this study, it is aimed to classify the technical documents automatically according to their contents. Course contents of computer engineering departments are used as technical documents, which contain many technical terms. In this study, a technical document classification system is proposed that is based on the Self-Organizing Map (SOM) algorithm, which is an effective unsupervised artificial neural network method. Before the classification process, some preprocessing steps have to be applied. First of all, stopwords are removed from documents. In order to increase the classification performance, the word stemming is needed. The words that are used in only one document are removed because of their less importance. Most frequently used words are not removed in contrary to other applications, because they are found to be important and meaningful in this data set. Next, term frequency and inverse document frequency data are used for calculation of normalized weighted vectors. By using these vectors of each course, document classification is performed by self-organizing map method. For comparison, the results are shown with the output of k-means algorithm. By using this classification study, the relations between the course contents of a department are very clearly visualized. Furthermore, different named and coded courses from different universities come successfully together in the final SOM map.

___

  • 1. Calvo, R.A., Lee, J.M., Li, X., “Managing content with automatic document classification”, Journal of Digital Information, Cilt 5, No 2, 2004.
  • 2. Amine, A., Elberrichi, Z., Bellatreche, L., Simonet, M., Malki, M., “Concept-based clustering of textual documents using SOM”, IEEE/ACS International Conference on Computer Systems and Applications, 156-163, 2008.
  • 3. Kohonen, T., “Self-organizing maps”, Springer Series in Information Sciences, Springer-Verlag, New York, 30:1-426, 1997.
  • 4. Kohonen, T., “Self-organization of very large document collections: State of the art”, Proceedings of the 8th International Conference on Artificial Neural Networks, Skovde, Sweden, Cilt 1, 65-74, 1998.
  • 5. Segal, R.B., Kephart, J., O., “MailCat: An Intelligent Assistant for Organizing E-mail”, Proceedings of the Third International Conference on Autonomous Agents, Seattle, Washington, United States, 276-282, 1999.
  • 6. Merkl, D., Rauber, A., “Document classification with unsupervised artificial neural networks”, “Soft Computing in Information Retrieval: Techniques and Applications”, (Editors: Fabio Crestani, Gabriella Pasi), Springer-Verlag, 102-121, 2000.
  • 7. Dittenbach, M., Rauber, A., Merkl, D., “Uncovering hierarchical structure in data using the growing hierarchical self-organizing map”, Neurocomputing, Cilt 48, No 1, 199-216, 2002.
  • 8. Sağıroğlu, Ş., Beşdok, E., Erler, M., “Mühendislikte yapay zeka uygulamaları-I: yapay sinir ağları”, Ufuk Kitap Kırtasiye Yayıncılık, Kayseri, 23-116 (2003).
  • 9. Koikkalainen, P., Oja, E., “Self-organizing hierarchical feature maps”, IJCNN International Joint Conference on Neural Networks, Cilt 2, 279-284, 1990.
  • 10. Vesanto, J., “SOM-based data visualization methods”, Intelligent Data Analysis, Cilt 3, No 2, 111-126, 1999.
  • 11. Kohonen, T., Kaski, S., Lagus, K., Salojarvi, J., Honkela, J., Paatero, V. Saarela, A., “Self organization of a massive document collection”, IEEE Transactions on Neural Networks, Cilt 11, No 3, 574-585, 2000.
  • 12. Rauber, A., Merkl, D., “Automatic labeling of self-organizing maps: Making a treasure-map reveal its secrets”, The Third Pacific-Asia Conference on Methodologies for Knowledge Discovery and Data Mining, Beijing, China, 228-237, 1999.
  • 13. Salton, G., McGill, M.J., “Introduction to modern information retrieval”, McGraw-Hill, New York, 1986.
  • 14. Salton, G., Buckley, C., “Term-weighting approaches in automatic text retrieval”, Information Processing and Management, Cilt 24, No 5, 513-523, 1988.
Gazi Üniversitesi Mühendislik Mimarlık Fakültesi Dergisi-Cover
  • ISSN: 1300-1884
  • Yayın Aralığı: Yılda 4 Sayı
  • Başlangıç: 1986
  • Yayıncı: Oğuzhan YILMAZ
Sayıdaki Diğer Makaleler

Krom magnezit tuğla tozunun portland çimentosunun priz başlama ve bitiş sürelerine etkisinin bulanık mantıkla tahmini

Kürşat YILDIZ, Ercan ÖZGAN

Dikimevi Beşevler hattındaki otobüs ve raylı sistemin karşılaştırması

Süleyman PAMPAL, Nermin AVŞAR, Evren Can ÖZCAN

BİLYALI RULMAN YEREL KUSURLARININ NEDEN OLDUĞU TİTREŞİMLERİN MODELLENMESİ

Tuncay KARAÇAY, Nizami AKTÜRK

Helyum ve havanın iş gazı olarak kullanıldığı beta tipi bir stirling motorunun performansının deneysel olarak incelenmesi

Önder Yaşar ÖZGÖREN, Selim ÇETİNKAYA

Rüzgar türbini ile sürülen çift çıkışlı asenkron jeneratörün incelenmesi ve bulanık mantık kontrol yöntemiyle maksimum çıkış gücünün elde edilmesi

Naci GENÇ, İres İSKENDER

TRİSTÖR ANAHTARLAMALI KAPASİTÖR (TSC) VE TRİSTÖR ANAHTARLAMALI REAKTÖR-TABANLI STATİK VAr KOMPANZATÖR’ÜN (TSR-TABANLI SVC) PI İLE KONTROLÜ

Aytegül GELEN, Tankut YALÇINÖZ

DİKİMEVİ BEŞEVLER HATTINDAKİ OTOBÜS VE RAYLI SİSTEMİN KARŞILAŞTIRMASI

Süleyman PAMPAL, Nermin AVŞAR, Evren ÖZCAN

Pompa durmasıyla oluşan kararsız akımların deneysel ve teorik olarak araştırılması

M. Şükrü GÜNEY, Nuri Seçkin KAYIKÇI

RENDELEME İŞLEMİNDE AĞAÇ MALZEMELERİN ENERJİ TÜKETİM MALİYETLERİNE ETKİSİ

Levent GÜRLEYEN, Serkan SUBAŞI

Tristör anahtarlamalı kapasitör (TSC) ve tristör anahtarlamalı reaktör- tabanlı statik VAr kompanzatör'ün (TSR-tabanlı SVC) PI ile kontrolü

Ayetül GELEN, Tankut YALÇINÖZ