KENDİNDEN DÜZENLENEN HARİTALAR İLE DERS İÇERİKLERİNİN SINIFLANDIRILMASI

Elektronik dokümanların sayısının büyük bir hızla arttığı günümüzde, otomatik doküman sınıflandırma sistemlerinin, bilgi yönetiminin geleceği açısından çok kritik olduğu değerlendirilmektedir. Bu çalışmanın amacı, teknik dokümanları içeriklerine göre otomatik olarak sınıflandırmaktır. Teknik doküman olarak, birçok terimin sıralanmasıyla oluşan bilgisayar mühendisliği lisans programlarında açılan derslerin içerikleri kullanılmaktadır. Bu çalışmada, danışmansız öğrenme özelliğine sahip Kendinden Düzenlenen Haritalar (SOM) kullanılarak ders içeriklerini otomatik olarak sınıflandıran bir sistem önerilmektedir. Sınıflandırma işleminden önce ders içerikleri üzerinde çeşitli önişlemlerin uygulanması gerekmektedir. Dokümanlardaki durak kelimeleri (bağlaç, zamir v.s.) temizlendikten sonra kelimelerin kökleri bulunmaktadır. Sadece bir dokümanda geçen kelimeler ayırt edici olmadığından dolayı atılmaktadır. Çok tekrar eden kelimeler ise, diğer uygulamalardan farklı olarak burada oldukça anlamlı ve önemli terimler olarak görüldüğü için atılmamaktadır. Daha sonra terim frekansı ve ters doküman frekansı verileri kullanılarak ağırlık vektörleri hesaplanıp normalize edilmiştir. Her ders için hesaplanan bu vektörler kullanılarak kendinden düzenlenen haritalar yöntemi ile sınıflandırma yapılmıştır. Sonuçlar, karşılaştırma amacıyla k-ortalama algoritmasının çıktıları ile birlikte gösterilmiştir. Ders içeriklerini kullanarak yapılan bu sınıflandırma çalışması ile, bir bölümün derslerinin arasındaki içeriğe dayalı ilişkiler açık bir şekilde görülmektedir. Ayrıca farklı üniversitelerin farklı kodlara ve adlara sahip fakat içerik olarak benzer olan dersleri, SOM haritası üzerinde başarılı bir şekilde birbirine yakın çıkmaktadır.

___

  • Calvo, R.A., Lee, J.M., Li, X., “Managing
  • content with automatic document classification”,
  • Journal of Digital Information, Cilt 5, No 2,
  • -
  • Amine, A., Elberrichi, Z., Bellatreche, L.,
  • Simonet, M., Malki, M., “Concept-based
  • clustering of textual documents using SOM”,
  • IEEE/ACS International Conference on
  • Computer Systems and Applications, 156-163,
  • -
  • Kohonen, T., “Self-organizing maps”, Springer
  • Series in Information Sciences, Springer-Verlag,
  • New York, 30:1-426, 1997.
  • Kohonen, T., “Self-organization of very large
  • document collections: State of the art”,
  • Proceedings of the 8th International
  • Conference on Artificial Neural Networks,
  • Skovde, Sweden, Cilt 1, 65-74, 1998.
  • Segal, R.B., Kephart, J., O., “MailCat: An
  • Intelligent Assistant for Organizing E-mail”,
  • Proceedings of the Third International
  • Conference on Autonomous Agents, Seattle,
  • Washington, United States, 276-282, 1999.
  • Merkl, D., Rauber, A., “Document classification with
  • unsupervised artificial neural networks”, “Soft
  • Computing in Information Retrieval: Techniques and
  • Applications”, (Editors: Fabio Crestani, Gabriella
  • Pasi), Springer-Verlag, 102-121, 2000.
  • Dittenbach, M., Rauber, A., Merkl, D.,
  • “Uncovering hierarchical structure in data using
  • the growing hierarchical self-organizing map”,
  • Neurocomputing, Cilt 48, No 1, 199-216, 2002.
  • Sağıroğlu, Ş., Beşdok, E., Erler, M.,
  • “Mühendislikte yapay zeka uygulamaları-I:
  • yapay sinir ağları”, Ufuk Kitap Kırtasiye
  • Yayıncılık, Kayseri, 23-116 (2003).
  • Koikkalainen, P., Oja, E., “Self-organizing
  • hierarchical feature maps”, IJCNN International
  • Joint Conference on Neural Networks, Cilt 2,
  • -284, 1990.
  • Vesanto, J., “SOM-based data visualization
  • methods”, Intelligent Data Analysis, Cilt 3, No
  • , 111-126, 1999.
  • Kohonen, T., Kaski, S., Lagus, K., Salojarvi, J.,
  • Honkela, J., Paatero, V. Saarela, A., “Self
  • organization of a massive document collection”,
  • IEEE Transactions on Neural Networks, Cilt
  • , No 3, 574-585, 2000.
  • Rauber, A., Merkl, D., “Automatic labeling of
  • self-organizing maps: Making a treasure-map
  • reveal its secrets”, The Third Pacific-Asia
  • Conference on Methodologies for Knowledge
  • Discovery and Data Mining, Beijing, China,
  • -237, 1999.
  • Salton, G., McGill, M.J., “Introduction to modern
  • information retrieval”, McGraw-Hill, New York,
  • -
  • Salton, G., Buckley, C., “Term-weighting approaches
  • in automatic text retrieval”, Information Processing
  • and Management, Cilt 24, No 5, 513-523, 1988.
Gazi Üniversitesi Mühendislik Mimarlık Fakültesi Dergisi-Cover
  • ISSN: 1300-1884
  • Yayın Aralığı: Yılda 4 Sayı
  • Başlangıç: 1986
  • Yayıncı: Oğuzhan YILMAZ