TÜRKÇE METİN ÖZETLEMEDE MELEZ MODELLEME

Orijinal belgelere ait en önemli cümlelerin belirlenmesi için gerçekleştirilen bilgisayar programı ile otomatik metin özetleme işlemi bir doğal dil işleme problemidir. Doğal dil işlemede temel olarak iki çeşit metin özetleme yaklaşımı bulunmaktadır. Bu yaklaşımlar cümle seçerek özetleme ve yorumlayarak özetleme olarak ikiye ayrılmaktadır. Cümle seçerek özetleme iki farklı alt yönteme ayrılmaktadır. Birincisi özetlenecek metinde cümleleri istatistiksel olarak puanlandırma yöntemidir. İkinci yöntem ise sezgisel olarak gizli anlam çıkarımı yöntemidir. Özetleme çalışmalarında bu iki yöntemi birleştirip melez bir yapı kurularak özetleme gerçekleştirilmektedir. Bu makale kapsamında cümle seçerek özetleme hedeflenmiştir. Türkçenin yapısal özelliklerine göre istatistiksel olarak puanlandırılması ve gizli anlam çıkarım yöntemlerini sezgisel olarak birleştirerek cümle seçimi yapan melez bir model sunulmuştur

A HYBRID MODELLING FOR TURKISH TEXT SUMMARIZATION

Automatic text summarization with a computer program in order to retain the most important sentinces of the original documant is a natural language processing problem. There are basically two types of text summarization approaches in natural language processing. These approaches are defined as summarization by selecting sentences and summarization by interpreting sentences. The summarization by selecting sentences method is also seperated into two sub-methods. The first one is the medhod of scoring the sentences statistically. The second one is the method of latent semantic analysis of the sentences. In this study, summarization is realized by selecting sentiences. A hybrid model which selects the sentences by combining two methods: statistically scoring sentences due to structural featuers of Turkish and latent semantic analysis method

___

  • Metindeki cümle sırasına göre sıralanmış özet cümleleri Charles Bukowski (16 Ağustos 1920 – 9 Mart 1994), asıl adı Heinrich Karl Bukowski olan Amerikalı yazar ve şair.
  • Güran A, Güler BN, Gürbüz ZM. Efficient Feature Integration with Wikipedia-Based Semantic Feature Extraction for Turkish Text Summarization, Turkish Journal of Electrical Engineering & Computer Sciences, 2013, s.3-11.
  • Çığır C, Kutlu M, Çicekli I. Generic Text Summarization for Turkish, The Computer Journal, 2010, s.1315-1323.
  • Güran A, Bayazıt NG, Bekar B. Automatic Summarization of Turkish Documents Using Non-negative Matrix Factorization, Innovations in Intelligent Systems and Applications (INISTA), 2011, s.480-484.
  • Das D, Martins AFT, A Survey on Automatic Text Summarization, Literature Survey for the Language and Statistics II course at CMU, 2007.
  • http://en.wikipedia.org/wiki/Stop_words], Erişim tarihi: 20.01.2015. http://www.konumuzseo.com/stop-words-ve-kullanim-amaclari/], Erişim tarihi: 01.2015.
  • http://tr.wikipedia.org/wiki/Zemberek_(yazılım)], Erişim tarihi: 20.01.2015.
  • Özsoy GM. Text Summarization Using Latent Semantic Analysis, Proceeding of the 23rd International Conference on Computational Linguistics, 2011, s.22-41.
  • Yohei S. Sentence Extraction by tfidf and Position Weighting from Newspaper Articles, Third NTCIR Workshop, 2003, s.2-6.
  • Ünaldı İ, Kırkgöz Y. Latent Semantic Analysis: An Analytical Tool for Second Language Writing Assessment, Mustafa Kemal University Journal of Social Sciences Institue, 2011, s.2-9.
  • Golub HG, Reinsch C. Singular Value Decomposition and Least Squares Solutions, Numerische Matematik, 1970, s.1-14.
  • Steinberger J, Jezek K. Using Latent Semantic Analysis in Text Summarization and Summary Evaluation, ISIM2004, s.2-21.
  • Özsoy GM, Çiçekli İ, Alpaslan F. Text Summarization of Turkish Texts Using Latent Semantic Analysis, Proceeding of the 23rd International Conference on Computational Linguistics, 2010, s.3-6.