Paragraf Tabanlı Çıkarımsal Özetlemede Öbekleme Kullanan İki Yöntemin Kıyaslanması

Özetleme, bir bakıma metinleri kısaltma işlemidir. Bu kısaltma işlemi metinlerdeki önemli bilgileri içerecekşekilde olmalıdır. Bu çalışmanın amacı da İngilizce dilinde yazılmış makale, haber vs. gibi dokümanparagraflarının içerdiği bilgi önemine göre seçilerek özetleme yapılmasıdır.Çalışmanın ilk aşamasında doküman kümesini temsil edecek önemli kelimeler belirlenmiştir. Bu aşamada tümdokümanlarda geçen kelimeler kök geçiş sıklıklarına göre büyükten küçüğe göre sıralanır ve belirli sayıda seçilenen sık kelimeler ile paragraf vektörü temsil edilir.Bir sonraki aşamada, istenilen özet oranına göre paragraflar kümelere ayrıştırılır. Kümeleme algoritması olarak KMeans kullanılmıştır. Kümeler oluşturulurken başlangıç noktalarının belirlenmesi amacıyla iki farklı yöntemkullanılmıştır. Bunlardan birincisi geçiş sıklıkları hesaplanan kelimelerden ilk 10’u seçilerek bu anahtarkelimelerin en çok geçtiği paragraflar seçilir. İkinci yöntemde kullanıcının belirlediği özet oranına göre seçilecekanahtar kelime sayısı belirlenir. Daha sonra bu anahtar kelimelerin en çok geçtiği paragraflar başlangıç noktalarıolarak belirlenir. Özet oluşturmada çıkarım yöntemi olarak oluşturulmuş olan her bir kümeden, kümelerin merkeznoktasına Jaccard uzaklığı bakımından en yakın olan paragraf seçimi uygulanmıştır. Çıkan sonuçlar kontroledildiğinde ikinci yöntemin daha başarılı bir sonuç verdiği gözlemlenmiştir. İkinci yönteme göre başarı oranları%20 özet oranı için %40 , %40 özet oranı için %50 ve %60 özet oranı için %71 elde edilmiştir.

he Two New Methodology Comparison Using Paragraph Based Inferential Abstraction

Summarization is a process of abbreviation of a text. This abbreviation should be such that it contains important information in the texts. The purpose of this study is selecting according to the importance of the information contained in the document paragraphs in articles, news, etc. During the first phase of the study, important words to represent the document set were identified. At this stage, the words in all the documents are sorted according to the frequency of root passage order by ascending and the most frequently selected words and paragraph vector are represented at a certain number of times. In the next step, the paragraphs are separated into clusters according to the desired summary ratio. K-Means was used as the clustering algorithm. Two different methods were used to determine the starting points when the clusters were constructed. The first is selected from the words calculated for the first 10 pass-through frequencies, and the paragraphs most frequently passed by these key words are selected. In the second method, the number of keywords is determined according to the summary rate determined by the user. Then the paragraphs most often passed by these keywords are set as starting points. The paragraph selection that is closest to the center point of the clusters in terms of Jaccard distance is applied from each set which is constructed as a subtraction method in the summarization. When the results were checked, it was observed that the second method gave a more successful result. Success rates according to the second method were 40% for the 20% summary rate, 50% for the 40% summary rate and 71% for the summary rat

___

  • H. P., Lunh, “The Automatic Creation of Literature Abstracts,” IBM Journal, pp. 159-165, 1958.
  • H.P., Edmundson, “New Methods in Automatic Abstracting,” Journal of the ACM, pp. 264-285, 1969.
  • Ronald Brandow, Karl Mitze ve Lisa F.Rau, “Automatic condensation of electronic publications by sentence selection,” Information Processing and Management, vol. 31, no. 5, pp. 675-685, 1995.
  • Meng Wang, Xiaorong Wang, Chungui Li, “Extracting Multi-document Summarization Based on Local Topics,” 2009 Sixth International Conference on Fuzzy Systems and Knowledge Discovery, Tientsin, Çin, 2009.
  • Jade Goldstein, Vibhu Mittal, Jaime Carbonell, Mark Kantrowitzt, “Multi-Document Summarization By Sentence Extraction,” NAACL-ANLP-AutoSum '00 Proceedings of the 2000 NAACL-ANLP Workshop on Automatic Summarization, ABD, 2000, vol. 4, pp. 40-48.
  • Jaruskulchai, C. ve Kruengkrai, C., “A Practical Text Summarizer by Paragraph Extraction for Thai,” The Sixth International Workshop on Information Retrieval with Asian Language, Sapporo, Japonya, 2003, ss. 9-16.
  • Ebru Uzundere, Elda Dedja, Banu Diri, M.Fatih Amasyalı, “Türkçe Haber Metinleri İçin Otomatik Özetleme,” Akıllı Sistemlerde Yenilikler ve Uygulamaları Sempozyumu’nda sunuldu, Isparta, 2008.
  • Fumiyo Fukumoto ve Yoshimi Suzuki, “Extracting key paragraph based on topic and event detection: towards multi-document summarization,” NAACL-ANLP-AutoSum '00 Proceedings of the 2000 NAACL-ANLPWorkshop on Automatic summarization, ABD, 2000, vol.4, pp. 31-39.
  • Lloret, E. ve Palomar, M., “Challenging Issues of Automatic Summarization: Relevance Detection and Quality-based Evaluation,” Informatica, vol. 34, pp. 29-35, 2010.
  • Min, W., Zhensheng, L. ve Yuqing, G. “Study on Semantic Paragraph Partition in Automatic Abstracting System,” Systems, Man and Cybernetics, Tucson, ABD, 2001, pp. 892-897.
  • Vance Faber ,”Clustering and the Continuous k-Means Algorithm,” Los Alamos Science, vol. 22, pp. 138-144, 1994.
  • Metin Turan, “Özgün Paragraf Tabanlı Çıkarım Tekniği Kullanarak Otomatik Çoklu Doküman Özetleme”, Doktora Tezi, Bilgisayar Mühendisliği Programı, Yıldız Teknik Üniversitesi, İstanbul, Türkiye, 2015.
Düzce Üniversitesi Bilim ve Teknoloji Dergisi-Cover
  • Yayın Aralığı: Yılda 4 Sayı
  • Başlangıç: 2013
  • Yayıncı: Düzce Üniversitesi Fen Bilimleri Enstitüsü