BİÇİMBİLİME DAYALI DOKÜMAN SIKIŞTIRMA

İnternet‟in yaygınlaşmasıyla sayısal ortamdaki doküman sayısı gittikçe artmakta ve bu bilgiye daha kolay ve hızlı bir şekilde erişme isteği doküman sıkıştırmayı önemli hale getirmektedir. Doküman sıkıştırma alanında yapılan çalışmaların bir kısmı, dilin biçim bilimsel yapısını kullanmayı amaçlayan çalışmalardır. Bu çalışmada, Türkçe ve İngilizce dokümanların sıkıştırılma verimlerinin belirlenmesinde dilin biçim bilimsel yapısı kullanılarak 10 farklı ayrıştırma yöntemi uygulanmış ve bu yöntemlerin sıkıştırma başarısına olan etkileri karşılaştırmalı olarak verilmiştir.

MORPHOLOGY BASED TEXT COMPRESSION

With the rapid growth of online information, the number of documents in digital media is very common increased and access request to this information easier and quickly makes important the document compression. A part of studies on the document compression, the morphological structure of the language used is intended to work. In this study, Turkish and English language documents to determine the compression efficiency by using the morphological structure of 10 different decomposition methods applied and the effect on the compression success of this method are given in comparison.

___

  • Akın M. D., Kaba S., Ahmet A. A. (2004): “Zemberek Projesi”, https://zemberek.dev.java.net/
  • Çebi Y., Dalkılıç G. (2004): “Turkish Word N-gram Analysing Algorithms for a large Scale Turkish Corpus-TurCo”, IEEE International Conference on Information Technology, Cilt 2, s. 226-240.
  • Çelikel E., Dalkılıç M. E., Dalkılıç G. (2005): “Word-Based Fixed and Flexible List Compression”, Computer and Information Sciences-ESCIS, LNCS 3733, Springer Verlag, sp. 780-790.
  • Diri B. (2000): “A Text Compression System Based on the Morphology of Turkish Language”, International Symposium on Computer and Information Sciences (ISCIS) XV, 11-13 October, Istanbul.
  • Ediskun H. (2005): “Türk Dilbilgisi Sesbilgisi-Biçimbilgisi-Cümlebilgisi”, Remzi Kitabevi A.Ş., Selvili Mescit Sok. 3, Cağaloğlu 34440, İstanbul, Türkiye.
  • Eroğlu Ö. S. (2005): “Hece Tabanlı İstatistiksel Yöntemler ile Yazım Hatası Bulma ve Düzeltme”, Yüksek Lisans Tezi, İ.T.Ü. Fen Bilimleri Enstitüsü.
  • Manning C., Schütze H. (1999): “Foundations of Statistical Natural Language Processing”, MIT Press, ISBN 0-262-13360-1, Cambridge, USA.
  • Nelson M. (1996): “The Data Compression Book”, NewYork, USA.
  • Porter M. (2006): ”Stemming Algoritması”, http://tartarus.org/~martin/PorterStemmer/
  • Rueda L., Oommen B. J. (2005) “Efficient Adaptive Data Compression Using Fano Binary
  • Search Trees”, Computer and Information Sciences-ISCIS, Cilt 3733, s. 768-779.
  • Topaloğlu U., Bayrak C. (2005): “Polymorphic Compression”, Computer and Information Sciences-ISCIS, Cilt 3733, s. 759-767.
  • Salomon D. (1997): “Data Compression”, Springer-Verlag, NewYork.