TÜRKÇE KÜLLİYAT OLUŞTURULMASI VE TÜRKÇE METİNLERDE KULLANILAN KELİMELERİN UZUNLUK DAĞILIMLARININ BELİRLENMESİ

Bu çalışmada, Türkçe içeriğe sahip 10 ayrı web sitesinden yararlanılarak, 30MB büyüklüğünde bir külliyat oluşturulmuştur. Bu külliyatı oluşturan web sitelerinde kullanılan kelime sayıları hesaplanmış, tüm külliyat için kelime uzunluk dağılımları incelenmiş ve Türkçe’nin ortalama kelime uzunluğu belirlenmiştir.

CREATING A TURKISH CORPUS AND DETERMINIG WORD LENGTH DISTRIBUTION THAT ARE USED IN TURKISH TEXT

In this work, by making use of 10 different web sites having Turkish content, a corpus of 30MB is generated. The number of words used on the web sites that forms this corpus is calculated, word length distribution of all the corpus is analyzed, and average word length of Turkish is determined.
Dokuz Eylül Üniversitesi Mühendislik Fakültesi Fen ve Mühendislik Dergisi-Cover
  • ISSN: 1302-9304
  • Yayın Aralığı: Yılda 3 Sayı
  • Başlangıç: 1999
  • Yayıncı: Dokuz Eylül Üniversitesi Mühendislik Fakültesi