Türkçe Metinlerin Sınıflandırılmasında Metin Temsil Yöntemlerinin Performans Karşılaştırılması

Bir metnin sınıfına metnin hangi özelliklerine bakılarak karar verilebilir? Sınıflandırma probleminin türünün (metnin yazarını, yazarın cinsiyetini, yazarın ruh halini, metnin konusunu, metnin olumlu ya da olumsuz ifadeler içerdiğini tanıma) bu soruya verilecek cevaba etkisi nedir? Bu sorulara çeşitli cevaplar vererek, metin dosyalarının otomatik sınıflandırılması için uzun zamandır çalışmalar sürmektedir. Bu çalışmada çeşitli türdeki 6 adet Türkçe sınıflandırma veri kümesi üzerinde 17 adet özellik grubunun etkisi incelenmiştir. Çıkarılan özellik gruplarına örnek olarak; cümle, kelime, ek sayıları, ngramlar, kelimeler, kelime grupları ve saklı anlam indeksi verilebilir. Türkçe için bugüne kadar yapılmış en kapsamlı karşılaştırma çalışması sunulmuştur. Sonuçlarda n-gramların genel olarak diğer temsil yöntemlerinden daha başarılı sonuçlar ürettiği görülmüştür. 

A Comparison of Text Representation Methods for Turkish Text Classification

Which features are the most important for text classification tasks? How does the type of text classification problem (authorship attribution, gender identification, mood identification, topic identification, sentiment analysis) affect the answer of this question? By giving various answers to these questions, the automatic text classification studies are ongoing for a long time. In this study, 17 text representation methods are compared over 6 different Turkish text classification tasks. Frequencies of the words, stem words, word phrases, n-grams, tokens, and word clusters, Latent Semantic Indexing are examples of the extracted text features. To the best of our knowledge, the most comprehensive study for Turkish text classification is presented. In general, n-grams were produced more successful results than the other text representing methods