Nitelik Çıkarımı Yöntemlerinin Türkçe Metinlerin Sınıflandırılmasına Etkisi
Nitelik çıkarımı metin sınıflamanın en önemli önişleme adımıdır. Önişleme tekniklerinin İngilizce metin sınıflandırma üzerindeki etkisi çok çalışılmış bir konu olmasına rağmen, Türkçe için bu konuda yapılmış çalışmalar oldukça sınırlı ve belirli bir problem alanına bağlıdır. Bu çalışmada nitelik çıkarımının haber sınıflama, spam e-posta tespiti, duygu analizi ve yazar tanımayı içeren dört farklı Türkçe metin sınıflandırma problemi üzerindeki etkisi araştırılmış ve problemler arasındaki benzerlik ve farklılıklar gözlenmiştir. Ayrıca yeni bir nitelik seçimi yöntemi önerilmiştir. Deneysel analizler sonucunda durak kelimelerin çıkarılmasının sınıflandırma performansını artırdığı görülmüştür. Ancak kelime köklerinin alınmasının sınıflandırma doğruluğu üzerinde olumlu bir etkisi gözlenmemiştir. En başarılı terim ağırlıklandırma yöntemlerinin tf ve tf*idf olduğu görülmüştür. Önerilen nitelik seçimi yöntemi sınıflandırma performansını iyileştirmiş ve sıklıkla kullanılan yöntemlerden daha yüksek doğruluk değerine sahip olmuştur.
Effects of Feature Extraction Techniques on Classification of Turkish Texts
Feature extraction is the most important preprocessing step of text classification task. Effects ofpreprocessing techniques on text mining for English have been extensively studied. However, studies forTurkish are limited and generally belong to a specific problem domain. In this study, we investigate theeffects of feature extraction techniques on four different Turkish text classification problems includingnews classification, spam e-mail detection, sentiment analysis, and author detection to show thedifferences and similarities among the problems. We also propose a new feature selection method toreduce feature space. The experimental analysis has showed that, stopword removal improvesclassification performance. However, stemming does not make any positive effect on classificationaccuracy. The most successful term weighting methods are tf and tf*idf. The proposed feature selectionmethod improves classification performance and has higher accuracy than the well-known methods.
___
- Hand, D., Mannila, H., Smyth, P., 2001.
Principles of Data Mining, the MIT Press,
England, 546.
- İlhan, S., Duru, N., Karagöz, Ş., Sağır, M.,
2008. Metin Madenciliği ile Soru Cevaplama
Sistemi, ELECO-2008, 356-359.
- Amasyalı, M.F., Diri, B., 2006. Automatic
Turkish Text Categorization in Terms of
Author, Genre and Gender. C. Kop et al.
(Eds.): NLDB 2006, LNCS 3999, 221–226.
- Yıldız, H.K., Gençtav, M., Usta N., Diri B.,
Amasyalı M.F., 2007. Metin Sınıflandırmada
Yeni Özellik Çıkarımı, Signal Processing and
Communications Applications (SIU 2007),
Eskişehir, Turkey.
- Cataltepe, Z., Turan, Y., Kesgin, F., 2007.
Turkish Document Classification Using Shorter
Roots, Signal Processing and Communications
Applications (SIU 2007), Eskisehir, Turkey.
- Güran, A., Akyokuş, S., Bayazıt, N.G., Gürbüz,
M.Z., 2009. Turkish Text Categorization Using
N-Gram Words. International Symposium on
Innovations in Intelligent Systems and
Applications (INISTA 2009), Trabzon, Turkey.
- Torunoğlu, D., Çakırman, E., Ganiz, M.,
Akyokuş, S., Gürbüz, Z., 2011. Analysis of
Preprocessing Methods on Text Classification
of Turkish Texts, International Symposium on
Innovations in Intelligent Systems and
Applications (INISTA 2011), İstanbul,
112-117.
- Uysal, K.U., Günal, S., 2013. The Impact of
Preprocessing
on
Text
Classification,
Information Processing and Management,
104-112.
- Amasyalı, M.F., Balcı, S., Varlı, E.N., Mete,
E.,
2012.
Türkçe
Metinlerin
Sınıflandırılmasında
Metin
Temsil
Yöntemlerinin Performans Karşılaştırılması,
EMO Bilimsel Dergi.
- Açıkalın, B., Beyazıt, N.G., 2016. The
Importance of Preprocessing in Turkish Text Classification,
Signal
Processing
and
Communications Applications (SIU 2016),
Zonguldak.
- Parlar T., Özel S.A., 2018. An Investigation of
Term Weighting and Feature Selection
Methods for Sentiment Analysis, Majlesi
Journal of Electrical Engineering, 12(2), 63-68.
- Amasyalı, M.F., Beken, A., 2013. Türkçe
Kelimelerin
Anlamsal
Benzerliklerinin
Ölçülmesi
ve
Metin
Sınıflandırmada
Kullanılması,
Signal
Processing
and
Communications Applications (SIU 2009),
Antalya, Turkey.
- Amasyalı, M.F., Çetin, M., 2013. Eğiticili ve
Geleneksel
Terim
Ağırlıklandırma
Yöntemleriyle
Duygu
Analizi,
Signal
Processing and Communications Applications
(SIU 2013), KKTC.
- Ergin, S., Sora Gunal, E., Yigit, H., Aydin, R.,
2012. Turkish Anti-spam Filtering Using
Binary and Probabilistic Models, AWER
Procedia Information Technology & Computer
Science, 1, 1007-1012.
- Yıldız Teknik Üniversitesi Kemik Grubu Veri
Kümeleri, http://www.kemik.yildiz.edu.tr
- Akın, A.A., Akın, M.D., 2007. Zemberek, an
Open Source NLP Framework for Turkish
Languages, Structure, 10, 1-5.
- Eryiğit, G., Adalı, E., 2004. An Affix Striping
Morphological
Analyzer
for
Turkish,
International Conference Artificial Intelligence
and Applications, Austria, 299-304.
- Can, F., Koçberber, S., Balçık, E., Kaynak, C.,
Öcalan, H.Ç., Vursavaş, O.M., 2008.
Information Retrieval on Turkish Texts,
Journal of the American Society for
Information Science and Technology, 59,
407-421.
- Han J., Kamber M., Pei, J.P., 2012. Data
Mining Concepts and Techniques, Elsevier,
740.
- Leung, K.M., 2007. Naive Bayesian Classifier,
Polytechnic
University
Department
of
Computer
Science/Finance
and
Risk
Engineering. Lecture Notes.
- Tunalı, V., Bilgin, T.T., 2012. PRETO: A
High-Performance Text Mining Tool for
Preprocessing Turkish Texts, International Conference on Computer Systems and
Technologies.
- Weka data mining tool http://www.cs.waikato.
ac.nz/ml/weka