Metin Sınıflandırma

Geçtiğimiz yirmi yıl göz önüne alındığında, bilgisayar ortamında üretilen belgelerin sayısının her geçen sene yükselen bir ivme ile artmakta olduğu görülmektedir. Kuşkusuz internetin ortaya çıkması, geniş kitleler tarafından kolayca ulaşılabilir ve kullanılabilir hâle gelmesi, kişisel bilgisayarların, akıllı telefonların, tabletlerin fiyatlarının ucuzlaması ve toplumun bilgisayar kullanımının artması gibi etkenler, elektronik ortamda oluşturulan belgelerin sayısının artmasının en önemli nedenleridir. Çok sayıda bilgi varlığının getirdiği sayısız fayda ile beraber ortaya çıkan bazı sorunların da çözülmesi gerekmektedir. Bu bağlamda ortaya çıkan sorunlardan bir tanesi de elektronik ortamdaki metinlerin sınıflandırılması sorunudur. Metin sınıflandırma sorunu, en genel anlamı ile eldeki bir metnin önceden belirlenen sınıflardan hangisine ya da hangilerine girdiğinin belirlenmesi demektir. Metin sınıflandırma için belge sınıflandırma, metin kategorilerinin belirlenmesi gibi farklı isimler de kullanılmaktadır.

Text Classification

The last two decades witnesses the proliferation of the number of electronically accessible documents. The emerge of the internet, easy access and usage of the internet with increasing coverage ratios, increased computer, smart phone and tablet usage triggered by decreased prices, increased computer usage ratios in the society and similar factors played important roles in this. Having lots of documents has some advantages, as well as some disadvantages that must be dealt with. A problem to work with the large number of documents is categorizing texts or electronic documents. In its broad sense, text categorization problem aims to determine which previously specified category or categories are suitable for a given text. This problem is addressed by different terms like text classification, document classification and document categorization in various contexts.