Olasılıksal Yöntemler ile Türkçe Metinlerin Anlamsal Benzerliğinin Belirlenmesi

Metin madenciliğinde, yapısal olmayan metin verilerinden matematiksel ve istatistiksel yöntemler ile anlamlı bilgiler çıkartmak amaçlanır. Metin sınıflama, kümeleme, görüş belirleme, özetleme, anlamsal benzerlik bulma ve yazar tanıma, başlıca metin madenciliği çalışma alanlarıdır. Bu çalışmanın konusu olan anlamsal benzerlik analizi, metinler arasındaki anlamsal yakınlığı belirlemeye çalışır. Olasılıksal gizli anlam analizi ve gizli Dirichlet ataması, metinler arasındaki anlamsal benzerliğin belirlenmesinde kullanılan olasılıksal yöntemlerdir. Bu çalışmada olasılıksal gizli anlam analizi ve gizli Dirichlet ataması ile anlamsal benzerlik konusu incelenmiş ve farklı haber ajanslarından seçilen Türkçe metinleri anlamsal benzerliklerine göre sınıflamak için yapılan uygulama tartışılmıştır. Uygulamada R istatistiksel programlama dili ve Matlab kullanılmıştır.

Anahtar Kelimeler:

Anlamsal benzerlik, Gizli anlam analizi, Gizli Dirichlet ataması, Metin madenciliği

Determination of the Semantic Similarity of Turkish Texts Using Probabilistic Methods

Text mining is the process to deriving useful information from unstructured text data. During this process, text mining uses statistical and mathematical methods. Major text mining tasks include text categorization, text clustering, concept extraction, document summarization, semantic similarity and author identification. In this study, semantic similarity issues have been examined. Semantic similarity analysis aims to determine semantic similarity between texts. Probabilistic latent semantic analysis and latent Dirichlet allocation are probabilistic methods to determine semantic similarity between texts. In this study, semantic analysis using probabilistic latent semantic analysis and latent Dirichlet allocation methods is examined. Also, an application which is conducted to analyze semantic similarity and classify Turkish textual data chosen from different news agencies is discussed. R statistical programming language and Matlab are used in the application.

Keywords:

Semantic similarity, Latent semantic analysis, Latent Dirichlet Allocation, Text mining,

PDF

___

Hoffman T, 2015. Unsupervised Learning by Probabilistic Latent Semantic Analysis. Machine Learning, 42: 177-196.

Deerwester S, Dumais ST, Furnas GW, Landauer TK, Harshman R, 1990. Indexing by latent semantic analysis. Journal of the American society for information science, 41(6): 391-407.

Blei DM, Ng AY, Jordan MI, 2003. Latent dirichlet allocation. Journal of Machine Learning Research, 3: 993-1022.

Dempster AP, Laird NM, Rubin, DB, 1977. Maximum likelihood from incomplete data via the EM algorithm. Journal of the royal statistical society: 1-38.

Zemberek NLP, http://zemberek-web.appspot.com/ [erişim 03/2014]

Hornik K, Grün B, 2011. topicmodels: An R package for fitting topic models. Journal of Statistical Software, 40 (13): 1-30.

Porter MF, 1980. An algorithm for suffix stripping. Program, 14 (3): 130-137

Sinop Üniversitesi Fen Bilimleri Dergisi-Cover

ISSN: 2536-4383
Başlangıç: 2016
Yayıncı: -

Arşiv

Sayıdaki Diğer Makaleler

Sinop Yarımadası Kıyıları (Güney Karadeniz, Türkiye) Makroalg Topluluklarının Zamansal Değişimi

Ali KARAÇUHA, Gökhan YILDIZ, Melek ERSOY KARAÇUHA

Gazbetonun Malzemesinin Isıl İletkenliğinin Farklı Gözeneklilik Oranlarında İncelenmesi

Battal DOĞAN

Hibrit Enerji Sistemlerinin Şebekeden Bağımsız Bir Çiftlik Evinde Uygulanabilirliğinin Ekonomik ve Teknik Açıdan İncelenmesi

Sunay TÜRKDOĞAN, Serkan DİLBER, Barış ÇAM

Olasılıksal Yöntemler ile Türkçe Metinlerin Anlamsal Benzerliğinin Belirlenmesi

Engin YILDIZTEPE, Volkan Uzun

Uçucu Kül ve Silis Dumanlı Betonların Mekanik Özelliklerinin XRD ile İncelenmesi

Burhan UZBAŞ, Abdulkadir Cüneyt AYDIN

Su Kurbağasında İribaşlarında (Rana ridibunda Pallas, 1771) Dört Ağır Metal ( Pb, Co, Ba, Cr) Tuzunun Akut Toksisitesinin Araştırılması

Utku GÜNER