DERLEM, BİLGİSAYAR DESTEKLİ SÖZLÜK BİLİMİ, EŞ DİZİMLİLİK VE OTOMATİK TERİM ÇIKARIMI

Bilişim teknolojilerinde son yirmi yılda yaşanan gelişmeler dil bilimi çalışma ve uygulamalarını artan bir biçimde etkilemektedir. Bilgisayar destekli dil bilimi, doğal dil işleme (DDİ), derlem dil bilimi gibi görece yeni terimler özellikle metin çözümleme başta olmak üzere dil birimlerinin otomatik belirlenimi, çıkarımı ve bu uygulamalar üzerinden yoruma dayalı çalışmalar için vazgeçilmez nitelikler taşımaktadır.Genel Ağ’da (İnternet) milyonlarca sayısallaşmış metinlerden belgelerden bilgi çıkarımında, arama-sorgulama uygulamalarında terimler önemli göstergeler, ipuçlarıdır. Terimlerin otomatik çıkarımı, elle yapılması mümkün olmayan yığınlarca sayısal metnin kavram çözümünde kullanılan yöntemler arasındadır. Bu bakımdan terime dayalı çözümlemeler yalnızca dil bilgisel çalışmalarda değil örneğin biomedikal uygulamalardan büyük kavram ağaçlarının hazırlanmasına kadar genişleyen bir alanda kullanılmaktadır.Bu çalışmada TÜBİTAK popüler kitaplarından Şaşırtan Varsayım adlı çeviri yayının eş dizimli terimler açısından olasılık-istatistik yöntemler kullanan iki yazılımca çözümlemesi yapılmıştır. Sonuç olarak otuz dokuz eş dizimli birimin terim olarak değerlendirilebilecek adaylar olduğu belirlenmiştir

Corpus, Computer-assisted Lexicography, Collocation and Automatic Term Extraction

Developments in information technologies have effected linguistic studies in terms of varies linguistic techniques in the recent twenty years. Computer-assited linguistics, natural language processing (NLP), corpus linguistics are significant terms in recent linguistic literatures. These terms and their application areas convey important meanings in text mining based inferences and considerations about language itself.Terms are also important culprit in text analyzing by means of internet. Internet contains millions amount of text conveying valuable linguistic knowledge, and those texts are not only used in linguistic survey but is also used from biomedical works to concept extraction studies. Corpus based linguistics and other computer-related fields are expanding their application areas.In this artcile, TÜBİTAK’s (The Scientific and Technological Research Council of Turkey) book called Şaşırtan Varsayım has been investigated about collocational terms. Thirty-nine terms is meaningful collocational candidate term. Sophisticated softwares which is capable of probabilistic analyzing properties has been used in the work