Türkçede Çok Sözcüklü Birimlerin İşlev Dizisi Örüntüleri

Çok sözcüklü birim (ÇSB) çıkarımı çalışmalarında, Türkçe gibi zengin biçimbilime sahip dillerde karşılaşılan pek çok güçlük, bu süreci etkileyen istatistik sıralamanın yanında, işlevsel ayıklamanın, zihnimizde nasıl işlediği üzerine çalışarak aşılabilir. Herhangi bir sözcük dizisinin ÇSB olarak sözlükselleşmesi için, bazı sözlüksel ve biçimsözdizimsel kısıtlamalara da uygun olması gerekeceği varsayımından hareketle, bu çalışma, Türkçe’de işlevsel örüntülerde gözlenen biçimsözdizimsel eğilimlere ve bu eğilimlere dayalı olarak, Türkçe’de ÇSB ayıklama sürecine ilişkin çıkarımlara değinecektir. Çalışmanın amacı, Türkçe’de bir sözcük dizisinin, ÇSB olarak sözlükselleşmesi için, içerdiği sözcükler arasındaki ilinti gücünün yeterli olmadığını göstermek ve bu sözcük dizilerinin kabul edilebilir ÇSB’ler olarak sözlükçemizde yer alması için gerekli olan biçimsözdizimsel ve sözlüksel kısıtlamaları tartışmaktır. Çalışma bu yönüyle, zengin biçimbilimli dillere özel bir ÇSB çıkarım yöntemiyle ilgili de bir bakış açısı sunmayı amaçlamaktadır. Belirtilen amaçlar doğrultusunda, öncelikle, Text-NSP (Banerjee & Pedersen, 2011) kullanılarak, Türkçe Ulusal Derlemi’nin 10 milyon sözcüklük bir alt-derleminden ÇSB adayları -üçlü diziler- çekilmiştir. Sonrasında, bu üçlü sözcük dizileri TUD-işaretleyicinin içerdiği Doğal Dil İşleme (DDİ) sözlüğü yardımıyla işaretlenmiş ve içerdikleri işlev dizileri ve sözcük türlerine göre sıralanmıştır. Sonuç olarak, bu en sık gözlenen işlev dizilerinin, Türkçe’de çok sözcüklü birimlerin sözlükçeye yerleşmesinde etken olan biçimsözdizimsel eğilimler olduğu savlanmıştır. Bu yönüyle çalışma, Türkçe’de fazlaca çalışılmayan kalıp dil kullanımı (İng. formulaic language) konusuna katkı sunmayı hedeflemektedir.

Colligational Patterns of Turkish Multi-Word Units

In multi-word unit (MWU) extraction studies, most of the challenges for rich morphology languages like Turkish can be overcome by the study of how colligational filtering works in our minds, along with how statistical and collocational sorting affects the process. Based on the assumption that lexicalization of any given collocation as a MWU also requires compatibility to some lexical or morphosyntactic constraints, this study will present the morphosyntactic tendencies observed in colligational patterns of Turkish MWUs and discuss their implications on language-specific MWU filtering processes. The aim of the study is to discuss if in Turkish, associative strength is enough for a collocation to be lexicalized as a MWU or not. Another purpose of the study is to show some morphosyntactic and lexical constraints that may validate collocations to be lexical multi-word units in Turkish. The paper will also underscore the methodological perspectives of MWU identification valid for rich-morphology languages. To achieve these goals, we first extracted MWU candidates -trigrams- from a 10-million-word sub-corpus of Turkish National Corpus (TNC) by using Text-NSP (Banerjee & Pederson, 2011). After that, the 3-grams were annotated by using the NLP dictionary of TNC-tagger, and classified according to their colligational patterns and lexical categories of the MWU. Most frequently observed colligational patterns are argued to be morphosyntactic tendencies governing MWU lexicalization in Turkish. In this respect, the study aims to contribute to the understudied area of formulaic language in Turkish.

___

  • Ädel, A., & Erman, B.,Recurrent word combinations in academic writing by native and non-native speakers of English: A lexical bundles approach,81-92,2012,31