Tümce Öğelerinden Hayat Bilgisi Çıkarımı

Yaşadığımız dünya ve bizim hakkımızda bilgiye (insanlar neyi sever/sevmez, ister/istemez?, insanlar/nesneler nerelerde bulunur?, hangi eylemler nerede/hangi amaçla yapılır? vb.) sahip bilgisayarlar, hayatlarımızı daha fazla kolaylaştıracaklardır. Örneğin böyle sisteme, kullanıcısı kedisinin hasta olduğunu söylediğinde sistem ona en yakındaki veterinerin telefonunu verecek, bilgisayarlara yapacakları her şeyi en ince ayrıntılarına kadar anlatma gereksinimimiz ortadan kalkacaktır. Ancak böyle uygulamaları mümkün kılacak anlamsal veritabanlarının elle oluşturulması oldukça zor ve zaman alıcı bir süreçtir. Bu tür bilgilerin Türkçe toplanması için başlattığımız projede birçok metin koleksiyonundan ve birçok otomatik bilgi çıkarımı yönteminden yararlanılması düşünülmektedir. Bu çalışmada, bu tür bilgilerin tümcelerin öğe ikililerinden üretilebileceği fikri ve bunun uygulaması sunulmuştur. Çok sayıda tümcenin öğe çözümlemelerinden bu tür bilgiler (hayat bilgisi) otomatik olarak üretilmiştir. Örneğin özne - dolaylı tümleç öğe ikililerinden bir şeyin nerelerde bulunduğu, özne-yüklem öğe ikililerinden bir şeyin yapabildiği şeylerin neler olduğu bilgileri çıkarılmıştır. Yapılan çalışma sayesinde Türkçe için oluşturduğumuz hayat bilgisi veri tabanı için 13 farklı ilişki türüne ait 26.877 adet kavram ikilisi bulunmuştur.

Anahtar Kelimeler:

Otomatik Bilgi Çıkarımı, Hayat Bilgisi Veri Tabanları, Tümce Çözümleme, Tümcelerin Öğelerıne Ayrılması

Commonsense Knowledge Acquisition by Sentence Analysis

Computers having commonsense knowledge (What do people like/dislike, want /not want?, Where do you find people/objects?, What are the causes of our action? etc.) facilitate our lives more. Such a system, when the user says that his/her cat is ill, responses the contact information of the nearest veterinarian. However, the manually creation of such semantic databases is very difficult and time consuming process. We initiated a project for collecting Turkish commonsense knowledge from several corpus by several automatic information extraction methods. In this study, the idea of such information can be extracted from the pairs of sentence elements is presented and implemented. For example, “subject-indirect object” pairs says a place where the subject can be found. “subject-verb” pairs says what can a subject do. A commonsense knowledge base were constructed consist of 26.877 knowledge triple of 13 relation types.

Keywords:

Commonsene Knowledge Acquisition, Commonsense Databases, Sentence Analysis, Automatic Information Extraction,

PDF

___

[1] Lenat., D.B., 1995. "Cyc: A Large-Scale Investment in Knowledge Infrastructure", The Communications of the ACM, 38(11):33-38.
[2] Singh, P., Lin, T., Mueller, E.T., Lim, G., Perkins, T. ve Zhu, W.L., 2002. "Open Mind Common Sense: Knowledge acquisition from the general public", Proceedings of the First International Conference on Ontologies, Databases, and Applications of Semantics for Large Scale Information Systems, Irvine, CA.
[3] Bilgin O., Çetinoğlu Ö. ve Oflazer K., 2004. "Building a Wordnet for Turkish", Romanian Journal of Information Science and Technology, cilt 7, 1-2.
[4] Güngör, O. ve Güngör, T., 2005. " Türkçe için Bilgisayarla İşlenebilir Sözlük Kullanarak Kavramlar Arasındaki İlişkilerin Belirlenmesi", Akademik Bilişim Konferansı, 2007.
[5] Amasyalı M.F., "Türkçe Wordnet'in Otomatik Olarak Oluşturulması", Sinyal İşleme ve Uygulamaları Sempozyumu.
[6] Amasyalı, M.F., İnak, B. ve Ersen, M.Z., 2010. “Türkçe Hayat Bilgisi Veri Tabanının Oluşturulması", Akademik Bilişim Sempozyumu.
[7] Can, F., Koçberber, S., Bağlıoğlu, O., Kardaş, S., Öcalan, H.C., Uyar, E., 2009. "Türkçe haberlerde yeni olay bulma ve izleme: Bir deney derleminin oluşturulması", Akademik Bilişim Sempozyumu.
[8] http://code.google.com/p/zemberek/
[9] Kemal Oflazer, Bilge Say, Dilek Zeynep Hakkani-Tür, Gökhan Tür, 2003. Building a Turkish Treebank, Invited chapter in Building and Exploiting Syntactically-annotated Corpora, Anne Abeille Editor, Kluwer Academic Publishers.
[10] Haşim Sak, Tunga Güngör, Murat Saraçlar, 2007. Morphological Disambiguation of Turkish Text with Perceptron Algorithm, CICLing 2007, LNCS 4394, 107–118.