Türkçe için Wikipedia Tabanlı Varlık İsmi Tanıma Sistemi

Varlık ismi tanıma, doğal dil işleme araştırma alanında bir problemdir ve genellikle doğal dildeki metinlerden kişi, yer ve kurum isimlerinin otomatik çıkarılması olarak tanımlanmaktadır. Bu çalışmada, Türkçe için geliştirdiğimiz Wikipedia tabanlı bir varlık ismi tanıma sistemi tanıtılmıştır. Wikipedia gibi internet kullanıcıları tarafından oluşturulan kaynakların varlık ismi tanıma gibi konular için oldukça faydalı oldukları bilinmektedir. Öncelikle, Türkçe Wikipedia’dan otomatik olarak geniş bir insan ismi listesi derlenmiştir. Daha sonra, bu liste ile birlikte yine Türkçe Wikipedia’dan ve Türkçe için kural-tabanlı bir sistemden elde edilmiş kişi, yer ve kurum ismi listelerini de kullanarak Türkçe için Wikipedia-tabanlı bir varlık ismi tanıma sistemi geliştirilmiştir. Sistemimiz değişik veri kümeleri üzerinde test edilerek değerlendirilmiş ve umut verici sonuçlar elde edilmiştir. Türkçe metinlerde bilgi çıkarımı üzerinde yapılmış kısıtlı sayıda çalışma olduğundan bizim sistemimiz bu konuda önemli bir katkı teşkil etmektedir.

Wikipedia-based Named Entity Recognition System for Turkish

Named entity recognition is a problem in the research area of natural language processing and is usually defined as the automatic extraction of the names of people, locations, and organizations in natural language texts. In this study, a Wikipedia-based named entity recognition system for Turkish is introduced. It is well-known that resources like Wikipedia, which are created by internet users, are considerably important for topics like named entity recognition. We have first automatically compiled a large list of person names from Turkish Wikipedia. Then, we have developed a Wikipedia-based named entity recognition system for Turkish which utilizes this large list with other lists of person, location and organization named obtained from Turkish Wikipedia and a former rule-based named entity recognizer for Turkish. We have evaluated our system on different types of datasets and obtained promising results. Our system is a significant contribution to information extraction on Turkish texts since there are limited number of related studies carried out so far.

___

  • 1. Nadeau, D. ve Sekine, S. “A survey of named entity recognition and classification”. Lingvistica Investigationes, 30(1): 3-26, (2007)
  • 2. Cucerzan S, Yarowsky D. “Language independent named entity recognition combining morphological and contextual evidence”. Joint SIGDAT Conference on Empirical Methods in Natural Language Processing and Very Large Corpora, 90-99, (1999)
  • 3. Tür, G., Hakkani-Tür, D. ve Oflazer, K. “A statistical information extraction system for Turkish”. Natural Language Engineering, 9(2): 181-210, (2003)
  • 4. Küçük, D. ve Yazıcı, A. “Named entity recognition experiments on Turkish texts”. International Conference on Flexible Query Answering Systems, LNCI 5822: 524-535, (2009)
  • 5. Özger, Z. B. ve Diri, B. “Türkçe dokümanlar için kural tabanlı varlık ismi tanıma”. Türkiye Bilişim Vakfı Bilgisayar Bilimleri ve Mühendisliği Dergisi, 6(6): 91- 101, (2012)
  • 6. Tatar, S. ve Çiçekli, İ. “Automatic rule learning exploiting morphological features for named entity recognition in Turkish”. Journal of Information Science 37(2): 137-151, (2011)
  • 7. McCallum, A. ve Li, W. “Early results for named entity recognition with conditional random fields, feature induction and web-enhanced lexicons”. Seventh Conference on Natural Language Learning at HLTNAACL, 188-191, (2003)
  • 8. Yeniterzi, R. “Exploiting morphology in Turkish named entity recognition system”. ACL Student Session. 105- 110, (2011)
  • 9. Özkaya, S. ve Diri, B. “Türkçe metinlerde şartlı rasgele alanlarla varlık ismi tanıma”. IEEE Sinyal İşleme ve İletişim Uygulamaları Kurultayı, 662-665, (2011)
  • 10. Şeker, G.A. ve Eryiğit, G. “Initial explorations on using CRFs for Turkish named entity recognition”. International Conference on Computational Linguistics. 2459-2474, (2012)
  • 11. Küçük, D. ve Yazıcı, A. “A hybrid named entity recognizer for Turkish”. Expert Systems with Applications 39(3): 2733-2742, (2012)
  • 12. Demir H, Özgür A. “Improving named entity recognition for morphologically rich languages using word embeddings”. International Conference on Machine Learning and Applications, 117-122, (2014)
  • 13. Ritter, A., Clark, S., ve Etzioni, O. “Named entity recognition in tweets: an experimental study”. Conference on Empirical Methods in Natural Language Processing, 1524-1534, (2011)
  • 14. Çelikkaya, G., Torunoğlu, D., Eryiğit, G. “Named entity recognition on real data: A preliminary investigation for Turkish”. International Conference on Application of Information and Communication Technologies, (2013)
  • 15. Küçük, D., Jacquet, G., Steinberger, R “Named entity recognition on Turkish tweets”. Language Resources and Evaluation Conference. 450-454, (2014)
  • 16. Küçük, D., ve Steinberger, R. “Experiments to improve named entity recognition on Turkish tweets”. Workshop on Language Analysis for Social Media (LASM) of EACL, 71-78, (2014)
  • 17. Vikipedi: Özgür Ansiklopedi, https://tr.wikipedia.org/wiki/Ana_Sayfa
  • 18. Küçük, D. “Automatic compilation of language resources for named entity recognition in Turkish by utilizing Wikipedia article titles”. Computer Standards & Interfaces, 1-9, (2015)
  • 19. Zesch, T., Müller, C., ve Gurevych, I. “Extracting Lexical Semantic Knowledge from Wikipedia and Wiktionary”. Language Resources and Evaluation Conference, 1646-1652, (2008)
  • 20. Grishman, R. ve Sundheim, B. “Message understanding conference-6: A brief history”. 16th International Conference on Computational Linguistics, 466-471, (1996)
  • 21. Say, B., Zeyrek, D., Oflazer, K. ve Özge, U. “Development of a corpus and a treebank for present-day written Turkish”. 11th International Conference of Turkish Linguistics, (2002)
  • 22. Ratinov, L. ve Roth, D. “Design challenges and misconceptions in named entity recognition”. Thirteenth Conference on Computational Natural Language Learning, 147-155, (2009)
  • 23. Cohen, W., Ravikumar, P. ve Fienberg, S. “A comparison of string metrics for matching names and records”. KDD Workshop on Data Cleaning and Object Consolidation, 73-78, (2003)
  • 24. Tjong Kim Sang EF, De Meulder F. “Introduction to the CoNLL-2003 shared task: Language-independent named entity recognition”. Seventh Conference on Natural Language Learning at HLT-NAACL, 142-147, (2003)
  • 25. Shaalan, K. “A survey of Arabic named entity recognition and classification”. Computational Linguistics, 40(2): 469-510, (2014)
  • 26. Sasidhar, B., Yohan, P. M., Babu, A. V., & Govardhan, A. “A survey on named entity recognition in Indian languages with particular reference to Telugu”. International Journal of Computer Science Issues, 8: 438-443, (2011)
Politeknik Dergisi-Cover
  • ISSN: 1302-0900
  • Yayın Aralığı: Yılda 4 Sayı
  • Başlangıç: 1998
  • Yayıncı: GAZİ ÜNİVERSİTESİ
Sayıdaki Diğer Makaleler

Rüzgar ve Termik Santrallerden Oluşan Enerji Sistemlerinde Ekonomik Güç Dağılımının Big-Bang Big-Crunch, PSO ve IMO Algoritmaları ile İrdelenmesi

Alp KARADENİZ, Mehmet Kubilay EKER

Cholesteryl Octanoate Tek Kristalinde Işınlama ile Oluşan Radikalin ESR Tekniği Kullanılarak Belirlenmesi

Ülkü SAYIN, Sami BÜYÜKÇELEBİ, Ayhan ÖZMEN

Yürüme Engelli Bireyler için Pedaldan Kumandalı Dikiş Makinelerinin Kumanda Bileklik Sistemi ile Kontrolü

Harun SÜMBÜL, Yusuf YAKUT

Araç Gövdesi Mimari Kesitlerinin Parametrik Tasarımı

İbrahim UTANIR, Özgür ÖZTÜRK., Emre DORUK

Çok Yanıtlı Taguchi Eniyilemesine Yönelik Bir Bilgisayar Uygulamasının Geliştirilmesi

Yusuf Tansel İÇ, Hikmet DURAN, Barış KEÇECİ, Emrecan İLİK, Berkan BİLGİÇ

TiO2 İçeren Nanoakışkan Kullanımının Isı Borusu Performansına Etkisinin Deneysel Olarak İncelenmesi

Erdem ÇİFTÇİ, Adnan SÖZEN, Esra KARAMAN.

Soğuk Derzin Betonun Eğilme ve Doğrudan Çekme Dayanımı Üzerindeki Etkisinin Araştırılması

Nursultan KADYROV, Salih YAZICIOĞLU

Dik Kesme İşleminde Kalıcı Gerilmelerin Sonlu Elemanlar Yöntemiyle Modellenmesi

Mehmet AYDIN.

Şebeke Bağlantılı Eviriciler için LLCL Filtre Tasarımı; Detaylı Bir Performans Analizi

Murat KARABACAK, Fuat KILIÇ, Bilal SARAÇOĞLU, Ali Fuat BOZ, Abdullah FERİKOĞLU

Ön Karışımsız ve Ön Karışımlı Metan Alevlerinin Baca Yanma Parametrelerinin Deneysel Olarak İncelenmesi

Mustafa İLBAŞ, Serhat KARYEYEN, Kazım ÇİLİNGİR