Türkçe Dokümanlar İçin Kural Tabanlı Varlık İsmi Tanıma

Varlık İsmi Tanıma, Doğal Dil İşleme biliminin çalışma alanlarından biri olup, dokümanlarda geçen varlık isimlerini kişi, yer ve organizasyon olarak ayırmanın yanı sıra formül, tarih ve parasal ifadeleri de bulabilmeyi hedefleyen, son yıllarda farklı dillerde çalışmaların devam ettiği bir alandır. Kural Tabanlı Varlık İsmi Tanıma ise, birtakım sözlüksel kaynaklar ile kurallar oluşturup, yüksek doğrulukla Varlık İsmi Tanıma işleminin gerçeklenmesidir.Bu makalede farklı doküman türleri için tasarlanmış, Türkçe Kural Tabanlı bir Varlık İsmi Tanıma çalışmasından bahsedilmektedir. Varlıkları sınıflama ve etiketleme işlemi kişi, kurum ve yer isimleri ile tarih, para ve saat varlıkları olmak üzere toplam 6 farklı tür için gerçekleştirilmiştir. Varlık isimlerinin bulunup etiketlenebilmesi amacıyla her bir varlık türü için küçük boyutlu sözlükler kullanılarak kurallar oluşturulmuştur. Yapılan çalışmanın sonucunda kurum isimlerinden %86, yer isimlerinden %83, kişi isimlerinden ise %84 başarı elde edilmiştir. Sayısal varlık türlerinden ise tarih varlıklarından %92, saat varlıklarından %94 ve para varlıklarından %96 başarı elde edilerek tatmin edici sonuçlar alınmıştır.

Named Entity Recognition for Turkish Text

Named Entity Recognition, which is a Natural Language Processing workspace, aims to recognize the names and numeric expressions such as person, organization, location, date, money and time. The Rule Based Named Entity Recognition, that aims to recognize some rules with some lexical resources, performs the Named Entity Recognition process with high accuracy.In this article, we mentioned about a Rule Based Named Entity Recognition for Turkish system. This system is designed for different types of documents. The system's classification process includes person, location, organization names and time, date, money entities. We have defined some rules with using small- sized lexical resources to perform the classification task. As a result of the study, the system's f-measure values are; 86% for organization names, 83% for location names, 84% for person names, 92% for date entities, 94% for time entities and 96% for money entities.