Türkçe Tweetler Üzerinde Otomatik Soru Tespiti

Bu çalışmada Twitter'da paylaşılan Türkçe yazılmış tweetlerden, içinde soru geçenleri kural tabanlı yaklaşımla tespit edilmeye çalışılmıştır. Veri seti olarak rastgele örneklenen tweetler yerine belirli bir etiket ile paylaşılan tweetler kullanılmıştır. Bunun sebebi, bu çalışmada belirli bir odağa yönelik sorulan soruların tespitinin amaçlanmış olmasıdır. Deneyler için, bir televizyon kanalında canlı olarak yayınlanan programda tarihi bir konu konuşulurken izleyicilerin sorularıyla programa katkıda bulunması amacıyla açılan etiketle paylaşılan 354 tweet toplanmıştır. Bu tweetlerdeki yazım hatalarını düzeltmede Zemberek kütüphanesinden yararlanılmıştır. Daha sonra Türkçe soru cümlesi yapısına göre, kesinlik değerini veya duyarlılık değerini yüksek tutmayı amaçlayan 3 farklı basit kural tanımlanmış ve her biri ayrı yöntem olarak deneylerde uygulanmıştır. Deneyler sonucunda %100 kesinlik, %96,48 duyarlılık ve 0.929 F-skoru değerleri en başarılı performanslar olarak kaydedilmiştir.

Automatic Question Identification on Turkish Tweets

In this work, it was tried to identify which are includes question from the tweets written in Turkish shared in Twitter, with a rule-based approach. As a data set, tweets that are shared with a certain hashtag are used instead of randomly sampled tweets. The reason for this, it is aimed to identify the questions asked for a specific focus in this study. For the experiments, 354 tweets were collected, shared with the hashtag that was created in order to contribute of the audience to the program by asking the questions while a historical topic was being spoken in the program broadcast live on a television channel. The Zemberek library has been used to fix typos in these tweets. Then, according to the Turkish question sentence structure, 3 simple rules are defined aiming at keeping the precision value or the sensitivity value high and each one is applied as a separate method. As a result of experiments, 100% precision, 96.48% sensitivity and 0.929 F-score values were recorded as the most successful performances.

___

  • Statista, “Number of monthly active Twitter users worldwide from 1st quarter 2010 to 3rd quarter 2017 (in millions)” www.statista.com. [Online]. Available: https://www.statista.com/statistics/282087/number-of-monthly-active-twitter-users/, 2017.
  • M. Efron ve M. Winget, “Questions are content: a taxonomy of questions in a microblogging environment”, Proc. of ASIST ’10, 2010.
  • B. Li, X. Si, M. R. Lyu, I. King ve E. Y. Chang, “Question Identification on Twitter”, Proceedings of the 20th ACM International Conference on Information and Knowledge Management, New York, USA, 2011.
  • Z. B. Özger ve B. Diri, “Sınıflandırma Tabanlı Türkçe Soru Algılama”, Akıllı Sistemlerde Yenilikler ve Uygulamaları, İzmir, Türkiye, 2014.
  • C. Cengiz ve B. Diri, “Türkçe Tweetlerden Soru İfadelerini Bulmak”, Sinyal İşleme ve Uygulamaları Kurultayı, Türkiye, Nisan 2013.
  • Google Code Archive, https://code.google.com/archive/p/zemberek/, 2017.