Büyük Veri Yaklaşımıyla Birden Çok Bilgi Erişim Merkezinin Kolektif Kullanımı

Öz Gelişen bilgisayar sistemleri üretilen veri miktarını artırırken değerli veriye erişimi daha zorlu hale getirmiştir. Kullanıcıların yerel veri tabanlarında kayıtlı bibliyografik verileri kullanarak katalog taraması yapması modası geçmek üzere olan bir yöntemdir. Bu sorunun çözümü için hem bibliyografik veri kaynakları artırılmalı hem de daha performansı yüksek yöntemlerle tarama yapılabilmelidir. Veri kaynaklarını artırmada bir yöntem bilgi erişim merkezlerinin konsorsiyum mantığında bir araya getirilmesidir. Yüksek performanslı tarama için ise yöntem bibliyografik verilerin özetlenmesi ve dağıtılmasıdır. Bugüne kadar teknik nedenlerle mümkün olmayan bu türden bir yaklaşım büyük veri yardımıyla mümkün olabilecektir. Bu çalışma; bilgi erişim merkezi kaynaklarının özetlendiği ve paylaşıldığı bir mimari önerir. Bu yaklaşıma göre her bir bilgi erişim merkezinin bibliyografik verisi Hadoop mimarisinde dağıtık olarak bir veri düğümü ile, bütün bilgi erişim merkezlerinin özet verisini tutan ana merkez ise bir isim düğümü ile eşleştirilecektir. Veri düğümlerinde bibliyografik veri, isim düğümünde ise bilgi erişim merkezi bilgileri ve karakter n-gramlara dayalı özetler yer alacaktır. Sistemden yararlanmak isteyen bir kullanıcı önce isim düğümü üzerinde sorgulamasını yapacak sorgusu ile en iyi eşleşen veri düğümünü bulacak ve daha sonra veri düğümü üzerinde detay sorgusunu yapabilecektir. Bu çalışma kapsamında kişilerin eskiden beri kullandığı bilgi erişim yöntemleri büyük veri yaklaşımıyla modernize edilmiş olup ortaya bir öneri konmuştur.

Anahtar Kelimeler:

Büyük veri, Hadoop mimari, MapRaduce, Apache Lucene

PDF

___

A. Bozkurt, “Öğrenme analitiği: e-öğrenme, büyük veri ve bireyselleştirilmiş öğrenme”, Açık Öğretim Uygulamaları ve Araştırmaları Dergisi (AUAd), 2(4), 55-81, 2016.
İnternet: G. Utkun, Microsoft Türkiye Blog, http://blog.microsoft.com.tr/buyuk-veri-nedir.html, 30.06.2017.
F. X. Diebold, “Big Data Dynamic Factor Models for Macro economic Measurement and Forecasting”, In Advances in Economics and Econometrics: Theory and Applications, Eighth World Congress of the Econometric Society, Editörler: Dewatripont, M., Hansen, L.P., Turnovsky, S., 115-122, 2003.
H. Takcı, H. Çetin, “N-Gram Tabanlı Katmanlı Bir Bilgi Erişim Modeli Geliştirilmesi”, International Multidisciplinary Conference (IMUCO 2016), Antalya, Türkiye, 503-512, 21-22 Nisan 2016.
V. M. Schönberger, K. Cukier, Büyük Veri - Yaşama, Çalışma ve Düşünme Şeklimizi Dönüştürecek Bir Devrim, Çeviren: B. Erol,,Paloma Yayınları, İstanbul, Türkiye, 2013.
C. Eyüpoğlu, M. A. Aydın, A. Sertbaş, A. H. Zaim, O. Öneş, “Büyük Veride Kişi Mahremiyetinin Korunması”, Bilişim Teknolojileri Dergisi, 10(2), 177-184, 2017.
İnternet: C. Göksu, Datawarehouse Türkiye, http://datawarehouse.gen.tr/big-datanedir-geleneksel-veriyonetimine- etkisi-ne-olur, 30.06.2017.
B. Hoy, “Bigdata: An introductionforlibrarians”. Medical Reference Services Quarterly, 33(3), 320-326, 2014.
D. M. Schaeffer, P. C. Olson, “Big data options for small and medium enterprises”, Review of Business Information Systems, 18 (1), 41-46, 2014.
E. Dumbill, “Making sense of bigdata”, Big Data, 1(1), 1-2, 2013.
L. Aysan, İ. G. Özbilgin, “Tek Kart Bilgisayarlar ile Bulut Oluşturarak MapReduce İşlemleri Denemesi”, Bilişim Teknolojileri Dergisi, 8(3), 179-191, 2015.
S. Nicholson, “Bibliomining for automated collection development in a digital library setting: Using data mining to discover webbased scholarly research Works”, Journal of the American Society for Information Science and Technology, 54(12), 1081-1090, 2003.
R. K. Dwivedi, R. P. Bajpai, “Data Mining Techniques For Dynamically Classifying And Analyzing Library Database”, 5th International CALIBER-2007, Panjab University, Chandigarh, 477-485, 08-10 February 2007.
H. Takçı, İ. Soğukpınar, “Discovery of Access Patterns of Library Users”, Information World Journal, 3(1), 12-26, 2002.
H. Takçı, İ. Soğukpınar, “Web Kullanıcıların Kümelenmesi ile Nüfuz Tespiti”, TBD 21. Ulusal Bilişim Kurultayı, ODTÜ, Ankara, 4-6 Ekim 2004.
A. Visa, “Technology of Text Mining”, Machine Learning and Data Mining in Pattern Recognition, Editör: Perner, P., Springer, 1–11, 2001.
T. Kaşıkçı, H. Gökçen, “Madenciliği ile E-Ticaret Sitelerinin Belirlenmesi”, Bilişim Teknolojileri Dergisi, 7(1), 25-32, 2014.
M. G. Armentano, D. Godoy, M. Campo, A. Amandi, “NLP-based faceted search: Experience in the development of a science and technology search engine”, Expert Systems with Applications, 41, 2886-2896, 2014.
X. Niu, B. Hemminger, “Analyzing the Interaction Patterns in a Faceted Search Interface”, Journal Of The Assocıatıon For Informatıon Scıence And Technology, 66(5), 1030–1047, 2015.
F. Giunchiglia, U. Kharkevich, I. Zaihrayeu, Concept Search: Semantics Enabled Information Retrieval, University of Trento, 2010.
W. B. Cavnar, J. M. Trenkle, “N-gram-based text categorization”, 3rd AnnualSymposium on Document Analysis and Information Retrieval, Nevada, A.B.D., 161-175, 11-13 Nisan 1994.
F. Peng, V. Keselj, N. Cerconey, C. Thomasy, “N-Gram-Based Author Profiles For Authorship Attribution”, Faculty of Computing Science, Dalhousie University, Canada, 2003.
E. Miller, D. Shen, J. Liu, C. Nicholas, T. Chen, “Techniques for Gigabyte-Scale N gram Based Information Retrieval on Personal Computers”, International Conference on Paralleland Distributed Processing Techniques and Applications, Las Vegas, A.B.D., 1410-1416, Haziran 1999.
C. Pearce, E. Miller, “The TELLTALE Dynamic Hypertext Environment: Approaches to Scalability”, Advances in Intelligent Hypertext, Editörler: Mayfieldand, J., Nicholas, C., Lecture Notes in Computer Science, Springer-Verlag, 109 – 130, 1997.
D. Motwani, M.L. Madan, “Information Retrieval Using Hadoop Big Data Analysis”, Advances in Optical Science and Engineering, Part of the Springer Proceedings in Physics book series (SPPHY), 166, 409-415, 2015.
R. Lammel, “Google’s MapReduce programming model — Revisited”, Science of Computer Programming, 70, 1-30, 2008.