Mevcut Yöntemlerin Sentezi ile Web Sayfalarının Belli Yapılardaki Bölgelerinin Tespiti

Web içerik madenciliği, içeriğin genellikle html etiket verilerinden ve daha da önemlisi, html etiket verili listeler ve tablolar ve muhtemelen diğer iç içe yapılandırılmış verilerden oluştuğu bir web madenciliği dalıdır. Genellikle, yararlı bilgi parçaları, bazı kalıplar halinde bu yapılandırılmış veri bölgelerinde bulunur. Ancak bu kalıbı bozan gürültüler nedeniyle, faydalı veri kayıtlarının tespiti ve çıkarılması zorlu bir görev haline gelir. Veri kaydının yerinin tespiti ve çıkarılmasında, yapılandırılmış veri bölgesindeki düzenli olmayan html etiketinin yanı sıra yapılandırılmış veri bölgelerinin dışındaki herhangi bir veri, gürültü olarak kabul edilir. Önerilen çalışma, ilgili veriyi çıkarma sistemlerinin doğruluk performansını daha da iyileştirmek için mevcut yöntemlerin başarılı bileşenlerini küçük değişikliklerle birleştiren bir sentezidir. Mevcut yöntemlerin çoğu, veri kaydı bölgelerini tespit için benzer düğümleri kümelemek veya tespitten önce bir web sayfasını temsil etmek için DOM ağacını bir Etiket Yolu Sırasına (TPS) dönüştürmek için Belge Nesne Modeli (DOM) ağacını kullanır. Önerilen çalışma ilk olarak bir web sayfasını kodlayan ve veri kayıt modellerini çıkarmak için Sonek Ağacı Tabanlı Çıkarım Yöntemini (STEM) kullanan benzersiz diziyi oluşturur. Daha sonra, ilişkili veri kayıtlarının yapı olarak benzer olduğu varsayımına dayalı olarak alt dizileri kümeler. Diziler arasındaki benzerlik En Uzun Ortak Alt Dizi (LCS) algoritması kullanılarak hesaplanır. Son adımda, gürültülü alt dizilerinin DOM ağacının düğümlerine karşılık gelenleri ağaçtan budanır. Önerilen çalışmayı test etmek için bazı herkese açık web sayfaları ve Testbed veri seti kullanılmıştır. Elde edilen sonuçlar, TPS filtre yönteminin sonuçları ile karşılaştırılmıştır. Deneyler, önerilen çalışma kullanılarak kaldırılan ortalama gürültü sayısının, önceki raporlarla eşleşebilen DOM ağacının %43'ü olduğunu ve TPS filtresinden daha yüksek olduğunu göstermektedir.

Localization of Structured Regions of a Web Page Through a Synthesis of Existing Methods

Web content mining is a branch of web mining where the content usually consists of html tag-data and more importantly structured data such as lists and tables with html tag-data and possibly other nested structured data. Usually, useful pieces of information reside in these structured data regions following some pattern. But due to noises that break this pattern, detection and extraction of useful data records turn out to be a challenging task. For data record detection and extraction applications, any non-regular html tag in the structured data region as well as any data outside of the structed data regions of interest are considered to be noise. The proposed work is a synthesis of existing methods combining their successful components with minor modifications to further improve the accuracy performance of the extraction systems. Most of the existing methods utilize the Document Object Model (DOM) tree to cluster similar nodes to detect the data record regions or convert DOM tree into a Tag Path Sequence (TPS) to represent a web page before detection. The proposed work first generates the unique sequence that encodes a webpage and utilizes the Suffix Tree-based Extraction Method (STEM) to extract data record patterns. It then clusters subsequences based on the assumption that data records that are related are similar in structure. The similarity between sequences are computed using the longest common subsequence (LCS) algorithm. In the last step, the noisy subsequences are removed by pruning the corresponding nodes from the DOM tree. Some publicly available web pages and Testbed dataset are used for testing the proposed work. The obtained results are compared with those of the TPS filter method. Experiments show that the average number of noise removed using the proposed work is 43% of the DOM tree, which can match previous reports and it is higher than that of TPS filter.

___

  • Aggarwal, C. C. (2014). An Introduction to Data Classification. Data classification: algorithms and applications, 1.
  • Azir, M. A. B. M., & Ahmad, K. B. (2017, November). Wrapper approaches for web data extraction: A review. In 2017 6th International Conference on Electrical Engineering and Informatics (ICEEI) (pp. 1-6). IEEE.
  • Fang, Y., Xie, X., Zhang, X., Cheng, R., & Zhang, Z. (2018). STEM: a suffix tree-based method for web data records extraction. Knowledge and Information Systems, 55(2), 305-331.
  • Ferrara, E., De Meo, P., Fiumara, G., & Baumgartner, R. (2014). Web data extraction, applications and techniques: A survey. Knowledge-based systems, 70, 301-323.
  • Gupta, S., Kaiser, G., Neistadt, D., & Grimm, P. (2003, May). DOM-based content extraction of HTML documents. In Proceedings of the 12th international conference on World Wide Web (pp. 207-214).
  • Jokar, N., Honarvar, A. R., AgHAMIRZADEH, S., & Esfandiari, K. (2016). Web mining and Web usage mining techniques. Bulletin de la Société des Sciences de Liège, 85(1), 321-328.
  • Kayed, M., & Chang, C. H. (2009). FiVaTech: Page-level web data extraction from template pages. IEEE transactions on knowledge and data engineering, 22(2), 249-263.
  • Liu, B. (2011). Web data mining: exploring hyperlinks, contents, and usage data. Berlin: springer, 1.
  • Liu, B., Grossman, R., & Zhai, Y. (2003, August). Mining data records in web pages. In Proceedings of the ninth ACM SIGKDD international conference on Knowledge discovery and data mining (pp. 601-606).
  • Miao, G., Tatemura, J., Hsiung, W. P., Sawires, A., & Moser, L. E. (2009, April). Extracting data records from the web using tag path clustering. In Proceedings of the 18th international conference on World wide web (pp. 981-990).
  • Mughal, M. J. H. (2018). Data mining: Web data mining techniques, tools and algorithms: An overview. Information Retrieval, 9(6).
  • Sahuguet, A., & Azavant, F. (1999, September). Building light-weight wrappers for legacy web
  • Schulz, A., Lässig, J., & Gaedke, M. (2016, October). Practical Web data extraction: are we there yet?-a short survey. In 2016 IEEE/WIC/ACM International Conference on Web Intelligence (WI) (pp. 562-567). IEEE.
  • Simon, K., & Lausen, G. (2005, October). ViPER: augmenting automatic information extraction with visual perceptions. In Proceedings of the 14th ACM international conference on Information and knowledge management (pp. 381-388).
  • Thamviset, W., & Wongthanavasu, S. (2014, July). Bottom-up region extractor for semi-structured web pages. In 2014 International Computer Science and Engineering Conference (ICSEC) (pp. 284-289). IEEE.
  • Thamviset, W., & Wongthanavasu, S. (2012, May). Structured web information extraction using repetitive subject pattern. In 2012 9th International Conference on Electrical Engineering/Electronics, Computer, Telecommunications and Information Technology (pp. 1) IEEE.
  • Ukkonen, E. (1995). On-line construction of suffix trees. Algorithmica, 14(3), 249-260.
  • Velloso, R. P., & Dorneles, C. F. (2013). Automatic web page segmentation and noise removal for structured extraction using tag path sequences. Journal of Information and Data Management, 4(3), 173-173.
  • Velloso, R. P., & Dorneles, C. F. (2020, September). Optimized Extraction of Records from the Web Using Signal Processing and Machine Learning. In Anais do XXXV Simpósio Brasileiro de Bancos de Dados (pp. 109-120). SBC.
  • Yamada, Y., Craswell, N., Nakatoh, T., & Hirokawa, S. (2004, May). Testbed for information extraction from deep web. In Proceedings of the 13th international World Wide Web conference on Alternate track papers & posters (pp. 346-347).
  • Zhai, Y., & Liu, B. (2005, May). Web data extraction based on partial tree alignment. In Proceedings of the 14th international conference on World Wide Web (pp. 76-85).
  • Zhang, K., & Shasha, D. (1989). Simple fast algorithms for the editing distance between trees and related problems. SIAM journal on computing, 18(6), 1245-1262.