Diplomová práca

Webový scraper v rozšírení prehliadača s poloautomatickou anotáciou

Autor práce: Dávid Varga

Vedúci práce: RNDr. Peter Gurský, PhD.

Ciele práce:

1. Vytvorenie a implementovanie modelu pre anotovanie ľubovoľných objektov z webu.

2. Vytvorenie a implementovanie spôsobu navštevovania stránok obsahujúcich anotovaný objekt do webového crawlera.

3. Zakomponovanie filtrovania objektov spĺňajúcich zadané kritériá do webového crawlera.

Odporúčaná literatúra:

Liu, Bing: Web Data Mining: Exploring Hyperlinks, Contents,and Usage Data. Second Edition, ISBN 978-3-642-19459-7, Springer, 2011

Kushmerick, N.: Wrapper induction: efficiency and expressiveness. Artificial Intelligence, 118:15-68, 2000.

Muslea, I., Minton, S. and Knoblock, C.: A hierarchical approach to wrapper induction. Agents-99, 1999.

Cohen, W., Hurst, M., and Jensen, L.: A flexible learning system for wrapping tables and lists in HTML documents. WWW-2002, 2002.

Hsu, C.N., Dung, M.T.: Generating finite-state transducers for semi-structured data extraction from the Web. Information Systems. 23(8): 521-538, 1998.

Chabaľ, V: Poloautomatická extrakcia komentárov z produktových katalógov. Diplomová práca. Košice 2014

Crescenzi, V., Mecca, G., Merialdo,P.: Roadrunner: Towards automatic data extraction from large web sites. In Proceedings of VLDB 2001, pp. 109-118.

Články:

Peter Gurský, Matej Perejda, and Dávid Varga: Semiautomatic annotation of e-shops , ITAT 2018 Rudolf Pavel, Peter Gurský: Focused Web Crawling of Relevant Pages on e-shops, ITAT 2017

Rozpis prác:

Analýza súčasných riešení: 100%

Návrh riešenia: 100%

Implementácia: 70%

Testovanie: 0%

Písanie diplomovej práce: 0%