Bakalárska práca

Téma: Crawlovanie a extrakcia relevantných častí webových portálov

Vedúci práce: RNDr. Peter Gurský, PhD.

Autor práce: Rudolf Pavel

 

Ciele práce:

  1. Prispôsobenie alebo modifikácia webového crawlera v projekte Kapsa tak, aby koordinoval politiku slušnosti sťahovania s paralelnou extrakciou objektov .
  2. Návrh a implementácia automatického orezávania prehľadávania webového portálu analýzou úspešnosti predchádzajúcich vetiev prehľadávania a poskytnutie používateľovi možnosť orezania prehľadávania aj podľa obsahu vetiev.
  3. Overenie funkčnosti a efektivity vytvoreného programu pri crawlovaní obsahu viacerých internetových obchodov.  

Odporúčaná literatúra:

  1. Selenium Documentation. Dostupné na internete: http://www.seleniumhq.org/docs/
  2. Súčasný stav v metodológiách pre poloautomatické získavanie dát zo služieb či stránok webu, ich anotácia a konverzia do štruktúrovanej podoby a mapovanie na objekty z aplikačnej domény. Finálna správa projektu CeZIS. Košice. 2015
  3. Návrh a popis metód pre poloautomatické získavanie dát zo služieb či stránok webu, ich anotácia a konverzia do štruktúrovanej podoby a mapovanie na objekty z aplikačnej domény. Finálna správa projektu CeZIS. Košice. 2015