Téma: Crawlovanie a extrakcia relevantných častí webových portálov
Vedúci práce: RNDr. Peter Gurský, PhD.
Autor práce: Rudolf Pavel
Ciele práce:
- Prispôsobenie alebo modifikácia webového crawlera v projekte Kapsa tak, aby koordinoval politiku slušnosti sťahovania s paralelnou extrakciou objektov .
- Návrh a implementácia automatického orezávania prehľadávania webového portálu analýzou úspešnosti predchádzajúcich vetiev prehľadávania a poskytnutie používateľovi možnosť orezania prehľadávania aj podľa obsahu vetiev.
- Overenie funkčnosti a efektivity vytvoreného programu pri crawlovaní obsahu viacerých internetových obchodov.
Odporúčaná literatúra:
- Selenium Documentation. Dostupné na internete: http://www.seleniumhq.org/docs/
- Súčasný stav v metodológiách pre poloautomatické získavanie dát zo služieb či stránok webu, ich anotácia a konverzia do štruktúrovanej podoby a mapovanie na objekty z aplikačnej domény. Finálna správa projektu CeZIS. Košice. 2015
- Návrh a popis metód pre poloautomatické získavanie dát zo služieb či stránok webu, ich anotácia a konverzia do štruktúrovanej podoby a mapovanie na objekty z aplikačnej domény. Finálna správa projektu CeZIS. Košice. 2015