Bakalárska práca

Téma: Automatická extrakcia atribútov produktov z ich popisu

Vedúci práce: RNDr. Peter Gurský, PhD.

Autor práce: Michaela Linková



Ciele práce:

  1. Navrhnúť sadu metód na automatickú extrakciu atribútov a ich hodnôt z popisu produktov vybranej domény s využitím extrahovaných dát produktov rovnakej domény.
  2. Navrhnuté metódy implementovať ako modul do projektu Kapsa.
  3. Analyzovať presnosť a úplnosť navrhnutých metód nad vybranými reálnymi doménami extrahovanými z webu.


Odporúčaná študijná literatúra:

  1. Peter Christen: Data Matching, Concepts and Techniques for Record Linkage, Entity resolution, and Duplicate Detection, Springer, 2012
  2. Venkatesh Ganti, Anish Das Sarma: Data Cleaning, A Practical Perspective. Morgan & Claypool Publishers, 2013
  3. Laure Berti-Équille, Javier Borge-Holthoefer: Veracity of Data: From Truth Discovery Computation Algorithms to Models of Misinformation Dynamics, Morgan & Claypool Publishers, 2015