Našej diplomovej práci sa podarilo na fakultnom kole ŠVK v súťaži o najlepšiu študentskú vedeckú prácu umiestniť v rámci sekcie Analýza dát, umelá inteligencia a informatika na 1. mieste. Prezentáciu z konferencie si môžete prezrieť na tomto odkaze.

Diplomová práca sa zaoberá rozpoznávaním slov v posunkovom jazyku z videí. Po analýze viacerých datasetov bol zvolený Greek Sign Language (GSL) dataset obsahujúci 40 785 videí, na ktorých je posunkované jedno z 310 možných slov v Gréckom posunkovom jazyku.
Pri riešení tohto problému využívame aj skeletonové reprezentácie rúk, ktoré generujeme pomocou knižnice Mediapipe. Príklady skeletonov pre video sú znázornené na nasledujúcich obrázkoch:
Vygenerované skeletony pre video. Vygenerované skeletony pre video. Vygenerované skeletony pre video.
Vygenerované skeletony pre video.

Formálne zadefinované ciele práce:

1. Vytvoriť prehľad aktuálne existujúcich metód hĺbkového učenia na spracovanie videa.
2. Navrhnúť a implementovať kombináciu metód hĺbkového učenia na rozpoznávanie posunkového jazyka.
3. Porovnať dosiahnuté výsledky s ďalšími dostupnými štúdiami.

Odporúčaná literatúra:

1. KARPATHY, A. et al., 2014. Large-scale video classification with convolutional neural networks. In Proceedings of the IEEE conference on Computer Vision and Pattern Recognition (pp. 1725-1732).
2. HUANG, J., ZHOU, W., LI, H., LI, W., 2015. Sign language recognition using 3d convolutional neural networks. In 2015 IEEE international conference on multimedia and expo (ICME) (pp. 1-6). IEEE.
3. GARCIA, B., VIESCA, S. A., 2016. Real-time American sign language recognition with convolutional neural networks. Convolutional Neural Networks for Visual Recognition, 2(225-232), 8.