Effect of sound in videos on gaze: Contribution to audio-visual saliency modeling - AGPIG Accéder directement au contenu
Thèse Année : 2013

Effect of sound in videos on gaze: Contribution to audio-visual saliency modeling

Effet du son dans les vidéos sur la direction du regard : Contribution à la modélisation de la saillance audiovisuelle

Résumé

There exist mechanisms in the brain to bias attention towards particular regions, namely the salient regions. According to existing literature, the visual attention can be studied towards eye movements, however the sound effect on eye movement in videos is little known. The aim of this thesis is to investigate the influence of sound in videos on eye movement and to propose an audio-visual saliency model to predict salient regions in videos more accurately. For this purpose, we have designed two audio-visual experiments of eye tracking. In the experiments, participants watched video excerpts either with original soundtracks (AV condition), or without soundtrack (V condition). The results show that the effect of sound is different according to the types of sound and that the classes "speech", "singer", "human noise" and "singers" have the greatest effect. Finally, we proposed a preliminary audio-visual saliency model for speech and musical instrument sound classes. The audio-visual fusion strategies defined in the model improves its predictability with AV condition.
Il existe des mécanismes dans le cerveau qui portent notre attention sur des régions particulières de notre environnement appelées régions saillantes. Alors que l'attention visuelle a fait l'objet de nombreuses études, l'effet du son sur les mouvements oculaires a encore peu été exploré. L'objectif de cette thèse est d'étudier l'influence du son dans les vidéos sur le mouvement des yeux et de proposer un modèle de saillance audiovisuelle pour prédire plus précisément les régions saillantes dans les vidéos. Nous avons conçu dans ce but deux expériences audiovisuelles de suivi du regard. Dans ces expériences, les participants ont regardé des extraits de vidéos soit avec la bande originale (condition audiovisuelle AV), soit sans bande son (condition visuelle V). Les résultats montrent que l'effet du son est différent selon les types de son et que les classes contenant de la voix humaine (classes " parole ", " chanteur(s) ", et " bruit humain") ont le plus grand effet. Enfin, nous avons proposé un modèle préliminaire de saillance audiovisuelle avec deux stratégies de fusion d'informations audiovisuelles : l'une pour la classe " parole ", l'autre pour la classe " instrument de musique ". Ces stratégies de fusion dans le modèle améliorent la précision de prédiction des régions saillantes pour la condition AV.
Fichier principal
Vignette du fichier
13_PhD_Song.pdf (4.52 Mo) Télécharger le fichier

Dates et versions

tel-00875651 , version 1 (22-10-2013)
tel-00875651 , version 2 (28-02-2014)

Identifiants

  • HAL Id : tel-00875651 , version 1

Citer

Guanghan Song. Effect of sound in videos on gaze: Contribution to audio-visual saliency modeling. Image Processing [eess.IV]. Université de Grenoble, 2013. English. ⟨NNT : ⟩. ⟨tel-00875651v1⟩
504 Consultations
677 Téléchargements

Partager

Gmail Facebook X LinkedIn More