Effect of sound in videos on gaze: Contribution to audio-visual saliency modeling

Guanghan Song

Thèse Année : 2013

Effect of sound in videos on gaze: Contribution to audio-visual saliency modeling

Effet du son dans les vidéos sur la direction du regard : Contribution à la modélisation de la saillance audiovisuelle

(1)

Guanghan Song

Fonction : Auteur

GIPSA - Architecture, Géométrie, Perception, Images, Gestes

Résumé

There exist mechanisms in the brain to bias attention towards particular regions, namely the salient regions. According to existing literature, the visual attention can be studied towards eye movements, however the sound effect on eye movement in videos is little known. The aim of this thesis is to investigate the influence of sound in videos on eye movement and to propose an audio-visual saliency model to predict salient regions in videos more accurately. For this purpose, we have designed two audio-visual experiments of eye tracking. In the experiments, participants watched video excerpts either with original soundtracks (AV condition), or without soundtrack (V condition). The results show that the effect of sound is different according to the types of sound and that the classes "speech", "singer", "human noise" and "singers" have the greatest effect. Finally, we proposed a preliminary audio-visual saliency model for speech and musical instrument sound classes. The audio-visual fusion strategies defined in the model improves its predictability with AV condition.

Il existe des mécanismes dans le cerveau qui portent notre attention sur des régions particulières de notre environnement appelées régions saillantes. Alors que l'attention visuelle a fait l'objet de nombreuses études, l'effet du son sur les mouvements oculaires a encore peu été exploré. L'objectif de cette thèse est d'étudier l'influence du son dans les vidéos sur le mouvement des yeux et de proposer un modèle de saillance audiovisuelle pour prédire plus précisément les régions saillantes dans les vidéos. Nous avons conçu dans ce but deux expériences audiovisuelles de suivi du regard. Dans ces expériences, les participants ont regardé des extraits de vidéos soit avec la bande originale (condition audiovisuelle AV), soit sans bande son (condition visuelle V). Les résultats montrent que l'effet du son est différent selon les types de son et que les classes contenant de la voix humaine (classes " parole ", " chanteur(s) ", et " bruit humain") ont le plus grand effet. Enfin, nous avons proposé un modèle préliminaire de saillance audiovisuelle avec deux stratégies de fusion d'informations audiovisuelles : l'une pour la classe " parole ", l'autre pour la classe " instrument de musique ". Ces stratégies de fusion dans le modèle améliorent la précision de prédiction des régions saillantes pour la condition AV.

Mots clés

Eye movement Sound Audio-visual experiment Audio-visual saliency model Mouvement oculaire Attention Vidéo Son Expérience audiovisuelle Modèle de saillance audiovisuelle

Domaines

Traitement des images [eess.IV]

Fichier principal

13_PhD_Song.pdf (4.52 Mo)

Guanghan Song : Connectez-vous pour contacter le contributeur

https://theses.hal.science/tel-00875651

Soumis le : mardi 22 octobre 2013-14:42:27

Dernière modification le : mercredi 12 avril 2023-13:42:10

Archivage à long terme le : jeudi 23 janvier 2014-04:25:54

Dates et versions

tel-00875651 , version 1 (22-10-2013)

tel-00875651 , version 2 (28-02-2014)

Identifiants

HAL Id : tel-00875651 , version 1

Citer

Guanghan Song. Effect of sound in videos on gaze: Contribution to audio-visual saliency modeling. Image Processing [eess.IV]. Université de Grenoble, 2013. English. ⟨NNT : ⟩. ⟨tel-00875651v1⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

504 Consultations

677 Téléchargements

Effect of sound in videos on gaze: Contribution to audio-visual saliency modeling

Effet du son dans les vidéos sur la direction du regard : Contribution à la modélisation de la saillance audiovisuelle

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Partager