next up previous contents
suivant: Quels outils semi-automatiques fournir monter: Introduction précédent: Analyse du processus d'indexation   Table des matières

Pourquoi l'opérateur humain ?

Le problème essentiel tient à la nature des requêtes énoncées, et repose sur la façon dont un utilisateur de séquences vidéo conçoit celles-ci. Qu'est-ce qu'une vidéo ? Pour un ordinateur, une série de bits, qui peuvent être traduits en séquences d'images (sur un écran par exemple). Pour un humain regardant le dit écran, une succession d'images représentant une scène. La différence tient dans cette interprétation implicite d'une séquence vidéo, accomplie naturellement par les humains, qui donnent ainsi un sens à ce qui leur apparaît.

Cette notion de sémantique associée à une vidéo est étrangère aux traitements usuels des images données aux ordinateurs. Ainsi, il existe à présent de nombreuses méthodes d'indexation d'images basées sur des caractéristiques proches de la représentation signal de celles-ci (couleur, texture, disposition de points caractéristiques...). Mais il n'existe pas d'algorithmes pour trouver une signification au contenu d'une image ou d'une vidéo, dans le cas général. Dans des cadres restreints, il est possible de définir des critères objectifs permettant de classifier automatiquement ce qui apparaît dans la vidéo, lui donnant ainsi un sens.Pour la surveillance d'autoroutes par exemple, le problème est restreint par le fait que l'on ne traite que des véhicules sur des images prises par une caméra fixe. Il est alors possible de caractériser de façon non ambiguë ces véhicules, qui apparaissent comme des régions de petite taille sur un fond stable.

Dans le cadre de l'indexation de séquences audiovisuelles provenant de la télévision, la définition a priori de critères objectifs et universels d'interprétation est impossible compte tenu de la diversité des contenus. Pour prendre un exemple, considérons un journal télévisé. Dans ce type de documents se succèdent des plans tête-épaule quasiment statiques, avec des reportages sur le terrain, où les mouvements peuvent être rapides, et les objets d'intérêt de quantité et de nature totalement variable.

Dans ces conditions, une analyse entièrement automatique ne peut fournir d'information sur le contenu sémantique de la vidéo que dans des cas spécifiques prévus à l'avance. Pour une interprétation générale il faut passer par l'interprétation d'un opérateur humain. L'avantage d'une telle indexation manuelle est de produire des tables d'index représentant explicitement le contenu sémantique des documents (souvent à l'aide de mots-clefs).

Cependant la qualité des index manuels dépend de la capacité de l'opérateur à décrire l'ensemble d'une scène (pour des documents vidéos) en quelques descripteurs, dans le temps imparti: ainsi, si chaque scène doit être décrite en peu de temps, la description sera plus superficielle, et donc moins d'information sera disponible pour rechercher les documents répondant à une requête donnée. C'est pourquoi nous avons adopté l'hypothèse d'un traitement semi-automatique dont les performances ont déjà été démontrées dans le cadre d'une étude précédente menée par notre équipe [Projet SESAME, CNET, 1996-1999].


next up previous contents
suivant: Quels outils semi-automatiques fournir monter: Introduction précédent: Analyse du processus d'indexation   Table des matières
Remi Megret 2000-10-19