Afin de préciser une motivation de ce travail, considérons une modélisation du processus entier d'indexation et de recherche d'un document (figure 1).
Du point de vue de l'indexation: à chaque document est associé un ensemble d'index, censés représenter le contenu de chacun. Chaque document est analysé selon différents critères, et le résultat de l'analyse est résumé sous forme normalisée au sein des index. Cette analyse peut être menée par un opérateur humain, de façon automatique ou semi-automatique.
Du point de vue de la recherche: un utilisateur soumet une requête à la base, dans l'espoir de retrouver un document audiovisuel pertinent vis à vis de celle-ci. Cette requête est traduite automatiquement en contraintes que seuls vérifient les index associés aux documents répondant à la requête. La confrontation avec la table des index en donne la liste.
Ce modèle de l'indexation met en évidence le goulet d'étranglement que constituent les index. En effet, lors de la recherche de documents, seule est disponible l'information des index, et la pertinence des documents vis à vis de requêtes est en fait décidée uniquement par l'adéquation des données contenues dans ces index avec la requête. Il est donc très important que ces derniers contiennent des informations permettant de répondre aux requêtes réelles des utilisateurs. Par ailleurs, ces index constituant l'information manipulée par le système, ils devront satisfaire à des contraintes évidentes de compacité et d'accessibilité qui va souvent à l'encontre de leur pouvoir d'expression. Ces constatations guideront notre réflexion pour la mise en œuvre de nouveaux outils d'indexation.