Mes travaux de recherche s’inscrivent dans le domaine du traitement automatique des documents imprimés. Ils concernent la détermination de la structure des documents en blocs homogènes (photographies, graphiques, textes,.., sous blocs écrits avec des polices différentes) et la récupération des propriétés nécessaires à leur reconnaissance. J’ai cherché à approfondir, dans ce contexte, des méthodes d’exploration « intelligente » du document, essentiellement fondée sur l’analyse de notre mode de perception visuelle impliquant les différents modes d’appréhension du document (le survol, l’inspection et la lecture complète), et plus spécifiquement le survol. La raison d’un tel choix dérive du fait que je ne me suis intéressée dans un premier temps qu’à une information de bas niveau rapidement accessible sans avoir recours à des connaissances a priori sur le type de documents analysés. L’exploration que j’ai proposée est décrite par le trajet oculaire du regard sur le document et aboutit à une reconstruction du document que l’on peut alors comparer à la segmentation naturelle que ferait un observateur humain dans une même situation de survol du document. Il est important de préciser que cette segmentation naturelle dépend implicitement et pour une grande part d’un objectif de recherche ou d’une consigne qui aurait été donnée au préalable. Il paraît donc assez naturel de s’intéresser de plus près à une information pertinente, en privilégiant certaines zones informatives du document. En ce sens, le document est plus qu’une simple image de pixels que l’on peut traiter indépendamment du message que l’auteur a voulu transmettre au lecteur. J’ai ainsi cherché à prendre en compte la présence de l’homme aux différents stades du cycle de vie du document, où l’information de fond liée au message que l’auteur veut transmettre s’exprime indirectement par une mise en forme particulière des données.
Cette manière de procéder par imitation du survol permet d’établir des liens entre les différentes zones d’un document, en s’intéressant à une information proche des caractéristiques de bas niveau de l’image. Ce processus permet de privilégier l’organisation globale du document par une perception équilibrée des données, et en respectant l’ordre des paragraphes et l’importance des titres. Le système de structuration que j’ai développé fait appel à des procédures d’extraction de primitives géométriques simples (traitements de bas niveau) basées sur l’information de contours de l’image, et à des primitives plus évoluées faisant intervenir une information de contenu basée sur une analyse de texture (traitements de niveaux supérieurs). Ces deux niveaux d’analyse contribuent à une première classification fonctionnelle des écritures imprimées en fonction du rôle qu’elles occupent dans le document (titre, résumé, paragraphes, notes…). Dans ce travail, j’ai choisi de considérer l’homme au cœur de la problématique de la structuration des documents et d’explorer comment, selon le mode d’appréhension privilégié, le survol, le regard de l’homme se positionne sur le document et la segmentation s’en déduit.
Ces travaux ont fait appel à des domaines de recherche essentiellement orientés en analyse d’images, en psychologie, en physiologie et en oculométrie. Je développe dans la suite ceux auxquels j’ai apporté une contribution.
Une deuxième thématique de recherche que je développe parallèlement à la segmentation des documents concerne la classification des écritures imprimées. Cette classification dérive naturellement de la volonté de rechercher dans le document les informations pertinentes à caractère important (titres, en-tête, légende…). L’approche que j’ai choisie consiste à replacer la problématique de la classification des écritures imprimées dans le contexte plus général de caractérisation de texture. On peut ainsi, dans ce contexte, considérer le texte comme une texture, dans la mesure où l’on définit le caractère comme l’entité élémentaire de texture. Plus précisément encore, une page de texte peut être considérée comme un ensemble de petits graphismes, les lettres, qui génèrent une impression « macroscopique » de texture. Les caractéristiques visuelles de cette texture dépendent de la disposition des lettres, de leur fréquences d’apparition, de la police, de la graisse, de la présence ou non d’italique, de la langue… Mes derniers travaux portent ainsi sur l’exploitation des caractéristiques visuelles des documents, en particulier sur l’analyse de l’impression visuelle que l’on retire de leur observation. Cette impression nous renseigne bien avant de commencer à les lire réellement sur leur organisation logique. En effet, le rédacteur utilise généralement des conventions typographiques standards : les titres sont isolés et utilisent des polices plus grosses et plus grasses. Les paragraphes constituent des blocs plus ou moins compacts par rapport au reste du texte, et les espacements inter-lignes, inter-mots et intra-mots sont aussi significatifs d'une volonté du rédacteur.
Les résultats que je propose permettent de référencer et des regrouper les différents types de texte selon leur aspect visuel et en ne tenant compte d’aucun a priori dans cette classification. Les mesures obtenues permettent de caractériser globalement la typographie des fontes (en particulier la taille, la graisse, le corps des caractères, ainsi que les interlignages et interlettrages). Ces regroupements sont conçus à partir de mesures de complexité des blocs de texte et d’une échelle de relief structural des formes. Les outils statistiques utilisés pour la définition de ces critères sont basés sur des calculs d’entropie pour caractériser la complexité des formes, des calculs de densité des caractères des blocs et enfin une estimation de la graisse des polices. Les résultats de ces analyses permettent de dresser un premier étiquetage des blocs relatif à leur mise en forme matérielle sur le document. Il repose sur l’interprétation de ces mesures renseignant sur la nature - ou la fonction - de ces blocs dans le document.
page modifiée la dernière fois en juin 1999 par Véronique EGLIN