> La recherche > La reconnaissance des structures des documents
 
       
  Présentation
Plan d'accès
Les membres
  Présentation
DEA
Thèse
  Présentation
L'indexation
Le document
  En cours
Achevés
  Les ouvrages
Les thèses
Les publications
  DEBORA
Telesun
Kiwi
  Institutionnelles
Privées
Universitaires
 

Nos premiers pas dans le traitement de l'écrit et des documents ont consisté à faire des logiciels de reconnaissance mono et multifontes pour l'imprimé, à faire des logiciels de traitement de formulaires d'inscription à l'INSA. Ces axes de reconnaissance ont fait l'objet de nombreuses recherches avant 1990 et des logiciels dits d'OCR étaient déjà commercialisés à cette époque; l'élaboration de tels logiciels tient plus d'un développement industriel que d'une recherche appliquée. Les performances des OCR actuels ne doivent pas masquer le fait qu'ils ne peuvent reconnaître qu'une part de l'information contenue dans un document textuel, qu'ils sont conçus exclusivement pour des documents imprimés et que de nombreux problèmes restent ouverts dans les domaines de l'écrit et du document écrit.

Avant la création de RFV, alors que nous faisions partie d'un laboratoire de Productique, nous avions investi deux pistes:
- la classification des écritures manuscrites, avec des outils relevant de l'analyse fractale,
- la reconnaissance des plans.
L'analyse des plans nous semblait être un domaine particulièrement porteur dans un tel contexte, l'analyse de la fractalité allait de pair avec des études conduites sur les fissures dans les matériaux. Plusieurs thèses (V. Bouletreau et H. Bouleçane, pour les applications de l'analyse fractale; J.-Y. Ramel pour la vectorisation des plans) et de nombreux articles ont concrétisé ces études jusque vers 98.
Le travail sur l'analyse fractale se poursuit aujourd'hui, à Tours, dans l'équipe de Nicole Vincent. Le travail sur la lecture des plans qui nous intéressait, de plus, pour ses aspects méthodologiques (systèmes complexes multi-spécialistes) a été interrompu par manque de partenaires.
Notre orientation actuelle que l'on peut résumer avec les deux expressions suivantes, reconnaissance des structures des documents et numérisation des collections a été prise dès1995.

1. La reconnaissance des structures physiques et logiques

Pour l'image d'un document, textuel ou composite (texte, images, dessins), on dispose d'une batterie de méthodes permettant de déterminer la structure physique et de localiser les éléments de cette structure, à différents niveaux de granularité, de la séparation du texte et des images à la séparation des mots entre eux, voire des caractères entre eux.
Ces éléments de structuration physique sont associés à la mise en page qui n'est pas le fruit du hasard; cette mise en page est porteuse d'information et de sens implicites; en principe, la mise en page suit des règles, malheureusement pas toujours appliquées. On rappellera qu'un document est créé par un humain, à destination d'un autre humain.
Nous cherchons à reconnaître le rôle joué par chacun de ces éléments, c'est à dire à lui attribuer une étiquette "logique". On pourrait dire que c'est une reconnaissance de deuxième niveau, si l'on considère que la reconnaissance des caractères est davantage une reconnaissance d'objets simples et séparables, sans que le sens à donner soit présent (même si les logiciels OCR actuels travaillent tous avec des dictionnaires qui permettent de corriger, si nécessaire, des erreurs de reconnaissance du dessin du caractère).

a) Les documents à typographie riche et récurrente
Depuis 1996 nous nous intéressons à une famille de documents particuliers, que l'on a appelés, dans la thèse de Laurence Duffy, "documents à typographie riche et récurrente". Par typographie riche, on entend une mise en page basée sur un usage intense de différentes polices de caractères et des déclinaisons qui s'y rattachent et une organisation de la structure physique bien perceptible; par récurrente, on sous-entend un usage non aléatoire des polices et du positionnement des objets physiques et on fait l'hypothèse raisonnable que deux données de même nature sémantique sont traduites identiquement en termes de typographie. Les archétypes de tels documents sont les sommaires de revues qui nous ont servi de bases de travail, mais on peut aussi citer les articles des dictionnaires ou de certains catalogues, les livres scolaires…Malgré une apparente régularité, ces documents ne suivent pas de modèle générique, comme les formulaires, par exemple.

b) Reconnaissance des structures physiques et logiques
Les thèses de L. Duffy (97), S. Tayeb(98) ont permis d'extraire des caractérisations utiles pour l'étiquetage logique, sans toutefois aller vers des propositions de méthode pertinente de reconnaissance; les familles de documents abordées n'étaient pas assez "régulières "pour que les approches syntaxiques donnent des résultats fiables. Le travail de L. Duffy a , en revanche, permis de construire des méthodes permettant de dire si des mots sont écrits avec une même fonte (les logiciels de reconnaissance de fontes n'existent pas!).
L'introduction de méthodes de reconnaissance à caractère statistique est une voie explorée dans deux thèses actuelles; elle vient de permettre à S. Souafi d'obtenir des résultats pertinents en matière d'étiquetage logique, avec des réseaux bayésiens ; le travail de J. Duong devrait, lui aussi déboucher, sur des reconnaissances effectives, avec des approches markoviennes.

c) Caractérisations des documents
Une autre voie d'étude a consisté à rechercher les marqueurs visuels utilisés en vision humaine pour appréhender la structure et l'organisation d'un document, dans un cadre de vision pré-attentive (sans le recours à la lecture). Ce travail a utilisé des résultats d'études oculométriques et a permis de simuler une reconnaissance de la structure dite fonctionnelle (thèse de V. Eglin, 98).
A. Gagneux utilise l'expertise acquise lors des travaux précédents pour évaluer la qualité des pages Web (concept qui relie la mise en page, l'organisation et ce que le lecteur espère trouver dans la page), au moyen d'une inspection visuelle simulée à partir de données oculométriques. Sa thèse a été initiée dans le contexte d'une collaboration avec le laboratoire CLIPS de Grenoble, elle se poursuit dans le cadre de l'axe "évaluation des sites web " de l'ISDN.

Cette reconnaissance des structures joue un rôle important dans la mise en place des bibliothèques numériques; cette reconnaissance peut être vue comme le dual des activités de taggage (HTML ou XML) …

2. La numérisation des collections

a) La numérisation des collections patrimoniales, des archives, …
Cette expression recouvre l'ensemble des activités qui vont de la saisie d'une famille de documents à son stockage dans une base où elle sera accessible facilement; la disparition du support physique et donc de la mise en page (la dématérialisation) va devoir être compensée par une description des données, c'est ce que l'on appelle les métadonnées; les informations concernant les structures font partie de ces métadonnées. Un partie des travaux concernant la numérisation des collections s'inscrit donc dans la continuité de nos recherches sur la reconnaissance des structures.

L'élaboration automatique d'une partie de ces métadonnées est une de nos tâches dans le projet DEBORA (Digital accEs to Book of RennaissAnce) qui doit contribuer à la mise en ligne des collections rares du XVIème siècle; c'est aussi le projet de thèse de B. Allier, dans un contexte différent, celui de la numérisation des archives départementales de Savoie.
La recherche des métadonnées commence, dans les cas présents, par la restauration des images numérisées des documents (les dégradations peuvent provenir des conditions de numérisation ou de causes plus anciennes comme le vieillissement de l'ouvrage); dans le cadre d'une convention Cifre avec la société I2S E. Trinh participe au développement du logiciel de restauration des images appelé "Bookrestorer" dans lequel il s'intéresse, plus particulièrement, à la correction de la courbure apparente

b) Des résultats récents
Dans le contexte de DEBORA nous avons été confrontés à la pénurie de méthodes de traitement, de transport et de stockage des images de textes; le développement des bibliothèques virtuelles se heurte au faible débit du réseau et aux énormes capacités de stockages nécessaires si on est contraint de travailler en mode image.
Un réinvestissement de l'ensemble de nos acquis vient de nous permettre de réaliser trois modules particulièrement utiles (présentés au Consortium DEBORA à Coïmbra, mai 2001):

- une méthode de compression de texte très puissante.
Elle est à mettre dans la même famille que le système "DjVu" de ATT; elle est basée sur la compréhension des structures et adapte un mode de compression différent pour chaque type; nos premiers résultats semblent indiquer des performances assez voisines de celles de DjVu.

- une méthode de transcription assistée pour les ouvrages (encore très nombreux) qui ne peuvent être traités par des OCR classiques. Cette transcription repose sur une classification préalable des formes des caractères.
Pour le premier livre (du 16ième siècle) traité, il a fallu 30 heures à un pentium de 1,4 gHz pour extraire 2000 classes différentes; la transcription se limite donc à la saisie des 2000 caractères correspondant à ces classes.

- un format auto-documentant pour les images de documents textuels.
Cette proposition va permettre de pallier l'absence d'un format d'échange d'images de documents textuels permettant un travail collaboratif sur le réseau avec, en particulier, un suivi des annotations et des modifications. Ce format qui utilise la compression présentée plus haut repose sur la décomposition des images d'un livre en objets élémentaires hiérarchisés que l'on peut décrire dans une structure; ce format doit permettre d'éditer, de modifier, d'annoter et de faire des requêtes puissantes. Ces outils sont actuellement évalués et testés par les partenaires du consortium DEBORA.

c) La dématérialisation des documents mathématiques
Nous avons fait une premier survol des problèmes liés à la dématérialisation des documents mathématiques (thèse J.-Y.Toumit); une partie de ces problèmes relève, selon notre point de vue, d'approche de type étiquetage logique. Pour écrire les mathématiques on utilise environ 400 caractères différents (qu'il faut reconnaître; pour des collections importantes la technique de transcription précédente pourrait servir); au delà, il est impératif de pouvoir déterminer la nature et le rôle de chacun d'eux. Avant de poursuivre le travail initié par Toumit, en termes de reconnaissance, nous avons demandé à nos collègues du laboratoire RECODOC de Lyon1 de faire une analyse du contenu du texte mathématique, c'est l'objet de la thèse de B. Boukacem que nous co-encadrons.

La notion de document écrit est, depuis l'émergence des documents multimédias, plus étroitement lié encore au domaine de l'image. cette convergence applicative repose sur un socle théorique commun que nous développons au sein de RFV. C'est donc tout naturellement que nous avons investi le domaine de l'indexation des images et des séquences visuelles.