Les processus de détection d’informations sur une image que j’ai développés dérivent de considérations physiologiques et psychologiques de la perception visuelle humaine. Dans ce contexte, j’ai cherché à comprendre et à simuler les mécanismes sélectifs de capture d’information chez l’homme. Pour cela, j’ai effectué des travaux de modélisation de la rétine utilisant des séries de filtrages fréquentiels passe-bas par transformées de Fourier et en particulier les filtrages directionnels de Gabor privilégiant les directions horizontales et verticales des textes. Le principe consiste à filtrer l’image en diminuant progressivement la fréquence de coupure avec l’éloignement au centre de fixation. On parvient ainsi à une représentation de l’image centrée en un point de fixation particulier correspondant à un centre d’intérêt du document, où la décroissance de précision du centre à la périphérie de l’image correspond à la décroissance de notre acuité visuelle. Ces opérations qui sont basées sur un pavage irrégulier de l’image, font une correspondance simplifiée avec les mécanismes physiologiques élémentaires de l’œil. J’ai notamment cherché à rendre compte de la sensibilité de l’œil au contraste et en particulier au contraste en vision périphérique. Cette sensibilité est caractérisée dans le cortex par le traitement des hautes fréquences des images que l’on peut associer à l’information de contours du document. J’ai donc tiré profit du filtrage gaussien précédent pour extraire à l’intérieur des différents éléments du pavage, les changements d’intensités (hautes fréquences). La méthode mise en œuvre est un détecteur de contours basé sur les différences de gaussiennes successives (DoG), préservant la région fovéale qui possède une résolution maximale. L’utilisation du gradient conjointement aux DoG permet d’éliminer les contours sans intérêt détectés à l’intérieur des blocs.
L'illustration présentée sur
cette page représente le pavage irrégulier utilisé
recouvir l'espace image et sa projection log-polaire utilisée pour
l'analyse des résultats.
Le principe de la segmentation des
images que j’ai proposé dans mes travaux repose sur la fusion des
représentations successives des images issues de la simulation d’une
trajectoire visuelle possible sur chacune d’elle. La segmentation peut
être à haute résolution si on reconstruit l’image en
fusionnant sur une même image résultat les régions
à haute résolution de ces vues successives. On peut ainsi
parler de segmentation hiérarchique dans la mesure où elle
est plus fine dans les régions d’intérêt et plus grossière
dans les régions périphériques. Parallèlement,
la segmentation peut être à basse résolution si on
ne conserve que les régions à basse résolution (les
plus éloignées des fixations successives). La fusion de données
peut reposer sur les représentations contours ou texture de l’image.
Les autres points techniques développés dans mes travaux de recherche concernent l’analyse de texture, plus spécifiquement la détection des orientations dans les images (pour discriminer les blocs de texte des blocs d’image) et la caractérisation du relief structural des textes. Le principe de détection des orientations principales des images consiste à mettre en évidence les périodicités présentes. Elles traduisent les orientations principales des textures et utilisent la notion d’entropie, directement liée à la notion de désordre. Ces calculs caractérisent tout à la fois les orientations privilégiées des textes, mais aussi l’impression visuelle de complexité qui se dégage de leur tracé.
La caractérisation du relief structural
des blocs de texte d’un même document repose sur l’analyse de résultats
statistiques et l’interprétation d’échelle de complexité,
de compacité et de lisibilité. L’ensemble des calculs reflètent
l’importance des transitions qui existent sur les textes binarisés,
leur fréquence d’apparition, leur densité et leur organisation.
page modifiée la dernière fois en juin 1999 par Véronique EGLIN