Segmentation of heterogeneous document images : an ... - Tel
Segmentation of heterogeneous document images : an ... - Tel
Segmentation of heterogeneous document images : an ... - Tel
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
Resumé<br />
La segmentation de page est l’une des étapes les plus import<strong>an</strong>tes de l’<strong>an</strong>alyse<br />
d’<strong>images</strong> de <strong>document</strong>s. Idéalement, une méthode de segmentation doit être<br />
capable de reconstituter la structure complète de toute page de <strong>document</strong>, en<br />
distingu<strong>an</strong>t les zones de textes, les parties graphiques, les photographies, les<br />
croquis, les figures, les tables, etc.<br />
tel-00912566, version 1 - 2 Dec 2013<br />
En dépit de nombreuses méthodes proposées à ce jour pour produire une segmentation<br />
de page correcte, les difficultés sont toujours nombreuses. Le chef de<br />
file du projet qui a rendu possible le fin<strong>an</strong>cement de ce travail de thése 2 utilise<br />
une chaîne de traitement complête d<strong>an</strong>s laquelle les erreurs de segmentation<br />
sont corrigées m<strong>an</strong>uellement. Hormis les coûts que cela représente, le résultat<br />
est subordonné au réglage de nombreux paramètres. En outre, certaines erreurs<br />
échappent parfois à la vigil<strong>an</strong>ce des opérateurs humains.<br />
Les résultats des méthodes de segmentation de page sont généralement acceptables<br />
sur des <strong>document</strong>s propres et bien imprimés; mais l’échec est souvent<br />
à constater lorsqu’il s’agit de segmenter des <strong>document</strong>s m<strong>an</strong>uscrits, lorsque la<br />
structure de ces derniers est vague, ou lorsqu’ils contiennent des notes de marge.<br />
En outre, les tables et les publicités présentent aut<strong>an</strong>t de défis supplémentaires<br />
à relever pour les algorithmes de segmentation. Notre méthode traite ces<br />
problèmes. La méthode est divisée en quatre parties :<br />
1. A contrario de ce qui est fait d<strong>an</strong>s la plupart des méthodes de segmentation<br />
de page classiques, nous commençons par séparer les parties textuelles et<br />
graphiques de la page en utilis<strong>an</strong>t un arbre de décision boosté.<br />
2. Les parties textuelles et graphiques sont utilisées, avec d’autres fonctions<br />
caractéristiques, par un champ conditionnel aléatoire bidimensionnel pour<br />
séparer les colonnes de texte.<br />
3. Une méthode de détection de lignes, basée sur les pr<strong>of</strong>ils partiels de projection,<br />
est alors l<strong>an</strong>cée pour détecter les lignes de texte par rapport aux<br />
frontières des zones de texte.<br />
4. Enfin, une nouvelle méthode de détection de paragraphes, entraînée sur<br />
les modèles de paragraphes les plus cour<strong>an</strong>ts, est appliquée sur les lignes<br />
de texte pour extraire les paragraphes, en s’appuy<strong>an</strong>t sur l’apparence<br />
géométrique des lignes de texte et leur indentation.<br />
2 Cette thèse a été fin<strong>an</strong>cée par le Conseil Général de Seine-Saint-Denis, par l’intermédiaire<br />
du projet Demat-Factory, initié et conduit par SAFIG SA