14.01.2014 Views

Segmentation of heterogeneous document images : an ... - Tel

Segmentation of heterogeneous document images : an ... - Tel

Segmentation of heterogeneous document images : an ... - Tel

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

Resumé<br />

La segmentation de page est l’une des étapes les plus import<strong>an</strong>tes de l’<strong>an</strong>alyse<br />

d’<strong>images</strong> de <strong>document</strong>s. Idéalement, une méthode de segmentation doit être<br />

capable de reconstituter la structure complète de toute page de <strong>document</strong>, en<br />

distingu<strong>an</strong>t les zones de textes, les parties graphiques, les photographies, les<br />

croquis, les figures, les tables, etc.<br />

tel-00912566, version 1 - 2 Dec 2013<br />

En dépit de nombreuses méthodes proposées à ce jour pour produire une segmentation<br />

de page correcte, les difficultés sont toujours nombreuses. Le chef de<br />

file du projet qui a rendu possible le fin<strong>an</strong>cement de ce travail de thése 2 utilise<br />

une chaîne de traitement complête d<strong>an</strong>s laquelle les erreurs de segmentation<br />

sont corrigées m<strong>an</strong>uellement. Hormis les coûts que cela représente, le résultat<br />

est subordonné au réglage de nombreux paramètres. En outre, certaines erreurs<br />

échappent parfois à la vigil<strong>an</strong>ce des opérateurs humains.<br />

Les résultats des méthodes de segmentation de page sont généralement acceptables<br />

sur des <strong>document</strong>s propres et bien imprimés; mais l’échec est souvent<br />

à constater lorsqu’il s’agit de segmenter des <strong>document</strong>s m<strong>an</strong>uscrits, lorsque la<br />

structure de ces derniers est vague, ou lorsqu’ils contiennent des notes de marge.<br />

En outre, les tables et les publicités présentent aut<strong>an</strong>t de défis supplémentaires<br />

à relever pour les algorithmes de segmentation. Notre méthode traite ces<br />

problèmes. La méthode est divisée en quatre parties :<br />

1. A contrario de ce qui est fait d<strong>an</strong>s la plupart des méthodes de segmentation<br />

de page classiques, nous commençons par séparer les parties textuelles et<br />

graphiques de la page en utilis<strong>an</strong>t un arbre de décision boosté.<br />

2. Les parties textuelles et graphiques sont utilisées, avec d’autres fonctions<br />

caractéristiques, par un champ conditionnel aléatoire bidimensionnel pour<br />

séparer les colonnes de texte.<br />

3. Une méthode de détection de lignes, basée sur les pr<strong>of</strong>ils partiels de projection,<br />

est alors l<strong>an</strong>cée pour détecter les lignes de texte par rapport aux<br />

frontières des zones de texte.<br />

4. Enfin, une nouvelle méthode de détection de paragraphes, entraînée sur<br />

les modèles de paragraphes les plus cour<strong>an</strong>ts, est appliquée sur les lignes<br />

de texte pour extraire les paragraphes, en s’appuy<strong>an</strong>t sur l’apparence<br />

géométrique des lignes de texte et leur indentation.<br />

2 Cette thèse a été fin<strong>an</strong>cée par le Conseil Général de Seine-Saint-Denis, par l’intermédiaire<br />

du projet Demat-Factory, initié et conduit par SAFIG SA

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!