28.06.2013 Views

Contributions à l'étude de la classification spectrale et applications

Contributions à l'étude de la classification spectrale et applications

Contributions à l'étude de la classification spectrale et applications

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

3.3 C<strong>la</strong>ssification <strong>spectrale</strong> parallèle avec recouvrement 101<br />

S <strong>de</strong>s données. Le calcul <strong>de</strong>s paramètres σ, σ ∗ <strong>et</strong> l’étape <strong>de</strong> regroupement ne pénalisent pas<br />

notre stratégie ; le temps consacré <strong>à</strong> ces parties est négligeable (inférieur <strong>à</strong> 2% du temps total).<br />

Discussion<br />

La boucle implémentée pour tester les différentes valeurs du nombre <strong>de</strong> clusters k dans l’algorithme<br />

<strong>de</strong> clustering spectral jusqu’<strong>à</strong> satisfaire (3.3) <strong>de</strong>vient <strong>de</strong> moins en moins coûteuse quand le<br />

nombre <strong>de</strong> processus augmente. Passer en revue les valeurs <strong>de</strong> k revient <strong>à</strong> concaténer <strong>de</strong>s vecteurs<br />

propres, appliquer <strong>la</strong> métho<strong>de</strong> k-means, réordonnancer <strong>et</strong> calculer le ratio ηk. Le calcul <strong>de</strong>s vecteurs<br />

propres <strong>de</strong>vient moins coûteux <strong>à</strong> mesure que l’on réduit <strong>la</strong> taille <strong>de</strong>s matrices affinités. Aussi, diviser<br />

l’ensemble <strong>de</strong>s données S revient implicitement <strong>à</strong> réduire <strong>la</strong> matrice d’affinité gaussienne <strong>à</strong> <strong>de</strong>s<br />

sous-blocs diagonaux (après permutation).<br />

Remarque 3.11. D’autres métho<strong>de</strong>s d’extraction <strong>de</strong> valeurs propres <strong>et</strong> <strong>de</strong> vecteurs propres associés<br />

peuvent être utilisées pour réduire le coût numérique. En eff<strong>et</strong>, une routine c<strong>la</strong>ssique c<strong>la</strong>ssique <strong>de</strong><br />

LAPACK [6] est utilisée pour assurer ce calcul. Les métho<strong>de</strong>s <strong>de</strong> Lanczos <strong>et</strong> d’Arnoldi présentées par<br />

[92, 38] seraient certainement efficaces. Une autre technique peut être envisagée : celle <strong>de</strong> seuiller les<br />

très faibles affinités (<strong>de</strong> l’ordre <strong>de</strong> <strong>la</strong> précision machine) pour creuser <strong>la</strong> matrice affinité <strong>et</strong> réduire<br />

le nombre d’opérations.<br />

Quand l’ensemble <strong>de</strong>s données est divisé en un grand nombre <strong>de</strong> sous-domaines, l’interface<br />

concentre le maximum <strong>de</strong>s données par sous-domaines <strong>et</strong> <strong>de</strong>vient le processus le plus coûteux.<br />

Utiliser une interface qui connecte toutes les partitions locales peut présenter <strong>de</strong>s limites : plus<br />

le domaine est divisée en sous-domaines, plus le volume <strong>de</strong> l’interface, fonction du nombre <strong>de</strong><br />

découpages augmente <strong>et</strong> concentre <strong>de</strong> points. Il faut donc trouver un compromis entre le découpage<br />

<strong>et</strong> <strong>la</strong> taille <strong>de</strong> l’interface. Pour limiter c<strong>et</strong> inconvénient, on définit un seuil, noté τ, représentant le<br />

ratio entre le volume couvert par l’interface <strong>et</strong> le volume total ba<strong>la</strong>yé par les données <strong>de</strong> S. Ce seuil<br />

sera donc fonction du nombre <strong>de</strong> découpes <strong>et</strong> <strong>de</strong>s longueurs maximales sur chaque dimension :<br />

τ =<br />

V ol(interface)<br />

V ol<br />

où V ol(interface) est défini par (3.7) <strong>et</strong> V ol est le volume total couvert par l’ensemble <strong>de</strong>s données.<br />

V ol est fonction <strong>de</strong> li défini par (3.6) pour i = {1, .., p} : V ol = Π p<br />

i=1 li.<br />

Ce seuil perm<strong>et</strong> <strong>de</strong> limiter les découpages <strong>et</strong> d’équilibrer le temps <strong>de</strong> calcul par processus.<br />

3.3 C<strong>la</strong>ssification <strong>spectrale</strong> parallèle avec recouvrement<br />

La stratégie obtenue en séparant l’ensemble <strong>de</strong>s données perm<strong>et</strong>tant <strong>la</strong> connexion entre les<br />

partitions issues <strong>de</strong>s différents sous-domaines présente <strong>de</strong>s limites quand le cardinal <strong>de</strong> l’ensemble<br />

interface augmente. Dans <strong>la</strong> suite, nous proposons <strong>de</strong> distribuer c<strong>et</strong> ensemble <strong>de</strong> points dans les<br />

sous-domaines associés. Après une présentation <strong>de</strong> <strong>la</strong> stratégie <strong>de</strong> parallélisation par recouvrement,<br />

nous appliquerons les mêmes tests que pour <strong>la</strong> stratégie avec interface afin <strong>de</strong> comparer les <strong>de</strong>ux<br />

métho<strong>de</strong>s.<br />

3.3.1 Principe<br />

Afin <strong>de</strong> pallier l’inconvénient <strong>de</strong> considérer une interface comme un sous-domaine distinct, l’ensemble<br />

<strong>de</strong>s données <strong>de</strong> l’interface peut être inclus dans les autres sous-domaines. En fait, l’ensemble<br />

<strong>de</strong>s données est divisé en q boîtes qui ont une intersection non-vi<strong>de</strong> entre elles. Ainsi, le nombre <strong>de</strong><br />

(3.9)

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!