02.07.2013 Views

N° 281 - Mai 2012 (.pdf - 3809 Ko) - Portail de la Recherche et des ...

N° 281 - Mai 2012 (.pdf - 3809 Ko) - Portail de la Recherche et des ...

N° 281 - Mai 2012 (.pdf - 3809 Ko) - Portail de la Recherche et des ...

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

24<br />

ATHENA <strong>281</strong> · <strong>Mai</strong> <strong>2012</strong> > INTERNET<br />

Google est un outil exceptionnel mais<br />

il faut rester vigi<strong>la</strong>nt au risque<br />

<strong>de</strong> r<strong>et</strong>rouver sa vie privée étalée<br />

un peu partout sur <strong>la</strong> toile.<br />

R<strong>et</strong>rouvez quelques astuces<br />

<strong>de</strong> protection page 25.<br />

+<br />

Pour en<br />

savoir plus:<br />

L’école s’appelle Duolingo<br />

(http://duolingo.com/). Elle<br />

est déjà débordée par les<br />

<strong>de</strong>man<strong>de</strong>s. L’idée est que les<br />

traducteurs ne paient rien car<br />

ils offrent leur temps. Et tout le<br />

mon<strong>de</strong> est gagnant. Luis von<br />

Ahn explique tout ce<strong>la</strong> dans<br />

une vidéo disponible à l’adresse<br />

http://goo.gl/zXcnN.<br />

informations que nous croyons définitivement<br />

oubliées comme d’anciens CV,<br />

<strong>de</strong> vieilles photos <strong>de</strong> c<strong>la</strong>sse, <strong>et</strong>c. ?<br />

Numérisation<br />

<strong>de</strong>s livres,<br />

un procédé génial<br />

Le principe <strong>de</strong> <strong>la</strong> «sagesse <strong>de</strong>s foules»<br />

est que dans certains domaines au<br />

moins, l’avis d’un grand nombre <strong>de</strong> personnes<br />

est souvent plus précis que celui<br />

<strong>de</strong> spécialistes. Ce<strong>la</strong> s’explique par toute<br />

une série <strong>de</strong> raisons qu’il serait trop long<br />

<strong>de</strong> développer ici.<br />

Luis von Ahn est l’inventeur du captcha,<br />

ces mots un peu bizarres, aux l<strong>et</strong>tres tordues,<br />

dont se servent presque tous les<br />

sites en ligne pour vérifier que c’est bien<br />

un être humain qui tente d’accé<strong>de</strong>r au<br />

service <strong>et</strong> non une machine (incapable<br />

d’interpréter les l<strong>et</strong>tres ou chiffres déformés).<br />

Depuis quelques mois, vous avez<br />

sans doute vu que <strong>de</strong> plus en plus souvent,<br />

ce sont désormais <strong>de</strong>ux mots qui<br />

sont soumis à notre interprétation.<br />

Quand il s’agit <strong>de</strong> numériser un document<br />

récent, les systèmes <strong>de</strong> reconnaissance<br />

optique <strong>de</strong>s caractères (OCR) sont<br />

généralement efficaces, mais lorsqu’il<br />

s’agit <strong>de</strong> livres plus anciens, aux pages<br />

jaunies ou à l’encre pâlie, <strong>la</strong> reconnaissance<br />

est beaucoup moins exacte <strong>et</strong><br />

l’ordinateur hésite <strong>et</strong> se trompe souvent.<br />

Luis von Ahn a alors imaginé une solution.<br />

Un <strong>de</strong>s <strong>de</strong>ux mots composant le<br />

captcha est connu <strong>de</strong> l’ordinateur tandis<br />

que l’autre est un <strong>de</strong>s mots sur lesquels<br />

l’OCR bute. Évi<strong>de</strong>mment, vous ne savez<br />

pas si c’est le premier ou le second.<br />

Comme plusieurs dizaines <strong>de</strong> milliers <strong>de</strong><br />

personnes doivent interpréter les <strong>de</strong>ux<br />

mêmes mots, il est probable que le mot<br />

qui pose un problème à l’OCR sera i<strong>de</strong>ntifié<br />

par, disons, 80% <strong>de</strong>s personnes. Se<br />

fiant à <strong>la</strong> sagesse <strong>de</strong> <strong>la</strong> foule, l’ordinateur<br />

conclut que c<strong>et</strong>te interprétation<br />

est exacte <strong>et</strong> il peut recommencer avec<br />

d’autres mots. Ainsi, tout en vous i<strong>de</strong>ntifiant,<br />

vous participez à <strong>la</strong> numérisation<br />

<strong>de</strong> livres anciens. Génial non ?<br />

Luis von Ahn a donc inventé le captcha<br />

avant <strong>de</strong> l’utiliser pour numériser<br />

les livres anciens. <strong>Mai</strong>s ce n’est pas<br />

tout ! Comment traduire le Web, tout<br />

le Web, dans les principales <strong>la</strong>ngues du<br />

mon<strong>de</strong> ? L’ang<strong>la</strong>is est <strong>la</strong> <strong>la</strong>ngue <strong>la</strong> plus<br />

utilisée. La version espagnole <strong>de</strong> Wikipedia<br />

ne représente que 20% <strong>de</strong> <strong>la</strong> version<br />

ang<strong>la</strong>ise. S’il fal<strong>la</strong>it faire traduire les 80%<br />

restants, le coût serait énorme <strong>et</strong> ce<strong>la</strong><br />

exigerait trop <strong>de</strong> temps.<br />

Sachant que <strong>de</strong> très nombreux Américains<br />

souhaitent apprendre une<br />

secon<strong>de</strong> <strong>la</strong>ngue, Luis von Ahn a eu<br />

l’idée géniale suivante: ceux qui veulent<br />

apprendre une <strong>la</strong>ngue, par exemple l’allemand,<br />

commencent par en apprendre<br />

les bases. Puis on leur donne <strong>de</strong>s<br />

phrases <strong>de</strong> <strong>la</strong> version ang<strong>la</strong>ise <strong>de</strong> Wikipedia<br />

à traduire. Des passages <strong>de</strong> plus<br />

en plus complexes. Il suffit ensuite d’attendre<br />

que quelques milliers d’étudiants<br />

traduisent les mêmes passages pour en<br />

obtenir une bonne traduction. C’est<br />

ainsi qu’en apprenant une <strong>la</strong>ngue nouvelle,<br />

on traduit le Web (voir encadré à<br />

gauche).<br />

Le Google connu<br />

Chacun connaît le Google qui perm<strong>et</strong><br />

<strong>de</strong> chercher dans le Web. L’interface disponible<br />

dans un grand nombre <strong>de</strong> <strong>la</strong>ngues<br />

<strong>et</strong> beaucoup <strong>de</strong> gens croient que <strong>la</strong><br />

<strong>la</strong>ngue <strong>de</strong> l’interface n’influence pas les<br />

résultats. C’est faux ! La version ang<strong>la</strong>ise

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!