N° 281 - Mai 2012 (.pdf - 3809 Ko) - Portail de la Recherche et des ...
N° 281 - Mai 2012 (.pdf - 3809 Ko) - Portail de la Recherche et des ...
N° 281 - Mai 2012 (.pdf - 3809 Ko) - Portail de la Recherche et des ...
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
24<br />
ATHENA <strong>281</strong> · <strong>Mai</strong> <strong>2012</strong> > INTERNET<br />
Google est un outil exceptionnel mais<br />
il faut rester vigi<strong>la</strong>nt au risque<br />
<strong>de</strong> r<strong>et</strong>rouver sa vie privée étalée<br />
un peu partout sur <strong>la</strong> toile.<br />
R<strong>et</strong>rouvez quelques astuces<br />
<strong>de</strong> protection page 25.<br />
+<br />
Pour en<br />
savoir plus:<br />
L’école s’appelle Duolingo<br />
(http://duolingo.com/). Elle<br />
est déjà débordée par les<br />
<strong>de</strong>man<strong>de</strong>s. L’idée est que les<br />
traducteurs ne paient rien car<br />
ils offrent leur temps. Et tout le<br />
mon<strong>de</strong> est gagnant. Luis von<br />
Ahn explique tout ce<strong>la</strong> dans<br />
une vidéo disponible à l’adresse<br />
http://goo.gl/zXcnN.<br />
informations que nous croyons définitivement<br />
oubliées comme d’anciens CV,<br />
<strong>de</strong> vieilles photos <strong>de</strong> c<strong>la</strong>sse, <strong>et</strong>c. ?<br />
Numérisation<br />
<strong>de</strong>s livres,<br />
un procédé génial<br />
Le principe <strong>de</strong> <strong>la</strong> «sagesse <strong>de</strong>s foules»<br />
est que dans certains domaines au<br />
moins, l’avis d’un grand nombre <strong>de</strong> personnes<br />
est souvent plus précis que celui<br />
<strong>de</strong> spécialistes. Ce<strong>la</strong> s’explique par toute<br />
une série <strong>de</strong> raisons qu’il serait trop long<br />
<strong>de</strong> développer ici.<br />
Luis von Ahn est l’inventeur du captcha,<br />
ces mots un peu bizarres, aux l<strong>et</strong>tres tordues,<br />
dont se servent presque tous les<br />
sites en ligne pour vérifier que c’est bien<br />
un être humain qui tente d’accé<strong>de</strong>r au<br />
service <strong>et</strong> non une machine (incapable<br />
d’interpréter les l<strong>et</strong>tres ou chiffres déformés).<br />
Depuis quelques mois, vous avez<br />
sans doute vu que <strong>de</strong> plus en plus souvent,<br />
ce sont désormais <strong>de</strong>ux mots qui<br />
sont soumis à notre interprétation.<br />
Quand il s’agit <strong>de</strong> numériser un document<br />
récent, les systèmes <strong>de</strong> reconnaissance<br />
optique <strong>de</strong>s caractères (OCR) sont<br />
généralement efficaces, mais lorsqu’il<br />
s’agit <strong>de</strong> livres plus anciens, aux pages<br />
jaunies ou à l’encre pâlie, <strong>la</strong> reconnaissance<br />
est beaucoup moins exacte <strong>et</strong><br />
l’ordinateur hésite <strong>et</strong> se trompe souvent.<br />
Luis von Ahn a alors imaginé une solution.<br />
Un <strong>de</strong>s <strong>de</strong>ux mots composant le<br />
captcha est connu <strong>de</strong> l’ordinateur tandis<br />
que l’autre est un <strong>de</strong>s mots sur lesquels<br />
l’OCR bute. Évi<strong>de</strong>mment, vous ne savez<br />
pas si c’est le premier ou le second.<br />
Comme plusieurs dizaines <strong>de</strong> milliers <strong>de</strong><br />
personnes doivent interpréter les <strong>de</strong>ux<br />
mêmes mots, il est probable que le mot<br />
qui pose un problème à l’OCR sera i<strong>de</strong>ntifié<br />
par, disons, 80% <strong>de</strong>s personnes. Se<br />
fiant à <strong>la</strong> sagesse <strong>de</strong> <strong>la</strong> foule, l’ordinateur<br />
conclut que c<strong>et</strong>te interprétation<br />
est exacte <strong>et</strong> il peut recommencer avec<br />
d’autres mots. Ainsi, tout en vous i<strong>de</strong>ntifiant,<br />
vous participez à <strong>la</strong> numérisation<br />
<strong>de</strong> livres anciens. Génial non ?<br />
Luis von Ahn a donc inventé le captcha<br />
avant <strong>de</strong> l’utiliser pour numériser<br />
les livres anciens. <strong>Mai</strong>s ce n’est pas<br />
tout ! Comment traduire le Web, tout<br />
le Web, dans les principales <strong>la</strong>ngues du<br />
mon<strong>de</strong> ? L’ang<strong>la</strong>is est <strong>la</strong> <strong>la</strong>ngue <strong>la</strong> plus<br />
utilisée. La version espagnole <strong>de</strong> Wikipedia<br />
ne représente que 20% <strong>de</strong> <strong>la</strong> version<br />
ang<strong>la</strong>ise. S’il fal<strong>la</strong>it faire traduire les 80%<br />
restants, le coût serait énorme <strong>et</strong> ce<strong>la</strong><br />
exigerait trop <strong>de</strong> temps.<br />
Sachant que <strong>de</strong> très nombreux Américains<br />
souhaitent apprendre une<br />
secon<strong>de</strong> <strong>la</strong>ngue, Luis von Ahn a eu<br />
l’idée géniale suivante: ceux qui veulent<br />
apprendre une <strong>la</strong>ngue, par exemple l’allemand,<br />
commencent par en apprendre<br />
les bases. Puis on leur donne <strong>de</strong>s<br />
phrases <strong>de</strong> <strong>la</strong> version ang<strong>la</strong>ise <strong>de</strong> Wikipedia<br />
à traduire. Des passages <strong>de</strong> plus<br />
en plus complexes. Il suffit ensuite d’attendre<br />
que quelques milliers d’étudiants<br />
traduisent les mêmes passages pour en<br />
obtenir une bonne traduction. C’est<br />
ainsi qu’en apprenant une <strong>la</strong>ngue nouvelle,<br />
on traduit le Web (voir encadré à<br />
gauche).<br />
Le Google connu<br />
Chacun connaît le Google qui perm<strong>et</strong><br />
<strong>de</strong> chercher dans le Web. L’interface disponible<br />
dans un grand nombre <strong>de</strong> <strong>la</strong>ngues<br />
<strong>et</strong> beaucoup <strong>de</strong> gens croient que <strong>la</strong><br />
<strong>la</strong>ngue <strong>de</strong> l’interface n’influence pas les<br />
résultats. C’est faux ! La version ang<strong>la</strong>ise