version PDF - Flash informatique - EPFL
version PDF - Flash informatique - EPFL
version PDF - Flash informatique - EPFL
You also want an ePaper? Increase the reach of your titles
YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.
Data<br />
Digital<br />
Diffusion<br />
Document<br />
Données<br />
DRM<br />
été<br />
2012<br />
<strong>Flash</strong>Informatique.epfl.ch<br />
p/a <strong>EPFL</strong> - Domaine IT - Station 8 - CH 1015 Lausanne - tél. +41 21 69 322 11<br />
21.08.2012
On the importance of visual display tools in the new data world.<br />
De l’importance des outils de visualisation dans le nouveau monde<br />
des données.<br />
Sur le point de prendre un fusain ou un crayon pour dessiner une couverture de<br />
ce numéro spécial D (Documents, Données,…), pourquoi ne pas en choisir un bon<br />
échantillon, en faire un graphe et le proposer à la maquettiste pour une adaptation?…<br />
Gephi, (www.gephi.org), qui mériterait un bel article dans la rubrique<br />
Logiciel Libre m’a permis de réaliser rapidement la chose en prenant des données<br />
en provenance du réseau. Les routeurs d’une certaine importance délivrent les<br />
traces de tous les flux qui les traversent à des fins de facturation ou de sécurité.<br />
Netflow est un format<br />
SP 21.08.2012 bien répandu de ces flux<br />
SP ÉTÉ 2012<br />
<strong>Flash</strong>Informatique.epfl.ch<br />
qui donnent, entre autres,<br />
O<br />
N<br />
N<br />
E<br />
p/a <strong>EPFL</strong> - Domaine IT - Station 8 - CH 1015 Lausanne - tél. +41 21 69 322 11<br />
adresse source, adresse<br />
destination, port source,<br />
port destination ainsi que<br />
le nombre de bytes acheminés.<br />
En prenant un tout petit échantillon de ce qui a traversé en sortie notre<br />
routeur vers Switch la journée du 15 juin entre 10h et 12h avec les ports utilisés<br />
par le Web (80 et 443) et en agrégeant les adresses de l’<strong>EPFL</strong> par subnet on se<br />
retrouve avec assez de nœuds pour faire de belles images…<br />
Nous sommes submergés de données.<br />
Tous les automates en fournissent et nous en concevons tous les jours de nouveaux<br />
et de plus en plus complexes pour nous simplifier la vie…<br />
Heureusement, parmi ceux-ci, il y en a qui permettent de visualiser les données,<br />
pour y voir plus clair ou<br />
pour les faire parler plus<br />
vite. Comme le dit Vittoria<br />
Rezzonico dans la<br />
conclusion de son article<br />
sur R: «L’affichage des<br />
données est un art…»<br />
(FI5/2012, flash<strong>informatique</strong>.epfl.ch/spip.php ?article2552).<br />
Dans le domaine scientifique pour leur interprétation autant que dans les médias<br />
pour la qualité de la communication, la visualisation des données ou l’infographie<br />
a pris une importance exceptionnelle. Les nouveaux dispositifs de lecture qui sont<br />
devenus les supports de prédilection pour les revues scientifiques ou grand public,<br />
ne sont pas pour rien dans cette évolution. Datavisualization.ch suit de très près<br />
l’état de cet art et offre une sélection impressionnante d’outils.<br />
La conjugaison de plusieurs savoirs (<strong>informatique</strong>, design, communication) s’impose<br />
aujourd’hui pour réussir une visualisation correcte des données, l’haptique<br />
viendra demain se rendre indispensable pour permettre de toucher leur public.<br />
É<br />
C<br />
E<br />
S<br />
O<br />
D D<br />
U<br />
M<br />
N<br />
T<br />
S<br />
199.59.149.243<br />
77.75.72.52<br />
89.207.18.181<br />
64.215.255.16 130.223.28.155<br />
174.35.7.3<br />
69.171.224.55<br />
171.67.113.220<br />
50.19.104.28<br />
66.235.139.166<br />
87.248.125.23<br />
124.193.167.1<br />
67.195.186.127<strong>EPFL</strong>-14<br />
173.194.35.20<br />
<strong>EPFL</strong>-55<br />
173.194.32.77<br />
199.7.55.72<br />
217.26.52.8<br />
208.94.1.92 160.92.7.69<br />
80.239.255.107 93.88.240.99<br />
<strong>EPFL</strong>-239<br />
65.52.109.72<br />
193.200.220.200<br />
85.218.94.112<br />
8.20.213.100<br />
195.12.228.164<br />
66.220.151.82<br />
193.134.74.26<br />
184.154.163.58<br />
149.20.69.23<br />
195.141.85.93<br />
<strong>EPFL</strong>-157<br />
93.17.88.225<br />
173.194.32.116<br />
<strong>EPFL</strong>-244<br />
74.125.13.25<br />
66.249.72.146<br />
174.35.6.20 195.176.255.143 195.24.233.55 204.160.120.126<br />
217.163.21.40<br />
91.198.174.225<br />
<strong>EPFL</strong>-154 138.100.41.103<br />
99.198.125.117 <strong>EPFL</strong>-99 <strong>EPFL</strong>-140<br />
<strong>EPFL</strong>-5 <strong>EPFL</strong>-247<br />
180.76.5.53206.17.82.1<br />
68.232.35.119 198.151.217.248<br />
12.130.81.249<br />
80.77.144.35<br />
157.55.17.194<br />
173.194.35.40<strong>EPFL</strong>-183<br />
71.45.133.177 91.189.89.90 79.183.195.243<br />
66.220.151.78<br />
91.232.96.13<br />
79.125.16.23<br />
74.125.232.122<br />
66.220.146.94<br />
83.201.39.190 173.194.35.49<br />
85.218.29.30<br />
192.33.204.216<br />
212.47.171.87<br />
83.172.200.234<br />
<strong>EPFL</strong>-67<br />
195.141.85.90<br />
216.191.247.139<strong>EPFL</strong>-152<br />
<strong>EPFL</strong>-62<br />
173.194.35.56<br />
212.170.239.12<br />
80.239.255.120<br />
<strong>EPFL</strong>-104<br />
46.0.19.156<br />
67.228.66.123<br />
61.158.249.154<br />
69.171.224.37<br />
<strong>EPFL</strong>-37<br />
193.46.238.92<br />
91.191.146.206<br />
195.176.255.88<br />
194.150.236.159<br />
<strong>EPFL</strong>-222<br />
90.52.194.142<br />
188.60.88.121 EHE-101<br />
217.163.21.37<br />
192.33.210.16<br />
62.210.65.204 213.5.132.15<br />
216.115.111.47 68.67.179.212<br />
199.168.13.75<br />
195.176.255.83<br />
193.218.102.53<br />
130.190.36.39<br />
81.7.230.121<br />
174.35.7.21<br />
81.22.37.155<br />
222.128.196.101<br />
38.100.179.210 <strong>EPFL</strong>-232<br />
50.16.231.96<br />
83.140.105.187<br />
68.67.185.247<br />
208.91.128.58<br />
195.24.233.60<br />
<strong>EPFL</strong>-21<br />
EHE-99<br />
194.126.157.11 <strong>EPFL</strong>-135<br />
69.171.229.74 208.92.53.43 <strong>EPFL</strong>-65 85.17.80.120<br />
93.91.236.98<br />
178.250.0.100<br />
74.125.232.97<br />
110.75.34.138<br />
217.108.165.25 64.215.255.80<br />
205.251.209.161<br />
198.151.217.241<br />
67.228.183.35<br />
217.29.163.117<br />
<strong>EPFL</strong>-245<br />
85.17.80.124<br />
62.2.105.154 199.59.148.87<br />
66.235.138.18<br />
74.125.232.124<br />
212.239.25.139<br />
174.35.4.144<br />
62.161.94.223<br />
195.176.255.81<br />
95.172.94.28 74.117.185.150<br />
81.22.37.125<br />
94.23.243.218 77.238.178.122<br />
62.109.145.80<br />
184.72.11.140178.94.46.121<br />
137.254.16.69<br />
173.194.35.15<br />
78.40.123.10<br />
184.184.112.165<br />
129.194.8.73<br />
195.176.255.135<br />
83.140.105.62<br />
17.171.8.16<br />
21.08.2012<br />
SP<br />
183.91.4.73 66.231.94.105 87.248.121.190<br />
193.169.66.18<br />
64.4.61.95 184.73.219.64 183.60.52.68<br />
91.202.121.21 78.46.70.205<br />
88.255.82.102<br />
68.67.185.208<br />
74.125.13.54 74.86.70.106<br />
199.127.194.80<br />
192.167.23.210<br />
94.127.76.140<br />
174.35.6.24<br />
<strong>EPFL</strong>-34<br />
95.131.121.196<br />
67.215.229.16546.105.9.255<br />
192.33.203.72<br />
SP 74.125.79.94 ÉTÉ 2012 68.67.179.135<br />
80.74.154.241 46.105.100.222<br />
173.194.35.19<br />
50.116.55.164<br />
202.108.23.27 <strong>Flash</strong>Informatique.epfl.ch<br />
174.35.6.9 195.24.233.57<br />
70.48.126.210<br />
8.20.213.76 65.52.110.143<br />
23.21.160.167<br />
<strong>EPFL</strong>-53<br />
94.100.179.68<br />
<strong>EPFL</strong>-153<br />
74.125.13.82<br />
81.26.166.70O<br />
<strong>EPFL</strong>-238<br />
123.125.50.28 59.98.107.139 77.72.113.34 212.47.171.86<br />
184.72.228.198 114.108.157.112<br />
207.46.13.163<br />
208.94.0.161<br />
83.221.236.51<br />
208.94.0.99<br />
<strong>EPFL</strong>-87 217.163.21.36<br />
212.95.67.200<br />
212.25.65.1 193.49.247.199<br />
72.250.245.121 193.247.166.73<br />
N<br />
84.16.76.181<br />
193.247.166.51 74.15.179.217 182.118.12.156<br />
74.86.70.107<br />
66.244.153.192<br />
93.88.240.50 180.76.5.136<br />
83.43.195.135<br />
2.19.79.144<br />
17.154.66.38 212.103.75.210 <strong>EPFL</strong>-82<br />
62.211.72.133 N 124.247.239.63<br />
p/a <strong>EPFL</strong> <strong>EPFL</strong>-195 - Domaine IT - Station 8 - CH 1015 Lausanne - tél. +41 66.220.151.94<br />
21 69 322 11<br />
64.34.200.15446.211.9.16<br />
23.22.95.8 206.53.176.104 <strong>EPFL</strong>-203<br />
81.88.105.182 80.237.153.97<br />
85.13.135.248<br />
194.54.81.182<br />
199.59.241.216 173.194.35.10 <strong>EPFL</strong>-48<br />
92.123.74.64<br />
138.108.7.20<br />
199.7.57.72 208.81.234.117<br />
192.33.202.3<br />
68.67.185.252<br />
74.125.232.104<br />
174.35.7.22 62.212.85.145 176.34.197.122<br />
195.176.255.84<br />
74.125.232.121<br />
81.19.88.103<br />
<strong>EPFL</strong>-125 92.123.65.194<br />
208.74.76.163 223.132.27.137<br />
84.16.80.92<br />
E192.33.203.124 173.194.35.38<br />
<strong>EPFL</strong>-241<br />
195.186.17.100<br />
<strong>EPFL</strong>-11<br />
213.180.204.90<br />
74.125.13.56<br />
84.16.68.224<br />
184.154.197.3<br />
193.50.216.106 203.209.224.55<br />
61.8.48.57 92.123.74.72<br />
46.182.41.58 85.218.94.154<br />
220.181.181.221<br />
50.97.151.194 173.178.205.109<br />
94.245.70.55<br />
212.71.120.204159.245.16.100<br />
<strong>EPFL</strong>-156<br />
173.194.32.127<br />
195.81.229.100<br />
61.158.249.138<br />
31.186.231.25 37.59.16.162<br />
199.59.148.82<br />
93.184.220.33 85.125.84.133<br />
<strong>EPFL</strong>-209<br />
61.55.171.32<br />
173.194.32.83<br />
173.194.35.58<br />
220.181.181.226<br />
212.227.192.198<br />
EHE-66<br />
208.66.66.71 88.198.41.164<br />
188.121.55.80<br />
66.249.72.26<br />
<strong>EPFL</strong>-13<br />
220.181.181.230 205.186.187.171<br />
74.125.232.100<br />
173.194.35.35 78.111.253.47<br />
220.181.181.227<br />
180.76.6.231<br />
62.28.70.52<br />
54.240.162.172<br />
2.14.89.153<br />
174.37.214.243<br />
109.214.139.195<br />
69.171.227.71<br />
194.112.241.5<br />
66.249.72.80<br />
71.116.245.210<br />
61.182.131.25<br />
217.163.21.38<br />
123.125.46.36 174.35.7.26 207.46.13.114<br />
114.113.158.55<br />
<strong>EPFL</strong>-50<br />
2.19.73.133 219.142.127.20<br />
208.71.123.72<br />
208.94.2.106113.142.3.12<br />
83.139.126.203<br />
212.239.41.101<br />
199.7.51.190 68.67.185.210<br />
157.166.224.246<br />
208.94.0.105 93.88.243.116<br />
50.57.4.218<br />
173.192.42.179 23.21.182.111 <strong>EPFL</strong>-196174.92.229.9<br />
195.176.255.89<br />
180.76.5.196 82.199.80.141<br />
207.241.148.88<br />
74.125.71.105<br />
91.220.100.250<br />
82.192.95.92<br />
65.93.127.113<br />
81.18.191.158<br />
70.167.227.245 <strong>EPFL</strong>-240217.146.179.200<br />
180.76.5.170<br />
173.194.35.48<br />
<strong>EPFL</strong>-246 66.196.66.212 184.105.67.85<br />
<strong>EPFL</strong>-237<br />
74.125.232.96 110.49.241.190<br />
195.154.120.71<br />
95.172.94.62 174.35.6.10 77.75.72.19<br />
194.20.158.105 174.35.6.12<br />
23.21.183.70 86.194.220.48 218.104.71.174<br />
79.110.86.233<br />
119.188.40.81 93.88.240.54<br />
<strong>EPFL</strong>-155<br />
174.35.6.7 23.21.182.156<strong>EPFL</strong>-77<br />
<strong>EPFL</strong>-36<br />
130.158.6.56 91.213.227.150<br />
184.169.79.33<br />
68.168.112.46<br />
66.220.145.44<br />
180.149.135.236<br />
89.93.216.254 195.141.85.94<br />
50.116.55.35 188.132.215.82<br />
87.248.202.160<br />
<strong>EPFL</strong>-253<br />
122.11.51.16 <strong>EPFL</strong>-129 194.150.245.142 213.205.32.19<br />
180.76.5.111<br />
174.35.7.7<br />
<strong>EPFL</strong>-42<br />
217.174.118.194<br />
84.16.80.85<br />
70.25.39.180<br />
173.194.35.24 87.248.203.253<br />
74.125.232.98<br />
213.199.181.90 72.21.214.159<br />
173.194.35.5 81.26.216.23 82.98.105.20 60.28.212.53<br />
174.35.4.134<br />
194.62.234.39<br />
31.24.80.31<br />
212.147.54.162<br />
199.16.173.23<br />
176.34.132.201 194.7.148.38<br />
66.249.72.75<br />
<strong>EPFL</strong>-134<br />
180.76.5.98<br />
173.194.35.4<br />
<strong>EPFL</strong>-49<br />
178.154.205.251<br />
91.121.118.146<br />
<strong>EPFL</strong>-201 <strong>EPFL</strong>-20<br />
EHE-100 46.137.187.111 93.57.15.123<br />
<strong>EPFL</strong>-94<br />
77.75.76.72<br />
<strong>EPFL</strong>-160<br />
174.35.5.6<br />
74.125.232.103<br />
124.83.195.239<br />
123.125.65.93<br />
<strong>EPFL</strong>-46212.47.171.72<br />
173.194.35.0<br />
217.163.21.34<br />
<strong>EPFL</strong>-105 67.225.203.125<br />
188.62.41.102 <strong>EPFL</strong>-89<br />
184.72.234.3<br />
60.29.242.148<br />
É<br />
C<br />
E<br />
S<br />
O<br />
D D<br />
U<br />
M<br />
N<br />
T<br />
S<br />
Pour en savoir plus sur Gephi, voir l’article An Open Source Software for Exploring<br />
and Manipulating Networks de Mathieu Bastian, Sebastien Heymann et<br />
Mathieu Jacomy – gephi.org/publications/gephi-bastian-feb09.pdf. n<br />
2 flash <strong>informatique</strong><br />
Les couvertures auxquelles<br />
vous avez échappé<br />
Richard.Timsit@epfl.ch, <strong>EPFL</strong> – Domaine IT, illustrateur de la couverture<br />
DONNÉES<br />
O<br />
C<br />
U<br />
M<br />
E<br />
N<br />
T<br />
S<br />
SPÉCIAL<br />
ÉTÉ<br />
2012<br />
SP<br />
<strong>Flash</strong>Informatique.epfl.ch<br />
p/a <strong>EPFL</strong> - Domaine IT - Station 8 - CH 1015 Lausanne - tél. +41 21 69 322 11<br />
204.145.91.20<br />
205.251.242.133<br />
195.1.229.60 173.194.35.13 194.149.246.24 85.4.91.201 24.139.31.55<br />
2.19.76.20<br />
199.59.150.41 195.141.38.31<br />
157.56.248.9 <strong>EPFL</strong>-38<br />
75.101.163.8<br />
<strong>EPFL</strong>-6<br />
<strong>EPFL</strong>-43<br />
74.125.13.73<br />
173.194.32.113<br />
207.46.13.211<br />
123.125.115.62 173.194.35.42 85.218.7.66174.35.6.3<br />
192.33.202.32 182.55.248.100<br />
174.35.4.146<br />
123.125.114.64<br />
129.132.95.202<br />
123.125.115.75 88.190.36.183 213.92.10.33<br />
141.249.145.40<br />
78.109.88.177 130.14.29.109<br />
195.176.255.151<br />
208.94.2.104 122.226.169.183<br />
184.73.198.91<br />
199.7.50.72 86.219.132.103 217.20.138.66 87.249.105.26<br />
<strong>EPFL</strong>-179<br />
83.79.82.180 50.17.243.165 193.110.128.199 208.69.152.105<br />
31.186.231.31 64.95.73.13<br />
94.245.68.221<br />
<strong>EPFL</strong>-110<br />
61.135.218.37<br />
61.135.201.238 130.14.29.110<br />
80.251.169.132 69.36.34.24 221.123.170.40<br />
184.73.200.194<br />
85.218.96.175 65.52.109.7<br />
174.35.4.151<br />
64.236.124.229 66.220.151.88<br />
217.154.245.50<br />
173.194.35.8<br />
125.39.120.140<br />
<strong>EPFL</strong>-121<br />
216.52.208.152<br />
173.194.35.59 212.95.67.222<br />
193.110.128.197 62.161.94.222 66.249.72.117 213.202.98.213 <strong>EPFL</strong>-76<br />
205.251.209.29<br />
<strong>EPFL</strong>-41<br />
65.55.255.16<br />
<strong>EPFL</strong>-187188.61.27.235<br />
<strong>EPFL</strong>-90 114.80.190.99<br />
46.228.164.14<br />
72.55.189.164 95.172.94.35<br />
21.08.2012
e-Dito<br />
Richard.Timsit@epfl.ch, <strong>EPFL</strong> – Domaine IT<br />
D comme data, D comme donnée, D comme document?<br />
Pour ne pas trancher, il nous est apparu pratique et prudent de<br />
nous en tenir à la lettre D.<br />
Cette quatrième lettre de l’alphabet est le symbole de la porte, c’est<br />
bon signe ! Le dessin même de la lettre évoque le chambranle de celle-ci<br />
dans la cité ou le triangle de l’ouverture de la tente pour les nomades que<br />
l’on retrouve dans le delta.<br />
Initiale d’un Début ou d’un Départ pour un numéro spécial du <strong>Flash</strong> <strong>informatique</strong><br />
qui voulait traiter de ce que deviennent les documents en ce début<br />
du XXI° siècle où nous ne lisons plus, n’écrivons plus, n’archivons plus, ne<br />
pensons plus comme hier. Bien sûr, nous ne nous baignons jamais deux fois<br />
dans la même encre et les formes du livre n’ont toujours fait que changer, en<br />
nous changeant profondément.<br />
Ce numéro est constitué d’un grand nombre d’articles sur les Données dans<br />
tous leurs états, en toutes les langues, sur tous les supports, au point de laisser<br />
le Document somnoler sur son étagère. Il ne se fait pas oublier pour autant !<br />
Tout départ est une aventure et celui du numérique dans lequel nous sommes<br />
engagés prend l’allure d’un grand saut inquiétant. Nous sommes encore peu<br />
habitués à ces chiffres astronomiques et à ces croissances exponentielles et<br />
même si la terminologie du nuage ou de l’immatériel se veut rassurante, il est<br />
bien légitime de s’inquiéter et de penser confiance et pérennité.<br />
Un Exaoctet (Eo) de données représente environ 10.000 fois la capacité<br />
de la Bibliothèque du Congrès Américain.<br />
L’humanité a produit environ 5 Eo de données depuis son avènement<br />
jusqu’en 2003. En 2010, il suffisait de deux jours environ pour produire<br />
la même quantité [1].<br />
Ce numéro du FI nous le révèle une fois de plus, nous n’avons jamais<br />
été aussi merveilleusement outillés, mais toute technique étant à la<br />
fois remède et poison, il nous faut bien compter sur l’acquisition<br />
de savoirs pour apprendre à Discerner.<br />
[1] blog.dewost.com/big-data-petitesreflexions<br />
SPÉCIAL ÉTÉ – D – 21 AOÛT 2012<br />
3
Information technology and open-source: powerful<br />
tools for post-Fukushima environmentally concerned<br />
citizens.<br />
Les technologies de l’information et les logiciels ouverts:<br />
de puissants outils pour les citoyens soucieux<br />
de l’environnement après Fukushima.<br />
Le triple meltdown de la centrale de Fukushima, conséquence du<br />
terrible tremblement de terre et tsunami ayant ravagé le nord-est<br />
du Japon en mars 2011, a réveillé le spectre dormant de la peur<br />
nucléaire. Née à Hiroshima et Nagasaki, puis nourrie abondamment<br />
durant la guerre froide et l’intensive période d’essais nucléaires<br />
atmosphériques l’accompagnant, cette peur a finalement<br />
atteint pleinement la population civile lors des accidents de Three<br />
Mile Island, aux États-Unis, puis le pire jusqu’à Fukushima, Tchernobyl,<br />
en Ukraine quelques années plus tard.<br />
C’est pourquoi en ce beau week-end de mars 2011 suivant la<br />
catastrophe, de multiples questions se posaient. Faut-il, en plus<br />
des tremblements de terre et des tsunamis, craindre un danger<br />
invisible, pouvant potentiellement mener à des problèmes graves<br />
de santé, des cancers ? Mon environnement a-t-il été contaminé ?<br />
Est-il raisonnable de rester à Fukushima ? À Tokyo ? Au Japon ?<br />
Seules des données indépendantes de qualité peuvent non seulement<br />
commencer à répondre à toutes ces questions, mais aussi<br />
permettre une investigation détaillée des conséquences de l’accident,<br />
ainsi qu’un travail de décontamination où cela est nécessaire.<br />
Durant les premières semaines suivant la catastrophe, les<br />
seules sources publiant de telles données étaient le Ministère de<br />
l’Éducation, de la Culture, des Sports, des Sciences et de la Technologie<br />
du Japon (MEXT) et Tokyo Electric Company (TEPCO). Malheureusement,<br />
les données publiées par ces deux entités étaient<br />
au mieux lacunaires, avec seulement quelques points dans la préfecture<br />
de Fukushima, mais souvent aussi terriblement anciennes,<br />
de plusieurs jours, semaines, voire mois. Ajoutés à cela, un manque<br />
de transparence total dans les communications ainsi qu’un intérêt<br />
clair à manipuler les données ont contribué à décrédibiliser les<br />
mesures officielles de la radioactivité.<br />
Safecast: crowdsourcing et radioactivité<br />
C’est cette pénurie d’informations officielles qui a poussé un<br />
nombre important de citoyens à prendre la responsabilité de mesurer<br />
la radioactivité afin de garantir leur sécurité et celle de leur<br />
famille. Bien qu’un simple compteur Geiger soit suffisant pour<br />
cela, face à une demande aussi soudaine que massive, les stocks<br />
mondiaux furent épuisés après seulement une semaine. Et c’est<br />
4 flash <strong>informatique</strong><br />
Safecast<br />
Mesures citoyennes de la radioactivité à l’âge de l’Internet<br />
Robin Scheibler, fakufaku@gmail.com, designer, fabricant et réparateur de bGeigie (senseur mobile de radioactivité) à Safecast Japan<br />
à ce moment-là que quelque chose de magique est arrivé. Les<br />
citoyens ayant pu se procurer un compteur commencèrent à diffuser<br />
leurs mesures sur l’Internet, par l’intermédiaire d’un graphe<br />
en temps réel, ou simplement en posant l’appareil devant une<br />
webcam. En une semaine, plusieurs dizaines de flux de données<br />
étaient déjà disponibles en particulier sur Pachube & (renommé<br />
Cosm récemment), une plate-forme de partage ciblant l’Internet<br />
des objets.<br />
C’est dans ces conditions, durant la semaine suivant le 11 mars<br />
2011, qu’est né Safecast (www.safecast.org), une organisation<br />
bénévole dont le but est de fournir une information de qualité sur<br />
les niveaux de radioactivité. La première itération fut de rassembler<br />
toutes les données accessibles sur l’Internet, mais jusque-là<br />
éparses, et de les visualiser sur une seule carte. Cette première<br />
carte incluait alors aussi bien les données gouvernementales que<br />
citoyennes. Cependant, tous ces senseurs disponibles en ligne à<br />
ce moment-là étaient des senseurs fixes offrant certes une excellente<br />
résolution temporelle, mais peu de couverture spatiale, laissant<br />
de grandes zones vides de mesures, ou presque, après avoir<br />
zoomé sur une zone particulière.<br />
Cet effet rendait en pratique cette carte d’un intérêt limité étant<br />
donné que dans la plupart des cas, chaque individu est concerné<br />
tout particulièrement par les niveaux dans son environnement<br />
direct. Afin de répondre à ce besoin et remplir la carte simultanément,<br />
la première idée fut l’utilisation collective des compteurs<br />
Geiger et le partage en ligne des données collectées. Safecast<br />
prêta alors des compteurs contre la promesse de partager les<br />
résultats via un formulaire sur notre site Web. Ce fut le début du<br />
crowd-sourcing &.<br />
BentoGeigie: vers une mobilité des senseurs<br />
Ce système bien que répondant efficacement à un besoin humain<br />
a cependant rapidement montré ses limites quant à son efficacité<br />
en matière de collecte de données. Principal obstacle, l’aspect manuel<br />
demandant beaucoup de temps pour un nombre de mesures<br />
récoltées finalement pas si élevé. Toutefois, ce système a introduit<br />
l’élément crucial de la mobilité des senseurs eux-mêmes afin de<br />
couvrir un territoire extrêmement large avec un nombre d’appareils<br />
limité. La suite logique fut donc de fixer un compteur Geiger<br />
sur une voiture et d’enregistrer le niveau de radioactivité ainsi que<br />
la position à intervalles réguliers et pour toute la durée du voyage.<br />
Il est intéressant de noter que la toute première incarnation de ce<br />
système n’utilisait que des éléments accessibles à tout un chacun,<br />
mis à part le compteur Geiger. Le compteur est scotché contre la<br />
vitre côté passager, écran contre l’intérieur du cockpit, senseur<br />
pointant à l’extérieur. La valeur affichée est alors photographiée<br />
avec un smartphone, les données GPS sont automatiquement
Safecast, mesures citoyennes de la radioactivité à l’âge de l’Internet<br />
ajoutées au fichier qui est ensuite transféré vers un compte Flickr.<br />
Par la suite, une carte peut être générée avec un logiciel comme<br />
iPhoto par exemple. Cette méthode, bien que difficilement extensible<br />
à grande échelle à cause de son format difficile à lire automatiquement<br />
(photographie d’un écran), montre que tous les<br />
outils nécessaires sont disponibles.<br />
Après un premier prototype utilisant un netbook, un simple GPS<br />
USB, un Arduino ainsi que l’indispensable compteur Geiger, le<br />
Bento Geiger, ou bGeigie pour faire court, est finalement développé<br />
au Tokyo Hackerspace. Il s’agit d’un système indépendant<br />
entièrement contenu dans une boîte rectangulaire faisant penser<br />
à une boîte à déjeuner, ou bento en japonais. Le cœur du système<br />
est un Arduino, une plate-forme de développement rapide conçue<br />
à la base pour les artistes et bricoleurs, munie d’une carte d’extensions<br />
spécialement créée pour Safecast et qui inclut un GPS, une<br />
carte SD et une connexion à la sortie audio du compteur Geiger.<br />
Une fois fermé, le senseur est complètement étanche et peut être<br />
attaché à une voiture au moyen de deux sangles que l’on fixe dans<br />
une fenêtre et quelques ventouses pour la stabilité. Une fois allumé,<br />
le senseur compte le nombre d’impulsions venant du compteur<br />
dans un intervalle de 5 secondes puis enregistre cette valeur,<br />
accompagnée des coordonnées géographiques et du temps dans<br />
un fichier sur la carte SD. Une fois le voyage terminé, les données<br />
récoltées sont extraites de la carte et transférées dans la base de<br />
données, à partir de laquelle peut maintenant être créée une carte<br />
détaillée des niveaux de radiation.<br />
Depuis le premier prototype créé environ un mois après la catastrophe,<br />
environ quarante unités ont été construites, principalement<br />
manuellement. Ces unités sont ensuite prêtées à des<br />
bénévoles qui vont quadriller leur ville, ou l’utiliser lors de leurs<br />
déplacements quotidiens. Après avoir couvert ce qu’ils peuvent,<br />
les senseurs sont renvoyés à Safecast afin d’être redéployés chez<br />
d’autres bénévoles. Cette méthode a permis en moins d’une année,<br />
de récolter plus de trois millions de points de mesure uniques,<br />
principalement dans le nord-est du Japon, mais aussi dans le reste<br />
du monde, entre autres Hong Kong, la Californie, la Finlande, et<br />
même la Suisse.<br />
Open source et action citoyenne<br />
L’un des points forts de Safecast est un engagement absolu à<br />
publier toutes nos données libres de droits et sans restriction<br />
aucune. À cette fin, les données sont publiées sous une licence<br />
Creative Commons 0, c’est-à-dire directement dans le domaine<br />
public. Cela afin qu’il n’y ait aucune barrière à l’utilisation de ces<br />
données à des fins scientifiques ou informatives. Pour compléter<br />
cela, nous fournissons l’ensemble de nos données sur notre<br />
site Web en téléchargement libre dans un format texte et lisible<br />
automatiquement par ordinateur (https://api.safecast.org/system/<br />
measurements.tar.gz).<br />
En plus des données, tous les logiciels et hardwares développés<br />
à Safecast utilisent des licences open source, permettant d’être<br />
réutilisés avec très peu de contraintes. Le but est double. D’une<br />
part, le développement a été incroyablement accéléré par la réutilisation<br />
de code et designs déjà existants, ce qui a permis par<br />
exemple de concevoir et construire complètement un prototype<br />
de senseur en seulement un mois. D’autre part, de telles licences<br />
sont particulièrement appropriées dans le cadre d’une opération<br />
citoyenne, car elles permettent à d’autres groupes indépendants<br />
de créer leurs propres senseurs et ainsi leur propre jeu de données.<br />
Ceci est particulièrement souhaitable, car plus de données sont<br />
nécessairement mieux que moins de données, mais aussi, car les<br />
résultats ainsi produits indépendamment vont mutuellement renforcer<br />
leur crédibilité.<br />
Un activisme environnemental nécessaire<br />
La révolution industrielle du XIXe siècle et les prodigieuses avancées<br />
scientifiques qui l’ont accompagnée jusqu’à nos jours ont offert<br />
à l’humanité une sécurité et un confort tels qu’elle n’en avait<br />
jamais connu. Le revers de la médaille est bien entendu la pollu-<br />
SPÉCIAL ÉTÉ – D – 21 AOÛT 2012<br />
5
Safecast, mesures citoyennes de la radioactivité à l’âge de l’Internet<br />
Carte de l’<strong>EPFL</strong> à Lucens: http://maps.safecast.org/drive/647<br />
tion engendrée et ses conséquences sur la santé. Cette pollution<br />
se caractérise en particulier par des fuites ou rejets de substances<br />
toxiques dans la nature, tels que les incidents de Minamata au<br />
Japon dans les années 1940, la contamination de poulet par de la<br />
dioxine en Belgique en 1999 et de porc en Irlande en 2008. À cela<br />
vient s’ajouter la pollution engendrée par les conflits armés ou<br />
les tests d’armes, en particulier les retombées d’essais nucléaires<br />
atmosphériques, maintenant bannis, mais aussi par exemple l’utilisation<br />
massive d’agent orange, un herbicide particulièrement<br />
toxique, par l’armée américaine au Vietnam. Et bien entendu, les<br />
retombées d’accidents de centrales atomiques telles que Tchernobyl<br />
ou Fukushima.<br />
Il est indéniable que la régulation et le contrôle de l’industrie<br />
afin de limiter la pollution environnementale et ses effets sur la<br />
santé relèvent des gouvernements et organes officiels. Malheureusement,<br />
il arrive trop souvent que la vigilance de ces organes<br />
se relâche après de longues périodes sans incident notable, ou<br />
alors, plus sinistrement, sous l’influence de puissants groupes<br />
d’influence industriels. Dans ces cas-là, il est de la responsabilité<br />
des citoyens de prendre en mains le contrôle environnemental et<br />
d’informer les autorités ainsi que la population lorsque des situations<br />
problématiques sont découvertes.<br />
Bien que l’activisme environnemental ne soit pas nouveau en<br />
soi, l’émergence de l’Internet et des technologies de fabrication<br />
numérique ont complètement changé la donne. Il est, de nos<br />
jours, abordable pour des particuliers de faire fabriquer des pièces<br />
mécaniques sur mesure grâce aux imprimantes 3D. La découpe<br />
6 flash <strong>informatique</strong><br />
laser et les machines-outils à commande numérique, jusqu’à récemment<br />
réservées à l’industrie, sont maintenant utilisables par<br />
tout un chacun en particulier grâce aux FabLab et hackerspaces,<br />
des espaces communautaires partageant les frais d’achat de ces<br />
machines et offrant une formation concernant leur utilisation. En<br />
parallèle, cette communauté naissante se retrouve sur la toile ou<br />
elle partage idées, design, mode d’emploi, hardware et software.<br />
Cette prodigieuse révolution a finalement remis entre les mains<br />
des citoyens le pouvoir de contrôler leurs environnements. Et<br />
comme nous l’avons constaté au Japon après Fukushima, ils vont<br />
en faire usage quand ce sera nécessaire. n<br />
GLOSSAIRE &<br />
crowd-sourcing: mot construit en référence à l’outsourcing qui<br />
consiste à externaliser certaines tâches, le crowd-sourcing<br />
consiste à utiliser la créativité, l’intelligence et le savoir-faire<br />
d’un grand nombre d’internautes.<br />
Pachube (on prononce Patch bay): service Web qui permet de<br />
connecter et partager en temps réel les données d’un capteur.<br />
Racheté il y a quelques mois, le service a évolué et s’appelle<br />
désormais cosm.com.
La bibliothèque de l’<strong>EPFL</strong><br />
Isabelle.Kratz@epfl.ch, <strong>EPFL</strong> - Information scientifique et bibliothèques, cheffe du service<br />
A contribution to the <strong>Flash</strong> <strong>informatique</strong> special<br />
edition is definitely a challenge to undertake for<br />
librarians. So let’s try to do it with humour and imagination,<br />
but also with seriousness and rigor.<br />
C’est avec humour et imagination, mais aussi avec<br />
sérieux et rigueur que la Bibliothèque de l’<strong>EPFL</strong> a<br />
souhaité relever le défi d’une contribution à ce numéro<br />
spécial du <strong>Flash</strong> <strong>informatique</strong>.<br />
Il est vrai qu’en tant que spécialistes de l’information, nous savons<br />
combien nous pouvons apporter à l’étudiant, à l’enseignant et au<br />
chercheur. Dans une société où l’information nous arrive de toute<br />
part et a pris une valeur stratégique et économique de premier<br />
plan, notre cœur de métier bat plus que jamais.<br />
Une mauvaise journée<br />
Guilaine Baud-Vittoz, Guilaine.Vittoz@epfl.ch, <strong>EPFL</strong> - Information scientifique et bibliothèques, responsable Services et Formations aux Utilisateurs<br />
Il pleuvait ce matin-là et Jen avait oublié son parapluie. Il le savait<br />
pourtant que le temps allait être maussade, ils l’avaient annoncé à<br />
la radio tout à l’heure. Cela, et autre chose… une nouvelle, glissée<br />
entre la météo et 120 secondes, un flash info … oui … mais à quel<br />
propos ?<br />
À vrai dire, Jen avait d’autres choses en tête. Il devait absolument<br />
avancer dans sa recherche, car son professeur l’avait convoqué<br />
pour un point de situation. Il lui manquait encore quelques références,<br />
les résultats du labo, en un mot plusieurs heures de travail<br />
et des nuits blanches en perspective.<br />
Il chassa les gouttes glissant sur ses cheveux mi longs et évita machinalement<br />
la flaque d’eau qui s’accumulait toujours au même<br />
endroit, là devant le seuil de la Bibli. Il poussa ensuite la porte<br />
qui bien qu’automatique ne s’ouvrait jamais d’elle-même et entra.<br />
Madame Saihdo enfila son duffle-coat et regarda sa montre.<br />
Il était déjà huit heures et demie. Jamais elle n’arriverait à<br />
temps pour la séance de neuf heures en prenant les transports<br />
en commun. Elle sauta donc dans sa voiture, alluma<br />
l’autoradio et démarra. Arrivée sur le campus, toutes les<br />
places à proximité de son bureau étaient prises par d’autres<br />
véhicules… qui n’avaient de surcroit pas de vignettes. Cette<br />
fois elle allait vraiment être en retard. La séance se déroula<br />
mal, comme d’habitude aucune décision ne fut prise et le<br />
Professeur Tournedos monopolisa inutilement la parole.<br />
Mais il est aussi vrai que nous devons apprendre à mieux valoriser<br />
nos services et nos compétences, à sortir de notre discrétion<br />
quasi culturelle, à changer l’image du bibliothécaire traditionnel<br />
à chignon et lunettes: de l’acquisition de ressources, papier et<br />
électroniques, aux formations à l’information literacy, en passant<br />
par le conseil sur le droit d’auteur, l’aide à la bibliométrie, la<br />
sensibilisation aux grands enjeux de la diffusion de l’information<br />
scientifique…, nous aurions de quoi vous conter.<br />
Vous voulez en savoir plus ? Commencez par lire notre petite nouvelle<br />
et nos articles sur quelques aspects importants touchant à<br />
l’information, aux données et aux documents. Puis venez nous<br />
voir ou, encore mieux, nous pouvons venir vous rencontrer !<br />
Article du FI-<strong>EPFL</strong> 2012 sous licence CC BY-SA 3.0 / I. Kratz<br />
Il était déjà 10 heures et Madame Saihdo était maintenant de<br />
fort mauvaise humeur. Elle s’installa derrière son bureau et<br />
ouvrit sa boîte mail. Un sourire éclaira enfin son visage, M. Bircher<br />
lui avait envoyé le lien sur l’article recommandé la veille.<br />
Jen alla s’assoir à sa place fétiche. Lumineuse, calme, mais pas<br />
trop, une vue imprenable sur l’extérieur et sur cette jolie brune qui<br />
devait arriver dans une heure ou deux, juste avant qu’il ne reparte<br />
au labo. Mais une sensation inhabituelle d’inconfort fit rapidement<br />
son apparition. Qu’y avait-il de si différent aujourd’hui ? D’un<br />
mouvement d’épaule, il chassa ses doutes et se remit à son ordinateur.<br />
Google scholur, bromarr. Que lui avait dit Anah déjà ? Que<br />
les bibliothécaires lui avaient recommandé un outil plus efficace<br />
et paramétrable pour la gestion de ses références, un logiciel du<br />
nom de Zorro, Zorroooo. Non, il divaguait ! Il lui redemanderait le<br />
nom exact cet après-midi.<br />
Las, il ne trouvait pas de nouvelle référence dans les premières<br />
pages de Google scholar (il s’était tout de même souvenu !)<br />
Rien non plus dans le catalogue ou dans les bases de données.<br />
Étrange… d’ailleurs, ces derniers semblaient plus lents qu’à l’ordinaire,<br />
on aurait même dit qu’ils étaient incomplets. Bon, il fallait<br />
se résigner, oser monter là haut et aller voir l’homme ou la femme<br />
derrière le guichet : le bibliothécaire. Pourvu que ce soit le même<br />
que la dernière fois, celui qui parlait bien anglais et avait su comprendre<br />
son sujet de recherche en quelques phrases.<br />
SPÉCIAL ÉTÉ – D – 21 AOÛT 2012<br />
7
Une mauvaise journée<br />
Clic, clic et reclic. Vingt fois que Madame Saidho rafraîchissait<br />
la page de son navigateur et l’article ne s’affichait toujours<br />
pas. Pourtant, ce journal était accessible en temps normal<br />
! Elle le savait mieux que quiconque vu qu’elle en avait<br />
demandé l’abonnement. Remontée, elle empoigna le téléphone<br />
et appela la Bibliothèque. Les sonneries résonnaient<br />
interminablement à son oreille, augmentant sa frustration…<br />
Personne ! Elle raccrocha d’un coup sec, pestant contre les<br />
fonctionnaires jamais là lorsque l’on avait besoin d’eux et<br />
décida d’appeler son contact direct à la bibliothèque. Monsieur…<br />
elle n’arrivait décidément pas à se rappeler son nom.<br />
Lui d’habitude toujours disponible, prêt à l’orienter et lui<br />
donner les meilleurs conseils, n’était pas joignable non plus.<br />
Exaspérée, Madame Saidho laissa un message peu aimable<br />
sur le répondeur et envoya également un e-mail libérateur<br />
dans lequel elle ne mâcha pas ses mots.<br />
La matinée touchait à sa fin, Jen n’avait trouvé personne pour<br />
l’orienter et l’inconnue de la table en face n’avait pas montré<br />
le bout de son nez en trompette. La pluie continuait son chant<br />
mélancolique contre les vitres. Décidément, le temps reflétait ses<br />
états d’âme, il était donc temps de rejoindre les autres pour le déjeuner<br />
et passer à des questions beaucoup plus terre à terre. Sandwich<br />
ou menu 2 de la cafétéria ? Le menu 1 était toujours infâme…<br />
Une heure plus tard, Jen rejoint le laboratoire où l’ordinateur avait<br />
passé la nuit à cracher des données. À défaut d’une bibliographie<br />
convaincante, il aurait peut-être quelques résultats concrets à<br />
présenter. Il s’approcha de l’écran tel un papillon attiré par une<br />
ampoule incandescente et ne fut pas déçu. Chiffres et nombres,<br />
nombres et chiffres se chevauchaient et s’entremêlaient. Si nombreux<br />
que cela en était presque indécent… Mais il manquait à<br />
Jen une constante pour achever ses calculs. Ses camarades ne la<br />
connaissant pas, il ne savait trop à qui s’adresser. Bah, wikipédia<br />
lui fournirait sans doute la solution. À lui de convaincre maintenant<br />
son professeur de faire jouer son réseau pour obtenir des<br />
données similaires afin de les comparer. Le mieux serait d’y avoir<br />
accès directement en ligne !<br />
Après quelques sushis et un coca light en guise de repas de<br />
midi, Madame Saidho se plongea dans la lecture du plan<br />
que lui avait envoyé son rendez-vous de 17 heures. Au bout<br />
de quelques minutes, elle leva les yeux au ciel et se frotta<br />
les tempes. Mais comment osait-il lui présenter une telle<br />
bibliographie ? Il n’avait donc pas appris à utiliser un logiciel<br />
approprié ? Sans parler de ses citations… complètement<br />
fausses ! Au moins n’avait-elle pas décelé de trace de plagiat<br />
dans ses écrits. Dire qu’ils avaient dû hier encore sanctionner<br />
un étudiant, car il avait innocemment repris et remanié<br />
un article vieux de dix ans. Décidément, Madame Saidho ne<br />
comprenait pas comment des jeunes nés avec une souris au<br />
creux de la main n’arrivaient pas à maîtriser les ficelles du<br />
labyrinthe de l’information. Ils avaient pourtant l’air si à l’aise<br />
avec toutes les technologies.<br />
Madame Saidho reprit son téléphone et composa à nouveau<br />
le numéro de son contact à la Bibliothèque. D’autres journaux<br />
s’étaient révélés inaccessibles ce matin, l’empêchant de<br />
préparer sa conférence. Toujours pas de réponse.<br />
8 flash <strong>informatique</strong><br />
À bout de patience, Madame Saidho se dit que Jen avait<br />
intérêt à être ponctuel s’il ne voulait pas se retrouver face à<br />
une porte close. Elle serait mieux à travailler chez elle.<br />
Jen justement se dépêchait. Laissant Anah s’énerver et pester, car<br />
elle n’arrivait ni à mettre sa thèse en ligne ni à consulter celle<br />
de son ancien collègue, il attrapa son ordinateur portable et se<br />
dirigea vers le bureau de son professeur. Il tapa quelques coups<br />
discrets à la porte…<br />
Entrez, je vous attendais ! répondit-elle sèchement.<br />
Madame Saidho n’avait pas l’air d’excellente humeur et Jen sentit<br />
que l’entretien ne serait peut-être pas aussi productif qu’il l’espérait.<br />
Il la salua et, poliment, lui demanda ce qui n’allait pas.<br />
- Je n’ai accès à aucune de mes ressources habituelles, cela<br />
depuis ce matin. C’est extrêmement agaçant, d’autant plus<br />
que personne à la Bibliothèque ne répond à mes appels au<br />
secours.<br />
– C’est étrange, j’ai aussi rencontré des problèmes toute la journée…<br />
C’est bien la première fois que cela arrive.<br />
– Oui, effectivement. C’est comme si tout accès à l’information<br />
n’était plus possible. Comme si le courant ne passait plus depuis<br />
ce matin…<br />
Alors, lentement, la nouvelle refoulée remonta à la mémoire de<br />
Madame Saidho et de Jen. La radio… ce matin, juste après la météo…<br />
lui n’avait enregistré que le sketch, elle était concentrée sur<br />
la route, obnubilée par sa séance et son retard. Ils l’avaient tous<br />
deux oublié, le <strong>Flash</strong> info: «… En ce jour de septembre, un étrange<br />
virus a attaqué les Bibliothécaires, et seulement eux. D’origine<br />
psychologique, il aurait affaibli de manière simultanée et pour<br />
l’instant inexpliquée l’ensemble de la profession. Apparemment,<br />
l’élément déclencheur aurait été une phrase type répétée en<br />
boucle provoquant un court-circuit neuronal.<br />
Nous leur souhaitons un prompt rétablissement, et en attendant<br />
leur retour, évoquons ces tranches de vie partagées avec nos bibliothécaires<br />
fétiches: la première carte de bibliothèque, offerte<br />
comme une promesse d’ouverture à la Connaissance, les fausses<br />
excuses inventées pour justifier un retard et tenter de faire annuler<br />
l’amende, le taux de citation demandé en urgence pour l’audit<br />
du labo. Sans oublier bien sûr, le bibliothécaire fronçant les sourcils<br />
à l’arrivée d’une boisson ou d’un téléphone portable dans la<br />
zone de lecture, et cette mémorable séance de formation où nous<br />
avions appris ce que nous aurions dû savoir depuis plus de trois<br />
ans déjà… Et surtout, surtout LE livre, l’article qui nous manquait<br />
et que lui seul savait trouver, nous sauvant in extremis d’une dépression<br />
avant publication !…»<br />
Le silence de l’eau tombant toujours du ciel envahissait la pièce,<br />
Madame Saidho et Jen n’osaient se regarder. La phrase, ce fameux<br />
code provoquant l’épidémie dramatique: Mais à quoi donc servent<br />
encore les bibliothécaires dans ce monde de données virtuelles…<br />
Combien de fois l’avaient-ils pensée ? Alors qu’en fait…<br />
Dans un même élan, Madame Saidho et Jen allumèrent leur ordinateur<br />
et se précipitèrent sur un site de livraison de fleurs. Leurs<br />
partenaires bibliothécaires méritaient bien cela.<br />
Article du FI-<strong>EPFL</strong> 2012 sous licence CC BY-SA 3.0 /G. Baud-Vittoz
Les logiciels libres et les<br />
bibliothèques<br />
Raphael.Grolimund@epfl.ch, <strong>EPFL</strong> - Information scientifique et bibliothèques, bibliothécaire en charge des formations aux utilisateurs<br />
Will students in the future be able to access papers<br />
you write today?<br />
Pourrons-nous mettre à disposition des futurs étudiants<br />
les documents que vous rédigez aujourd’hui ?<br />
Pourrez-vous encore ouvrir dans dix ans le fichier que vous avez<br />
créé la semaine dernière ? Le logiciel que vous avez utilisé existerat-il<br />
encore ? Et que faites-vous lorsque vous rédigez un document<br />
avec des personnes qui n’utilisent pas le même logiciel ? Entre<br />
interopérabilité, pérennité et liberté, les logiciels libres prennent<br />
une importance fondamentale pour les étudiants, les enseignants,<br />
les chercheurs et les bibliothécaires.<br />
Nous, bibliothécaires, travaillons tous les jours en priorité pour<br />
vous donner accès à l’information dont vous avez besoin. Mais<br />
la pérennité des documents nous préoccupe. Car si nous pouvons<br />
vous mettre un document à disposition, nous cherchons à faire<br />
en sorte que ce soit encore le cas dans dix ans. L’arrivée des documents<br />
électroniques ne nous a pas ôté ce rôle. Bien au contraire !<br />
Toutefois, le passage à l’ère numérique a ajouté un intermédiaire<br />
dans la chaîne de mise à disposition des documents: le logiciel.<br />
La lecture des documents imprimés ne nécessitait aucune technologie.<br />
Aujourd’hui, en plus de se poser la question où et comment<br />
trouver une information pertinente et de qualité, le lecteur doit<br />
aussi se poser la question de savoir s’il pourra y avoir accès.<br />
Laissons de côté les problèmes d’accès liés aux modèles économiques<br />
de l’édition scientifique (voir article de Julien Junod sur<br />
l’Open Access) et aux DRM (voir article d’Alain Borel) pour se<br />
concentrer sur le rôle du logiciel 1 .<br />
Les étudiants ne peuvent plus travailler sans ordinateur et doivent<br />
apprendre à utiliser toute une série de logiciels pendant leurs<br />
études. Or, le choix de ces logiciels est loin d’être anodin. Ils sont<br />
aux deux extrémités du cycle de vie d’un document. Que ce soit<br />
pour des données de la recherche ou pour une publication, un<br />
logiciel est nécessaire lors de la production. Le lecteur ou le chercheur<br />
qui souhaite consulter les données a quant à lui besoin<br />
d’un logiciel pour y accéder. Le choix du logiciel est encore moins<br />
anodin lorsqu’on sait qu’un étudiant utilisera la majeure partie de<br />
sa future carrière le logiciel qu’il a appris à utiliser pendant ses<br />
études. Mais en quittant l’<strong>EPFL</strong>, il ne profitera plus du prix étudiant<br />
ou d’une licence payée par le DIT.<br />
Dès la création d’un document, l’étudiant est potentiellement<br />
confronté à un problème simple: comment travailler depuis plusieurs<br />
ordinateurs ? Que ce soit pour un travail personnel sur le-<br />
quel il souhaite plancher en cours et à la maison, ou un travail de<br />
groupe pour lequel il doit collaborer avec ses camarades, l’étudiant<br />
doit choisir le logiciel qu’il utilisera. Un problème de compatibilité<br />
peut sérieusement compliquer une activité aussi banale<br />
que rédiger un document.<br />
La licence d’un logiciel propriétaire est souvent payante, ce qui<br />
représente un frein pour un étudiant. Admettons qu’il ne s’agisse<br />
là que d’un détail, car il existe des logiciels propriétaires gratuits.<br />
De toute façon il y a bien plus gênant: le logiciel propriétaire produit<br />
généralement un format propriétaire qui ne peut être lu par<br />
aucun autre logiciel. L’utilisation de différents logiciels pour travailler<br />
sur un même document est donc exclue.<br />
Les services en ligne peuvent offrir une solution à ce problème,<br />
mais exposent l’étudiant à un autre danger: la pérennité des données<br />
n’est pas garantie. La possibilité d’accéder à un document<br />
n’est déjà pas assurée avec l’utilisation d’un logiciel propriétaire,<br />
car s’il disparaît, le logiciel n’évolue plus, rendant à terme les documents<br />
produits par son intermédiaire illisibles. Mais dans le cas<br />
d’un service en ligne, la situation est encore plus périlleuse. Les<br />
documents étant sur les serveurs du prestataire (et non sur l’ordinateur<br />
de l’utilisateur), les données deviennent instantanément<br />
inaccessibles si ce service ferme. Dans l’optique d’un accès aussi<br />
large que possible à l’information, le risque n’est pas acceptable.<br />
Les logiciels libres apportent des parades à ces risques. Premièrement,<br />
ils se basent sur des formats ouverts ce qui permet une<br />
standardisation des données. Le bénéfice le plus immédiat est<br />
l’interopérabilité. Un fichier peut être ouvert et édité par plusieurs<br />
logiciels différents. Deuxièmement, le code source d’un logiciel<br />
libre est accessible à toute personne intéressée à connaître son<br />
fonctionnement. Cela implique que si les créateurs du logiciel<br />
arrêtent de le développer, quelqu’un d’autre peut reprendre le<br />
flambeau. La disparition du logiciel n’est pas exclue, mais dans le<br />
cas d’un logiciel entouré d’une communauté nombreuse et active,<br />
les chances sont très réduites.<br />
Surtout, n’oublions pas que le logiciel libre, c’est avant tout le<br />
droit d’être libre. Libre de comprendre comment fonctionne le<br />
logiciel (en accédant au code source). Libre d’adapter le logiciel à<br />
ses propres besoins (en modifiant le code source et donc le fonctionnement<br />
du logiciel). Libre de collaborer avec quiconque. Un<br />
logiciel propriétaire ne permet pas cela. D’un côté, il y a les développeurs<br />
qui décident de l’évolution du logiciel et des fonctionnalités<br />
à ajouter; de l’autre, il y a les utilisateurs. Si un utilisateur<br />
constate un bug, il doit en faire part aux développeurs et attendre<br />
que ceux-ci trouvent une solution. Si l’utilisateur souhaite qu’une<br />
fonctionnalité soit ajoutée, il doit en faire la demande, attendre et<br />
espérer que sa requête sera prise en compte.<br />
1 Les exemples donnés seront du domaine documentaire, mais ces considérations sont valables pour d’autres types de données comme les données de<br />
la recherche, par exemple.<br />
SPÉCIAL ÉTÉ – D – 21 AOÛT 2012<br />
9
10<br />
Les logiciels libres et les bibliothèques<br />
Le logiciel libre pousse à la collaboration et implique ses utilisateurs<br />
dans l’évolution du logiciel. Si un utilisateur constate un<br />
bug, il peut en faire part à la communauté. Celle-ci l’aidera ou<br />
résoudra le problème. Ce modèle est très efficace, car la probabilité<br />
qu’un bug échappe à tout le monde diminue à mesure que<br />
la taille de la communauté augmente. De plus, si un utilisateur<br />
souhaite qu’une fonctionnalité soit ajoutée, il peut la développer<br />
lui-même ou demander à quelqu’un (pas forcément aux développeurs<br />
initiaux) de le faire.<br />
Prenons le cas de Zotero, gestionnaire de bibliographie. La communauté<br />
participe à la traduction de l’interface. Elle participe<br />
aussi à la création des styles de citation, qui déterminent le look<br />
d’une bibliographie, ainsi que celui des citations dans le texte. Cela<br />
représente une somme de travail telle qu’aucune équipe de développeurs<br />
ne pourrait la prendre en charge. Mais ce n’est pas tout.<br />
Un doctorant a créé une extension pour les utilisateurs de LaTeX<br />
donnant accès à la bibliothèque Zotero [1] depuis LaTeX, sans<br />
l’exportation manuelle requise auparavant. Il a mis à disposition<br />
de tous cette fonctionnalité dont il avait besoin. Il existe également<br />
une application pour Android et une autre pour iPad. Ni<br />
l’une ni l’autre ne sont l’œuvre de l’équipe de développeurs.<br />
Il est important de relever que l’implication dans la communauté<br />
d’un logiciel libre ne nécessite pas forcément des compétences en<br />
programmation. Les utilisateurs qui trouvent des bugs, qui posent<br />
des questions ou demandent de nouvelles fonctionnalités participent<br />
tout autant au développement du logiciel.<br />
L’ activité d’un service de bibliothèque est centrée sur la mise à<br />
disposition d’une information de qualité, sur place, à distance,<br />
sur tous supports. L’interopérabilité, la pérennité et un accès aussi<br />
libre que possible sont très importants à nos yeux, tout comme<br />
l’est le travail collaboratif. Les logiciels libres sont un choix naturel.<br />
C’est la raison pour laquelle nous les mettons en avant chaque<br />
fois que c’est possible et pertinent. n<br />
Référence<br />
[1] Zotero, un logiciel libre de gestion bibliographique,<br />
flash<strong>informatique</strong>.epfl.ch/spip.php?article2188<br />
Article du FI-<strong>EPFL</strong> 2012 sous licence CC BY-SA 3.0 / R. Grolimund<br />
flash <strong>informatique</strong><br />
What if all scientific publications were freely accessible<br />
on the Internet ?<br />
Et si tous les résultats de la recherche étaient en<br />
accès libre sur Internet ?<br />
La publication en libre accès (en anglais Open Access ou OA)<br />
permet d’offrir gratuitement des documents en ligne. N’importe<br />
qui peut alors accéder au contenu, à condition d’être connecté à<br />
Internet. Le plus souvent, ceci est réalisé au moyen d’un basculement<br />
de la facturation: dans le cas des articles, les frais de publication<br />
ne sont plus couverts par les abonnements aux revues, ils<br />
sont directement pris en charge par les auteurs (selon le modèle le<br />
plus répandu, d’autres possibilités existent). Ne payent plus ceux<br />
qui lisent, mais ceux qui écrivent.<br />
Ce que le libre accès n’est pas<br />
Mouvement philosophique ou modèle économique, ce mode de<br />
publication n’implique pas d’autres aspects qu’on lui attribue volontiers.<br />
Le contenu librement accessible n’est pas nécessairement<br />
libre de droits. Une consultation sans entrave n’implique pas une<br />
totale liberté d’utilisation, qui relève des questions de propriété<br />
intellectuelle, indépendamment du modèle choisi.<br />
La publication en libre accès n’est pas forcément une activité bénévole,<br />
comme en atteste le nombre croissant d’éditeurs commerciaux<br />
qui l’adoptent. La liberté d’accéder n’entraîne pas la liberté<br />
de publier. Les revues sérieuses reprennent le principe des comités<br />
de lecture [1], ou imaginent de nouveaux systèmes pour contrôler<br />
la qualité éditoriale nécessaire à leur réputation (PLoS ou Frontiers).<br />
On voit des formules à succès côtoyer des journaux obscurs,<br />
tout comme dans le modèle traditionnel.<br />
Qu’en est-il à l’<strong>EPFL</strong> ?<br />
L’Open Access<br />
Julien.Junod@epfl.ch,<strong>EPFL</strong> - Information scientifique et bibliothèq<br />
Les institutions de recherche disposent principalement de deux<br />
outils pour mettre en œuvre le libre accès, surnommés voies verte<br />
et dorée.<br />
Par le biais d’Infoscience [2], l’archive institutionnelle maison,<br />
l’<strong>EPFL</strong> soutient activement la voie verte. Celle-ci consiste à mettre<br />
à disposition du public une copie de l’article publié dans une<br />
revue payante, pour autant que l’auteur obtienne le consentement<br />
de l’éditeur, ce qui est souvent le cas. Officiellement, tous les<br />
membres de l’École sont encouragés à le faire. Dans la pratique,<br />
seul un tiers des publications répertoriées sont déposées dans<br />
l’archive, selon un pointage réalisé l’année passée [3].<br />
Ce premier aspect du libre accès est le plus pragmatique, puisqu’il<br />
perpétue le système payant traditionnel, tout en offrant un se-
à l’<strong>EPFL</strong><br />
ues, bibliothécaire en charge du dossier libre accès<br />
cond canal de diffusion gratuit. Le désavantage est une double<br />
facturation (au prix des abonnements s’ajoute la maintenance<br />
d’une infrastructure de publication sur Internet), et une barrière<br />
psychologique (un article téléchargé directement depuis la plateforme<br />
de l’éditeur a souvent plus fière allure).<br />
L’idéal serait donc la voie dorée, soit la publication dans une revue<br />
dont l’intégralité du contenu est disponible en libre accès. On allie<br />
alors prestige et gratuité. Pour l’instant, cette démarche reste entièrement<br />
à la charge des laboratoires. Ni la bibliothèque ni l’École<br />
n’ont conclu de partenariats avec les éditeurs dans le but de diminuer<br />
les frais de publication.<br />
Toujours selon l’étude citée, dans un peu moins de 5% des cas,<br />
les chercheurs ont choisi ce modèle et ont accepté de s’acquitter<br />
d’une facture s’élevant souvent à deux ou trois mille francs. Cette<br />
situation pourrait évoluer avec la constitution d’un fonds d’aide<br />
à la publication en libre accès, qui est en cours de discussion au<br />
Fonds National et à la Conférence des recteurs des universités<br />
suisses.<br />
Enjeux<br />
Parmi les arguments avancés en faveur du libre accès figure en<br />
première place celui d’une plus grande diffusion. Malheureusement,<br />
la mesure fiable d’un effet du libre accès sur le nombre de<br />
citations et de téléchargements se heurte à des difficultés méthodologiques<br />
considérables. À l’heure actuelle, personne n’est en<br />
mesure de fournir des statistiques complètes et comparables qui<br />
viendraient conforter ou mettre en doute ce postulat au demeurant<br />
raisonnable [4]. Les bibliothèques avaient aussi fondé beaucoup<br />
d’espoir sur le libre accès pour contenir la hausse du prix<br />
des abonnements aux périodiques [5]. Mais que l’on facture à la<br />
sortie où à l’entrée du circuit ne changera rien à l’affaire: le prix<br />
des revues augmente avec leur réputation. Une période de transition<br />
qui verrait cœxister les deux systèmes risque également de<br />
générer des coûts supplémentaires. Cependant, si l’on inclut les<br />
retours sur investissement dans l’analyse, des bénéfices pourraient<br />
être envisagés à long terme [6].<br />
L’explosion du nombre d’articles publiés, qui, encouragé par la politique<br />
du publish or perish, a plus que doublé ces quinze dernières<br />
années [7], n’aidera pas non plus à faire baisser le montant de la<br />
facture. De nombreux scientifiques doivent faire face aux souhaits<br />
contradictoires émis par les institutions, qui encouragent la<br />
publication en libre accès, mais exigent surtout que les articles paraissent<br />
dans des revues à fort facteur d’impact. Ces deux aspects<br />
n’étant pas conciliables dans tous les domaines de la recherche, le<br />
choix est souvent vite fait entre principes moraux et survie.<br />
Tout au plus, dans un monde où tout le monde est poussé à écrire<br />
et où plus personne n’a le temps de lire, paraît-il plus raisonnable<br />
de faire payer le privilège d’écrire plutôt que de pénaliser les personnes<br />
qui consacrent un peu de leur temps à la lecture. D’un<br />
autre côté, le monde de l’édition, qui se sentait très menacé par<br />
l’arrivée du libre accès, se résout progressivement à adopter ce<br />
modèle, bousculé par des nouveaux venus comme PLoS ou Biomed<br />
Central, qui ont fait la preuve de son succès et de sa rentabilité.<br />
Dans ce bras de fer, ni les craintes des éditeurs, ni les espoirs<br />
des bibliothécaires ne semblent s’être réalisés.<br />
Le mode de facturation traditionnel est un héritage direct d’une<br />
époque à laquelle le rôle des éditeurs et des bibliothèques consistait<br />
à fabriquer, diffuser et archiver des documents de papier. Or,<br />
comme il est impossible de contrôler la dissémination de documents<br />
électroniques – aucune réponse efficace n’ayant été trouvée<br />
au problème du piratage – le libre accès n’apporterait-il tout<br />
simplement pas la seule solution de financement viable dans un<br />
monde d’internautes qui considèrent le téléchargement gratuit<br />
comme un dû ?<br />
Références<br />
[1] Le DOAJ, le répertoire des périodiques en libre accès,<br />
soumet les éditeurs à des vérifications strictes avant de<br />
référencer un journal: www.doaj.org.<br />
[2] infoscience.epfl.ch<br />
[3] ROTH, Dylan. État de la publication en Open Access dans<br />
les disciplines scientifiques présentes à l’<strong>EPFL</strong>. 2011.<br />
infoscience.epfl.ch/record/169218.<br />
[4] Voir par exemple: DAVIS, Philip M. Open access, readership,<br />
citations: a randomized controlled trial of scientific journal<br />
publishing. The FASEB Journal, mars 2011.<br />
Ou encore une bibliographie plus complète de ce sujet<br />
controversé qui a fait l’objet de nombreuses recherches:<br />
opcit.eprints.org/oacitation-biblio.html.<br />
[5] Une augmentation de près de 400% sur une période<br />
couvrant les vingt dernières années, selon le rapport ARL<br />
Statistics 2008-2009. Association of Research Libraries,<br />
Washington.<br />
www.arl.org/bm~doc/arlstat09.pdf<br />
[6] HOUGHTON, John et al. Economic implications of alternative<br />
scholarly publishing models: Exploring the costs and<br />
benefits, rapport du Joint Information Systems Committee.<br />
2009. Une nouvelle étude, plus quantitative et consolidée<br />
quant aux modèles utilisés, est sur le point de paraître.<br />
ie-repository.jisc.ac.uk/278/<br />
[7] Selon le Web of science, on passe de près de deux millions<br />
de publications répertoriées en 1995 à un peu moins de<br />
cinq millions et demi en 2011.<br />
Article du FI-<strong>EPFL</strong> 2012 sous licence CC BY-SA 3.0 / J. Junod<br />
SPÉCIAL ÉTÉ – D – 21 AOÛT 2012<br />
11
12<br />
How to cite research data efficiently with the help<br />
of digital object identifiers (DOI) and the Datacite<br />
consortium.<br />
Une citation pérenne grâce au système des digital<br />
object identifiers (DOI) et au consortium Datacite.<br />
La problématique de la citation de sources numériques en ligne est<br />
bien connue [1]. Que ce soit des données primaires & ou des<br />
données secondaires &, le problème est identique. L’adresse<br />
URL est la solution de facilité, mais après quelques années, il est<br />
rare que celle-ci soit encore fonctionnelle. Alors, comment conforter<br />
l’apport indiscutable des liens hypertextes en garantissant leur<br />
pérennité ? Le concept de Digital Object Identifier (DOI) lancé en<br />
l’an 2000 par l’International DOI Foundation apporte une solution<br />
efficace à ce problème.<br />
Un DOI est une chaîne de caractères qui commence par 10. et<br />
contient un / (par exemple 10.1016/j.iheduc.2003.11.004). En<br />
ajoutant ce DOI à la suite de l’URL http://dx.doi.org on obtient<br />
une nouvelle URL http://dx.doi.org/10.1016/j.iheduc.2003.11.004.<br />
Celle-ci est par construction nettement plus pérenne que l’URL<br />
originale (dans ce cas précis http://www.sciencedirect.com/science/<br />
article/pii/S1096751603000897, URL qui sera amenée à changer<br />
à chaque fois que le service Sciencedirect sera renommé). Le système<br />
DOI enregistre chaque DOI ainsi que l’URL vers laquelle il<br />
doit être redirigé. Il vient d’être publié en tant que norme ISO [2].<br />
Ce procédé est largement établi et utilisé notamment par plus<br />
de 3000 éditeurs, regroupés au sein du consortium CrossRef &.<br />
Plus de 54 millions de documents numériques ont à ce jour un<br />
DOI. Les fournisseurs d’information s’engagent au moment de<br />
l’enregistrement d’un DOI à maintenir son fonctionnement pérenne.<br />
À chaque migration de leur système <strong>informatique</strong>, fusion<br />
de plusieurs organisations ou changement de nom, l’URL associée<br />
à un DOI doit être mise à jour. De plus, lors de l’enregistrement de<br />
l’URL associée à un DOI, l’éditeur a la possibilité d’ajouter d’autres<br />
informations (comme le titre d’un article, ses auteurs…) dans un<br />
format structuré. L’énorme base de données ainsi créée est ensuite<br />
utilisable gratuitement par les bibliothèques pour améliorer<br />
leurs services. À l’<strong>EPFL</strong>, nous l’utilisons notamment dans le cadre<br />
de l’archive institutionnelle Infoscience [3] ainsi que pour notre<br />
résolveur de liens SFX [4].<br />
Depuis 2010, de nombreuses bibliothèques se sont réunies dans un<br />
autre consortium, appelé Datacite [5], qui leur permet d’attribuer<br />
des DOI. Comme le nom du consortium l’indique, le but premier de<br />
ce consortium est de fournir des DOI à des données primaires de<br />
la recherche qui seraient stockées, par exemple, dans les systèmes<br />
d’information des bibliothèques universitaires. La bibliothèque de<br />
l’<strong>EPFL</strong>, en collaboration avec l’EPFZ [6], a rejoint ce consortium.<br />
flash <strong>informatique</strong><br />
La citation des données de<br />
recherche<br />
Lionel.Walter@epfl.ch, <strong>EPFL</strong> - Information scientifique et bibliothèques, bibliothécaire spécialiste IT<br />
Elle est donc désormais à même d’attribuer des DOI à des documents<br />
ou données qui lui sont confiés par le biais d’Infoscience.<br />
Ce service est d’autant plus important pour les données primaires,<br />
car certaines ne seront probablement jamais publiées par des éditeurs<br />
scientifiques.<br />
Une des premières applications concrètes de ce mécanisme porte<br />
sur les thèses. Toutes les thèses de l’<strong>EPFL</strong> ont désormais un DOI qui<br />
a la forme suivante 10.5075/epfl-thesis-4088 où 4088 est le<br />
numéro de la thèse. Ainsi, chaque doctorant peut citer sa thèse avec<br />
un lien pérenne vers le pdf dès qu’il connaît le numéro de sa thèse.<br />
Ce DOI sera d’ailleurs prochainement imprimé sur la page de couverture<br />
de la thèse. Les applications ultérieures de ce mécanisme<br />
concerneront probablement les données primaires. Mais de ce côté-là,<br />
rien n’est encore clairement établi. Quelles données doivent<br />
être conservées, dans quel format, pendant combien de temps ?<br />
Quelles métadonnées doivent être associées à ces données ? Quels<br />
sont les droits sur ces données, quelle licence utiliser ? Au niveau<br />
de la citation, des questions se posent sur la granularité à adopter<br />
pour l’attribution des DOI. Attribue-t-on un DOI pour un ensemble<br />
de données, ou bien un DOI pour chaque sous-ensemble ?<br />
Votre bibliothèque suit l’état de l’art dans ces différents domaines,<br />
notamment par sa participation au consortium Datacite et au<br />
projet e-lib.ch qui a pour but de penser la bibliothèque numérique<br />
de demain au niveau suisse. N’hésitez pas à nous contacter<br />
en cas de questionnements !<br />
Références<br />
[1] DELLAVALLE et al. Information Science: Going, Going,<br />
Gone: Lost Internet References. Science 2003 302: 787-<br />
788 (doi:10.1126/science.1088234)<br />
[2] Information et documentation — Système d’identifiant<br />
numérique d’objet, norme ISO 26324:2012:2012-05<br />
[3] infoscience.epfl.ch<br />
[4] library.epfl.ch/tools/?pg=sfx<br />
[5] datacite.org<br />
[6] www.doi.ethz.ch/index_f.html<br />
Article du FI-<strong>EPFL</strong> 2012 sous licence CC BY-SA 3.0 / L. Walter<br />
GLOSSAIRE &<br />
CrossRef: agence officielle d’enregistrement des DOI (digital<br />
object identifier) pour les éditeurs scientifiques.<br />
données primaires: résultats bruts d’expériences, mesures<br />
effectuées par des machines, relevés météorologiques,…<br />
données secondaires: documents décrivant et analysant des<br />
résultats obtenus, généralement basés sur des données<br />
primaires.
DRM et bibliothèques<br />
Alain.Borel@epfl.ch, <strong>EPFL</strong> - Information scientifique et bibliothèques, bibliothécaire coordinateur de team<br />
This paper deals with the consequences of Digital<br />
Rights Management/DRM systems for libraries, with<br />
specific examples at the <strong>EPFL</strong> Library.<br />
In fact, librarians consider that such systems hinder<br />
their users’ access to information. Furthermore,<br />
they are seriously problematic for the preservation<br />
of documents.<br />
Cet article traite des conséquences pour les bibliothèques<br />
(en général, et la Bibliothèque de l’<strong>EPFL</strong> en<br />
particulier) des systèmes de Digital Rights Management/DRM.<br />
Les bibliothécaires considèrent en effet<br />
que ces systèmes sont un obstacle à l’accès à l’information<br />
pour les lecteurs et posent, de plus, de graves<br />
problèmes de conservation des documents.<br />
Même dans le monde feutré des bibliothèques, il y a des sujets<br />
qui énervent. En effet, nous autres bibliothécaires sommes très<br />
attachés au principe de la liberté d’accès à l’information, ce qui<br />
nous oblige logiquement à prendre position face à certains problèmes<br />
socio-technologiques de ce début de XXIe siècle. Et parfois,<br />
croyez-le ou non, cela peut faire du bruit. Eh oui.<br />
Avec l’essor de la littérature numérique, les DRM (Digital Rights<br />
Management, expression désignant toutes sortes de systèmes de<br />
protection de données numériques contre la copie) sont devenus<br />
un sujet très sensible pour les bibliothèques [1]. Ils sont en effet<br />
en conflit avec plusieurs des principes qu’elles défendent. Examinons<br />
par exemple le code de déontologie des bibliothécaires<br />
suisses [2]. De par leur nature même, les DRM s’opposent à la<br />
promotion de l’accès aux documents: le contrôle imposé par le<br />
producteur est incompatible avec la diffusion du savoir prônée<br />
par les bibliothèques. D’autre part, les DRM sont un obstacle supplémentaire,<br />
peut-être insurmontable, pour la préservation des<br />
documents numériques, rendue déjà passablement compliquée<br />
par les questions de pérennité des systèmes et des formats. Les<br />
bibliothécaires sentent donc que leur responsabilité est engagée<br />
dans cette problématique.<br />
Les réactions les plus virulentes sont en général le fait d’activistes<br />
individuels (à petite échelle, votre serviteur n’est pas le dernier<br />
à pester contre les DRM chaque fois que l’occasion s’en présente),<br />
mais parfois la résistance s’organise plus formellement.<br />
Par exemple, la Déclaration des droits numériques du lecteur<br />
(Readers’ Bill of Rights for Digital Books) recueille l’adhésion d’un<br />
nombre croissant de lecteurs (évidemment), mais aussi de bibliothécaires<br />
[3], et même d’auteurs.<br />
logos de la Déclaration des droits numériques du lecteur (images sous licence<br />
Creative Commons Attribution-ShareAlike; source: readersbillofrights.info,<br />
réalisation originale Nina Paley)<br />
Les organisations professionnelles sont impliquées dans le débat<br />
depuis des années, avec bien sûr un langage plus mesuré. Dès<br />
2002, la commission sur le droit d’auteur et les questions légales<br />
de l’IFLA (International Federation of Library Associations and<br />
Institutions, principale organisation internationale représentant<br />
les intérêts des bibliothèques et de leurs usagers), s’est inquiétée<br />
des répercussions des DRM sur les services rendus [4]. En 2005,<br />
l’Association des Bibliothèques et Bibliothécaires Suisses (BBS, aujourd’hui<br />
BIS) prenait position sur les modifications de la Loi fédérale<br />
sur le droit d’auteur et les droits voisins (LDA) proposées par la<br />
Confédération et se prononçait contre les DRM en ce qui concerne<br />
les œuvres littéraires [5]. L’article 39a de la LDA, qui interdit le<br />
contournement des mesures techniques de protection du droit<br />
d’auteur, est tout de même entré dans la loi, mais il est important<br />
de noter que l’alinéa 4 autorise néanmoins le contournement si<br />
le but est une utilisation licite du contenu protégé. Les exceptions<br />
au droit d’auteur dont bénéficient les bibliothèques (par exemple<br />
le droit de créer des copies d’archive, LDA art. 24 al. 1bis) restent<br />
donc garanties par la loi.<br />
Où se place votre bibliothèque dans tout ça ? La Bibliothèque de<br />
l’<strong>EPFL</strong> a en fait assez peu de problèmes pratiques avec les DRM, ce<br />
genre de technologie étant peu répandu dans le domaine de l’information<br />
scientifique et donc beaucoup moins important pour<br />
nous que pour des bibliothèques de lecture publiques. En général,<br />
la seule restriction d’accès aux ressources documentaires numériques<br />
est un contrôle par adresse IP, plus rarement un mot de<br />
passe. On peut imaginer plusieurs explications à cette absence de<br />
DRM. Pour commencer, il faut se souvenir que la documentation<br />
scientifique numérique a vraiment décollé avec les périodiques<br />
électroniques, à partir du milieu des années 90. Proposés par les<br />
éditeurs avant le phénomène Napster &, les articles en ligne<br />
n’ont pas été encombrés de mesures de protection particulières et<br />
les chercheurs se sont habitués à cette situation assez confortable.<br />
D’autre part, on peut imaginer qu’il serait assez peu rentable pour<br />
les éditeurs de développer des DRM pour du contenu s’adressant à<br />
la communauté la mieux armée pour les contourner ! Quoi qu’il en<br />
SPÉCIAL ÉTÉ – D – 21 AOÛT 2012<br />
13
DRM et bibliothèques<br />
soit, le même genre de politique a généralement été appliqué aux<br />
livres électroniques (ebooks) et autres ressources documentaires<br />
numériques dans les domaines scientifiques et techniques.<br />
Néanmoins, la vigilance reste de mise: le monde de l’édition grand<br />
public semble beaucoup plus sensible à la tentation du DRM, et<br />
il serait regrettable que la contagion gagne notre tour d’ivoire. La<br />
politique documentaire de la bibliothèque est de favoriser autant<br />
que possible les contenus indépendants de la plate-forme et non<br />
encombrés de DRM (critères aussi appliqués par le Consortium<br />
des Bibliothèques Universitaires Suisses [6]) et d’éviter ceux qui<br />
ne suivraient pas ces principes. Malheureusement, ce n’est pas<br />
toujours possible et nous sommes parfois contraints d’obtenir la<br />
documentation réclamée par nos lecteurs auprès de fournisseurs<br />
moins conciliants. La plate-forme DawsonEra &, qui héberge<br />
certains ebooks de notre collection, en est un exemple. C’est parfois<br />
la seule façon d’obtenir un livre spécifique sous forme électronique;<br />
or la copie et l’impression des livres proposés sur cette<br />
plate-forme sont limitées à 5% du texte. De surcroît les documents<br />
ne peuvent être téléchargés pour une consultation hors<br />
connexion que pour une durée de quelques jours, après lesquels<br />
ils expirent et deviennent illisibles. Nous rencontrons aussi des<br />
documents à durée de vie limitée dans le cadre plus restreint de<br />
la fourniture d’articles par d’autres bibliothèques (service appelé<br />
prêt entre bibliothèques ou PEB dans notre jargon). La British Library,<br />
qui est une de nos sources pour ce service, nous envoie des<br />
articles scannés au format <strong>PDF</strong> protégés par un DRM qui les rend<br />
illisibles après quelques jours. Nous sommes donc forcés de les<br />
imprimer dès réception pour être sûrs que la personne qui nous a<br />
demandé un article pourra effectivement le lire.<br />
Pour finir, nous devons mentionner que conformément à l’article<br />
39b de la LDA, le Conseil fédéral a mis en place un Observatoire<br />
des mesures techniques (OMET) qui veille à ce que les mesures de<br />
protection n’étendent pas artificiellement la portée du droit d’auteur.<br />
En cas de problème ou de plainte, l’OMET peut faire office<br />
de médiateur ou de rapporteur auprès des autorités compétentes<br />
– une sorte de Monsieur Prix des DRM, en quelque sorte. Ces<br />
derniers mois, l’Observatoire a commencé à s’intéresser à l’utilisation<br />
de mesures techniques dans le domaine de la littérature<br />
scientifique. Un groupe de travail comprenant des représentants<br />
de plusieurs bibliothèques universitaires suisses (dont la Bibliothèque<br />
de l’<strong>EPFL</strong>) s’est réuni le 30 avril dernier pour un premier<br />
état des lieux: l’expérience de nos collègues de toute la Suisse est<br />
assez semblable à la nôtre. Afin d’approfondir cette question et<br />
d’avoir une idée plus nette de la situation, le groupe s’est lancé<br />
dans la préparation d’une enquête plus systématique auprès de<br />
toutes les institutions universitaires. Les résultats d’une telle enquête<br />
devraient décider de l’opportunité ou non d’actions plus<br />
concrètes.<br />
En résumé, les DRM sont perçus par les bibliothèques comme un<br />
obstacle sérieux au service public qui est notre mission première.<br />
À l’heure actuelle, les bibliothèques scientifiques comme celle de<br />
l’<strong>EPFL</strong> sont relativement à l’abri de ce problème, mais suivent avec<br />
attention l’évolution du marché pour éviter une dégradation de<br />
leurs services.<br />
14 flash <strong>informatique</strong><br />
Références<br />
[1] JACQUESSON, Alain. Du livre enchaîné aux DRM. BBF. 2011,<br />
n° 3, p. 36-41. bbf.enssib.fr/consulter/bbf-2011-03-0036-<br />
007 [consulté le 21.06.12]<br />
[2] www.bis.info/images/stories/documents/Verband/deontologie.pdf<br />
[consulté le 21.06.12]<br />
[3] labibapprivoisee.wordpress.com/2011/03/14/boudons-lescatalogues-des-gros-editeurs-bourres-de-drm/<br />
[consulté le<br />
21.06.12]<br />
[4] www.ifla.org/en/node/452 [consulté le 21.06.12]<br />
[5] www.bis.info/images/stories/documents/Fachthemen/Urheberrecht/stellung_uhr_fuer_bbs.pdf<br />
[consulté le 21.06.12]<br />
[6] infoscience.epfl.ch/record/165930/files/ebooks_bis2011.pdf<br />
[consulté le 21.06.12].<br />
Article du FI-<strong>EPFL</strong> 2012 sous licence CC BY-SA 3.0 / A. Borel<br />
GLOSSAIRE &<br />
DawsonEra: plate-forme de vente de livres électroniques, distribuant<br />
des titres de plusieurs centaines d’éditeurs. Cette forme<br />
d’agrégation de contenu permet de trouver relativement facilement<br />
un titre donné sous forme électronique et de l’acheter,<br />
au prix de conditions d’accès généralement plus restrictives<br />
en comparaison avec d’autres sources (l’agrégateur ayant intérêt<br />
à proposer aux éditeurs qu’il souhaite attirer sur sa plateforme<br />
les conditions qui leur paraîtront les plus favorables).<br />
Napster: un des premiers systèmes de partage de fichiers peerto-peer<br />
réellement populaires (démarré en 1999). Attaqué<br />
en justice par l’industrie musicale américaine à cause de la<br />
distribution très large de fichiers MP3 piratés, le service a<br />
fermé en 2001.
SavoirLibre is a new Web platform that aims at<br />
strengthening the dissemination, visibility and accessibility<br />
of scientific knowledge among the general<br />
public. This project was presented for the first time<br />
during the 13th edition of the LSM (Libre Software<br />
Meeting) on 12th July 2012. The beta <strong>version</strong> of<br />
savoirlibre.net is already online and the completed<br />
<strong>version</strong> will be available in autumn 2012.<br />
SavoirLibre est une nouvelle plate-forme Web dont<br />
le but est de renforcer la diffusion, la visibilité et<br />
l’accessibilité des savoirs scientifiques auprès du<br />
grand public. Ce projet a été présenté pour la première<br />
fois à l’occasion de la 13ème édition des RMLL<br />
(Rencontres Mondiales du Logiciel Libre) le 12 juillet<br />
2012. La <strong>version</strong> bêta du site savoirlibre.net est en<br />
ligne et la sortie de la <strong>version</strong> aboutie est prévue<br />
pour l’automne 2012.<br />
Quelle est la proportion des savoirs produits au sein des institutions<br />
scientifiques qui accèdent à l’espace public ? Quel est l’impact<br />
ou l’influence des savoirs produits au sein des universités sur<br />
la société ? Qu’advient-il des savoirs communiqués lors des événements<br />
scientifiques ? Les savoirs produits au sein des universités<br />
peuvent-ils intéresser le grand public ? Voici quelques questions<br />
qui sont à la base du développement du projet SavoirLibre.<br />
À l’origine du projet<br />
SavoirLibre, pour la diffusion<br />
des savoirs scientifiques<br />
Omar.Odermatt@savoirlibre.net, fondateur de la plate-forme SavoirLibre, savoirlibre.net<br />
Trois principaux constats sont à l’origine de la création de la plateforme<br />
SavoirLibre:<br />
1 Le volume des connaissances scientifiques double actuellement<br />
tous les cinq ans, alors que la transmission des fruits de<br />
la recherche vers les citoyens et les citoyennes reste très faible.<br />
50% des contenus scientifiques produits ne sont lus que par<br />
leurs propres auteurs et éditeurs, et 90% des recherches ne<br />
sont jamais citées. Un énorme fossé s’est creusé entre la quantité<br />
des savoirs produits et leur diffusion 1 .<br />
2 Notre époque est marquée par des mutations politiques,<br />
économiques, technologiques et environnementales déterminantes<br />
pour l’avenir de l’humanité. L’accès à des connaissances<br />
scientifiques à propos de ces mutations pourrait aider<br />
les citoyens et les citoyennes à mieux conscientiser ces problèmes<br />
et à se mobiliser davantage pour y faire face.<br />
3 Le bassin lémanique compte de nombreuses institutions universitaires<br />
de renommée internationale. De ce fait, un grand<br />
nombre de recherches sont menées dans la région et de nombreux<br />
événements scientifiques y sont organisés, ce qui draine<br />
des chercheurs de pointe du monde entier. Or, beaucoup de<br />
ces recherches, qui pourraient potentiellement intéresser<br />
le grand public, sont complètement ignorées de ce dernier.<br />
De même, certains événements scientifiques ne sont pas<br />
suffisamment visibles et restent confinés dans des cercles restreints<br />
de spécialistes, alors qu’ils seraient susceptibles d’intéresser<br />
les citoyens; ce qui pourrait aussi générer des échanges<br />
constructifs entre le monde scientifique et la société.<br />
Ainsi, beaucoup de moyens sont investis dans la production de<br />
nouvelles connaissances, alors que les structures de communication<br />
de la recherche sont encore trop peu développées. Une<br />
meilleure communication des fruits de la recherche permettrait<br />
de mieux valoriser les connaissances produites et de les partager<br />
davantage avec le grand public.<br />
Décloisonner et valoriser les savoirs<br />
Les nouvelles technologies d’information et de communication<br />
offrent des ressources très intéressantes pour opérer un décloisonnement<br />
des connaissances scientifiques. La plate-forme savoirlibre.net<br />
a été construite sur la base du système de gestion de<br />
contenu libre WordPress & qui offre un éventail très large de<br />
possibilités afin d’atteindre l’objectif principal du projet: valoriser<br />
1 CRIBB, Julian, SARI, Tjempaka. Open science, sharing knowlege in the global century. Ed. CSIRO. Collingwood. 2010<br />
SPÉCIAL ÉTÉ – D – 21 AOÛT 2012<br />
15
SavoirLibre, pour la diffusion des savoirs scientifiques<br />
SavoirLibre poursuit les objectifs spécifiques suivants:<br />
1 rapprocher la société du monde scientifique et de l’université;<br />
2 renforcer les usages citoyens des savoirs scientifiques;<br />
3 stimuler les débats sur les enjeux contemporains de société<br />
dans l’espace public;<br />
4 offrir un espace de réflexion interdisciplinaire et intersavoir<br />
sur les enjeux de société contemporains;<br />
5 documenter les événements scientifiques sur Internet afin<br />
d’augmenter leur impact;<br />
6 offrir une fenêtre de visibilité aux chercheurs et aux chercheuses<br />
sur Internet afin de valoriser leurs travaux sur la<br />
scène scientifique internationale.<br />
1 L’archivage permet de documenter les événements<br />
scientifiques par leur enregistrement et leur mise à disposition<br />
sur Internet.<br />
2 Un service de médiatisation qui consiste à réaliser des<br />
contenus audiovisuels à partir des sujets abordés lors des<br />
événements scientifiques. L’objectif est de présenter de<br />
manière synthétique et exemplifiée les propos des chercheurs<br />
et de les rendre plus accessibles et plus attractifs.<br />
3 La mise en lien permet de relier des contenus produits<br />
par SavoirLibre à des contenus complémentaires qui se<br />
trouvent à l’intérieur et à l’extérieur de la plate-forme.<br />
4 La mise en réseau consiste à augmenter la visibilité des<br />
contenus produits par la plate-forme grâce à l’utilisation<br />
des réseaux sociaux et de la liste de diffusion SavoirLibre.<br />
5 Le référencement permet d’améliorer le positionnement et<br />
donc la visibilité des contenus de SavoirLibre sur les moteurs<br />
de recherche.<br />
6 Les contenus sont produits exclusivement sous licences<br />
Creative Commons afin de renforcer leur diffusion et de<br />
garantir leur accès au plus grand nombre.<br />
16 flash <strong>informatique</strong><br />
les savoirs en les rendant plus accessibles pour le grand public,<br />
grâce à un travail de médiatisation des événements scientifiques<br />
sur Internet comme des conférences, des colloques, ou la sortie<br />
de publications. Les contenus produits par SavoirLibre s’adressent<br />
donc avant tout au grand public. Cependant, SavoirLibre effectue<br />
aussi un travail de documentation des événements scientifiques<br />
sur Internet; ceci permet, d’une part, de les pérenniser tout en<br />
augmentant leur visibilité et par là-même leur impact; et d'autre<br />
part, de valoriser le travail des chercheurs et des chercheuses sur<br />
la scène scientifique internationale en leur mettant à disposition<br />
un support d’édition complémentaire aux revues scientifiques.<br />
L’information sur la plate-forme est organisée de manière simple<br />
et compréhensible en suivant seulement trois catégories principales:<br />
événement, auteur et thème. Elle est rapidement accessible<br />
et comprend des fichiers textes, audios et vidéos qui peuvent<br />
être librement téléchargés et partagés. Les données sont toujours<br />
introduites et contextualisées ce qui facilite leur compréhension.<br />
SavoirLibre inscrit aussi sa démarche dans une recherche esthétique.<br />
L’unité visuelle de sa plate-forme permet l’identification des<br />
contenus qu’elle produit et la qualité esthétique de ses éléments<br />
graphiques vise à élargir son public à des non-spécialistes.<br />
SavoirLibre se positionne comme une plate-forme intersavoirs et<br />
ouverte, qui entend accueillir tout savoir pouvant intéresser le<br />
grand public; qu’il provienne des sciences sociales, des sciences<br />
exactes ou, encore, d’espaces extra-institutionnels. SavoirLibre est<br />
pour le moment totalement autofinancé et a débuté ses travaux<br />
en février 2010 en couvrant plusieurs événements organisés par<br />
l’Université de Lausanne et le Collège International de Philosophie<br />
de Paris &.<br />
GLOSSAIRE &<br />
Article du FI-<strong>EPFL</strong> 2012 sous licence CC BY-SA 3.0 /<br />
O. Odermatt<br />
Collège International de Philosophie de Paris (CIPh):<br />
organisme de recherche et de formation à la recherche ouvert<br />
au public où s'engagent et se croisent des pratiques philosophiques<br />
inédites. Situé à Paris, il fonctionne sur le modèle<br />
des universités ouvertes, dont il se distingue par le souci de<br />
donner un accès à la recherche en mouvement, plutôt qu'à un<br />
savoir constitué. www.ciph.org<br />
WordPress: système de gestion de contenu libre écrit en PHP<br />
reposant sur une base de données MySQL. WordPress est<br />
distribué par Automattic. www.wordpress.org. W<br />
W = tiré de Wikipédia
Licences libres et Open Access<br />
Nicolas.Borboen@epfl.ch, <strong>EPFL</strong> –STI - IGM - LENI (Laboratoire d’énergétique industrielle)<br />
How Open Access and Creative Commons licenses<br />
can apply to academic and research fields and what<br />
are the benefits.<br />
Comment le Libre Accès et les licences Creative<br />
Commons peuvent s’appliquer aux domaines académiques<br />
et de recherche et quels en sont les intérêts.<br />
Pour commencer, Creative Commons<br />
Le but de Creative Commons [1] (CC) est de proposer de manière<br />
simple et licite des alternatives aux droits de propriété intellectuelle<br />
établis dans une juridiction, y compris en Suisse et en Europe.<br />
À travers six contrats, ou licences Creative Commons [2], un<br />
auteur peut appliquer un moyen de régir les conditions de réutilisation<br />
et/ou de distribution de ses œuvres, de manière moins<br />
restrictive que le copyright en vigueur.<br />
Les licences Creative Commons ont été publiées la première fois<br />
le 16 décembre 2002, puis ont régulièrement évolué. La <strong>version</strong><br />
actuelle (depuis 2007 aux USA) est la 3.0.<br />
L’objectif de l’organisation est de permettre l’évolution d’une<br />
œuvre tout au long de sa diffusion en encourageant sa circulation,<br />
son échange et sa modification, de façon analogue aux<br />
différents types de licences [3] régissant les logiciels libres.<br />
Les six contrats<br />
Les six contrats types de Creative Commons sont issus de combinaisons<br />
de quatre options principales:<br />
Paternité (en anglais Attribution, BY): obligation de citer<br />
l’auteur.<br />
Interdiction de l’utilisation commerciale (en anglais Non<br />
commercial, NC): empêchement par l’auteur d’un usage<br />
commercial.<br />
Modification (en anglais No Derivs, ND): interdiction de<br />
modifier l’œuvre originale.<br />
Partage à l’identique (en anglais Share Alike, SA): distribution<br />
de toutes créations dérivées selon la même licence<br />
ou non.<br />
Certaines combinaisons n’étant pas compatibles entre elles, et le<br />
droit de paternité étant une condition sine qua non, il ne reste<br />
que les six contrats suivants: BY, BY-ND, BY-NC-ND, BY-NC, BY-<br />
NC-SA, BY-SA:<br />
Paternité<br />
Paternité<br />
Pas de modification<br />
Paternité<br />
Pas de modification<br />
Pas d’utilisation commerciale<br />
Paternité<br />
Pas d’utilisation commerciale<br />
Paternité<br />
Pas d’utilisation commerciale<br />
Partage à l’identique<br />
Paternité<br />
Partage à l’identique<br />
creativecommons.fr/licences/faq/<br />
À noter qu’il existe une septième possibilité, la licence Creative<br />
Commons Zéro (CCØ) [4] dont le but est de renoncer au maximum<br />
à ses droits d’auteur pour s’approcher au plus près du domaine<br />
public.<br />
Il existe de nombreux exemples d’utilisation de ces licences,<br />
comme l’album The Wired CD [5], les photos de campagne d’Obama<br />
[6], ainsi que les très nombreuses photographies sur Flickr [7],<br />
le film le Bal des Innocents [8], les articles de l’encyclopédie Wikipédia<br />
[9], les données géographiques d’OpenStreetMap [10] ou<br />
encore les articles du groupe logiciel libre [11] de l’<strong>EPFL</strong>. Mi-2011,<br />
Creative Commons International a publié un document sur la<br />
réussite de créateurs ayant placé leur contenu sous licence Creative<br />
Commons, The Power of Open [12], qui donne des exemples<br />
aussi variés que concrets.<br />
Fondation du mouvement libre accès<br />
La signature de l’Open Access Initiative [13] à Budapest en 2001<br />
est considérée comme le premier rassemblement fondateur du<br />
mouvement libre accès. En 2003, la Déclaration de Berlin sur le<br />
Libre Accès à la Connaissance en Sciences exactes, Sciences de la<br />
vie, Sciences humaines et sociales [14], construite et basée sur<br />
l’initiative de Budapest, est fondatrice du mouvement Libre Accès.<br />
Comme le montrent ces citations, les signataires de cette déclaration<br />
ont pour but la facilitation d’accès et d’utilisation des<br />
connaissances scientifiques:<br />
SPÉCIAL ÉTÉ – D – 21 AOÛT 2012<br />
17
Licences libres et Open Access<br />
L’Internet a fondamentalement transformé les réalités<br />
matérielles et économiques de la diffusion de la connaissance<br />
scientifique et du patrimoine culturel. Pour la<br />
toute première fois, l’Internet nous offre la possibilité de<br />
constituer une représentation globale et interactive de la<br />
connaissance humaine, y compris son patrimoine culturel,<br />
et la garantie d’un accès mondial.<br />
[…]<br />
Nous remplissons par trop imparfaitement notre mission<br />
de diffusion de la connaissance si l’information n’est pas<br />
mise rapidement et largement à la disposition de la société.<br />
De nouveaux modes de diffusion de la connaissance,<br />
non seulement sous des formes classiques, mais aussi, et<br />
de plus en plus, en s’appuyant sur le paradigme du libre<br />
accès via l’Internet, doivent être mises en place. Nous<br />
définissons le libre accès comme une source universelle de<br />
la connaissance humaine et du patrimoine culturel ayant<br />
recueilli l’approbation de la communauté scientifique.<br />
Dans le but de concrétiser cette vision d’une représentation<br />
globale et accessible de la connaissance, le Web du<br />
futur doit être durable, interactif et transparent. Le contenu<br />
comme les outils logiciels doivent être librement accessibles<br />
et compatibles.<br />
En plus d’assurer l’accès à la publication et sa pérennité, la déclaration<br />
garantit la reproductibilité des documents dans la définition<br />
d’une contribution au libre accès:<br />
Les contributions au Libre Accès se composent de résultats<br />
originaux de recherches scientifiques, de données brutes<br />
et de métadonnées, de documents sources, de représentations<br />
numériques de documents picturaux et graphiques,<br />
de documents scientifiques multimédias.<br />
Contrairement à ce que l’on pourrait croire, le libre accès ne se limite<br />
donc pas seulement à la publication finale, mais donne également<br />
accès aux éléments ayant permis cette publication. Le parallèle<br />
avec les fichiers sources d’un logiciel open source est évident.<br />
Parmi les 382 signataires [15] actuels de la Déclaration de Berlin,<br />
quelques institutions suisses y participent: les Académies suisses<br />
des sciences, la Conférence des recteurs (Universités et HEP), le<br />
Fonds national suisse de la recherche scientifique (FNS), l’ETHZ, les<br />
Universités de Fribourg, Saint-Gall et Zurich.<br />
Au niveau européen il existe l’Open Access Infrastructure for Research<br />
in Europe (OpenAIRE) [16], qui vise à soutenir la mise en<br />
œuvre du libre accès en Europe selon les directives de l’European<br />
Research Council (ERC) [17].<br />
Open Access<br />
L’Open Access [18], contrairement à l’Open<br />
Content, ne donne pas le droit de modifier le<br />
contenu de la publication, mais se contente<br />
d’assurer sa disponibilité et d’associer le<br />
contenu à un ou plusieurs auteurs. À l’inverse<br />
des contenus multimédia ou logiciels, ce point<br />
est crucial dans le milieu scientifique, car la<br />
18 flash <strong>informatique</strong><br />
modification d’une publication sans la recherche qui l’a constituée<br />
perd tout son sens. Les licences Creative Commons peuvent<br />
être utilisées pour permettre l’utilisation de publications en Open<br />
Access. Deux voies sont possibles:<br />
z la voie dite verte, où l’auteur publie dans un journal puis archive<br />
lui-même sa <strong>version</strong> du papier;<br />
z la voie en or, où l’auteur rend immédiatement public son article<br />
via le site de la revue ou via un Open Access Journal.<br />
Une des plates-formes la plus connue pour la voie en or est la<br />
Public Library of Science (PLoS) [19] qui, depuis 2003, a eu la<br />
volonté de créer une bibliothèque ouverte en ligne dédiée à plusieurs<br />
domaines médicaux ou scientifiques. La revue est payée par<br />
une contribution financière à laquelle sont soumis les articles publiés.<br />
Ce modèle auteur-payeur est parfois critiqué, pourtant les<br />
études montrent que son coût n’est pas forcément supérieur et<br />
surtout que le taux de citation des articles en Open Access est plus<br />
important que celui des articles en modèle Pay-to-access [20].<br />
Le concept de l’Open Access est de rendre l’article disponible immédiatement<br />
en ligne, sans frais d’accès et sans restriction sur<br />
la redistribution ou l’utilisation ultérieure, tant que l’auteur et la<br />
source sont cités comme spécifié dans la licence Creative Commons.<br />
Connaissances scientifiques et Creative<br />
Commons<br />
L’organisation Creative Commons cherche également à développer<br />
l’accès à la connaissance en proposant des supports simples:<br />
z En 2005, Creative Commons a lancé le projet Science Commons<br />
[21] dont le but premier est de développer une politique<br />
et des outils pour aider à la réutilisation (aka réutilisabilité)<br />
des recherches et des données de recherche.<br />
z Parallèlement à la recherche, Creative Commons pense aussi<br />
au monde de l’éducation en créant, en 2007, ccLearn [22] qui<br />
est dédié à la promotion de l’utilisation des Open Educational<br />
Resources (OER) [23], ou Ressources Éducatives Libres (REL)<br />
en français, ainsi que de l’Open Learning. Leur mission est de<br />
réduire les barrières légales, techniques et sociales pour le partage<br />
et la réutilisation du matériel éducatif.<br />
Open Education<br />
Toujours dans l’idée d’éliminer les barrières à la connaissance, des<br />
modèles d’éducation libres ont vu le jour sur la base des principes<br />
de l’Open Access. Les plus prestigieuses universités ont maintenant<br />
des cours disponibles pour tous et gratuitement, le MIT et<br />
Harvard se sont associés pour la plate-forme edX [24] alors que<br />
Princeton, Stanford, University of California, Berkeley, University<br />
of Michigan-Ann Arbor, and University of Pennsylvania ont lancé<br />
Coursera [25].
Licences libres et Open Access<br />
Un grand acteur du savoir libre est l’Open Course Ware<br />
Consortium [26] qui en plus de fournir une plate-forme<br />
à des universités (par exemple pour l’Institut des sciences<br />
et technologies de Paris [27]), a organisé l’Open Education<br />
Week [28] qui visait à informer sur le mouvement de<br />
l’éducation ouverte et sur son impact sur l’enseignement<br />
et l’apprentissage dans le monde entier.<br />
Le site Why Open Education Matters [29] propose des<br />
courts-métrages qui expliquent les bénéfices et les promesses<br />
des ressources d’éducation libres pour les enseignants,<br />
les étudiants et les écoles partout dans le monde.<br />
En 2004, l’Open Knowledge Foundation [30] est créée au<br />
Royaume-Uni dans un but non lucratif pour promouvoir<br />
la culture libre dans les domaines où les données peuvent<br />
être ouvertes, comme l’éducation et la science. Différents<br />
projets disponibles sur le site promeuvent l’accès libre et<br />
gratuit, la liberté de redistribution et de réutilisation, sans<br />
aucune restriction.<br />
Où trouver des ressources et où<br />
publier<br />
Parmi la multitude de sites concernés par l’Open Access, en voici<br />
une sélection:<br />
z Directory of Open Access Journals (DOAJ) [31]: compte un<br />
peu moins de 8000 revues et semble être un bon point de<br />
départ.<br />
z Registry of Open Access Repositories (ROAR) [32]: donne des<br />
informations sur la taille et le statut des dépôts à travers le<br />
monde.<br />
z ArXiv [33]: une des plus anciennes archives de prépublications<br />
électroniques compte 765 000 e-prints en Physique, Mathématique,<br />
Informatique, Biologie, Finance et Statistiques.<br />
z Public Library of Science (PLoS) [34]: indexé par Scopus [35],<br />
CrossRef [36], ainsi que par Google Scholar [37].<br />
z InTech [38]: 1800 livres, 13 journaux et presque 14 millions de<br />
téléchargements. Très actif dans les domaines de la médecine<br />
et de l’ingénierie.<br />
z Open Access Infrastructure for Research in Europe (OpenAIRE)<br />
[39]: au niveau européen, flirte avec les 10 000 publications<br />
et propose aussi des contenus non anglophones.<br />
z Association Savoir Libre [40]: va lancer sa plate-forme en automne<br />
prochain. Bien que dans les grandes lignes le concept<br />
soit le même que pour les autres plates-formes, l’association a<br />
pour but de stimuler les débats entre scientifiques et citoyens<br />
et d’encourager l’analyse interdisciplinaire des thèmes de<br />
société contemporains. Lire aussi l’article de Omar Odermatt,<br />
SavoirLibre pour la diffusion des savoirs scientifiques dans ce<br />
journal.<br />
z Open-access.net [41]: permet de répondre à la demande<br />
croissante que l’Open Access doit couvrir en Suisse. Son but<br />
est de rassembler sur sa plate-forme des informations éparpillées<br />
et de les rendre accessibles à différents groupes cibles.<br />
Open-access.net permet également de répondre aux questions<br />
juridiques [42] de l’Open Access en Suisse.<br />
Conférence Creative Commons –<br />
Bibliothèque de l’<strong>EPFL</strong><br />
Partager, télécharger, utiliser légalement…<br />
Grâce aux Creative Commons !<br />
z À l’<strong>EPFL</strong>: Infoscience [43] permet la soumission de publications<br />
selon la voie verte, alors que la bibliothèque [44] permet<br />
la recherche de ressources Open Access. Lire aussi l’article de<br />
Julien Junod, Open Access à l’<strong>EPFL</strong> dans ce journal.<br />
Conclusion<br />
Jeudi 25 octobre de 15h00 à 19h00<br />
au Forum du Rolex Learning Center,<br />
entrée gratuite, inscription obligatoire<br />
Rencontre organisée par la Bibliothèque de l’<strong>EPFL</strong> à l’occasion<br />
du dixième anniversaire des licences CC (Creative<br />
Commons).<br />
Depuis 10 ans déjà, les licences CC permettent de partager<br />
et de réutiliser du contenu publié librement sur Internet.<br />
Avec cette rencontre, vous serez en mesure de mieux<br />
comprendre les nouvelles pratiques de la création et de<br />
la diffusion à l’ère numérique, de mieux cerner les différentes<br />
utilisations qui peuvent être faites de ces licences,<br />
mais également de mieux maîtriser leur fonctionnement<br />
et leurs atouts.<br />
Informations et inscriptions sur: go.epfl.ch/lib-cc<br />
La production et la diffusion des connaissances dans le monde<br />
actuel dépendent presque totalement des outils <strong>informatique</strong>s.<br />
Cependant des barrières légales, techniques et sociales sont encore<br />
présentes et entravent la libre diffusion de la connaissance<br />
de manière globale. Les différentes initiatives présentées dans cet<br />
article ont comme point commun la mise en exergue ainsi que la<br />
promotion du partage et de l’échange de ces connaissances au<br />
moyen de différents outils mis à disposition. Les connaissances, et<br />
plus particulièrement les publications scientifiques, n’ont d’intérêt<br />
que si elles sont lues et appréciées (nombre de citations). L’évaluation<br />
de la publication et la réputation de l’auteur dépendent<br />
fortement de l’accessibilité aux publications, car au final c’est la<br />
communauté scientifique qui se régule et se modère d’elle-même.<br />
La chaîne de la libre connaissance, du support didactique à la<br />
recherche finale, a déjà bon nombre d’adhérents qui souhaitent sa<br />
démocratisation globale. Un partage plus important des connaissances<br />
actuelles en Open Access serait un enrichissement important<br />
pour l’humanité et profiterait à la majorité.<br />
SPÉCIAL ÉTÉ – D – 21 AOÛT 2012<br />
19
Licences libres et Open Access<br />
Pour en découvrir plus<br />
Classement antéchronologique:<br />
z BOULOGNE, François. Nouveaux enjeux de la publication<br />
scientifique. 23 avril 2012. sciunto.wordpress.com/2012/05/16/<br />
publication-dune-synthese-personnelle-surla-publicationscientifique/.<br />
z JEAN, Benjamin. Option Libre. Du bon usage des licences<br />
libres. Décembre 2011. Framasoft. framabook.org/option-libredu-bon-usage-des-licences-libres.<br />
z SCHÜTZ, Frédéric, POSSOZ, Anne. Licences Libres en toute (ré)<br />
créativité. <strong>Flash</strong> <strong>informatique</strong> spécial rentrée. 16 septembre<br />
2011. flash<strong>informatique</strong>.epfl.ch/spip.php ?article2475.<br />
z MASUTTI, Christophe. Pour libérer les sciences. 15 décembre<br />
2010. linuxetleschoses.tuxfamily.org/sciencelibre & www.<br />
framablog.org/index.php/post/2010/12/20/pour-liberer-lessciences-christophe-masutti.<br />
z RUTTER, Michael Patrick, SELLMAN, James. Uncovering open<br />
access. 9 novembre 2010. OpenSource.com. opensource.com/<br />
education/10/10/uncovering-openaccess. (traduction disponible<br />
sur www.framablog.org/index.php/post/2010/12/11/decouvrir-le-libre-acces).<br />
z DURAND-BARTHEZ, Manuel. Droits d’auteur & Publication<br />
scientifique. Mai 2009. www.univ-bordeaux.fr/ddoc/urfist/documents/durand-barthez.pdf.<br />
z THYS, Laurence. Aspects juridiques de la publication<br />
scientifique. 2009. www.ciuf.be/cms/images/stories/ciuf/biblio-theques/guidejuridique.pdf.<br />
z Divers auteurs. Libre accès (édition scientifique). Wikipédia.<br />
27 juillet 2006. fr.wikipedia.org/wiki/Libre_accès_(édition_<br />
scientifique).<br />
Références<br />
[1] creativecommons.org<br />
[2] creativecommons.org/licenses/<br />
[3] SCHÜTZ, Frédéric, POSSOZ, Anne. Licences Libres en toute<br />
(ré)créativité. <strong>Flash</strong> <strong>informatique</strong> spécial rentrée, 16<br />
septembre 2011, flash<strong>informatique</strong>.epfl.ch/spip.php ?article2475<br />
[4] creativecommons.org/publicdomain<br />
[5] creativecommons.org/wired<br />
[6] www.flickr.com/photos/whitehouse & www.framablog.org/<br />
index.php/post/2009/05/03/photographie-obama-davoscreative-commons<br />
20 flash <strong>informatique</strong><br />
[7] www.flickr.com/search/ ?l=cc<br />
[8] www.ecrivains.org/le-bal-des-innocents/<br />
[9] www.wikipedia.org<br />
[10] www.openstreetmap.org<br />
[11] flash<strong>informatique</strong>.epfl.ch/spip.php ?article2283<br />
[12] thepowerofopen.org<br />
[13] www.soros.org/openaccess<br />
[14] oa.mpg.de/files/2010/04/BerlinDeclaration_wsis_fr.pdf<br />
[15] oa.mpg.de/lang/en-uk/berlin-prozess/signatoren/<br />
[16] www.openaire.eu<br />
[17] erc.europa.eu/documents/erc-scientific-council-guidelinesopen-access<br />
[18] en.wikipedia.org/wiki/Open_access<br />
[19] www.plos.org<br />
[20] www.nature.com/nature/focus/accessdebate/21.html<br />
[21] sciencecommons.org<br />
[22] wiki.creativecommons.org/Creative_Commons_-_ccLearn<br />
[23] www.oercommons.org<br />
[24] www.edxonline.org<br />
[25] www.coursera.org<br />
[26] www.ocwconsortium.org<br />
[27] www.paristech.org<br />
[28] www.openeducationweek.org<br />
[29] whyopenedmatters.org<br />
[30] okfn.org<br />
[31] www.doaj.org<br />
[32] roar.eprints.org<br />
[33] arXiv.org<br />
[34] www.plos.org<br />
[35] www.scopus.com<br />
[36] www.crossref.org<br />
[37] scholar.google.com<br />
[38] www.intechopen.com<br />
[39] www.openaire.eu<br />
[40] savoirlibre.net<br />
[41] open-access.net<br />
[42] open-access.net/ch_en/general_information/legal_issues/<br />
[43] infoscience.epfl.ch<br />
[44] library.epfl.ch/en/ebooks/<br />
Article du FI-<strong>EPFL</strong> 2012 sous licence CC BY-SA 3.0 / N. Borboën
This paper presents a global approach to the concept<br />
of document which takes into account its digital<br />
evolution. It is a summary of a paper published<br />
in 2003 by Roger T. Pédauque, a multidisciplinary<br />
group of research scholars, which analyses the concept<br />
of document under three aspects: the document<br />
as a form (as a material or immaterial object),<br />
sign (as meaningful object) or medium (as communication<br />
vector).<br />
Objet de notre quotidien, le document nous paraît<br />
si évident qu'il ne semble pas nécessaire de le définir<br />
précisément. Et pourtant, l’exercice pourrait se<br />
révéler plus ardu qu’il n’y paraît. Information, donnée,<br />
texte, fichier, papier, article, feuille, ressource,<br />
image, courrier, etc. cette sélection de termes<br />
employés parfois comme synonymes ou pour désigner<br />
des objets similaires, nous montre à quel point<br />
l’objet document peut être complexe, et ce d’autant<br />
plus qu’il s’est trouvé enrichi, augmenté par le passage<br />
au numérique. Mais cette évolution, si elle lui<br />
a conféré une plus grande plasticité, a également<br />
induit, pour l’objet matériel que nous connaissions<br />
jusqu’ici, une perte de stabilité.<br />
En 2003, dans un article intitulé Document: forme, signe et<br />
médium, les re-formulations du numérique [1], un collectif<br />
de chercheurs transdisciplinaires, réunis sous le pseudonyme de<br />
de Roger T. Pédauque, se propose d’analyser la notion de document<br />
dans son passage au numérique et de le définir selon trois<br />
axes d’études:<br />
1 anthropologique (le document/forme comme objet à voir),<br />
2 cognitive (le document/texte comme objet à penser) et<br />
3 sociale (le document/relation comme objet à transmettre).<br />
Les caractéristiques dégagées dans chaque axe sont vues comme<br />
des traits dominants de celui-ci. Elles n’excluent pas les caractéristiques<br />
mises en lumière par les autres approches, mais mettent<br />
en évidence plusieurs dimensions du document, perméables entre<br />
elles, et qui s’éclairent mutuellement.<br />
Cet article se propose de présenter brièvement ces trois dimensions<br />
du document, illustrées par des propositions de définition,<br />
qui évoluent au gré des apports du numérique.<br />
Le document comme forme<br />
Forme, signe et … évasion<br />
Vers une définition du document numérique<br />
Patricia.Plaza@epfl.ch, <strong>EPFL</strong> - Domaine IT - KIS, responsable du projet GED<br />
Ici le document est traité comme un objet, matériel ou immatériel.<br />
Le document est un objet ou une inscription dont on repère<br />
les frontières et que l’on peut directement percevoir, sans utiliser<br />
d’outil. Le support traditionnel dominant est le papier, la trace<br />
l’écriture, manuscrite ou imprimée.<br />
Une première définition du document est ainsi posée par cette<br />
équation:<br />
Document = support + inscription<br />
La musique enregistrée, le cinéma puis l’audiovisuel ont introduit<br />
un premier changement, en rendant l’utilisation d’un outil nécessaire<br />
à la perception du contenu.<br />
Le passage de l’analogique au numérique a fondamentalement<br />
modifié la notion de support en permettant de mêler texte, image,<br />
son et animation. La publication électronique a ensuite rendu<br />
possible la production à la demande d’un document (à l’écran ou<br />
sur papier), déplaçant l’attention initialement portée au support<br />
vers la publication elle-même.<br />
Le passage au numérique a également induit des changements<br />
profonds au niveau de l’inscription. Dans le contexte numérique,<br />
celle-ci peut être rapprochée de la notion de codage utilisée en<br />
<strong>informatique</strong> et qui permet de manipuler, transporter des objets.<br />
Toujours dans ce contexte (et par analogie à la définition de<br />
programme <strong>informatique</strong> Programme = logiciel + données), la<br />
définition de document numérique peut être résumée ainsi:<br />
Document numérique = structure + données<br />
Comme on le sait, la structure peut énormément varier d’un document<br />
à l’autre, allant du très au très peu, voire pas, structuré. Deux<br />
courants de recherche analysent cette structuration. Le premier<br />
part de l’analogique pour aller vers le numérique, il concerne les<br />
procédés de dématérialisation des documents papier classiques,<br />
ou numérisation, qui se basent sur le traitement de l’image et la<br />
reconnaissance de formes. Le second courant fait le cheminement<br />
inverse: les documents sont reconstitués à partir d’algorithmes en<br />
remontant leur structure ou logique interne pour rendre le texte<br />
lisible à l’écran. Ces recherches ont débouché sur la bureautique,<br />
puis la publication électronique et ont trouvé une application à<br />
grande échelle avec la révolution du Web. À ce niveau, le Web<br />
peut être vu comme une infinité de documents reliés entre eux.<br />
Ces deux courants ont mis en évidence deux niveaux fondamentaux<br />
de structuration des documents:<br />
z la structure logique, c’est-à-dire la construction d’un document<br />
en parties et sous parties articulées entre elles, et dont<br />
l’élément de structure le plus bas est le texte ou le signal analogique<br />
(unifié sous différents formats: unicode, MPEG, …)<br />
z la représentation formelle de la présentation avec la notion de<br />
balisage qui décrit la structure d’un document plutôt que ses<br />
caractéristiques physiques.<br />
Le succès de la norme XML &, et de ces dérivés, est probablement<br />
dû à la convergence de ces mouvements.<br />
Ceci permet de modifier l’équation du document en y insérant ces<br />
nouvelles caractéristiques:<br />
SPÉCIAL ÉTÉ – D – 21 AOÛT 2012<br />
21
Forme, signe et … évasion<br />
Document XML = Données structurées + mise en forme [2]<br />
«Le numérique a déplacé la question du support du document,<br />
qui en assurait la stabilité grâce à la fixité de l’inscription,<br />
vers la problématique de sa structure (…). [E]n séparant<br />
de façon radicale la structure logique d’un texte de sa<br />
représentation visuelle, elle autorise des traitements formels<br />
différents pour un même contenu, à une échelle inédite».<br />
Pédauque, 2003<br />
De cet axe, une première définition, partielle, du document est<br />
proposée:<br />
«Un document numérique est un ensemble de données organisées<br />
selon une structure stable associée à des règles de<br />
mise en forme permettant une lisibilité partagée entre son<br />
concepteur et ses lecteurs»<br />
Pédauque, 2003<br />
Le document comme signe<br />
Cet axe d’étude traite du document comme objet signifiant. Une<br />
définition du document traditionnel pourrait être exprimée par<br />
l’équation suivante:<br />
Document = inscription + sens<br />
Le support est devenu ici secondaire. L’importance est donnée au<br />
contenu porteur de sens et matérialisé par l’inscription. Ce sens se<br />
définit par rapport au contexte de production et de diffusion du<br />
document qui va conditionner son interprétation.<br />
Trois idées-forces émergent de cette approche :<br />
1 La création: la mise en document est une manière pour nous<br />
d’appréhender ce qui nous entoure. En réalisant des documents,<br />
nous classons nos idées, organisons notre discours<br />
pour nous aider à penser le monde. La notion de genre textuel<br />
et de collection ici est fondamentale: les documents sont<br />
regroupés dans de grandes catégories dont les différents éléments<br />
sont en relation. Le classement varie selon les situations<br />
et les époques, il marque nos représentations sociales.<br />
2 L’interprétation: un document n’a de sens que s’il est lu ou<br />
interprété par un lecteur (au sens large), et cette interprétation<br />
dépend du contexte dans lequel elle se fait. Un même<br />
document pourra être compris de manière différente selon<br />
l’époque et la situation sociale ou individuelle du lecteur.<br />
3 Les signes: tout objet est potentiellement un signe et pourrait<br />
être un document. En ce sens, une carotte de glace, un<br />
échantillon de tissu, un animal dans un zoo, etc. [3], sont des<br />
documents, car ils sont décrits, classés et inventoriés dans un<br />
système de représentation. Mais la grande majorité des documents<br />
sont construits à partir du langage écrit ou parlé.<br />
Ces trois idées ont permis l’invention des langages documentaires<br />
organisés de façon associative ou hiérarchique (références<br />
bibliographiques, index, thésaurus, résumés, etc.), conséquence de<br />
l’explosion documentaire qui s’est manifestée dès la fin XIX e siècle.<br />
Il a ainsi été possible de construire à partir des documents (ou des<br />
images ou des objets eux-mêmes) un langage formel permettant<br />
de les classer pour les retrouver à la demande.<br />
Plus récemment, les outils de traitement automatique de la<br />
langue sont apparus, issus du travail commun d’informaticiens<br />
et de linguistes pour traiter une problématique similaire. Ils ont<br />
eu des résultats spectaculaires dans leur application au Web sous<br />
22 flash <strong>informatique</strong><br />
forme de moteurs. La démarche a consisté à isoler les éléments<br />
logiques pour les modéliser.<br />
À la lumière de ces éléments, l’équation définissant un document<br />
pourrait être modifiée comme suit:<br />
Document numérique = texte informé + connaissances<br />
Texte informé signifiant que le texte (au sens large, y compris audio-visuel)<br />
pourrait être soumis à un traitement afin d’en repérer<br />
les unités d’information. Le remplacement de sens par connaissances<br />
introduit la notion de personnalisation pour un lecteur ou<br />
un usager donné.<br />
L’arrivée du Web sémantique avec une structuration toujours plus<br />
formalisée des documents (XML) et l’insistance sur l’indexation<br />
(RDF &) a encore modifié la portée de ces évolutions en introduisant<br />
les ontologies. Ce n’est plus tant un ensemble de fichiers<br />
reliés entre eux qui est visé, mais la constitution d’un réseau qui<br />
utilise pleinement les capacités de calcul des machines connectées<br />
pour le traitement sémantique des textes. Des métadonnées que<br />
l’on peut modéliser et combiner prennent alors toute leur valeur.<br />
L’équation peut ainsi être complétée :<br />
Document WS = texte informé + ontologies<br />
Selon cet axe d’étude, une nouvelle définition, toujours partielle,<br />
du document peut être proposée:<br />
«Un document numérique est un texte dont les éléments sont<br />
potentiellement analysables par un système de connaissance<br />
en vue de son exploitation par un lecteur compétent»<br />
Pédauque, 2003<br />
Document comme médium<br />
Ici c’est la fonction sociale du document qui est analysée. Le document<br />
est principalement considéré comme vecteur d’un message<br />
entre des personnes.<br />
Deux idées sous-tendent cette approche:<br />
1 Le document a pour fonction de prouver.<br />
2 Le document a pour fonction d’informer.<br />
«Un document donne un statut à une information. Il est<br />
porté par un groupe social qui le suscite, le diffuse, le sauvegarde<br />
et l’utilise».<br />
Pédauque, 2003<br />
C’est également un discours rattaché à son auteur par une signature.<br />
Il a donc une valeur d’évidence de l’activité (avec un<br />
sens plus large que la notion de preuve juridique) et une valeur<br />
d’information, de renseignement, de témoignage.<br />
La définition suivante est avancée:<br />
Document = inscription + légitimité<br />
Les documents sont vus ici comme des outils de régularisation des<br />
sociétés humaines. Ils permettent de communiquer et de pérenniser<br />
les lois, normes et les informations nécessaires à leur fonctionnement.<br />
L’organisation politique et sociale s’appuie sur l’échange<br />
de documents.<br />
Une économie interne du document s’est construite à partir des<br />
évolutions technologiques qui le constituent et des modalités de<br />
la mise en document. Mettre en document peut être vu comme<br />
un acte de communication entre un ou plusieurs expéditeurs et<br />
un ou plusieurs destinataires. La dynamique de cette mise en document<br />
est étudiée principalement selon deux axes: le premier<br />
s’intéresse à la communication organisationnelle et étudie les do-
Forme, signe et … évasion<br />
cuments dans un processus de travail,<br />
le second analyse la communication<br />
des médias et s’intéresse au processus<br />
de publication.<br />
Une nouvelle équation définissant le<br />
document est proposée:<br />
Document numérique = texte +<br />
procédure<br />
L’avènement du Web a de nouveau<br />
induit un changement d’échelle étendant<br />
le numérique à la société toute<br />
entière et permettant à tout un chacun<br />
d’être à la fois producteur et consommateur<br />
de documents. L’augmentation<br />
du nombre de documents ainsi mis à<br />
disposition ne permet plus de repérer,<br />
filtrer ces documents de la manière<br />
classique, c’est-à-dire a priori. Ceci doit<br />
plutôt se faire a posteriori, selon divers<br />
procédés qui tiennent comptent des<br />
liens pointant vers les documents euxmêmes<br />
et des algorithmes des moteurs<br />
de recherche.<br />
Une troisième équation est proposée,<br />
qui intègre cette importance prise par<br />
le Web:<br />
Document Web = publication + accès repéré<br />
Dans cette équation,<br />
«la publication seule ne ferait plus la légitimité, il faudrait lui<br />
adjoindre la notoriété par le repérage de l’accès».<br />
Pédauque, 2003<br />
Une troisième définition du document est avancée:<br />
«Un document numérique est la trace de relations sociales<br />
reconstruites par les dispositifs <strong>informatique</strong>s».<br />
Pédauque, 2003<br />
En conclusion<br />
Dans chacun de ses axes, la notion de contrat de lecture est soulignée<br />
au travers de la lisibilité dans le premier, de la compréhension<br />
dans le second et de la sociabilité dans le troisième. Il est probable<br />
que dans ces trois dimensions s’incarne la notion moderne<br />
de document.<br />
«Un document ne serait finalement qu’un contrat entre des<br />
hommes dont les qualités anthropologiques (lisibilité-perception),<br />
intellectuelles (compréhension-assimilation) et sociales<br />
(sociabilité-intégration) fonderaient une part de leur<br />
humanité, de leur capacité à vivre ensemble».<br />
Pédauque, 2003<br />
Pour aller plus loin<br />
z PÉDAUQUE, Roger T. Le texte en jeu. Permanence et transformation<br />
du document 2005. [sic 00001401 - <strong>version</strong> 1].<br />
archivesic.ccsd.cnrs.fr/sic_00001401.<br />
OTLET Paul, Traité de documentation: le livre sur le livre, théorie et pratique. Bruxelles. Editions Mundaneum.<br />
1934. 431 p.<br />
z PÉDAUQUE, Roger T. Document et modernité. 2006 [sic<br />
00001741-<strong>version</strong> 1]. archivesic.ccsd.cnrs.fr/sic_00001741.<br />
z SALAÜN, Jean-Michel. Vu, lu, su: Les architectes de l'information<br />
face à l'oligopole du Web. Editions de la Découverte<br />
(09 février 2012).<br />
Références<br />
[1] PÉDAUQUE, Roger T. Document: forme, signe et médium,<br />
les re-formulations du numérique. Version 3. 8-07-2003.<br />
@rchiveSIC (2003) [sic_00000511 - <strong>version</strong> 1]. archivesic.<br />
ccsd.cnrs.fr/sic_00000511<br />
[2] En rappelant que stricto senso, la norme XML ne définit<br />
pas de mise en forme, celle-ci est définie par XSL.<br />
[3] Voir également l’article de ERTZSCHEID, Olivier. L’homme<br />
est un document comme les autres: du World Wide<br />
Web au World Life Web. Hermes, 53 (2009) 33-40<br />
[sic_00377457 - <strong>version</strong> 2]. archivesic.ccsd.cnrs.fr/<br />
sic_00377457. [consultation 05.07.2012].n<br />
GLOSSAIRE &<br />
RDF (Ressources Description Framework): modèle de métadonnées<br />
défini par le W3C.<br />
XML (Extensible Markup Language): est un langage <strong>informatique</strong><br />
de balisage générique qui dérive du SGML. W<br />
W = tiré de Wikipédia<br />
SPÉCIAL ÉTÉ – D – 21 AOÛT 2012<br />
23
24<br />
Welcome to the nascent Web of Data.<br />
Après des années de tâtonnements, le Web est enfin<br />
prêt à accueillir toute la richesse de vos données,<br />
et cela dans des formats ouverts et interopérables…<br />
Quel format choisir pour publier ses données en ligne ? Malgré<br />
l’engouement extraordinaire pour l’Open Data et le partage de<br />
données, le problème du choix du format se pose encore et toujours.<br />
Les formats antédiluviens ou semi-propriétaires (tels CSV<br />
ou Excel) sont bien sûr à proscrire, pour leur manque d’expressivité<br />
d’une part, et leur manque d’ouverture d’autre part. XML<br />
demeure un bon choix pour publier des documents. Il se révèle<br />
par contre peu pratique pour la publication de données brutes,<br />
de par la rigidité de ses schémas et la difficulté inhérente à mixer<br />
des éléments XML provenant de documents hétérogènes. JSON a<br />
le vent en poupe pour l’échange de données point à point, même<br />
si le format n’a jamais été prévu pour modéliser ou intégrer des<br />
données complexes.<br />
EU<br />
Institutions<br />
Brazilian<br />
Politicians<br />
ISTAT<br />
Immigration<br />
Data<br />
Gov.ie<br />
EEA<br />
Open<br />
Election<br />
Data<br />
Project<br />
EURES<br />
reegle<br />
Ren.<br />
Energy<br />
Generators<br />
GovWILD<br />
Lichfield<br />
Spending<br />
Traffic<br />
Scotland<br />
CORDIS<br />
(FUB)<br />
FTS<br />
legislation<br />
data.gov.uk<br />
ESD<br />
standards<br />
Scotland<br />
Pupils &<br />
Exams<br />
flash <strong>informatique</strong><br />
Publier ses données sous forme<br />
de Linked Open Data<br />
Philippe.Cudre-Mauroux@unifr.ch, Université de Fribourg, directeur de eXascale Infolab<br />
Crime<br />
Reports<br />
UK<br />
Ox<br />
Points<br />
Energy<br />
(En-<br />
AKTing)<br />
CORDIS<br />
(RKB<br />
Explorer)<br />
UK Postcodes<br />
Linked<br />
EDGAR<br />
(Ontology<br />
Central)<br />
Semantic<br />
XBRL<br />
Scotland<br />
Geography<br />
Finnish<br />
Municipalities<br />
reference<br />
data.gov.<br />
uk<br />
London<br />
Gazette<br />
GovTrack<br />
Piedmont<br />
Accomodations<br />
Italian<br />
public<br />
schools<br />
Population<br />
(En-<br />
AKTing)<br />
TWC LOGD<br />
US SEC<br />
(rdfabout)<br />
Hellenic<br />
PD<br />
NHS<br />
(En-<br />
AKTing) Mortality<br />
(En-<br />
AKTing)<br />
CO2<br />
Emission<br />
(En-<br />
AKTing)<br />
Ordnance<br />
Survey<br />
data.gov.uk<br />
intervals<br />
GeoWord<br />
Net<br />
El<br />
Viajero<br />
Tourism<br />
Turismo<br />
de<br />
Zaragoza<br />
Crime<br />
(En-<br />
AKTing)<br />
research<br />
data.gov.<br />
uk<br />
statistics<br />
data.gov.<br />
uk<br />
Eurostat<br />
(Ontology<br />
Central)<br />
Hellenic<br />
FBD<br />
educatio<br />
n.data.g<br />
ov.uk<br />
transport<br />
data.gov.<br />
uk<br />
Eurostat<br />
SMC<br />
Journals<br />
business<br />
data.gov.<br />
uk<br />
US Census<br />
(rdfabout)<br />
Ocean<br />
Drilling<br />
Codices<br />
Openly<br />
Local<br />
Janus<br />
AMP<br />
EUTC<br />
Productions<br />
patents<br />
data.go<br />
v.uk<br />
OpenEI<br />
DB<br />
Tropes<br />
FanHubz<br />
LOIUS<br />
Eurostat<br />
(FUB)<br />
Linked<br />
Sensor Data<br />
(Kno.e.sis)<br />
Climbing<br />
AEMET<br />
Rechtspraak.<br />
nl<br />
EUNIS<br />
NASA<br />
(Data<br />
Incubator)<br />
Yahoo!<br />
Geo<br />
Planet<br />
Magnatune<br />
Surge<br />
Radio<br />
Last.FM<br />
artists<br />
(DBTune)<br />
BBC<br />
Program<br />
mes<br />
BBC<br />
Wildlife<br />
Finder<br />
Telegraphis<br />
Taxon<br />
Concept<br />
Geo<br />
Linked<br />
Data<br />
riese<br />
Twarql<br />
Linked<br />
GeoData<br />
Metoffice<br />
Weather<br />
Forecasts<br />
John<br />
Peel<br />
(DBTune)<br />
GTAA<br />
Discogs<br />
(Data<br />
Incubator)<br />
Last.FM<br />
(rdfize)<br />
BBC<br />
Music<br />
Fishes<br />
of Texas<br />
Geo<br />
Names<br />
UMBEL<br />
WordNet<br />
(VUA)<br />
WordNet<br />
(W3C)<br />
Alpine<br />
Ski<br />
Austria<br />
EARTh<br />
Weather<br />
Stations<br />
Airports<br />
National<br />
Radioactivity<br />
JP<br />
Open<br />
Cyc<br />
Moseley<br />
Folk<br />
Music<br />
Brainz<br />
(Data<br />
Incubator)<br />
Geo<br />
Species<br />
Sears<br />
Music<br />
Brainz<br />
(DBTune)<br />
Chronicling<br />
America<br />
Product<br />
DB<br />
YAGO<br />
World<br />
Factbook<br />
WordNet<br />
(RKB<br />
Explorer)<br />
GEMET<br />
Classical<br />
(DB<br />
Tune)<br />
New<br />
York<br />
Times<br />
Lexvo<br />
Cornetto<br />
Audio<br />
Scrobbler<br />
(DBTune)<br />
Music<br />
Brainz<br />
(zitgist)<br />
Uberblic<br />
Product<br />
Types<br />
Ontology<br />
Jamendo<br />
(DBtune)<br />
Event<br />
Media<br />
Open<br />
Data<br />
Thesaurus<br />
URI<br />
Burner<br />
totl.net<br />
Open<br />
Corporates<br />
lingvoj<br />
AGROV<br />
OC<br />
Pokedex<br />
LOV<br />
RDF<br />
ohloh<br />
Poképédia<br />
Freebase<br />
LODE<br />
Italian<br />
Museums<br />
Lotico<br />
Linked<br />
MDB<br />
dbpedia<br />
lite<br />
Enipedia<br />
Linked<br />
Open<br />
Colors<br />
Linked<br />
User<br />
Feedback<br />
Goodwin<br />
Family<br />
SISVU<br />
Amsterdam<br />
Museum<br />
Smart<br />
Link<br />
meducator<br />
Klappstuhlclub<br />
Linked<br />
Crunchbase<br />
gnoss<br />
Greek<br />
DBpedia<br />
Taxono<br />
my<br />
Google<br />
Art<br />
wrapper<br />
Portuguese<br />
DBpedia<br />
Daily<br />
Med<br />
LinkedCT<br />
ChEMBL<br />
DBpedia<br />
La solution la plus prometteuse dans ce domaine est peut-être le<br />
LOD &, formalisme moderne et standardisé par l’organe faîtier<br />
du Web, le W3C.<br />
L’émergence du Web des données<br />
Tout commence en 2006 par une note publiée par Tim Berners-<br />
Lee promulguant une méthode de publication des données tirant<br />
partie de l’architecture du Web [1]. Le créateur du Web met en<br />
avant quatre principes fondamentaux qui sont toujours à la base<br />
de la publication de Linked Open Data:<br />
1. utiliser des URI & pour identifier les objets ou données à partager;<br />
2. utiliser des URI HTTP afin que n’importe qui puisse déréférencer<br />
lesdites URI, par exemple en utilisant un navigateur Web;<br />
3. fournir des informations structurées en RDF & lorsque lesdites<br />
URI sont déréférencées;<br />
4. et, finalement, inclure des liens vers d’autres URI similaires<br />
dans les informations ainsi fournies.<br />
Slideshare<br />
2RDF<br />
flickr<br />
wrappr<br />
Open<br />
Calais<br />
Semantic<br />
Tweet<br />
Ontos<br />
News<br />
Portal<br />
Linked<br />
Open<br />
Numbers<br />
TCM<br />
Gene<br />
DIT<br />
tags2con<br />
delicious<br />
semantic<br />
web.org<br />
Revyu<br />
iServe<br />
Drug<br />
Bank<br />
UniProt<br />
(Bio2RDF)<br />
OMIM<br />
UniParc<br />
Didactal<br />
ia<br />
Project<br />
Gutenberg<br />
PubMed<br />
yovisto<br />
Source Code<br />
Ecosystem<br />
Linked Data<br />
UniProt<br />
UniRef<br />
Reactome<br />
my<br />
Experiment<br />
SW<br />
Dog<br />
Food<br />
RDF<br />
Book<br />
Mashup<br />
OS<br />
Diseasome<br />
data<br />
dcs<br />
dataopenac-uk<br />
PRO-<br />
SITE<br />
Bricklink<br />
Manchester<br />
Reading<br />
Lists<br />
SSW<br />
Thesaur<br />
us<br />
SIDER<br />
UniSTS<br />
OGOLOD<br />
Sussex<br />
Reading<br />
Lists<br />
Plymouth<br />
Reading<br />
Lists<br />
Sudoc<br />
DDC<br />
BNB<br />
DBLP<br />
(FU<br />
Berlin)<br />
PDB<br />
ProDom<br />
MGI<br />
ERA<br />
SGD<br />
Medi<br />
Care<br />
UniPath<br />
way<br />
theses.<br />
fr<br />
St.<br />
Andrews<br />
Resource<br />
Lists<br />
Open<br />
Library<br />
IdRef<br />
Sudoc<br />
data<br />
bnf.fr<br />
LinkedL<br />
CCN<br />
DBLP<br />
(L3S)<br />
UN/<br />
LOCODE<br />
Pfam<br />
Pub<br />
Chem<br />
Chem2<br />
Bio2RDF<br />
NTU<br />
Resource<br />
Lists<br />
MARC<br />
Codes<br />
List<br />
Calames<br />
ECS<br />
Southampton<br />
EPrints<br />
Eurécom<br />
Open<br />
Library<br />
(Talis)<br />
P20<br />
VIVO<br />
Indiana<br />
STITCH<br />
Thesaurus<br />
W<br />
DBLP<br />
(RKB<br />
Explorer)<br />
PSH<br />
UB<br />
Mannheim<br />
CiteSeer<br />
NDL<br />
subjects<br />
ECS<br />
(RKB<br />
Explorer)<br />
VIVO<br />
Cornell<br />
RAMEAU<br />
SH<br />
Ulm<br />
ACM<br />
ePrints<br />
LCSH<br />
ndlna<br />
VIVO UF<br />
t4gm<br />
info<br />
ECS<br />
Southampton<br />
OAI<br />
RAE2001<br />
LAAS<br />
Deutsche<br />
Biographie<br />
LEM<br />
LIBRIS<br />
GND<br />
Wiki<br />
JISC<br />
KEGG<br />
Reaction<br />
KEGG<br />
Glycan<br />
IRIT<br />
Newcastle<br />
dotAC<br />
Budapest<br />
KISTI<br />
PBAC<br />
ntnusc<br />
lobid<br />
Resources<br />
VIAF<br />
Rådata<br />
nå!<br />
lobid<br />
Organisations<br />
ECCO-<br />
TCP<br />
Pisa<br />
IBM<br />
Roma<br />
IEEE<br />
As of September 2011<br />
fig. 1 – le LOD Cloud, où chaque nœud représente un jeu de données et chaque lien un ensemble d’interconnexions entre deux jeux de données. En septembre 2011, le LOD<br />
Cloud comptait plus de 30 milliards de triples. Il croît aujourd’hui de manière exponentielle. richard.cyganiak.de/2007/10/lod/lod-datasets_2011-09-19.pdf<br />
Affymetrix<br />
InterPro<br />
Gene<br />
Ontology<br />
BibBase<br />
HGNC<br />
GeneID<br />
KEGG<br />
Pathway<br />
Homolo<br />
Gene<br />
KEGG<br />
Drug<br />
KEGG<br />
Enzyme<br />
KEGG<br />
Compound<br />
bible<br />
ontology<br />
NSZL<br />
Catalog<br />
Norwegian<br />
MeSH<br />
NSF<br />
STW<br />
RESEX<br />
DEPLOY<br />
Courseware<br />
Europeana<br />
RISKS<br />
Swedish<br />
Open<br />
Cultural<br />
Heritage<br />
NVD<br />
GESIS<br />
Scholarometer<br />
LOCAH
Publier ses données sous forme de Linked Open Data<br />
Le résultat de cette potion magique en quatre points ? L’émergence<br />
d’un Web de données ouvertes et interconnectées, le LOD<br />
Cloud (fig. 1). De la BBC au New York Times en passant par les<br />
gouvernements américain ou britannique, un nombre toujours<br />
croissant d’acteurs choisissent LOD pour publier leurs données.<br />
L’avantage de cette approche tient en un mot: intégration. Alors<br />
qu’il faut souvent des semaines pour intégrer des données relationnelles<br />
ou XML hétérogènes, il suffit d’une requête SPARQL &<br />
(l’équivalent LOD de SQL) pour intégrer des jeux de données LOD,<br />
quels que soient leurs schémas et leur provenance.<br />
LOD: mode d’emploi<br />
Le processus de publication commence bien sûr par la con<strong>version</strong><br />
de ses données en RDF. Plusieurs solutions sont envisageables<br />
pour accomplir cette tâche. D2R [2], par exemple, est une solution<br />
générique qui permet de transformer semi-automatiquement<br />
des bases de données relationnelles en RDF par le biais de<br />
mappings configurables. XML2RDF [3] permet, lui, de convertir<br />
des documents XML. D’autres outils tels Protégé [4] ou IWB [5]<br />
fournissent des interfaces complètes pour éditer à la fois les données<br />
RDF et leurs schémas RDFS & (RDF Schema) ou OWL &.<br />
Une fois les données transformées en RDF, il est de bon ton de<br />
les lier à d’autres données existantes sur le LOD Cloud afin de<br />
promouvoir l’interopérabilité des jeux de données (cf. point 4 cidessus).<br />
Ces liens peuvent être établis au niveau des schémas (en<br />
écrivant des correspondances entre le schéma de ses données et<br />
d’autres schémas ou ontologies), ou au niveau des données ellesmêmes,<br />
en les reliant à d’autres données LOD de manière semiautomatique<br />
(p. ex., en utilisant Silk [6] ou en explorant des bases<br />
de données LOD comme DBpedia [7]).<br />
Reste finalement à publier les données ainsi obtenues. Là encore,<br />
plusieurs solutions sont possibles. La plus simple est sans doute<br />
de fournir un dump des données et de le référencer sur un catalogue<br />
en ligne (tel ckan [8]). Une autre solution est de charger<br />
ses données dans une base de données RDF (comme Virtuoso [9],<br />
Owlim [10], ou une base de données classique supportant le RDF<br />
telle que DB2 ou Oracle) et de fournir une interface de requêtes<br />
(SPARQL end-point) afin que tout un chacun puisse directement<br />
interroger et intégrer ce nouveau jeu de données avec des données<br />
existantes, et ce de manière dynamique.<br />
De nombreuses ressources sont disponibles en ligne pour vous<br />
GLOSSAIRE &<br />
LOD (Linked Open Data): méthode de publication<br />
de données s’appuyant sur les<br />
technologies Web (URIs, liens, RDF) et<br />
promulguant l’interconnexion des jeux<br />
de données.<br />
OWL (Web Ontology Language): supplante<br />
RDFS en permettant la définition de<br />
schémas de données complexes.<br />
RDF (Resource Description Framework):<br />
pierre angulaire du Web sémantique<br />
et du LOD, RDF modélise les données<br />
sous forme de triples . , par exemple,<br />
encode le fait que phil_cm est le créateur<br />
du document paper182.<br />
RDFS (RDF Schema): couche schéma de<br />
RDF, qui permet de spécifier le schéma<br />
de ses données RDF en définissant des<br />
hiérarchies de classes et de prédicats.<br />
SPARQL: langage de requêtes structuré,<br />
pendant de SQL pour les données RDF.<br />
bon point de départ pour explorer l’univers LOD. Le jeu en vautil<br />
la chandelle ? D’après la Loi de Metcalf, l’utilité d’un réseau<br />
d’information est proportionnelle au carré du nombre de ses<br />
connexions. Alors, données liées ou données esseulées, le choix<br />
est peut-être moins cornélien qu’il n’y paraît.<br />
Références<br />
[1] www.w3.org/DesignIssues/LinkedData.html<br />
[2] d2rq.org/<br />
[3] www.gac-grid.de/project-products/Software/XML2RDF.html<br />
[4] protege.stanford.edu/<br />
[5] www.fluidops.com/information-workbench/<br />
[6] www4.wiwiss.fu-berlin.de/bizer/silk/<br />
[7] dbpedia.org/<br />
[8] thedatahub.org/group/lodcloud<br />
[9] virtuoso.openlinksw.com/<br />
[10] www.ontotext.com/owlim<br />
NB: Philippe Cudré-Mauroux est Professeur FNS à l’Université<br />
de Fribourg. Il sera Program Committee Chair de l’International<br />
Semantic Web Conference 2012 qui se déroulera à<br />
Boston en novembre. Webpage: diuf.unifr.ch/xi/ n<br />
aider dans cette démarche. Linkeddata.org est sans doute un www.w3.org/DesignIssues/LinkedData.html<br />
URI (Uniform Resource Identifier): courte<br />
chaîne de caractères identifiant une ressource<br />
sur un réseau physique ou abstraite,<br />
et dont la syntaxe respecte une<br />
norme d’Internet. Un URI doit permettre<br />
d’identifier une ressource de manière<br />
permanente, même si la ressource est<br />
déplacée ou supprimée. W<br />
W = tiré de Wikipédia<br />
SPÉCIAL ÉTÉ – D – 21 AOÛT 2012<br />
25
26<br />
At the European Open Data Week which took place<br />
in Nantes from 21 to 26 May 2012, Hubert Guillaud<br />
was invited to give a talk on the data Web, to go<br />
beyond and broaden the particular issue of re-using<br />
public data. This talk is reproduced hereunder.<br />
À l’occasion de la Semaine européenne de l’Open<br />
Data [1] qui se déroulait à Nantes du 21 au 26 mai<br />
2012, Hubert Guillaud était invité à faire une présentation<br />
sur le Web des données, pour dépasser et<br />
élargir la problématique particulière de la réutilisation<br />
des données publiques. En voici la transcription<br />
qui est également disponible sur le blog www.internetactu.net<br />
[2].<br />
Nous sommes passés d’un Web de l’information et de la connaissance<br />
à un Web de données. «Les données sont le nouveau pétrole<br />
de l’économie» [3], expliquait le consultant Clive Humby dès<br />
2006. Tim O’Reilly et John Battelle ne disaient pas autre chose<br />
quand ils imaginaient le concept de Web² [4] devenu depuis (et<br />
il serait intéressant de regarder comment) celui des Big Data &.<br />
Nous n’échapperons pas à l’exploitation maximale de la puissance<br />
des données par l’analyse, la combinaison, la représentation, la<br />
recherche, le traitement…<br />
Tout est données<br />
Le Web est un écosystème de bases de données interconnectées.<br />
Les données sont partout, sous forme d’énormes répertoires de<br />
données produisant elles-mêmes leurs propres données, car la<br />
flash <strong>informatique</strong><br />
Vers un Nouveau Monde de<br />
données<br />
Hubert Guillaud, rédacteur en chef d’InternetActu.net et responsable de la veille à la Fondation Internet nouvelle génération, fing.org<br />
façon même dont nous interrogeons ces données devient ellemême<br />
source de données. C’est d’ailleurs la première des données,<br />
la plus accessible, la plus importante, celle de nos comportements<br />
en ligne, de nos historiques de navigations.<br />
Tout est information. Tout est données. Mais c’est avant tout un<br />
monde du temps réel, de l’immédiateté. Les données ne cessent<br />
de s’accumuler, mais ce sont les plus récentes qui ont toujours le<br />
plus d’importance, car elles permettent de comprendre à la fois<br />
le monde d’aujourd’hui et prédire le monde de demain. «90% de<br />
l’ensemble des données du monde ont été créées ces deux<br />
dernières années» [5], estimait récemment Stephen Gold d’IBM<br />
lors d’une présentation au récent Webcom de Montréal. Nous<br />
vivons un datadéluge: l’essentiel des données que nous utiliserons<br />
dans deux ans n’aura rien à voir avec celles que nous<br />
utilisons aujourd’hui. Les données sont un nouveau pétrole inépuisable,<br />
mais qu’on brûle aussi rapidement que le précédent.<br />
Le Web est devenu «la base de données de nos intentions»,<br />
affirmait John Battelle en 2003 [6]. Le moindre de nos clics sert<br />
à la construire. Notre surf, notre historique, ce sur quoi nous cliquons,<br />
ce sur quoi nous nous attardons en ligne est tracé, mesuré<br />
et influe sur ce à quoi nous accédons. La moindre de nos actions<br />
sur l’Internet est une donnée, même le temps passé sur une page.<br />
Ce sont nos comportements qui font l’Internet.<br />
La première des données, le pétrole non raffiné, est bien celle<br />
de nos comportements en ligne, ces milliards de clics que nous<br />
faisons sur le Web à chaque instant. Ces bases de données de<br />
petits cookies que nous transportons par-devers nous via nos<br />
navigateurs. Nous sommes devenus Midas. Tout ce que nous touchons<br />
devient données, devient or, pétrole. «L’<strong>informatique</strong> se<br />
dissout dans nos comportements» expliquait déjà en 2007 Adam<br />
Greenfield [7]. Le Web nous trace en permanence. Nous n’avons<br />
pas le droit de ne pas y être tracés, insistait Alexis Madrigal [8].
Vers un Nouveau Monde de données<br />
Mais ne nous y trompons pas. Ce ne sont pas les données publiques<br />
ni les données ouvertes qui sont le seul pétrole de cette<br />
économie. Ce sont d’abord nos données personnelles: «Les données<br />
personnelles sont le nouveau pétrole de l’Internet et la nouvelle<br />
monnaie du monde numérique», soulignait Meglena Kuneva,<br />
Commissaire européenne à la consommation en 2009. Et les<br />
données personnelles sont la prochaine génération de données à<br />
ouvrir, comme l’expliquait récemment David Eaves [9], spécialiste<br />
de ces questions.<br />
… je te dirai qui tu es<br />
Vous avez certainement dû voir cette vidéo [10] des lunettes de<br />
réalité augmentée de Google et plus encore l’une de ses parodies,<br />
qui augmente l’interaction que nous avons avec la réalité des<br />
publicités [11]. En préparant votre café, vous avez automatiquement<br />
de la publicité qui s’affiche en contexte. Comme l’illustre le<br />
projet Google Glass [12], les données vont s’immiscer toujours<br />
plus près de nous, au cœur de nos comportements et de notre<br />
intimité, se nourrissant de l’un et de l’autre.<br />
Il n’y a presque plus de données qui ne soient pas personnelles.<br />
Tout le monde se souvient des fichiers de logs d’AOL [13], c’està-dire<br />
le journal des utilisations d’Internet de plusieurs dizaines<br />
de milliers d’utilisateurs, qui ont permis, rien qu’en observant ce<br />
que ces utilisateurs ont recherché en ligne, d’en identifier un très<br />
grand nombre. Ces données ne portaient pourtant aucune information<br />
nominative. Il n’empêche. Elles ont permis d’identifier des<br />
gens, simplement en observant les sites sur lesquels ils se sont<br />
rendus. Aujourd’hui, par exemple, la startup Face.com permet<br />
d’analyser n’importe quelle image du Web, de vous donner des<br />
informations sur un visage: à savoir si c’est un homme, s’il sourit,<br />
son âge. La start-up est même capable de reconnaître des gens<br />
en photo ou en vidéo nominativement avec une assez incroyable<br />
précision, en puisant dans des banques d’images documentées<br />
(où les noms sont renseignés), comme le net en regorge – c’est<br />
l’exemple de l’identification des personnages de Star Trek [14].<br />
Demain, quand vous publierez une photo sur l’Internet, l’infrastructure<br />
sera capable non seulement d’identifier les métadonnées<br />
associées à l’image (date de prise de vue, appareil, etc.), mais également<br />
de reconnaître qui est sur la photo, avec toutes les avantages<br />
et les dérives que cela comporte. Le croisement d’énormes<br />
capacités de traitements et de tout aussi vastes bases de données<br />
signe la fin des données personnelles [15].<br />
Bien sûr, toutes les données ne sont pas devenues personnelles<br />
(les horaires de transports, les données de capteurs environnementaux,<br />
les documents administratifs… par exemple), mais une<br />
masse considérable de données qui ne l’étaient pas a priori sont<br />
en passe de le devenir. D’autant plus que leur couplage, chaque<br />
jour plus facile, peut à chaque moment faire basculer des données<br />
sans valeur en données à caractère personnel. Les données transforment<br />
l’Internet en un lieu où les gens n’ont plus d’anonymes<br />
que leur nom. Et celui-ci, en fait, n’a plus beaucoup d’importance.<br />
Il n’est plus un rempart contre la personnalisation.<br />
Voici une application qui s’appelle SceneTAP [16]. Elle consiste<br />
à installer une simple caméra dans un bar. Celle-ci va compter<br />
les gens présents afin d’évaluer le taux de remplissage, en utilisant<br />
l’API & de Face.com (dont nous parlions juste avant), elle<br />
va être capable de déterminer le pourcentage de filles et de garçons,<br />
leurs âges moyens respectifs et demain peut-être d’identifier<br />
les personnes présentes. SceneTAP va ainsi permettre à chacun<br />
depuis son application pour smartphone de voir, en temps réel,<br />
quels sont les bars qui bougent aux alentours. Est-ce que la population<br />
qui est à l’intérieur correspond à celle que je recherche…<br />
comme l’expliquait Yves Eudes dans un récent numéro du Monde<br />
magazine.<br />
SPÉCIAL ÉTÉ – D – 21 AOÛT 2012<br />
27
Vers un Nouveau Monde de données<br />
Le plus intéressant dans cet exemple, ne repose pas tant dans les<br />
nouvelles données issues de ce système, que d’observer comment<br />
elles fonctionnent, comment elles se reproduisent et se démultiplient<br />
entre elles. Installer une caméra dans un bar n’a pas d’intérêt<br />
en soi. L’intérêt c’est le couplage des données que la caméra produit<br />
avec d’autres bases de données, comme celles de Face.com.<br />
On ne produit pas seulement plus de données. Ce qu’il faut comprendre,<br />
c’est que ces données sont désormais en réseau. Et du<br />
fait même qu’elles sont en réseau, elles se démultiplient et produisent<br />
de nouvelles données. Les données ne sont pas enfermées<br />
dans des silos, le fait même qu’elles puissent se combiner,<br />
s’interroger les unes les autres, produit un nouvel Internet, une<br />
nouvelle infrastructure basée sur l’échange de données [17]. C’est<br />
l’économie des API [18], des mashups & de services, l’un des<br />
points clef de la structure de ce Nouveau Monde de données. Nos<br />
systèmes sociotechniques ont accès à une foultitude de bases de<br />
données permettant de reconfigurer les données à la volée, de<br />
leur donner du sens par leur croisement même.<br />
Dans ce Nouveau Monde, la moindre de nos actions produit des<br />
données, comme l’illustre très bien cet exemple, parmi des dizaines<br />
de milliers d’autres. Ashtmapolis [19] consiste en un petit<br />
capteur GPS qui se branche au bout de n’importe quel inhalateur<br />
de ventoline que prennent les asthmatiques. Ce capteur connecté<br />
permet de renseigner, sans avoir à remplir le moindre formulaire,<br />
les zones où les asthmatiques souffrent, simplement en l’utilisant.<br />
Il produit des cartographies permettant aux asthmatiques<br />
de documenter le réel à plusieurs, de s’entraider pour repérer les<br />
zones dangereuses, les zones à pollen par exemple, qu’ils pourront<br />
plus facilement éviter. Asthmapolis est une parfaite illustration du<br />
monde de capteurs qui se met en place. Le prix modique des capteurs,<br />
leur bidouillabilité permet d’envisager leur démultiplication,<br />
et ce, sans qu’on y pense, sans avoir à faire d’action de renseignement<br />
de données. C’est l’Internet des objets, l’Internet des capteurs<br />
qui vient documenter notre monde réel, l’hybridant d’une<br />
ombre d’information partout et en tout temps. Nous entrons<br />
dans un monde où toutes nos actions, même la plus insignifiante,<br />
produisent potentiellement des données, de manière volontaire,<br />
comme à notre insu.<br />
28 flash <strong>informatique</strong><br />
Tout est appelé à devenir des données<br />
J’aime beaucoup cet exemple de lunettes [20] développé par Rosalind<br />
Picard directrice du Groupe de recherche sur l’<strong>informatique</strong><br />
affective au MIT [21], car elle permet d’entrouvrir de nouveaux<br />
horizons pour comprendre jusqu’où va aller cette mise en données<br />
du monde. Ce sont des lunettes qui servent à mesurer notre<br />
niveau d’interaction réel avec les autres. Cette paire de lunettes a<br />
pour fonction d’aider celui qui la porte à décoder les émotions de<br />
la personne avec qui il discute. Les lunettes sont équipées d’une<br />
petite caméra qui surveille plusieurs points du visage de son interlocuteur<br />
et leurs mouvements pour le décrypter. Des petites<br />
lumières rouges, jaunes et vertes installées sur le bord du champ<br />
de vision permettent de traduire les expressions de l’interlocuteur<br />
selon qu’elles sont négatives, neutres ou positives. L’idée derrière<br />
ce projet, c’est de voir comment les détecteurs d’émotions<br />
peuvent nous aider à mieux nous comprendre mutuellement. La<br />
plupart du temps, nous n’arrivons pas à repérer les signes de communication<br />
non verbaux que nous avons lors de nos interactions<br />
physiques. Demain, ces signes non verbaux seront décodés par<br />
nos systèmes techniques et viendront nous aider à comprendre<br />
les autres, à mesurer nos temps de paroles pour nous montrer par<br />
exemple que nous ne laissons pas assez de temps d’expression à<br />
ceux avec lesquels nous discutons. La production de données est<br />
appelée à s’immiscer dans les plis les plus intimes de nos interactions<br />
sociales.
Vers un Nouveau Monde de données<br />
Dans ce Nouveau Monde de données, nous allons également avoir<br />
de nouveaux producteurs et de nouveaux modes de production<br />
de données. Tout et tout le monde va produire des données. Elle<br />
ne sera pas seulement le fait de systèmes techniques ou d’institutions,<br />
qui étaient les principaux producteurs de données, mais elle<br />
va être de plus en plus le fait d’individus, comme le montrent les<br />
cartographies d’Usahidi [22], FixMyStreet [23] ou Leon à Mérignac<br />
[24]. La donnée va être coproduite par des utilisateurs et<br />
des capteurs toujours plus nombreux, toujours plus accessibles (et<br />
accessibles de partout) via l’Internet mobile.<br />
Mais si l’on parle d’une démultiplication des données, il faut également<br />
évoquer la transformation des modalités de traitement,<br />
ces algorithmes qui nous gouvernent [25]. On observe souvent<br />
l’émergence massive de données, comme matière première<br />
de la connaissance, de la représentation, de la discussion, de la<br />
décision, de la production, de l’évaluation… Mais on interroge peu<br />
le rôle de la collecte et du traitement des données. Pourtant, nous<br />
sommes de plus en plus confrontés à un tissage complexe qui va<br />
de la discrétisation des données (c’est-à-dire la manière dont elles<br />
sont produites et collectées) à la programmabilité des données<br />
(c’est-à-dire la manière dont elles sont traitées, programmées,<br />
algorithmisées).<br />
L’utilisateur face à l’algorithme<br />
Nous sommes tous producteurs de données. Mais peut-on reléguer<br />
l’infrastructure et l’architecture, la manière dont celles-ci<br />
sont utilisées, à des spécialistes et à des programmes face auxquels<br />
nous nous sentons démunis et face auxquels nous pourrions<br />
n’avoir plus aucun pouvoir. Il semble essentiel de regarder où sont<br />
les lieux de pouvoir des systèmes techniques et comment faire<br />
que le code, l’algorithme puissent demain être plus accessibles à<br />
tous. Face au déluge de données, il nous faut aussi nous intéresser<br />
aux formes de traitement auxquelles les données donnent lieu.<br />
Quelle est la place de l’utilisateur dans les traitements dont nous<br />
sommes tributaires, comme ceux qui disposent de site Internet<br />
sont tributaires des changements algorithmiques du moteur de<br />
recherche de Google (les Google Dance) pouvant les faire passer<br />
d’un très bon classement à un très mauvais, simplement parce que<br />
l’algorithme qui produit ces classements a changé. Dans ce Nouveau<br />
Monde de données, nous devons interroger les traitements<br />
bâtis par les statisticiens, physiciens, mathématiciens, ingénieurs<br />
et spécialistes des réseaux, pour savoir quelle est la place de l’utilisateur<br />
dans ces traitements. Comment un monde couvert de données<br />
devient un monde qui rend du pouvoir à l’utilisateur plutôt<br />
qu’il ne l’aliène ? Si on connait les régulations qui encadrent la<br />
collecte de données, on connait moins celles qui encadrent les<br />
modalités de traitement des données, notamment tels qu’ils ont<br />
désormais lieux dans les mashups de services, dans les échanges<br />
entre API que nous évoquions précédemment.<br />
C’est cet ensemble: ces données, multipliées par ces données en<br />
réseau, ces nouveaux modes de production, ces nouveaux types<br />
de producteurs, et ces nouvelles modalités de traitement qui<br />
créent un Nouveau Monde de données. C’est le monde des #bigdata.<br />
Un monde conduit (data driven) par les données dont il faut<br />
comprendre le but, les enjeux, l’objectif. À quoi vont-elles servir ?<br />
Qui va les traiter ? Comment ?<br />
Ce Nouveau Monde ne produit pas des données pour des données.<br />
Le but de ce Nouveau Monde n’est pas de produire des fichiers<br />
Excel pour des fichiers Excel. Regardez comment fonctionne la<br />
Google Car, cette voiture sans conducteur, qui vient d’être autorisée<br />
à rouler dans le Nevada [26]. «La voiture autonome consiste<br />
à analyser et prédire le monde 20 fois par seconde», expliquait<br />
Anthony Levandowski, responsable du projet de voiture autonome<br />
de Google [27]. Elle est un pur produit de données [28]. Elle ne<br />
fonctionne que par les données qu’elle capte de son environnement<br />
(elle est bardée de capteurs), mais également de données<br />
distantes comme la configuration des routes issues du projet<br />
Google Maps et des données de géolocalisation.<br />
Ce Nouveau Monde analyse le monde réel en permanence dans le<br />
but de produire de la prévisibilité [29], de rendre le monde prédictible.<br />
Nous sommes confrontés à un avenir où tout va être prévisible<br />
par les autres, via le nuage <strong>informatique</strong> et la façon dont<br />
nous sommes liés via l’Internet.<br />
Ce Nouveau Monde cherche à nous permettre en permanence de<br />
situer nos comportements dans l’univers social, via un maelström<br />
de données comportementales sur lesquelles seront appliqués des<br />
algorithmes prédictifs. Derrière les produits de données, c’est bien<br />
évidemment notre perception de nous-mêmes qui va s’en trouver<br />
modifiée. Car nous sommes au centre de ce monde de données.<br />
SPÉCIAL ÉTÉ – D – 21 AOÛT 2012<br />
29
Vers un Nouveau Monde de données<br />
Rester maîtres des données<br />
Nous sommes au centre de ce festin de données. Et comme dans<br />
tout Nouveau Monde, nous devons apprendre à y survivre.<br />
Nous avons besoin d’outils capables de nous rendre plus anonymes<br />
ou de nous rappeler de l’être. Nous avons besoin d’outils<br />
capables de mentir pour nous selon les personnes à qui l’on<br />
s’adresse, les systèmes que l’on autorise à se connecter à nos données<br />
ou aux données que d’autres collectent sur nous. Plus que<br />
jamais, nous avons besoin d’identités actives [30], c’est-à-dire,<br />
comme le proposait l’intuition de Daniel Kaplan et Charles Népote<br />
de la Fing, non seulement d’être maîtres des données que nous<br />
libérons, mais surtout de faire en sorte que leurs conséquences<br />
nous soient transparentes.<br />
Comment s’assurer que ces informations que nous émettons ou<br />
qui transitent par nous et nos objets ne puissent pas permettre<br />
d’identification formelle ou d’interprétation qui nous échappent ?<br />
Comment séparer qui je suis d’où je suis ? Pourquoi trop de systèmes<br />
enregistrent-ils des données qu’ils n’ont pas besoin de<br />
conserver ? C’est d’ailleurs l’argumentaire d’un rapport de l’EFF<br />
(Electronic Frontier Foundation) [31] sur la confidentialité de nos<br />
localisations, qui s’inquiète de savoir si nous pourrons toujours nous<br />
déplacer sans que nos moindres mouvements soient systématiquement<br />
et secrètement enregistrés par un tiers pour une utilisation<br />
ultérieure, comme le font déjà nos téléphones mobiles mouchards.<br />
«Il faut construire des systèmes qui ne collectent pas les données<br />
en premier lieu» [32] recommandent-ils, simplement sous<br />
le prétexte que ce serait la voie la plus facile… Pour cela, il faut<br />
que les systèmes de traitement soient conçus en intégrant un<br />
large éventail de politiques de confidentialité. Il faut construire<br />
des systèmes géolocalisés qui ne sachent pas où nous sommes,<br />
c’est-à-dire des titres de transport qui n’enregistrent pas l’endroit<br />
où nous sommes par exemple ou des modules de géolocalisation<br />
anonymes, avec des identifiants dynamiques, qui ne permettent<br />
pas de corréler simplement une personne et un lieu… Pour les militants<br />
de l’EFF, les techniques cryptographiques doivent être systématiquement<br />
exploitées afin, par exemple qu’un service sache<br />
localiser quelqu’un, identifier qu’il a un compte sur un service, lui<br />
appliquer un tarif (à un péage urbain ou au passage par un portillon<br />
de métro par exemple…), mais sans dire qui il est. Une autre<br />
couche d’information doit lui permettre, s’il le souhaite, de discuter<br />
ou localiser ses amis… Sans que tout cela ne soit accessible en<br />
clair pour chacun des services utilisés, comme c’est trop souvent<br />
le cas actuellement. Les protocoles cryptographiques nécessaires<br />
existent. Ils représentent certes un défi technique et nécessitent<br />
des investissements, mais ils sont seuls en mesure de nous permettre<br />
d’échapper à la transparence de nos déplacements tout en<br />
tirant avantage des services géolocalisés.<br />
Il y a un enjeu à faciliter l’exploitation des données comme le<br />
clament O’Reilly et Battelle, mais aussi à raréfier les informations<br />
qu’elles portent. Cette opposition engendre un point de tension<br />
dont il va être difficile de trouver l’équilibre. Mais si on veut prôner<br />
un droit à l’oubli, un droit à l’erreur, un droit à l’accès aux<br />
données qui transitent par nous, il va non seulement falloir faciliter<br />
leur exploitation, mais surtout faciliter leur accès, leur gestion.<br />
Demain plus qu’aujourd’hui, tous les champs des formulaires ne<br />
doivent pas être obligatoires.<br />
30 flash <strong>informatique</strong><br />
Nous avons besoin d’un meilleur accès à la collecte de données,<br />
de meilleures garanties quant aux règles qui régissent les processus<br />
(afin qu’elles ne puissent être changées unilatéralement par<br />
exemple) et de meilleures assurances et protections quant à la<br />
dissémination des données.<br />
Dans ce Nouveau Monde, nous avons besoin de nouveaux repères.<br />
Nous avons besoin de nous approprier les données que nous<br />
produisons pour comprendre ce qu’elles produisent. Nous avons<br />
besoin d’outils, d’expérimentations, de méthodologies. Nous<br />
avons besoin de lieux, d’espaces, physiques ou virtuels, ouverts, de<br />
ressources organisées pour échanger et comprendre ce Nouveau<br />
Monde. C’est à cela que devraient ou pourraient servir les Info<br />
Labs [33], un concept de lieu ouvert que nous vous invitons à<br />
préciser et discuter avec nous. Nous avons besoin d’organiser collectivement<br />
les formes d’appropriation culturelles de ce Nouveau<br />
Monde dans lequel nous pénétrons. Nous avons besoin plus que<br />
jamais d’espaces pour le comprendre, ensemble.<br />
Remerciements<br />
Cette présentation puise dans de nombreux articles présentés sur<br />
InternetActu.net [34] et en partie compilés dans Un Monde de<br />
données [35], un livre numérique de la collection Washing Machine<br />
[36] disponible chez tous les libraires électroniques.<br />
Références<br />
[1] Semaine européenne de l’Open Data: www.opendataweek.<br />
org/<br />
[2] www.internetactu.net/2012/06/01/vers-un-nouveaumonde-de-donnees/<br />
[3] Clive Humby: ana.blogs.com/maestros/2006/11/data_is_<br />
the_new.html<br />
[4] Concept de Web²: www.internetactu.net/2009/09/01/le-<br />
Web-a-la-puissance-2-le-Web-20-cinq-ans-plus-tard/<br />
[5] Stephen Gold d’IBM: t.co/1kPp4YyJ<br />
[6] John Battelle: battellemedia.com/archives/2003/11/the_database_of_intentions.php
Vers un Nouveau Monde de données<br />
[7] Adam Greenfield www.internetactu.net/2007/12/21/comment-proteger-notre-vie-privee-dans-un-monde-ou-latracabilite-explose/<br />
[8] Alexis Madrigal: www.internetactu.net/2012/04/26/les-limites-du-ciblage-publicitaire-personnalise/<br />
[9] David Eaves: eaves.ca/2012/03/29/next-generation-opendata-personal-data-access/<br />
[10] www.youtube.com/watch ?v=9c6W4CCU9M4<br />
[11] Projet Google Glass: https://plus.google.<br />
com/111626127367496192147/posts<br />
[12] Vidéo sur l’interaction avec la publicité: www.youtube.com/<br />
watch ?v=_mRF0rBXIeg&feature=youtu.be<br />
[13] Logs d’AOL: www.internetactu.net/2006/09/07/a-qui-appartiennent-mes-logs/<br />
[14] Idendification des personnages de Star Trek: www.technovelgy.com/ct/Science-Fiction-News.asp<br />
?NewsNum=2262<br />
[15] La fin des données personnelles: www.internetactu.<br />
net/2009/09/21/critique-du-web²-34-toutes-les-donneessont-devenues-personnelles/<br />
[16] SceneTAP: www.scenetap.com/<br />
[17] L’Internet des API: www.internetactu.net/2011/06/21/comprendre-facebook-33-linternet-des-api-le-Web-des-applications/<br />
[18] Économie des API: www.slideshare.net/3scale/the-api-economy-api-provider-perspective-european-identity-summit-2012<br />
[19] Ashtmapolis: asthmapolis.com/<br />
[20] Exemple de lunettes: www.internetactu.net/2011/09/15/<br />
augmenter-notre-intelligence-emotionnelle/<br />
[21] Groupe de recherche sur l’<strong>informatique</strong> affective au MIT:<br />
affect.media.mit.edu/<br />
GLOSSAIRE &<br />
API ( Application Programming Interface):<br />
interface fournie par un programme<br />
<strong>informatique</strong> qui permet l’interaction des<br />
programmes les uns avec les autres,<br />
de manière analogue à une interface<br />
homme-machine, qui rend possible<br />
l’interaction entre un homme et une<br />
machine. W<br />
Big Data: expression anglophone utilisée<br />
pour désigner des ensembles de données<br />
qui deviennent tellement volumineux<br />
qu’ils en deviennent difficiles à<br />
travailler avec des outils classiques de<br />
gestion de base de données. Dans ces<br />
nouveaux ordres de grandeur, la capture,<br />
le stockage, la recherche, le partage,<br />
l’analyse et la visualisation des données<br />
doivent être redéfinis. Les perspec-<br />
[22] Usahidi: ushahidi.com/<br />
[23] www.fixmystreet.com/<br />
[24] Leon à Mérignac: leon.merignac.com/<br />
[25] Ces algorithmes qui nous gouvernent: www.internetactu.<br />
net/2012/01/05/reseaux-sociaux-33-ces-algorithmes-quinous-gouvernent/<br />
[26] Voiture sans conducteur: www.numerama.com/magazine/21736-les-voitures-sans-conducteur-arrivent-au-nevada.html<br />
[27] www.wired.com/magazine/2012/01/ff_autonomouscars/all/1<br />
[28] Vers des produits de données: www.internetactu.<br />
net/2011/10/04/vers-des-produits-de-donnees/<br />
[29] www.internetactu.net/2009/11/18/la-capacite-predictivede-nos-systemes-socio-techniques-va-t-elle-tuer-notrelibre-arbitre/<br />
[30] Identités actives: fing.org/ ?-Identites-actives-<br />
[31] Electronic Frontier Foundation: https://www.eff.org/wp/<br />
locational-privacy<br />
[32] Que faire face à la puissance des données: www.internetactu.net/2009/10/26/critiques-du-web²-44-que-faire-face-ala-puissance-des-donnees/<br />
[33] Info Labs: www.internetactu.net/2012/05/15/avons-nousbesoin-dinfo-labs/<br />
[34] InternetActu: www.internetactu.net/<br />
[35] Un Monde de données: www.publie.net/fr/<br />
ebook/9782814505063/un-monde-de-données<br />
[36] Washing Machine: www.publie.net/fr/list/collection-3587<br />
-washing-machine/page/1/date n<br />
tives du traitement des big data sont<br />
énormes, notamment pour l’analyse<br />
d’opinions ou de tendances industrielles,<br />
la génomique, l’épidémiologie<br />
ou la sécurité. W<br />
mashup: application composite dont le<br />
contenu provient de la combinaison de<br />
plusieurs sources d’information.<br />
W = tiré de Wikipédia<br />
SPÉCIAL ÉTÉ – D – 21 AOÛT 2012<br />
31
32<br />
The laboratory notebook is an essential tool in research.<br />
It allows experimental follow-up and data<br />
organization. This article aims to present its evolution<br />
towards the electronic era and to introduce the<br />
<strong>EPFL</strong> campus-wide project focusing on improving<br />
the research data management.<br />
Le cahier de laboratoire est un outil clef du travail<br />
de recherche. Il permet le suivi des expériences et<br />
l’organisation des résultats. Cet article a pour but de<br />
présenter son évolution vers l’ère de l’<strong>informatique</strong><br />
et d’introduire le projet d’amélioration de la gestion<br />
des données de recherche actuellement en cours à<br />
l’<strong>EPFL</strong>.<br />
Contexte du projet à l’<strong>EPFL</strong><br />
Dans cet article, nous nous concentrerons sur un projet initié par<br />
le Doyen à la Recherche, Prof. Benoît Deveaud-Plédran en collaboration<br />
avec le Doyen de la Faculté des Sciences de la Vie, Prof.<br />
Didier Trono. L’objectif vise à améliorer la gestion des données de<br />
recherche dans l’environnement académique.<br />
Le problème de base s’articule autour de la forte augmentation<br />
des volumes de données générées par la recherche et de leur organisation.<br />
Le besoin est particulièrement fort dans les sciences<br />
de la vie, principalement dû aux limites pratiques du cahier de<br />
laboratoire traditionnel, cet outil indispensable aux scientifiqueschercheurs-explorateurs<br />
pour mémoriser leur savoir.<br />
Le CSIN, Coordination des Systèmes d’INformation, est en charge<br />
de mener à bien ce projet en proposant des solutions <strong>informatique</strong>s<br />
de type ELN (Electronic Lab Notebook) et LIMS (Laboratory<br />
Information Mangement System).<br />
Ce projet exploratoire permettra d’acquérir de l’expérience afin de<br />
réitérer la démarche dans d’autres facultés.<br />
En mars 2012, le CSIN a procédé à une première phase d’analyse<br />
auprès de 27 laboratoires des SV. Cette première étape a permis de<br />
distinguer plus précisément les problèmes actuels et leurs conséquences.<br />
Les prochaines étapes consisteront à identifier et évaluer<br />
une sélection de logiciels répondant aux besoins des chercheurs<br />
en Sciences de la Vie. Dès le mois d’octobre 2012 et avec le soutien<br />
technique du DIT, cinq laboratoires pilotes pourront tester un<br />
logiciel de leur choix en conditions réelles.<br />
L’analyse sur le terrain<br />
La Faculté SV fait face à une explosion des volumes de données<br />
<strong>informatique</strong>s. Les nouveaux équipements de recherche, de plus<br />
flash <strong>informatique</strong><br />
Données de recherche et cahier<br />
de laboratoire<br />
Gael.Anex@epfl.ch, <strong>EPFL</strong> - Coordination des systèmes d’information, responsable du projet gestion des données de recherche<br />
en plus performants, génèrent de grandes quantités de données.<br />
L’avènement de la génomique et des séquenceurs ADN à haut<br />
débit révolutionne la recherche sur le vivant et les perspectives<br />
de découvertes. D’autres domaines sont également d’importants<br />
générateurs de données. Par exemple l’imagerie avec les nouveaux<br />
équipements de microscopie et d’imagerie médicale où la protéomique<br />
avec les spectromètres de masse sont également d’importants<br />
générateurs de données.<br />
L’évolution de ces équipements n’est pas sans conséquence. Les<br />
besoins en terme de calculs et traitements s’amplifient. Les supercalculateurs<br />
(HPC) et les compétences des bio-informaticiens sont<br />
indispensables aujourd’hui pour interpréter les données produites.<br />
Parallèlement aux traitements, les ressources en terme de stockage<br />
deviennent très importantes. Le SV-IT, service <strong>informatique</strong><br />
de proximité, propose des espaces de stockage de qualité professionnelle<br />
pour la conservation ainsi que le backup des données<br />
(sv-it.epfl.ch/page-8073-fr.html).<br />
Le volume officiellement utilisé pour tous les laboratoires SV est<br />
d’environ 65 To. De plus, des données de recherche sont également<br />
gérées dans l’environnement Vital-IT du Swiss Institute<br />
Bioinformatics (www.vital-it.ch).<br />
Or, l’analyse au sein des laboratoires visités (27) a mis à la lumière<br />
plus de 500 To dispersés sur des supports de stockage tels que CD,<br />
DVD, disques durs internes et externes, NAS locaux et autres fournisseurs<br />
d’espaces de stockage indépendants de l’<strong>EPFL</strong>.<br />
Devant les importants volumes de données à conserver et la<br />
charge financière que cela représenterait, les laboratoires se sont<br />
tournés vers des systèmes de stockage grand public, car meilleur<br />
marché. Malheureusement, les performances sont limitées ou inadaptées<br />
aux besoins et les taux de panne sont élevés, générant des<br />
catastrophes humaines et des scènes de désolation devant des<br />
disques durs inertes ou autres DVD illisibles contenant les années<br />
de travail de l’utilisateur.<br />
En plus des besoins en ressources <strong>informatique</strong>s performantes<br />
liées au traitement et au stockage, les laboratoires SV font également<br />
face à des problèmes d’organisation logique ou scientifique<br />
des données <strong>informatique</strong>s.<br />
L’organisation des données<br />
Le cahier de laboratoire est l’outil principal pour organiser les<br />
informations de recherches. Aujourd’hui au format papier, il est<br />
(ou devrait être) utilisé par tous les chercheurs pour dire ce qu’il<br />
fait, faire ce qu’il dit et prouver ce qu’il a fait. C’est un élément<br />
d’excellence sur le plan des pratiques de la recherche qui peut être<br />
perçu sous différents angles:
Données de recherche et cahier de laboratoire<br />
Scientifique<br />
C’est un élément de mémoire et de transfert de connaissances<br />
en interne, preuve du savoir-faire du laboratoire et permettant<br />
d’établir sa compétence.<br />
Traçabilité<br />
C’est un élément indispensable à une démarche qualité, preuve<br />
du professionnalisme du chercheur au sein de la communauté<br />
scientifique, permettant de répondre à des exigences règlementaires<br />
et de garantir la traçabilité des résultats.<br />
Juridique<br />
C’est un élément de protection de la propriété intellectuelle,<br />
preuve du savoir-faire du laboratoire à une date précise permettant<br />
la signature de contrat, le dépôt de brevets ou la résolution<br />
de litige.<br />
Pour simplifier, le cahier de laboratoire permet de lier les informations<br />
de recherche, les conditions d’expérimentation et les résultats<br />
obtenus dans un ou plusieurs documents.<br />
Voici un exemple d’évolution d’un équipement de recherche:<br />
Les limites du cahier papier traditionnel<br />
Si le cahier de laboratoire traduit une volonté de partage et de<br />
mémorisation de l’information au sein du laboratoire et de la<br />
communauté scientifique, il présente un certain nombre de limites<br />
difficilement surmontables et dont les évolutions technologies<br />
des équipements amplifient les effets.<br />
Le chercheur devant le plus souvent traiter des résultats obtenus<br />
de divers appareillages via des outils <strong>informatique</strong>s, le cahier<br />
papier n’est donc plus utilisable directement. Il n’y a plus de continuité<br />
entre les données extraites de l’équipement (données primaires),<br />
les données traitées (données secondaires) et les résultats<br />
finaux (données concluantes), d’où un problème d’organisation<br />
des données de traçabilité des informations.<br />
Une autre limitation se situe au niveau de la retranscription,<br />
parfois fastidieuse, des résultats issus des appareils de mesure.<br />
L’efficacité et la qualité de la rédaction sont limitées, car le cahier<br />
papier demande de convertir toutes les données dans un format<br />
papier. Si aujourd’hui un tableau Excel imprimé peut encore être<br />
collé sur une page de cahier, il n’est pas possible d’imprimer et de<br />
coller avec un tube de colle des images hautes résolutions, des<br />
séquences ADN, des vidéos, des sons, ou autres analyses spectrométriques.<br />
un microscope en 1743 et en 2012<br />
et voici comment a évolué le cahier de laboratoire:<br />
en 1743 et en 2012<br />
SPÉCIAL ÉTÉ – D – 21 AOÛT 2012<br />
33
Données de recherche et cahier de laboratoire<br />
De plus, les cahiers papier sont dégradables et leur sécurité tient<br />
à des bonnes pratiques de laboratoires (GLP – Good Laboratory<br />
Practice), d’utilisation et de conservation. D’un poinr de vue réglementaire,<br />
l’authentification de chaque passage du cahier peut se<br />
révéler très contraignante avec un flux de signatures/validations<br />
rarement accompli selon les règles de l’art.<br />
La rédaction d’articles est souvent un pénible travail de recherche<br />
documentaire dans de nombreux cahiers papier, parfois<br />
difficilement interprétable. Et quand vient le moment de retrouver<br />
des données <strong>informatique</strong>s relatives à un passage du cahier de<br />
labo prouvant un résultat important, il faut s’armer de patience et<br />
fouiller dans les données dispersées sur une multitude de supports<br />
<strong>informatique</strong>s, processus pouvant être long et décourageant.<br />
À noter que le partage et la réutilisation des données sont quasiment<br />
impossibles, car liés au raisonnement, au style rédactionnel,<br />
à l’écriture de chacun et à l’éventuelle accessibilité des cahiers<br />
archivés par les précédents chercheurs.<br />
Il en résulte un manque d’homogénéité général et une réelle<br />
difficulté à effectuer des recherches dans les nombreux travaux<br />
archivés, d’où une capitalisation et une valorisation limitées du<br />
savoir.<br />
Les conséquences sont multiples, par exemple:<br />
z la perte des données primaires et secondaires,<br />
z l’incapacité à reproduire une expérience,<br />
z la perte des connaissances acquises durant les travaux de<br />
recherche,<br />
z le gaspillage de ressources financières et matérielles pour régénérer<br />
les données perdues,<br />
z la difficulté à rassembler les données pour la rédaction d’articles,<br />
en cas de conflits (preuves) ou pour le dépôt de brevets.<br />
Ces conséquences influencent la qualité de la recherche. Aux<br />
États-Unis par exemple, les agences de fonds l’ont bien compris et<br />
deviennent de plus en plus pointilleuses par rapport à ces notions<br />
de gestion des données. Depuis le 18 janvier 2011, le NSF (National<br />
Science Foundation), www.nsf.gov/eng/general/dmp.jsp) exige<br />
des candidats de prévoir une description et une planification des<br />
méthodes de gestion des données <strong>informatique</strong>s qui seraient générées<br />
grâce à l’éventuelle obtention du fonds.<br />
Les solutions électroniques<br />
Les laboratoires industriels sont les premiers à développer des solutions<br />
pour répondre à ces problèmes de gestion. Dès les années<br />
1990, des prototypes de cahiers de laboratoires électroniques sont<br />
apparus. Ils n’ont pas obtenu le succès escompté du fait de la<br />
lourdeur de leur implémentation et de la complexité de leur fonctionnement.<br />
En 1995, à l’initiative d’une dizaine de sociétés pharmaceutiques,<br />
des standards ont été définis et le développement des ELN (Electronic<br />
Laboratory Notebook) a été initié. Le développement des<br />
technologies <strong>informatique</strong>s, notamment sur le Web, a permis de<br />
commercialiser une seconde génération d’ELN plus souples et<br />
efficaces.<br />
Parallèlement, la publication de la première <strong>version</strong> du 21CFR<br />
Part 11 par la FDA (Food and Drug Administration aux USA) trai-<br />
34 flash <strong>informatique</strong><br />
tant de la gestion des enregistrements et de la signature électronique,<br />
a fortement incité l’industrie pharmaceutique à adopter un<br />
environnement <strong>informatique</strong> de travail moderne et sécurisé.<br />
Au début des années 2000 apparaissent les premières solutions<br />
clefs en main commercialisées principalement pour les secteurs<br />
de la chimie médicinale et les sites de développement des grandes<br />
entreprises pharma. Les ELN étaient alors très spécialisés sur un<br />
métier et inadaptés au large secteur de la R&D.<br />
Avec l’éclatement de la bulle Internet et la crise de l’<strong>informatique</strong><br />
des années 2001 – 2003, les projets de développement d’ELN ont<br />
été considérablement ralentis. Mais, dès 2004, avec l’accroissement<br />
des budgets liés à la gestion des données issues de la R&D,<br />
un fort développement de l’activité du marché des solutions <strong>informatique</strong>s<br />
pour le marché des sciences de la vie et de la chimie<br />
a permis de faire évoluer les ELN vers des solutions plus performantes.<br />
Le marché des ELN se développe depuis 2005 de 30% à 40% par<br />
année. La chimie médicinale n’est plus le seul domaine abordé par<br />
les ELN et d’autres domaines comme la biotechnologie peuvent<br />
aujourd’hui trouver des solutions à leurs besoins. Le marché de<br />
l’ELN représentait en 2011 environ 50 millions de dollars, mais<br />
reste en deçà des 450 millions de dollars de ventes annuelles<br />
d’autres solutions <strong>informatique</strong>s comme les LIMS (Laboratory<br />
Information Management System), sujet que nous aborderons un<br />
peu plus loin dans cet article.<br />
Les avantages du cahier de laboratoire<br />
électronique<br />
Quel que soit le domaine de recherche, le cahier de laboratoire<br />
électronique est un outil qui permet à l’utilisateur d’enregistrer au<br />
quotidien tous ses travaux, d’assurer la traçabilité de l’expérimentation<br />
scientifique, de l’idée à la conclusion.<br />
L’ELN facilite la création, la formalisation, l’organisation, l’accès et<br />
le partage des données de recherche électroniques en se conformant<br />
aux normes légales, réglementaires et scientifiques.<br />
Il s’appuie sur une infrastructure de stockage <strong>informatique</strong> centralisée<br />
et évolutive dont l’utilisateur n’a plus à ce soucier. Fini les<br />
crises de nerfs dues aux disques durs externes récalcitrants, aux<br />
commandes Shell barbares ou aux fastidieux transferts de données<br />
manuels d’un ordinateur à l’autre.<br />
Les avantages:<br />
z enregistrer électroniquement les travaux effectués pour un<br />
projet de recherche;<br />
z offrir un accès centralisé à toutes les données liées à une expérience;<br />
z être consulté à distance (via le Web);<br />
z fluidifier les flux d’informations (collecte, organisation et restitution);<br />
z accéder rapidement à l’information (indexation et outils de<br />
recherche);<br />
z faciliter la rédaction de comptes rendus, de synthèses et de<br />
rapports scientifiques;<br />
z standardiser les descriptions des expériences et la saisie des<br />
informations;
Données de recherche et cahier de laboratoire<br />
z assurer la traçabilité des données <strong>informatique</strong>s;<br />
z réduire les risques associés au support papier;<br />
z assurer une organisation pérenne des données.<br />
L’utilisation de logiciels de type ELN permettrait d’améliorer l’organisation<br />
des données, la gestion des connaissances et de garantir<br />
la pérennité du savoir-faire au sein des laboratoires.<br />
Le LIMS, complément indispensable en<br />
Sciences de la Vie<br />
L’informatisation à grande échelle dans la R&D et en particulier<br />
dans les Sciences du Vivant a permis le développement de logiciels<br />
LIMS (Laboratory Information Management System). Les premiers<br />
LIMS apparaissent en 1980 avec comme objectif d’assurer le suivi<br />
des échantillons de laboratoire. Rapidement adoptés par l’industrie,<br />
ils assurent la traçabilité et une grande reproductibilité par<br />
l’utilisation de processus normalisés.<br />
Le LIMS devient alors indispensable pour un suivi efficace des produits<br />
ou échantillons sur l’ensemble des phases d’élaboration dans<br />
un labo.<br />
En perpétuelle évolution, les solutions LIMS intègrent aujourd’hui<br />
des fonctionnalités comme:<br />
z la gestion des échantillons;<br />
z la gestion des protocoles de laboratoire;<br />
z des outils d’analyses de résultats;<br />
z des outils de reporting;<br />
z des possibilités de connexion avec d’autres systèmes d’informations<br />
scientifiques (ELN ou logiciels d’analyse de données);<br />
z l’intégration des flux de données des équipements;<br />
z des bases de données centralisées (plasmids, oligos, chimiques,<br />
protéines, etc.);<br />
z la gestion de l’inventaire du laboratoire;<br />
z la gestion des achats de consommables.<br />
z la gestion des stocks.<br />
Les évolutions des LIMS tendent à créer des chevauchements avec<br />
certaines fonctionnalités des ELN. Cette con<strong>version</strong> fonctionnelle<br />
assez récente permet d’envisager, à court terme, une fusion de ces<br />
deux systèmes.<br />
Le plus important à retenir est que le LIMS reste principalement<br />
centré sur les échantillons et leur analyse, alors que l’ELN, plus<br />
global, est dédié aux expériences et permet d’en tracer la conception,<br />
le suivi, la méthodologie d’analyse et l’interprétation des résultats.<br />
L’ELN assure également la structuration des informations<br />
et des données <strong>informatique</strong>s, il garantit ainsi une réutilisabilité<br />
des informations aux chercheurs.<br />
Les principales difficultés à surmonter<br />
Malgré les bénéfices envisageables de l’utilisation d’outils <strong>informatique</strong>s<br />
de gestion (ELN ou LIMS) et de la nécessité d’évoluer<br />
vers des systèmes informatisés, un long chemin reste à parcourir<br />
et des obstacles restent à surmonter avant de généraliser leur utilisation<br />
au sein de notre environnement académique. Par exemple:<br />
z la grande variété de domaines que devraient couvrir les solutions<br />
<strong>informatique</strong>s;<br />
z la standardisation des processus de recherche (sans nuire à la<br />
créativité);<br />
z l’opinion de l’utilisateur globalement satisfait du papier;<br />
z la méconnaissance des améliorations qu’ameneraient des outils<br />
<strong>informatique</strong>s;<br />
z les aspects humains, réticences aux changements, effets Big<br />
Brother;<br />
z le manque de recul et la peur de l’inconnu.<br />
La transition du système papier, colle et stylo vers des systèmes<br />
électroniques demandera du temps et d’importantes collaborations<br />
entre communauté scientifique et les services <strong>informatique</strong>s.<br />
La suite du projet<br />
L’analyse sur le terrain a mis en exergue la complexité du sujet,<br />
mêlant règlements sur les processus de recherche, respects<br />
des principes organisationnels, normalisation de l’information<br />
scientifique, outils <strong>informatique</strong>s et… facteurs humains.<br />
Différentes mesures sont en cours d’élaboration, notamment la<br />
création d’un règlement sur la gestion des données de recherche<br />
au niveau de l’<strong>EPFL</strong> définissant par exemple la période minimale<br />
de conservation des données, les conditions cadres et les moyens<br />
à disposition.<br />
Le DIT et le CSIN travaillent à l’identification d’une solution de<br />
stockage <strong>informatique</strong> centralisée, mutualisée et évolutive répondant<br />
aux nouveaux besoins de stockage.<br />
En octobre 2012, afin de mieux cerner les améliorations qu’offrent<br />
les ELN et les LIMS, nous procéderons à une phase pilote auprès<br />
de cinq laboratoires de la Faculté des Sciences de la Vie. Impliqués<br />
dès l’étape de sélection du logiciel, les membres des laboratoires<br />
pourront utiliser une solution en conditions réelles durant une<br />
période de 4 à 5 mois<br />
Les conclusions de cette évaluation seront rendues pour la fin<br />
février 2013.<br />
L’expérience acquise durant cette phase à caractère exploratoire<br />
sera très utile pour l’implémentation ultérieure d’outils <strong>informatique</strong>s<br />
au sein d’autres facultés intéressées par cette démarche<br />
d’amélioration de la gestion des données de recherche.<br />
Si le sujet a piqué votre curiosité, nous nous tenons à votre disposition<br />
pour plus d’informations ou pour procéder à une analyse<br />
approfondie de la situation dans votre laboratoire. Vos expériences,<br />
conseils et remarques seront les bienvenus. n<br />
SPÉCIAL ÉTÉ – D – 21 AOÛT 2012<br />
35
36<br />
Cloud Computing techniques have the potential to<br />
address data- and compute-intensive challenges in<br />
academic research and education, for example in<br />
the field of scientific data life cycle management.<br />
However, it currently raises new issues in the fields<br />
of laws and regulations, economics, dependency<br />
and loss of control. Could national or communityspecific<br />
approaches help make this technology palatable?<br />
Les techniques du Cloud Computing sont prometteuses<br />
pour répondre aux défis modernes de l’IT académique<br />
comme ceux du cycle de vie (accès, traitement,<br />
sauvegarde) de l’information scientifique.<br />
Mais elles apportent leur lot de problèmes légaux,<br />
économiques ainsi que de dépendance et de perte<br />
de contrôle. Est-ce qu’une approche nationale ou<br />
communautaire pourrait nous aider à bénéficier du<br />
cloud?<br />
Les services basés sur le modèle du cloud [1] sont largement répandus<br />
dans le monde universitaire: qui n’utilise pas d’engins de<br />
recherche tels que Google ou Bing ? De nombreux étudiants partagent<br />
des fichiers sur des services comme Dropbox. L’utilisation<br />
d’outils de collaboration tels que Gmail ou Skype ou de réseaux<br />
sociaux en ligne comme Facebook ou LinkedIn<br />
ne se limite plus à la vie privée. Quelques<br />
chercheurs curieux ont déjà trouvé que, munis<br />
d’une simple carte de crédit, ils peuvent créer<br />
des systèmes impressionnants et stocker des<br />
quantités énormes de données sur des services<br />
comme l’AWS de Amazon, Azure de Microsoft,<br />
Google App Engine/Google Compute Engine et<br />
j’en passe.<br />
Soucis de perte de contrôle<br />
Si les services cloud sont très utiles et agréables<br />
à utiliser, il reste souvent un sentiment de malaise<br />
chez l’utilisatrice ou l’utilisateur. Parmi les<br />
questions qu’on peut se poser, citons:<br />
Où sont mes données ?<br />
Savoir où se trouve ce à quoi l’on tient apporte<br />
toujours un certain réconfort. C’est la même<br />
chose pour les données importantes … même<br />
si on ne peut pas être à 100% sûr que le disque<br />
que l’on tient dans sa main sera effectivement<br />
flash <strong>informatique</strong><br />
Cloud,<br />
une question de confiance<br />
Simon.Leinen@switch.ch, team leader, Peta-Solutions, SWITCH<br />
lisible au moment opportun. Dans le cloud, le lieu de stockage<br />
est diffus, quasiment par définition. Un autre aspect de lieux<br />
concerne le cadre légal, dont je vais parler plus loin.<br />
Qui a accès à mes données ?<br />
Dans mon institution, je peux savoir (au moins approximativement)<br />
qui a la possibilité d’accès aux données que je stocke sur les<br />
systèmes, et en estimer les risques. Dans le cloud, cela n’est guère<br />
transparent.<br />
À part les opérateurs du service, on peut se soucier également des<br />
tiers qui ont des désirs plus ou moins légitimes de fouiller dans ces<br />
données. Dans ce contexte, on entend souvent parler du USA PA-<br />
TRIOT act qui donne aux organismes (américains) d’application de<br />
la loi des pouvoirs assez larges et discrets sur les données gérées<br />
par des sociétés américaines au sens large [2]. Il faut dire que les<br />
lois dans la plupart des pays européens confèrent des privilèges<br />
similaires à leurs autorités respectives [3].<br />
Qui va m’aider en cas de soucis ?<br />
L’efficacité et l’économie des services cloud sont dues en grande<br />
partie à un niveau très élevé d’automatisation. Le service à la<br />
clientèle traditionnel — c’est-à-dire par des êtres humains — est<br />
un peu contradictoire avec ce modèle.<br />
Qui va payer la facture ?<br />
Un grand nombre de services cloud sont offerts sans rémunération,<br />
ce qui est au premier abord fort sympathique. Mais fournir<br />
intérieur du Centre de traitement de données de Facebook à Prineville dans l’Oregon. Photographie de<br />
Alan Brandt
Cloud, une question de confiance<br />
des services a un coût, et les fournisseurs de services veulent, pour<br />
la plupart, que cela rapporte; on peut ainsi se demander qui joue<br />
le rôle du client. Certains disent que l’utilisateur n’est en fait pas<br />
le client, mais la marchandise que le fournisseur vend à ses vrais<br />
clients, ceux qui payent pour la publicité. En fait la marchandise,<br />
c’est l’attention de l’utilisateur et/ou des informations démographiques,<br />
qui peuvent être d’une précision assez surprenante,<br />
incluant des informations sur son comportement qu’on aurait<br />
tendance à considérer confidentielles.<br />
Le cloud sera-t-il encore là pour moi demain ?<br />
Ce qui nous mène à des questions de pérennité. Même si l’on<br />
accepte l’affichage de publicité et des intrusions dans sa sphère<br />
privée, il reste un risque si le business case ne fonctionne pas: soit<br />
le service qu’on a commencé à apprécier devient soudain payant,<br />
soit le fournisseur se voit obligé de trouver d’autres moyens<br />
d’y trouver son compte, qui risquent de changer les conditions<br />
d’usage en défaveur de l’utilisateur. Ou bien le service disparaît<br />
tout simplement; en donnant assez de temps aux utilisateurs d’en<br />
extraire leurs données, on l’espère, et si possible, sous une forme<br />
utilisable ailleurs.<br />
Solution: un cloud à moi tout seul ?<br />
Tout cela peut paraître bien inquiétant, et certains vont se dire<br />
qu’il vaut mieux éviter tous ces risques en construisant des clouds<br />
privés (private clouds). Ceux-ci épousent les principes techniques<br />
des grands clouds publics: virtualisation, gestion automatisée,<br />
interfaces self-service; mais dans le contexte d’une entreprise.<br />
Aujourd’hui, presque tous les grands fournisseurs de matériel<br />
<strong>informatique</strong> pour l’entreprise vendent ce type de solutions: HP,<br />
IBM, Dell, Cisco, EMC² et autres.<br />
Mais en choisissant cette alternative, on risque de passer à côté<br />
d’une grande partie des avantages: l’échelle sera forcément limitée,<br />
les prix vont plutôt ressembler aux systèmes high-end, et l’accès<br />
depuis l’extérieur sera entravé par les firewalls, ce qui ne facilite<br />
pas les applications partagées avec le monde hors entreprise, y<br />
compris des employés qui sont prêts à travailler depuis l’extérieur.<br />
Surtout, on n’arrive pas à se débarrasser d’une grande partie du<br />
travail qu’on devrait peut-être outsourcer à des spécialistes afin<br />
de mieux pouvoir se concentrer sur le cœur de son métier.<br />
Et si un peu de perte de contrôle, ça en<br />
valait la peine ?<br />
Si on revisite les questions du début de l’article avec objectivité,<br />
il y a pour chaque question des arguments allant dans le sens<br />
inverse:<br />
Où sont mes données ?<br />
Les données dans le cloud sont vraisemblablement mieux protégées<br />
— entre autres grâce à la distribution spatiale — que celles<br />
qu’on garde près de soi.<br />
Qui a accès ?<br />
Les personnes qui font tourner le cloud sont des professionnels<br />
avec un sens éthique élevé, et à qui leurs employeurs, pour leur<br />
propre intérêt, ont instauré des règles strictes sur l’accès aux données<br />
de leurs clients, avec des mécanismes de protection et d’audit.<br />
Dans la plupart des entreprises, ces mécanismes sont encore<br />
lacunaires, ce qui confère un grand pouvoir, et donc une grande<br />
responsabilité, aux super users.<br />
Qui va m’aider ?<br />
Les systèmes grand public sont généralement assez conviviaux,<br />
surtout quand ils ont de la concurrence. Et vous pourrez sans<br />
doute trouver assistance dans des forums ou auprès de connaissances.<br />
Qui paie ?<br />
Il y a souvent la possibilité, surtout pour les entreprises, d’avoir<br />
un accès payant sans publicité, et même avec du support humain.<br />
Sur la question de la pérennité, ce n’est pas si problématique dans<br />
des segments du marché où la concurrence fonctionne. Et les<br />
solutions in-house ont leur lot de risques, surtout quand ils dépendent<br />
de personnes qui vont un jour vous quitter, par exemple<br />
salle de stokage du DIT à la fin du 20ème siècle; bandes magnétiques et cartouches sont alignées à perte de vue<br />
SPÉCIAL ÉTÉ – D – 21 AOÛT 2012<br />
37
Cloud, une question de confiance<br />
quand elles finissent leur thèse. Notons qu’une objectivité totale<br />
est mal placée ici: à risques égaux, on va préférer les risques anciens,<br />
qu’on a en quelque sorte apprivoisés, aux risques nouveaux,<br />
plus difficiles à évaluer faute d’expérience.<br />
Au fond, faire confiance et déléguer des responsabilités à des tiers,<br />
c’est une base du progrès de notre société vers le partage de travail<br />
et la spécialisation. On peut y regretter le danger d’aliénation,<br />
mais il faut avouer que ce développement nous a apporté pas<br />
mal d’avantages, et de toute façon il semble difficile à stopper.<br />
Comme nous avons appris à confier notre argent aux banques,<br />
et nos vies à des médecins, pilotes etc., on va peut-être finir par<br />
céder nos données même les plus importantes à des spécialistes<br />
anonymes. Mais ce sera un long processus, et on aimerait éviter<br />
les trop grosses bourdes, si possible.<br />
Archivage des données scientifiques: vers<br />
un cloud académique suisse ?<br />
Un des grands défis pour l’université est la gestion de la connaissance<br />
sous forme numérique. Ceci ne comprend pas seulement<br />
les e-publications, mais aussi les données primaires et secondaires<br />
utilisées dans leur production. La situation actuelle est insatisfaisante<br />
à plus d’un égard: les données générées par des scientifiques,<br />
souvent à grands coûts et efforts, sont trop rarement partagées<br />
avec d’autres chercheurs, et se perdent trop souvent après la fin<br />
d’un projet ou d’une thèse, faute de moyens et de motivation.<br />
Même quand les données sont conservées, il est souvent difficile<br />
de les utiliser, soit à cause des formats problématiques, soit pour<br />
des raisons logistiques.<br />
La CUS (conférence universitaire suisse) va lancer un projet 2013-<br />
2016 sous le nom Information scientifique: accès, traitement<br />
et sauvegarde pour étudier cette problématique.<br />
Les solutions cloud ont beaucoup de potentiel comme infrastructure<br />
de base pour une gestion améliorée de données scientifiques:<br />
elles pourraient fournir de la capacité de stockage économe, accessible<br />
à travers l’Internet sans entraves de bande passante limitée,<br />
liée avec des possibilités de traitement sur place, par exemple<br />
sous la forme de services de location de VM (machines virtuelles).<br />
Pour des raisons de souveraineté, il est souhaité que ces infrastructures<br />
soient sous contrôle suisse. C’est une belle occasion pour<br />
l’ensemble des universités d’étudier différentes options pour se<br />
doter d’une telle infrastructure: avec des partenaires industriels,<br />
en fédérant les private clouds émergeant des universités, ou pourquoi<br />
pas en mandatant une organisation commune, comme cela<br />
s’est fait avec SWITCH pour le réseau académique voilà presque<br />
25 ans. Quel que soit le résultat, SWITCH est prêt à assister les<br />
universités dans leurs choix, en vue de trouver une solution — qui<br />
sera forcément un compromis — correspondant aux critères techniques,<br />
économiques et de gouvernance.<br />
Un tel cloud suisse, encore plus s’il est contrôlé par les Hautes<br />
Écoles, pourrait aider à surmonter les inhibitions que de nombreuses<br />
universités ont par rapport au cloud, pour des raisons<br />
légales, mais aussi de contrôle. Il reste à espérer que cela ne va pas<br />
mener à un nouveau réduit helvétique, mais nous aider à maitriser<br />
cette technologie afin de pouvoir mieux bénéficier des atouts des<br />
grands clouds industriels, ainsi que de contribuer à la stratégie<br />
cloud au niveau européen [4].<br />
38 flash <strong>informatique</strong><br />
Références<br />
[1] Quand cet article parle du cloud, je focalise sur des caractéristiques<br />
suivantes: des systèmes matériels/logiciels d’un<br />
ensemble d’équipements consumer-grade — donc bon<br />
marché grâce à l’échelle et la compétitivité du marché —<br />
sous une gestion centralisée et hautement automatisée,<br />
permettant une grande évolutivité (scalability); basés sur<br />
ce genre d’infrastructures, des services grand public et<br />
accessibles par Internet, qui sont financés par la publicité,<br />
facturés à l’usage, ou soutenus par des modèles hybrides<br />
style freemium. Pour une définition plus rigoureuse de<br />
Cloud Computing, il y a l’excellent travail de NIST (NIST<br />
SP800-145, nist.gov).<br />
[2] Cette loi concerne toutes les sociétés qui ont une attache<br />
aux États-Unis, et également si les données sont stockées<br />
en dehors du territoire américain, Microsoft et Google<br />
ont dû clarifier ce point: www.zdnet.com/blog/igeneration/<br />
microsoft-admits-patriot-act-can-access-eu-based-clouddata/11225<br />
et www.wiwo.de/politik/ausland/datenspeicherung-google-server-in-europa-vor-us-regierung-nicht-sicher/5156042.html.<br />
[3] Hogan Lovells. White Paper on Governmental Access<br />
to Data in the Cloud Debunks Faulty Assumption That<br />
US Access is Unique. May 2012. www.hldataprotection.<br />
com/2012/05/articles/international-eu-privacy/hogan-lovells-white-paper-on-governmental-access-to-data-inthe-cloud-debunks-faulty-assumption-that-us-access-isunique/.<br />
[4] KROES, Neelie. A European Cloud Strategy. Discours du 25<br />
juin 2012. europa.eu/rapid/pressReleasesAction.do ?aged=0<br />
&format=HTML&guiLanguage=en&language=EN&reference<br />
=SPEECH/12/490 n
Sérénité dans les nuages<br />
Laurent.Kling@epfl.ch, <strong>EPFL</strong> -STI, coordinateur <strong>informatique</strong> à la Faculté des Sciences et Techniques de l’Ingénieur<br />
Trust the clouds.<br />
How to use cloud computing without any security<br />
risk?<br />
Faites confiance aux nuages.<br />
Comment faire pour utiliser le Cloud computing sans<br />
risque pour la sécurité ?<br />
Avec l’été apparaît un florilège de questionnaires ludiques:<br />
z regardez-vous les nuages avant de sortir ?<br />
z faites-vous confiance aux prévisions météo ?<br />
z aimez-vous les cerfs-volants ?<br />
z prenez-vous les avions ?<br />
z êtes-vous en sécurité dans un vol transatlantique ?<br />
z connaissez-vous les nuages <strong>informatique</strong>s (Cloud) ?<br />
z utilisez-vous les nuages (Cloud) ?<br />
Notre horizon de travail s’élargit sans fin. Du terminal nous sommes<br />
passés à l’ordinateur individuel. Par la suite, nous sommes tombés<br />
dans la toile et ses multiples périphériques. Maintenant, on nous<br />
propose le Cloud comme lieu d’hébergement de nos données.<br />
Nuages noirs sur les données<br />
En feuilletant le dernier best-seller à l’ombre des palmiers, on retrouve<br />
la joie du farniente et la délectation de récupérer son livre<br />
maculé de protection solaire. Une fois sa lecture terminée, il finira<br />
peut-être sa course dans une valise ou sera abandonné dans la<br />
chambre d’hôtel, voire oublié dans l’avion.<br />
Si vous utilisez une tablette numérique pendant les vacances, le<br />
scénario est différent. Votre appareil résiste faiblement à l’intrusion<br />
du sable et à une immersion involontaire dans l’eau de mer. Il<br />
est également improbable que vous oubliiez l’appareil dans votre<br />
lieu de villégiature. La destruction du livre sera rapidement réalisée<br />
par un geste de votre doigt.<br />
La seule liaison de votre tablette est l’éther d’où vous téléchargez<br />
un jeu pour remplacer ce succès de librairie. Sans le savoir, votre<br />
visite sur le magasin électronique vous expose à deux dangers<br />
imperceptibles:<br />
z un déluge d’ondes électromagnétiques,<br />
z une utilisation du Cloud à l’insu de votre plein gré.<br />
Si les nuages conservent vos données, le côté évanescent et immatériel<br />
représente une source d’inquiétudes:<br />
z à qui faire confiance ?<br />
z où se trouvent mes données ?<br />
z qui y a accès ?<br />
Le responsable <strong>informatique</strong> est confronté aux mêmes problèmes,<br />
il se pose les mêmes interrogations multipliées par le nombre<br />
d’utilisateurs. Pour se soustraire à ce questionnement, il va peutêtre<br />
le bannir: non, cet outil nuageux n’est pas admis dans l’environnement<br />
de notre entreprise.<br />
Cette logique peut engendrer une spirale de mesures de plus en<br />
plus restrictives, une paranoïa numérique:<br />
z interdire les services faisant appel aux nuages,<br />
z empêcher la gestion des machines par les usagers,<br />
z supprimer les clés USB,<br />
z verrouiller l’accès au lecteur de DVD,<br />
z supprimer Internet.<br />
Ce cauchemar est démultiplié quand un responsable de l’entreprise<br />
amène un iPad. Cet appareil possède uniquement deux interfaces:<br />
z USB pour se synchroniser avec le poste de travail,<br />
z réseau sans fil, le reste du temps.<br />
Tous les dispositifs de protection disparaissent, la tablette propose<br />
même de se passer d’ordinateur, l’ensemble des opérations se fait<br />
à travers les nuages.<br />
Interdire ou éduquer ?<br />
Il est aisé pour un responsable réseau d’interdire l’accès à un service.<br />
Le moyen le plus efficace est d’exclure la plage d’adresses IP<br />
du fournisseur.<br />
Cette censure devient plus difficile quand il s’agit d’une application<br />
qui fait appel à plusieurs nuages pour irriguer le service.<br />
iTunes utilise le nuage d’Apple, mais également d’autres sources<br />
comme Amazon.<br />
Finalement, l’usager bien informé peut ouvrir une connexion VPN<br />
privée qui permet de contourner toutes les mesures de modération<br />
de trafic Internet. De données clairement identifiables, on<br />
se retrouve devant des données encapsulées dans un flux crypté<br />
impénétrable pour l’entreprise. Le comble est que l’objectif de la<br />
politique de prohibition est esquivé.<br />
Domiciliation des données<br />
La vision classique de la conservation des informations est une<br />
délimitation physique. Elle est représentée par les trois cercles<br />
concentriques: l’utilisateur, son ordinateur, son entreprise. Le<br />
monde extérieur est identifié comme une menace. Une relation<br />
de confiance s’établit entre chaque niveau interne, l’information<br />
est dupliquée et conservée. Cette vision est rassurante, je travaille<br />
sur mon ordinateur qui est dans l’entreprise, isolé du dehors.<br />
SPÉCIAL ÉTÉ – D – 21 AOÛT 2012<br />
39
Sérénité dans les nuages<br />
moi-même, mon ordinateur et mon entreprise versus le monde extérieur<br />
En réalité, quand des éléments personnels sont contenus dans<br />
l’appareil, ils deviennent de facto incorporés dans l’entreprise. Par<br />
exemple, mes musiques, mes photos, mes livres, mes vidéos sont<br />
strictement privés, mais peuvent se retrouver dans mon ordinateur<br />
de bureau.<br />
Moi-même, mes informations privées, mon travail,<br />
mon ordinateur et mon entreprise versus le monde extérieur<br />
Logiquement, le responsable <strong>informatique</strong> va exclure ces données<br />
privées de la sauvegarde, mais en cas de vol ou de crash de mon<br />
ordinateur, je serais fort mécontent si je ne les récupère pas.<br />
Moi-même, mes informations privées, mon travail,<br />
mon ordinateur et mon entreprise versus le monde extérieur<br />
Cette promiscuité se retrouve également dans le courrier électronique,<br />
contient-il uniquement des données professionnelles ?<br />
Les nuages<br />
Il y a 5 ans, le téléphone intelligent (smartphone) était réservé<br />
aux responsables ou aux passion-<br />
nés, le choix de l’appareil était dicté<br />
par la compatibilité avec le système<br />
<strong>informatique</strong> de l’entreprise.<br />
Pour la messagerie de Microsoft<br />
(Exchange), uniquement les appareils<br />
avec Windows Mobile étaient<br />
acceptables.<br />
Au même moment est apparu<br />
l’iPhone qui est rapidement devenu<br />
un nouveau paradigme. D’un écosystème<br />
fermé de messagerie, on<br />
passe à un choix simple correspondant<br />
aux acteurs du marché (Microsoft<br />
Exchange, mobileMe, Google<br />
Gmail, Yahoo, AOL et les autres).<br />
Cette liberté acquise, les utilisateurs<br />
ont pris l’habitude d’amener leurs<br />
propres matériels pour travailler en<br />
entreprise (Bring Your Own Device).<br />
L’ubiquité des données des nuages<br />
combinées avec les équipements<br />
des usagers entrainent un modèle<br />
innovant.<br />
40 flash <strong>informatique</strong><br />
moi-même, mes appareils, mes informations privées et professionnelles, les<br />
nuages et mon entreprise versus le monde extérieur<br />
A priori, ce modèle est un cauchemar pour la sécurité des données:<br />
z de l’entreprise ?<br />
z privées ?<br />
z qui est le propriétaire ?<br />
z où sont-elles conservées ?<br />
Le marché de la synchronisation des informations dans les nuages<br />
est en plein essor. Chaque constructeur cherche à se positionner<br />
comme fournisseur exclusif de services.<br />
Un récent article de la revue électronique Ars Technica décrit les<br />
principaux acteurs du marché et leurs caractéristiques: arstechnica.com/gadgets/2012/04/cloud-storage-a-pricing-and-featureguide-for-consumers/.<br />
Le leader de ce marché est DropBox, un débat revient régulièrement<br />
au premier plan: faut-il l’interdire ou l’autoriser ?<br />
Ce service dans les nuages offre:<br />
z une intégration directe dans les ordinateurs, c’est un emplacement<br />
dans la hiérarchie du disque,<br />
Windows OS X Linux Android iOS Windows<br />
Phone<br />
third-party clients<br />
disponibilité des outils de synchronisation selon les plates-formes ©Ars Technica<br />
n disponible et n indisponible<br />
Web
Sérénité dans les nuages<br />
z une synchronisation entre plusieurs appareils (les documents<br />
sont automatiquement dupliqués),<br />
z un hébergement dans les nuages (les éléments synchronisés<br />
sont également accessibles par un navigateur Web),<br />
z une possibilité de partager des informations.<br />
Quatre composants supplémentaires expliquent son succès:<br />
z gratuit avec un quota de 2Go,<br />
z la capacité de revenir sur une <strong>version</strong> antérieure des documents,<br />
z une disponibilité sur quasiment toutes les plates-formes: Mac<br />
OS, Windows, Linux, iOS, Android, BlackBerry;<br />
z et avantage non négligeable, une myriade d’applications qui<br />
intègrent ce service.<br />
La seule lacune à relever est l’absence de client natif sur Windows<br />
Phone.<br />
En autorisant DropBox dans l’entreprise, on se retrouve devant<br />
trois dilemmes, les données ne sont pas chez nous, je ne sais pas<br />
ce qui est sauvegardé, l’entreprise peut faire faillite ou être poursuivie<br />
par la justice du pays hôte (en l’occurrence les États-Unis).<br />
Le premier réflexe d’une équipe <strong>informatique</strong> pour répondre à ces<br />
contraintes serait de recréer le service. Cela représente un travail<br />
très conséquent qui entrainerait immanquablement une <strong>version</strong><br />
allégée sans saveur. Si la culture multiplate-forme n’est pas présente<br />
dans l’entreprise, le projet risque une annihilation mutuelle<br />
par les spécialistes de chaque chapelle.<br />
Trois pistes permettent d’envisager son utilisation en entreprise:<br />
z encrypter les données,<br />
z sauvegarder la hiérarchie d’un appareil,<br />
z créer un compte DropBox pour chacun.<br />
Encrypter les données<br />
un document encrypté contenu dans les nuages<br />
La principale crainte est que les informations confidentielles soient<br />
lues par une personne tierce. L’encodage permet de répondre facilement<br />
à ce problème. Naturellement, le programme choisi doit<br />
être compatible avec le nuage utilisé.<br />
Difficulté supplémentaire, les applications doivent être disponibles<br />
pour toutes les plates-formes (Mac OS, Linux, Windows et iOS).<br />
Pour DropBox, il existe une solution logicielle remplissant ces<br />
critères, KeePass. L’article de Jean-Daniel Bonjour sur ce produit<br />
open source décrit son utilisation quotidienne: flash<strong>informatique</strong>.<br />
epfl.ch/spip.php ?article2180.<br />
Si ce produit est, au départ, prévu pour conserver des mots de<br />
passe, il peut contenir n’importe quel fichier texte.<br />
Le principal intérêt de KeePass est de disposer de clients gratuits<br />
ou payants sur la totalité des plates-formes utilisées avec<br />
DropBox.<br />
Avec cette méthode, la sécurité est triple:<br />
z le document est encodé,<br />
z le compte dans les nuages possède un accès authentifié,<br />
z la communication se fait par un canal sécurisé.<br />
TrueCrypt est un challenger sérieux. Il permet de créer un fichier<br />
encrypté contenant l’équivalent d’une hiérarchie de dossiers et de<br />
documents. Son seul défaut actuel est de ne pas disposer de client<br />
synchronisé sur iOS avec DropBox.<br />
base de données encryptées avec KeePass, synchronisées avec DropBox<br />
La taille du fichier encrypté est un paramètre essentiel, chaque<br />
modification d’un fichier encodé entraine son transfert complet.<br />
Un volume raisonnable se mesure en kilo-octets voire en mégaoctets.<br />
Il faut également tenir compte des déplacements à l’étranger<br />
qui pourraient engendrer un trafic Internet trop important,<br />
rapidement ruineux.<br />
À titre d’exemple, je partage une base de données dans DropBox<br />
avec mon collègue. Contenue dans un fichier KeePass, elle englobe<br />
les informations des machines gérées conjointement. Sa<br />
taille est de 25 Ko, sa synchronisation ne pose aucun problème,<br />
même à travers une connexion téléphonique GSM.<br />
En outre, il est préférable de conserver encryptés uniquement des<br />
documents sans mise en forme.<br />
Par exemple, un article complémentaire sur l’utilisation des<br />
nuages devient 85 fois plus volumineux avec les illustrations en<br />
<strong>PDF</strong> (14’537 octets en format texte et 1’246’059 octets en pdf),<br />
flash<strong>informatique</strong>.epfl.ch/IMG/pdf/2-12-page4-2.pdf.<br />
SPÉCIAL ÉTÉ – D – 21 AOÛT 2012<br />
41
Sérénité dans les nuages<br />
Sauvegarder la hiérarchie d’un appareil<br />
Maintenant que les données sensibles sont sécurisées, car encodées,<br />
comment s’assurer de disposer d’une copie dans l’entreprise ?<br />
Avec DropBox, tous les appareils synchronisés possèdent les<br />
mêmes documents, si le service disparaît, un duplicata est conservé<br />
sur chacun d’entre eux. La sauvegarde de l’une de ces machines<br />
est suffisante pour garantir l’intégrité des informations.<br />
Créer un compte pour chacun<br />
L’idée de créer un accès dans le nuage pour chaque employé peut<br />
sembler excessive (avec l’’adresse de messagerie utilisée comme<br />
nom d’utilisateur).<br />
Qui serait le possesseur de ce compte, l’individu ou l’entreprise ?<br />
Dans de nombreuses firmes, le contenu de la boite de messagerie<br />
est la propriété de l’entreprise malgré le caractère nominatif de<br />
l’e-mail. Ainsi, au départ de l’employé, les données des services<br />
dans les nuages liées à ces identifications restent dans son patrimoine.<br />
Apple applique un principe similaire: chaque entrée iTunes correspond<br />
à une adresse de messagerie. Si l’entreprise administre ces<br />
comptes, elle gère les informations conservées. A priori compliquée,<br />
cette méthode de gouvernance permet de séparer la sphère<br />
privée du travail.<br />
Confiance dans les nuages<br />
Les nuages sont intrinsèquement du même niveau de qualité que<br />
les services offerts à l’intérieur de l’entreprise.<br />
La confiance doit être évaluée pour chaque outil qu’il soit interne<br />
ou externe, des parades comme l’encryption du contenu doivent<br />
nous faire prendre conscience de l’importance d’avoir des mots de<br />
passe sûrs. Quand les entreprises ne maintiennent pas correctement<br />
vos informations, comme récemment LinkedIn, leurs divulgations<br />
entrainent la révélation au monde entier d’un accès. Si<br />
ce mot de passe est réutilisé dans un autre contexte, le risque de<br />
cascade sécuritaire est extrême (il ouvre une réaction en chaîne<br />
pouvant mener aux données de l’entreprise, LindedIn > Google ><br />
Yahoo > <strong>EPFL</strong>).<br />
Aux chantres de la simplicité qui me proposent d’employer<br />
mon compte Google/Facebook/LinkedIn comme source unique<br />
d’authentification, je réponds que j’utilise une méthode plus complète:<br />
z pour chaque service, machine, compte, je crée un mot de<br />
passe complexe,<br />
z ils sont conservés dans un fichier crypté par une clé,<br />
z les fichiers sont déposés dans DropBox, automatiquement<br />
synchronisés sur tous les appareils sous mon contrôle,<br />
z les clés sont détenues dans ma mémoire !<br />
Naturellement, la perte des sésames due à un oubli ou à un accident<br />
brise ce schéma. Par précaution, ces clés sont conservées<br />
dans des enveloppes scellées dans un coffre-fort physique.<br />
Curieusement, nous acceptons encore d’échanger du courrier<br />
électronique sans garantie de l’expéditeur avec un contenu apparaissant<br />
en clair sur l’entier de son parcours, une vraie carte<br />
postale. Dans le cas de brevet ou de contrat échangé par e-mail<br />
non encrypté, le problème de sécurité provient bien de la manière<br />
d’utiliser l’outil, mais pas de son fonctionnement. n<br />
42 flash <strong>informatique</strong><br />
Delete<br />
ou la vertu de<br />
Francis.Lapique@epfl.ch, <strong>EPFL</strong> - Domaine IT<br />
Some personal thoughts after reading the book<br />
Delete by V. Mayer-Schönberger.<br />
Quelques réflexions suite à la lecture du livre Delete<br />
de Mayer-Schönberger.<br />
À la fin du XVIIIe siècle, le philosophe Jeremy Bentham imagine<br />
un type d’architecture carcérale qu’il nomme le Panoptique. Un<br />
gardien, logé dans une tour centrale, observe tous les prisonniers,<br />
enfermés dans des cellules individuelles autour de la tour, sans<br />
que ceux-ci puissent savoir qu’ils sont observés. Ce dispositif<br />
devait ainsi créer un sentiment d’omniscience invisible chez les<br />
détenus. En 1975, Michel Foucault met ce terme au centre de sa<br />
réflexion en étendant le dispositif de Bentham:<br />
Mais le panoptisme ne doit pas être compris comme un<br />
édifice onirique: c’est le diagramme d’un mécanisme de pouvoir<br />
ramené à sa forme idéale; son fonctionnement abstrait<br />
de tout obstacle, résistance ou frottement, peut bien être<br />
présenté comme un pur système architectural et optique:<br />
c’est en fait une figure qu’on peut et qu’on doit détacher de<br />
tout usage spécifique.<br />
(Surveiller et punir, Gallimard, 1975)<br />
En 2009, Viktor Mayer-Schönberger, actuellement professeur à<br />
l’OII (Oxford Internet Institute), parle dans son ouvrage Delete:<br />
The Virtue of Forgetting in the Digital Age [1] d’un panoptique<br />
numérique, un espace dans lequel nous sommes constamment<br />
sous le regard des autres. Pour illustrer son propos, V. Mayer-<br />
Schönberger nous présente deux anecdotes emblématiques et<br />
une nouvelle de Jorge Luis Borges.<br />
Andrew Feldmar est un psychothérapeute à Vancouver. Son histoire<br />
a été rapportée dans le New York Times. Un jour il décide<br />
d’aller au Tacoma International Airport de Seattle pour accueillir<br />
un ami. Au passage de la frontière canado-américaine, il est googlé<br />
par un garde-frontière. Le garde-frontière découvre un article<br />
que M. Feldmar a écrit dans les années 1990 à propos de ses expériences<br />
avec du LSD. Sur la base de cet élément, le garde demande<br />
à M. Feldmar si cela est exact. Celui-ci répond positivement et<br />
se voit empêché d’entrer aux États-Unis, non seulement pour ce<br />
jour-là, mais pour toujours. Signalons qu’avant de recevoir l’autorisation<br />
de retourner au Canada, après cinq heures de garde, il a<br />
dû signer une lettre d’aveu, dans laquelle il reconnaît avoir violé<br />
le U.S. Controlled Substance Act.
l’oubli à l’âge digital<br />
Le deuxième cas est tout aussi instructif. Il y a quelques années,<br />
Stacy Snyder, 25 ans, enseignante stagiaire à la Conestoga Valley<br />
High School de Lancaster (Pennsylvanie), a posté sur sa page<br />
MySpace une photo d’elle portant un chapeau de pirate, un<br />
gobelet à la main, légendée Pirate éméché. Ayant découvert<br />
ladite page, son superviseur lui a expliqué que l’image témoignait<br />
d’un manque de professionnalisme, et la doyenne de la School of<br />
Education de l’université de Millersville où Stacy était inscrite a<br />
jugé que c’était pour ses élèves mineurs une incitation virtuelle<br />
à la consommation d’alcool. Quelques jours avant la date prévue,<br />
l’université a refusé de lui délivrer son diplôme d’enseignante.<br />
La jeune femme a poursuivi l’université en justice, l’accusant<br />
d’avoir violé le Premier amendement en la pénalisant pour son<br />
comportement (parfaitement légal) en dehors des heures de travail.<br />
Mais en 2008, un juge fédéral de district a rejeté sa demande,<br />
au motif que si Stacy Snyder était bien une employée du service<br />
public, sa photo ne se rapportait à aucun sujet d’intérêt public et<br />
que son Pirate éméché ne relevait donc pas du discours protégé.<br />
Jorge Luis Borges dans sa nouvelle Funes ou la mémoire fait le<br />
récit suivant. Funes est un jeune homme qui, depuis un accident<br />
de cheval, a perdu la capacité d’oublier. Il est capable de lire et de<br />
se souvenir de centaines de livres, mot pour mot, mais il est incapable<br />
d’en tirer aucun savoir, car cela nécessite de l’abstraction,<br />
de la généralisation, et par conséquent l’oubli des détails, ce que<br />
Funes ne peut plus faire. Il est pour toujours prisonnier dans les<br />
détails de son passé et meurt peu de temps après.<br />
Ces trois exemples doivent nous aider, selon Viktor Mayer-Schönberger,<br />
à comprendre les changements fondamentaux que nous<br />
impose la mémoire numérique. Premièrement, d’ordre cognitif,<br />
avec une perte d’abstraction que l’on peut résumer ainsi : là où il<br />
y avait autrefois une forêt, nous ne percevons plus que les arbres;<br />
deuxièmement, le souvenir autrefois difficile et coûteux, devient<br />
le défaut et l’oubli une exception coûteuse. Coûteuse effectivement<br />
quand on songe que les quelques secondes qu’il faut pour<br />
examiner chaque photo numérique et décider s’il convient de la<br />
conserver ou non, nous coûtent plus que l’espace que cette photo<br />
prendra sur notre disque dur. Coûteuse en temps aussi, si vous<br />
décidez de faire le ménage dans vos 45,234 mails de votre compte<br />
gmail !<br />
Viktor Mayer-Schönberger insiste, la mémoire numérique crée<br />
un panoptique temporel, dans lequel nous devons prendre<br />
en compte le fait que non seulement nous sommes observés,<br />
mais que les générations futures pourront observer ce que nous<br />
sommes en train de faire. Avec pour résultat éventuel, la peur que<br />
ces informations numériques soient brandies contre nous, dix ans<br />
plus tard, lorsqu’on cherchera un emploi ou demandera un prêt<br />
bancaire…<br />
Il rappelle l’importance de l’oubli social. En effaçant les mémoires<br />
externes, écrit-il, la société accepte que l’individu évolue avec le<br />
temps, puisse apprendre de ses expériences passées et modifier<br />
son comportement. Au contraire, une société qui enregistre tout<br />
nous enchaîne à nos actions passées, rendant toute échappée impossible.<br />
Il conclut que, sans une certaine forme d’oubli, le pardon<br />
devient une entreprise difficile.<br />
Quelles solutions ? Parce que se souvenir et oublier est une démarche<br />
humaine, Viktor Mayer-Schönberger pense à fixer une<br />
date d’expiration pour toutes les informations que nous stockons.<br />
Lorsqu’elle est atteinte, l’information est détruite, c’est-à-dire oubliée.<br />
Comme nous devrions fixer nous-mêmes ces dates d’expiration,<br />
cela nous rappellerait que la plupart des informations ne<br />
sont pas intemporelles, mais liées à un contexte spécifique dans<br />
le temps, et qu’elles perdent de leur valeur et de leur importance<br />
dans la durée. Il poursuit en signalant qu’une certaine forme d’oubli<br />
graduel, d’information qui rouille serait plus proche de l’oubli<br />
humain. Mais il faut également de nouvelles approches, des droits<br />
à l’information privée, des lois…<br />
Quelques pistes:<br />
z un bouton pour supprimer l’enregistrement de vos 10 dernières<br />
requêtes de recherche ?<br />
z la possibilité de demander, au moment du téléchargement de<br />
vos images , une date d’expiration ?<br />
z ou bien une solution radicale: l’abstinence digitale. Mais<br />
sommes-nous prêts à renoncer aux bénéfices offerts par le<br />
partage des données?<br />
Je vous laisse découvrir vous-mêmes les autres propositions de<br />
l’auteur de l’essai, ainsi que la présentation de son livre qu'il a<br />
faite chez Google: www.youtube.com/watch?v=GRmoX7MbLp0..<br />
À l’autre extrême du spectre de cette problématique de la mémoire<br />
numérique, Gordon Bell, le père de la gamme PDP-11, aujourd’hui<br />
chez Microsoft, ne quitte plus une SenseCam qu’il porte autour du<br />
cou depuis 2003. Gordon Bell vise une immortalité numérique en<br />
enregistrant tous les moments de sa vie, documents, pages Web …<br />
À suivre dans son livre: Total Recall: How the E-Memory Revolution<br />
Will Change Everything, co-signé avec Jim Gemmell.<br />
Référence<br />
[1] MAYER-SCHÖNBERGER, Viktor. Delete: The Virtue of Forgetting<br />
in the Digital Age, Princeton University Press n<br />
SPÉCIAL ÉTÉ – D – 21 AOÛT 2012<br />
43
44<br />
Making data freely accessible and reusable for more<br />
transparency, innovation and efficiency — that is<br />
Open Data.<br />
Ouvrir les données publiques, de façon libre et réutilisable<br />
pour plus de transparence, d’efficacité et<br />
d’innovation – c’est ça, l’Open Data.<br />
Dans nos gouvernements et administrations publics, les données<br />
occupent aujourd’hui plus que jamais une place centrale. Que<br />
ce soit dans l’administration des finances fédérales, des services<br />
sociaux, dans les domaines des infrastructures publiques ou de<br />
l’éducation, le traitement de ces données, leur stockage, leur archivage<br />
sont au cœur de l’activité de nos institutions publiques.<br />
dessin de Rolf Willi<br />
Avec le développement fulgurant des technologies de l’information<br />
et la montée en puissance d’Internet, la gestion de ces données<br />
publiques a pris de nouvelles dimensions. Il est par exemple<br />
vite apparu qu’un usage mal intentionné des données personnelles<br />
représentait une menace sérieuse pour le respect de la sphère<br />
privée du citoyen. C’est ainsi qu’en 1983 la Suisse adopte la Loi<br />
sur la protection des données (LPD) [1] définissant de manière<br />
précise les types de données faisant partie de la sphère privée et<br />
ne devant en aucun cas être utilisées sans l’aval de la personne<br />
concernée.<br />
Si une partie des données stockées dans les bases de données de<br />
nos administrations relève de la sphère privée, une autre partie<br />
est publique et d’intérêt général (voir encart Données privées et<br />
données publiques). Les pays anglo-saxons ainsi que les états du<br />
nord de l’Europe reconnurent très tôt la valeur et l’importance de<br />
ces données publiques. C’est ainsi que dans les années soixante<br />
flash <strong>informatique</strong><br />
Open Government Data en Suisse<br />
Vers plus de transparence, d’efficacité et d’innovation grâce à l’ouverture des données publiques<br />
Antoine.Logean@opendata.ch, @ecolix, fondateur et membre du comité Opendata.ch & consultant en software engineering chez innoQ<br />
déjà ils adoptèrent une charte prônant le libre accès à l’information<br />
pour tous (Freedom of Information Act) [2]. De manière<br />
similaire, fût adoptée en Suisse en 2006 la Loi fédérale sur la<br />
transparence [3] visant «à promouvoir la transparence quant à<br />
la mission, l’organisation et l’activité de l’administration (…) en<br />
garantissant l’accès aux documents officiels.:<br />
1 Toute personne a le droit de consulter des documents officiels<br />
et d’obtenir des renseignements sur leur contenu de la part<br />
des autorités.<br />
2 Elle peut consulter les documents officiels sur place ou en<br />
demander une copie. La législation sur le droit d’auteur est<br />
réservée.<br />
3 Si les documents officiels ont déjà été publiés par la Confédération<br />
sur papier ou sous forme électronique, les conditions<br />
énoncées aux al. 1 et 2 sont réputées remplies.» (LTrans, Art. 1)<br />
Après la Loi sur la protection des données, nous assistons donc<br />
à un changement de paradigme: désormais, toutes les informations<br />
et tous les documents de l’administration fédérale sont<br />
accessibles au public. Ce droit peut être restreint si des intérêts<br />
publics ou privés prépondérants s’y opposent. Plusieurs cantons<br />
et grandes communes ont depuis 2006 introduit un tel principe<br />
de transparence.<br />
Ouvrir les données publiques ?<br />
À quoi ça sert ?<br />
On serait tenté de croire que cette loi fédérale sur la transparence<br />
est suffisante. Pourquoi faut-il encore une ouverture complète<br />
des données publiques ? Pourquoi veut-on encore aller plus loin ?<br />
Qu’est-ce donc que ce mouvement Open Data ?<br />
Les services publics financés par le gouvernement ont pour tâche<br />
de créer, gérer et publier des données dans un cadre juridique bien<br />
précis. Ces données sont nécessaires à leur fonctionnement. Si par<br />
exemple un service est en charge de la planification du réseau de<br />
distribution d’eau, il va devoir dresser une cartographie précise<br />
des différentes conduites d’eau, leur âge, leur type… idem pour la<br />
planification des routes, des espaces verts, des crèches,… La liste<br />
est encore très longue ! Toutes ces données couvrent un très grand<br />
nombre de domaines (voir encart Données privées et données<br />
publiques). Elles ont pour la plupart du temps un potentiel socio-économique<br />
allant bien au-delà du cadre prescrit par la loi.<br />
Nos autorités sont donc assises sur un véritable trésor de données<br />
largement sous-utilisées. En effet la législation actuelle régie par<br />
la Loi sur la transparence est basée sur une approche passive où<br />
les prestations sont délivrées sur demande. Le mouvement Open<br />
Government Data propose au contraire une approche active<br />
où les données publiques sont mises en libre accès dans un format<br />
non propriétaire afin de pouvoir être réutilisées. Nous passons<br />
donc d’un modèle passif basé sur la demande à un modèle actif
Open Government Data en Suisse<br />
Données privées<br />
Données privées et données publiques<br />
Pour mieux appréhender ce qu’est l’Open Government Data, il est important de bien faire la différence entre les données<br />
faisant partie de la sphère privée tombant sous le coup de la loi sur la protection des données et les données d’intérêt général<br />
appartenant à la sphère publique. Comme représenté sur la figure ci-après, l’Open Government Data ne concerne que les<br />
données publiques.<br />
public<br />
Open<br />
Data<br />
Open<br />
Data<br />
Le type d’information tombant sous le coup de la loi sur la<br />
protection des données:<br />
z des données personnelles (ou nominatives) permettant<br />
l’identification directe ou indirecte d’une personne physique<br />
(noms, prénoms, adresses (physique et électronique),<br />
numéro de téléphone, lieu et date de naissance,<br />
numéro de sécurité sociale, numéro de carte<br />
de paiement, plaque d’immatriculation d’un véhicule,<br />
photo, empreinte digitale, ADN, etc.)<br />
z des opinions ou activités religieuses, philosophiques,<br />
politiques ou syndicales,<br />
z des données se rapportant à la santé, à la sphère intime<br />
ou à l’appartenance à une race,<br />
z des mesures d’aide sociale,<br />
z des poursuites ou sanctions pénales et administratives;<br />
z …<br />
Tous ces types de données sont privés et ne doivent en aucun<br />
cas être rendus publics sans l’aval de la personne intéressée.<br />
Government<br />
Data<br />
Open<br />
Government<br />
Data<br />
Open<br />
Government<br />
private<br />
Government<br />
Données publiques<br />
Les données publiques regroupent des informations d’intérêt<br />
général collectées par nos autorités et administrations.<br />
C’est ces données sur lesquelles se concentre le mouvement<br />
Open Government Data. La liste est longue et il n’est pas<br />
aisé d’en faire un inventaire exhaustif. À titre d’exemple, les<br />
données publiques peuvent contenir des informations dans<br />
les domaines suivants:<br />
z la citoyenneté: résultats d’élections, cartes des bureaux<br />
de vote, cartes électorales, décès, mariages, naissances,<br />
répertoire des prénoms déclarés…<br />
z l’urbanisme: fonds de cartes des plans de voirie, tracés<br />
des routes, description des trottoirs, volume du bâti…<br />
z les services publics: liste des établissements scolaires,<br />
des écoles maternelles et élémentaires, des crèches, des<br />
haltes-garderies, des piscines…<br />
z l’environnement: liste des parcs et jardins, carte des<br />
arbres d’alignement, bâtiments, référentiels de la flore, …<br />
z la culture: liste d’ouvrages disponibles, notices des<br />
œuvres de fonds des musées, statistiques des prêts dans<br />
les bibliothèques, …<br />
z …<br />
SPÉCIAL ÉTÉ – D – 21 AOÛT 2012<br />
45
Open Government Data en Suisse<br />
basé sur l’offre. Le guichet servi par un fonctionnaire attendant<br />
les requêtes du citoyen est remplacé par une grande surface selfservice<br />
ouverte 24 heures sur 24.<br />
Les bénéfices d’une telle ouverture des données publiques se font<br />
sentir dans trois domaines: la transparence, l’innovation et les<br />
économies de coûts de fonctionnement.<br />
Transparence<br />
La transparence permet aux citoyens de voir et de comprendre.<br />
En s’ajoutant aux organes de contrôle déjà en place, elle permet<br />
une surveillance par le citoyen des activités de nos autorités<br />
(principe many eyes). Elle permet également une meilleure adéquation<br />
entre l’offre des services publics et les besoins du citoyen<br />
ainsi qu’une meilleure acceptation du travail des administrations<br />
gouvernementales. Ces divers aspects liés à la transparence sont<br />
au cœur du développement ces 20 dernières années de ce que<br />
l’on a appelé le New Public Management et l’E-gouvernement. La<br />
transparence est une condition essentielle au succès de la mise en<br />
place d’une coopération réussie entre les citoyens et l’administration<br />
permettant aux individus d’apporter une contribution active<br />
à la gestion de l’État, de l’amélioration de son efficacité et de la<br />
qualité de ses services.<br />
Innovation<br />
L’ouverture des données publiques stimule l’innovation. En effet<br />
ces données peuvent être réutilisées par des entreprises privées<br />
pour donner naissance à de nouveaux services. L’expérience<br />
anglo-saxonne a de plus montré comment l’ouverture de données<br />
publiques fait naître un nouveau marché où journalistes,<br />
développeurs et entrepreneurs se spécialisent dans la représentation<br />
et l’interprétation de ces données publiques pour définir<br />
de nouveaux services. Un des premiers bénéficiaires de ce marché<br />
émergent de services constitue bien évidemment les institutions<br />
publiques elles-mêmes. La Suisse ne doit pas laisser passer un tel<br />
potentiel d’innovation.<br />
Économie des coûts<br />
Un troisième avantage potentiel est l’économie des coûts. En effet<br />
la collecte, la création, la vérification, le croisement et le stockage<br />
de données effectués par nos administrations engendrent des<br />
coûts considérables. En utilisant l’architecture simple et robuste<br />
offerte par le Web ainsi que des formats de données non propriétaires,<br />
il est possible d’accéder et d’utiliser ces données avec<br />
un minimum de frais de fonctionnement. Un accès Internet et un<br />
navigateur Web suffisent. Les premiers bénéficiaires de cet accès<br />
facilité aux données sont à n’en pas douter les administrations<br />
elles-mêmes. En effet la même interface Web peut être utilisée,<br />
aussi bien pour l’échange interne d’information entre deux départements<br />
d’une même administration que pour celui d’un citoyen<br />
voulant accéder à des données publiques.<br />
Quelles sont les mesures à prendre ?<br />
Plusieurs jeux de données sont déjà disponibles en libre accès et<br />
font partie intégrante des services de certains départements. C’est<br />
le cas notamment des offices de statistiques, des centres de géoinformations<br />
ou des services d’archives. Par conséquent l’ouver-<br />
46 flash <strong>informatique</strong><br />
ture généralisée et complète de toutes les données publiques peut<br />
se faire par l’intermédiaire de ces services déjà existants.<br />
Afin de réaliser pleinement le potentiel lié à l’ouverture et à la<br />
réutilisation des données publiques, un engagement et une collaboration<br />
de différents acteurs est nécessaire:<br />
z Les politiques doivent définir au niveau fédéral, cantonal et<br />
communal un cadre législatif et exécutif permettant une ouverture<br />
et une réutilisation des données publiques;<br />
z Les responsables des administrations publiques doivent eux<br />
assurer le financement, l’organisation et la réalisation technique<br />
liées à une mise à disposition des données dans des formats<br />
ouverts interprétables par une machine ;<br />
z Les citoyens ainsi que les organisations civiques doivent dans<br />
une démarche participative utiliser et s’approprier ces données<br />
publiques pour intensifier le dialogue avec nos autorités ;<br />
z Les médias doivent se saisir de ces données, et par l’intermédiaire<br />
des techniques de journalisme de données, les analyser,<br />
les interpréter et surtout les visualiser permettant ainsi à un<br />
large public d’en comprendre la signification;<br />
z Les développeurs de logiciels doivent utiliser ces données publiques<br />
afin de développer de nouvelles applications ;<br />
z Le corps enseignant à tous les niveaux doit inclure dans ses<br />
programmes l’analyse, l’interprétation et la réutilisation des<br />
données publiques.<br />
Naissance de l’association Opendata.ch<br />
près d’une centaine de développeurs, designers et citoyens porteurs d’idées se sont<br />
retrouvés au mois de septembre 2011 à Lausanne et à Zurich pour le premier atelier<br />
make.opendata.ch. make.opendata.ch/doku.php?id=event:2011-09<br />
Le mouvement Open Government Data en Suisse est encore jeune.<br />
Il a débuté fin 2010. Initié par le /ch/open [4] et SI [5] un groupe<br />
de travail autour de l’ouverture des données publiques a été créé.<br />
En collaboration avec le groupe parlementaire pour une <strong>informatique</strong><br />
durable [6], ce groupe de travail a organisé en juin 2011<br />
aux Archives fédérales à Berne la première conférence Open-
Open Government Data en Suisse<br />
Les ateliers make.opendata.ch<br />
Devons-nous attendre que les autorités aient ouvert complètement<br />
les données publiques ? Non. Nous pouvons déjà<br />
nous mettre au travail avec les données que nous avons.<br />
C’est précisément la fonction des ateliers make.opendata.ch<br />
(en anglais aussi appelé Open Data Hackathon). Ces ateliers<br />
sont des événements exploratoires organisés par l’association<br />
Opendata.ch<br />
qui permettent à des<br />
développeurs, journalistes,<br />
graphistes<br />
et citoyens porteurs<br />
d’idées de produire<br />
des prototypes pour<br />
expliciter ce qu’il est<br />
possible de réaliser<br />
avec les données<br />
publiques déjà existantes.<br />
Se voulant délibérément<br />
ouverte et<br />
participative, l’organisation<br />
est volontairement flexible et légère. Les résultats<br />
délivrés et l’expérience immersive (voir la vidéo [7]) d’un tel<br />
campus sont incomparables! La liste complète des projets<br />
[8] peut-être consultée sur le site make.opendata.ch.<br />
Ici quelques exemples d’applications réalisées dans le cadre<br />
de ces ateliers:<br />
Visualisation interactive du budget de<br />
la ville de Berne<br />
Cette application [9] permet de naviguer de manière interactive<br />
dans le budget de la ville de Berne. Nul besoin d’être<br />
un expert comptable pour se faire une idée des dépenses de<br />
la ville.<br />
Where did my taxes go ?<br />
Cette application [10] permet à tout citoyen zurichois de<br />
se faire une idée rapide de la manière dont ses impôts sont<br />
dépensés par la ville de Zurich.<br />
How green is my street ?<br />
Partant des données de consommation d’électricité de<br />
chaque bâtiment de Lausanne, cette application [11] permet<br />
de se faire une idée de la consommation moyenne de<br />
son quartier.<br />
SPÉCIAL ÉTÉ – D – 21 AOÛT 2012<br />
47
Open Government Data en Suisse<br />
data.ch [12]. Cette première rencontre au niveau fédéral connut<br />
un large succès et a été suivie de la rédaction d’un manifeste ainsi<br />
que de diverses actions parlementaires.<br />
Faisant suite à cette première conférence, au mois de septembre<br />
2011 a eu lieu le premier campus make.opendata.ch [13] de<br />
Suisse (voir encart Les ateliers make.opendata.ch).<br />
Durant deux jours une centaine de développeurs, journalistes, graphistes<br />
et citoyens porteurs d’idées ont imaginé comment réutiliser<br />
les données publiques disponibles. Au total une vingtaine de<br />
projets ont vu le jour.<br />
Afin de fédérer les efforts, l’association Opendata.ch a été fondée<br />
le 19 janvier 2012. Le rôle de son comité [14] est d’une part de<br />
soutenir les parlementaires et d’aider les administrations à faire<br />
le pas de l’ouverture et, d’autre part, de mettre sur pied les ateliers<br />
make.opendata.ch [15] ainsi que d’organiser la conférence<br />
annuelle Opendata.ch.<br />
Depuis la naissance de l’association Opendata.ch, les choses sont<br />
allées vite et le mouvement ne cesse de prendre de l’ampleur:<br />
deux autres ateliers make.opendata.ch ont été organisés sur Genève,<br />
Zurich et Berne [16]. Au total près de 300 développeurs,<br />
journalistes, graphistes et citoyens se sont à nouveau retrouvés<br />
et ont donné naissance à toute une série de nouveaux projets /<br />
applications ou visualisations.<br />
Au niveau fédéral, faisant suite aux diverses actions parlementaires<br />
[17] le département fédéral des archives a entamé la création<br />
d’un inventaire des documents pouvant être rendus publics.<br />
Au mois de mars 2012 le Conseil fédéral a approuvé une révision<br />
totale de la loi sur la météorologie (LMét) qui prévoit notamment<br />
le libre accès à toutes les prestations de base et données climatiques<br />
et météorologiques du service météorologique national<br />
[18].<br />
Enfin le 28 juin dernier s’est déroulée à Zurich la deuxième<br />
conférence Opendata.ch 2012 [19] lors de laquelle furent présentés<br />
les résultats de la première étude faite sur les divers<br />
aspects liés à l’ouverture des données publiques en Suisse<br />
[20]. La ville de Zurich, coorganisatrice de l’événement, a également<br />
lancé officiellement son nouveau portail Open Government<br />
Data [21].<br />
Un nouvel atelier make.opendata.ch [22] sur le thème de la<br />
santé est prévu pour la fin du mois de septembre 2012 sur Genève<br />
et Bâle.<br />
Perspectives<br />
L’ouverture des données publiques en Suisse n’en est qu’à ses<br />
débuts. Beaucoup de choses restent encore à faire. Cependant<br />
comme la bien dit l’ancien président français Nicolas Sarkozy<br />
«C’est un chemin sans retour». La plupart du temps nos autorités<br />
ont déjà compris l’intérêt et les enjeux liés à une ouverture des<br />
données publiques. Elles restent cependant encore prudentes et<br />
hésitent encore à s’atteler à sa mise en œuvre. Cela demandera<br />
un peu de temps. En bons Suisses, nous avançons prudemment, à<br />
petits pas, … mais sûrement !<br />
48 flash <strong>informatique</strong><br />
Références<br />
[1] www.admin.ch/ch/f/rs/235_1/index.html<br />
[2] fr.wikipedia.org/wiki/Freedom_of_Information_Act<br />
[3] www.ejpd.admin.ch/content/ejpd/fr/home/themen/staat_<br />
und_buerger/ref_gesetzgebung/ref_abgeschlossene_projekte0/ref_oeffentlichkeitsprinzip.html<br />
[4] www.ch-open.ch<br />
[5] www.s-i.ch<br />
[6] www.durabilite-numerique.ch<br />
[7] www.youtube.com/watch ?v=ZTfBtS5RXOI<br />
[8] make.opendata.ch/doku.php ?do=search&id=%40project<br />
[9] t.preus.se/bernbudget2012/<br />
10] wheredidmytaxesgo.nelm.io<br />
[11] opendata.utou.ch/lausanne/<br />
[12] www.durabilite-numerique.ch/2011/06/open-gov-data-c/<br />
[13] fr.opendata.ch/projects/make-opendata-ch-2011/<br />
[14] opendata.ch/organisation/board/<br />
[15] make.opendata.ch<br />
[16] make.opendata.ch/doku.php ?id=event:2012-03<br />
[17] 1: www.parlament.ch/f/suche/pages/geschaefte.aspx ?gesch_id=20113346,<br />
2: www.parlament.ch/f/suche/pages/<br />
geschaefte.aspx ?gesch_id=20113358, 3: www.parlament.<br />
ch/f/suche/pages/geschaefte.aspx ?gesch_id=20113380,<br />
4: www.parlament.ch/f/suche/pages/geschaefte.aspx ?gesch_id=20113902,<br />
5: www.parlament.ch/f/suche/pages/geschaefte.aspx<br />
?gesch_id=20113884<br />
[18] www.news.admin.ch/dokumentation/00002/00015/index.<br />
html?lang=fr&msg-id=43617<br />
[19] fr.opendata.ch/2012/06/22/conference-opendata-ch-<br />
2012-pour-un-acces-libre-et-une-reutilisation-des-donnees-publiques-en-suisse/<br />
[20] www.itopia.ch/repository/Publikationen/OGD_Studie_<br />
Schweiz_Juni_2012.pdf<br />
[21] data.stadt-zuerich.ch/portal/de/index/ogd/daten.html<br />
[22] fr.opendata.ch/projects/make-opendata-ch-2012-la-sante/<br />
n
Du bon usage des tablettes<br />
Mireille.Betrancourt@unige.ch, Université de Genève, professeure en Technologies de l’information et processus d’apprentissage à la Faculté de<br />
Psychologie et Sciences de l’éducation & directeur de TEFCA<br />
The case for tablets in education beyond the media<br />
enthusiasm.<br />
Le point sur le potentiel des outils mobiles en éducation<br />
au delà de l’engouement médiatique.<br />
La dernière décennie a connu un développement fulgurant des<br />
dispositifs mobiles comme les liseuses (en anglais e-book pour<br />
electronic book) et les tablettes tactiles (ou pad en anglais). Outre<br />
leur usage domestique et de loisirs, ces outils offrent des potentialités<br />
inédites pour les situations d’enseignement, de formation<br />
et de travail. Du fait de leur faible encombrement facilitant la<br />
mobilité, ces dispositifs permettent de consulter des documents<br />
dans des contextes variés (salle de classe, musée, etc.) tout en gardant<br />
les avantages du numérique (flexibilité de la présentation<br />
de l’information, outil de recherche dans une grande quantité de<br />
données, par exemple).<br />
Toutefois, l’utilisation de ces outils mobiles n’est pas neutre en<br />
termes d’activité de l’utilisateur. En effet, du fait d’un écran de<br />
taille réduite, ces outils proposent de nouveaux formats de présentation<br />
de l’information et de nouveaux modes d’interaction<br />
avec le contenu, ce qui a des conséquences en amont sur la<br />
conception des documents et des interfaces, et en aval sur les<br />
usages que l’on peut en faire. Or c’est bien de la qualité des usages<br />
que dépendra in fine l’efficacité de l’outil.<br />
Tablettes, liseuses,<br />
ordinateurs, qu’est-ce<br />
que ça change en termes<br />
d’interaction ?<br />
Dotés de fonctionnalités spécifiques,<br />
les différents outils numériques<br />
n’offrent pas tous les mêmes possibilités<br />
en termes d’usage. Alors que les liseuses<br />
sont, comme leur nom l’indique,<br />
destinées principalement à la lecture<br />
et à la consultation de documents, les<br />
tablettes sont plutôt assimilables à des<br />
ordinateurs de taille réduite, dont les<br />
fonctionnalités sont similaires à celles<br />
de leurs grands frères.<br />
Toutefois, la taille réduite de l’écran<br />
a des répercussions non négligeables<br />
sur la présentation et l’organisation de<br />
l’information. Tout d’abord, elle oblige<br />
à repenser l’organisation classique des<br />
mur d’info de BFMTV sur iPad<br />
zones informationnelles et de navigation, cette dernière étant<br />
en général accessible à la demande, mais pas de manière permanente.<br />
Pour faciliter la recherche de contenu, la conception<br />
de documents pour ces supports doit privilégier les structures<br />
peu hiérarchiques, des unités d’information brèves de la taille de<br />
l’écran si possible, et des titres de chapitres explicites.<br />
Un deuxième élément important en termes d’interaction personne-machine<br />
est la disparition des périphériques d’entrée clavier<br />
– souris, remplacé le plus souvent par une interface tactile,<br />
à l’exception de certaines liseuses qui disposent seulement de<br />
boutons de navigation insérés dans le cadre. À la différence des<br />
premiers Tablet PC, l’interaction tactile multitouch des tablettes<br />
n’est pas une simple transposition de l’interaction avec la souris<br />
ou avec un stylet, elle obéit à une autre logique où le geste<br />
devient porteur de signification. Que ce soit le feuilletage ou le<br />
zoom, l’interaction se rapproche d’un geste naturel, ce qui rend<br />
l’interface plus intuitive, plus facile à apprendre et plus agréable à<br />
utiliser. D’autre part, l’interface tactile réintroduit la coordination<br />
œil-main: à la différence de l’interaction avec la souris, l’œil suit<br />
et contrôle ce que fait la main, comme pour l’écriture, le dessin et<br />
autres activités de précision. Seul un entraînement intensif permet<br />
d’effectuer un geste précis sans contrôle direct, comme en<br />
musique. Même si l’utilisateur chevronné ne sent pas de difficulté<br />
à utiliser une souris, l’interaction n’en reste pas moins consommatrice<br />
de ressources cognitives, même minimes, pour rétablir le lien<br />
entre le geste et son résultat. L’interface tactile réalise ainsi l’idéal<br />
de la manipulation directe imaginée par Norman notamment, où<br />
SPÉCIAL ÉTÉ – D – 21 AOÛT 2012<br />
49
Du bon usage des tablettes<br />
l’utilisateur interagit directement avec les objets de l’interface<br />
plutôt qu’au travers d’un langage de commandes et où le résultat<br />
de ses actions est perçu directement et immédiatement. Cette approche<br />
a donné naissance aux interfaces graphiques telles qu’on<br />
les connaît depuis les années 1980. Avec l’interface tactile, c’est<br />
aussi les menus hiérarchiques qui disparaissent, remplacés par des<br />
onglets ou des murs d’images que l’on peut feuilleter horizontalement.<br />
Offrant une interaction simplifiée, paraissant plus naturelle,<br />
la tablette minimise les ressources mobilisées par l’utilisateur pour<br />
la manipulation de l’interface.<br />
Bien sûr l’interface tactile n’a pas que des avantages, notamment<br />
en termes de contrôle utilisateur. En effet, le doigt est un pointeur<br />
beaucoup moins précis que la souris et l’interface tactile réagit<br />
au moindre contact, y compris involontaire, ce qui peut poser<br />
problème dans des situations de mobilité. L’interface tactile n’est<br />
pas non plus forcément la meilleure option en termes de sécurité<br />
(contact involontaire), de robustesse (écran fragile, sensible aux<br />
salissures) et de luminosité (écran peu lisible en pleine lumière,<br />
hormis certaines liseuses à écran réflectif et technologie e-ink).<br />
Finalement, une interaction simplifiée ne permet pas la subtilité<br />
offerte par les applications PC. La tablette est donc plutôt réservée<br />
à des usages ponctuels, en situation de mobilité ou avec de jeunes<br />
enfants.<br />
Quels atouts pour l’apprentissage et<br />
l’enseignement ?<br />
Nous parlerons ici des tablettes plutôt que des liseuses, dans la<br />
mesure où les liseuses offrent des fonctionnalités limitées que<br />
l’on peut retrouver dans les tablettes. On l’a vu, l’interface tactile<br />
change radicalement le mode d’interaction avec les documents<br />
et applications, introduisant de nouvelles habitudes, de nouveaux<br />
éléments d’interfaces, de nouvelles affordances (incitations<br />
à l’action générées par les éléments de l’environnement). Pour<br />
les situations d’enseignement, cette interaction plus directe est<br />
d’abord un atout pour les apprenants qui peuvent mobiliser toute<br />
leur attention à la compréhension du sujet plutôt qu’à la manipulation<br />
de l’interface. C’est d’autant plus vrai pour les jeunes enfants<br />
non lecteurs, qui s’approprient les interfaces tactiles en quelques<br />
minutes. Du côté de l’enseignant, une interaction simplifiée est<br />
également un atout, car la tâche qui occupe l’essentiel des ressources<br />
cognitives de l’enseignant est la gestion de ses 25 élèves<br />
ou ses 150 étudiants: mobiliser leur attention, les engager dans la<br />
réflexion, faciliter leur compréhension. Un dernier avantage et non<br />
des moindres est le prix réduit de l’objet par rapport à un ordinateur<br />
standard pour la plupart des usages que l’on en fait en classe.<br />
images sous licence CC BY-NC-ND 3.0/Stéphanie Burton, Philippe Devaud et l’équipe fri-tic. www.fri-tic.ch.<br />
50 flash <strong>informatique</strong><br />
Sur la question de l’apport de cet outil aux apprentissages, si l’on<br />
se fie aux médias qui ne tarissent pas d’éloge sur les tablettes, on<br />
aurait enfin trouvé la solution idéale pour dynamiser l’enseignement<br />
et favoriser l’apprentissage. Mais est-ce bien le cas ? Bien<br />
que les tablettes offrent des atouts convaincants en termes d’interaction,<br />
il faut se méfier des affirmations rapides. Comme pour<br />
tout support numérique, c’est moins ce que l’outil fait qui importe<br />
que ce que l’on peut faire avec cet outil. De ce point de vue, les<br />
tablettes possèdent trois caractéristiques intéressantes pour les<br />
situations d’enseignement:<br />
z Tout d’abord elles sont mobiles, ce qui permet une utilisation<br />
flexible en salle de classe ou en extérieur, voire une utilisation<br />
par l’étudiant à la maison si la tablette est confiée personnellement<br />
à l’élève.<br />
z Elles sont minimalement intrusives par comparaison aux ordinateurs<br />
fixes et même portables: leur écran horizontal ne<br />
perturbe pas les interactions entre étudiants ou entre enseignants<br />
et étudiants, elles peuvent facilement se ranger au<br />
côté des outils plus traditionnels, livres et cahiers.<br />
z Enfin elles offrent l’atout de la spontanéité: rapidement opérationnelles<br />
à l’allumage, les applications sont robustes et faciles<br />
d’utilisation comme on l’a dit précédemment ; en outre,<br />
l’interface tactile permet de passer facilement d’activités individuelles<br />
à des activités collectives puisque l’interaction n’est<br />
pas limitée par la présence d’une seule souris.<br />
Ces trois caractéristiques assurent aux tablettes une qualité d’interaction<br />
que les ordinateurs ne possèdent pas: la continuité, au<br />
sens où cet outil ne perturbe pas le déroulement pratique de l’enseignement<br />
et s’intègre aux outils usuels de la classe. S’il est jugé<br />
facile à utiliser et potentiellement utile, un outil qui ne perturbe<br />
pas les modes opératoires des utilisateurs aura plus de chance<br />
d’être accepté, puis utilisé au maximum de ses potentialités.<br />
Des usages au service des apprentissages<br />
Si la tablette offre de nombreux atouts comme outil personnel<br />
de l’élève, elle ne se substitue pas à des dispositifs pour la classe<br />
entière (tableau blanc interactif par exemple) qui sont plutôt des<br />
outils de l’enseignant. La tablette peut être utilisée dans la plupart<br />
des usages de l’ordinateur personnel, que l’on classera en quatre<br />
catégories en fonction de la plus-value apportée par le support<br />
numérique. Pour chaque catégorie, on distinguera un versant utilisation<br />
de ressources et un versant production par les élèves de<br />
contenu ou ressources.<br />
Stockage et réutilisation<br />
Cela paraît trivial aujourd’hui, l’ordinateur<br />
par le truchement du Web<br />
permet l’accès à une quantité d’information<br />
virtuellement infinie sur à<br />
peu près n’importe quel sujet. Pourtant<br />
cette possibilité est peu utilisée<br />
en situation d’enseignement, que<br />
ce soit à l’école obligatoire ou dans<br />
l’enseignement supérieur, en partie<br />
à cause de la pléthore de documents<br />
retrouvés pour chaque requête et
Du bon usage des tablettes<br />
leur fiabilité variable, mais aussi, car une autre voix que celle de<br />
l’enseignant s’inviterait en classe. Tout le monde s’accorde sur<br />
l’importance de former les jeunes élèves à la recherche d’information,<br />
mais personne n’est volontaire, sous prétexte que les élèves<br />
le feraient couramment chez eux. Or les études montrent bien que<br />
les compétences de recherche des 12-15 ans ne sont pas si développées<br />
lorsqu’il s’agit de sujets complexes, mais surtout que la<br />
plupart n’ont aucune compréhension de la façon dont le Web ou<br />
les moteurs de recherche fonctionnent. Et au-delà des procédures<br />
d’utilisation des moteurs de recherche, il s’agit bien de former à la<br />
culture numérique, dont l’évaluation de la fiabilité des sources et<br />
du contenu trouvé. Sur le versant production, l’ordinateur offre la<br />
possibilité de stocker une production et la réviser ultérieurement,<br />
capacité évidente, mais sur laquelle se base la plupart des usages<br />
professionnels. Ces documents peuvent à leur tour être rendus accessibles<br />
sur le Web, comme dans l’initiative wikimini (www.wikimini.ch)<br />
où les jeunes élèves écrivent des articles encyclopédiques<br />
pour leurs pairs, passant de consommateurs à acteurs du Web.<br />
Visualisation<br />
C’est peut-être la plus-value du numérique que les enseignants<br />
mobilisent le plus: la capacité de fournir des visualisations dynamiques<br />
et interactives. Que ce soit des vidéos documentaires<br />
ou des simulations permettant d’expérimenter des phénomènes<br />
physiques inaccessibles autrement, il s’agit de s’appuyer sur la<br />
puissance du traitement visuel humain pour appréhender des<br />
phénomènes complexes, qu’ils soient du domaine de l’histoire ou<br />
des sciences. Sur tablette, l’interaction tactile et individualisée<br />
permet à l’étudiant de se concentrer uniquement sur le contenu,<br />
qu’il manipulera selon ses propres hypothèses et rythmes de compréhension.<br />
Au-delà de la consultation, les élèves peuvent également<br />
construire des visualisations: montage multimédia pour un<br />
exposé, carte heuristique, construction 3D sur la base de plan sur<br />
des jeux créatifs type Minecraft &.<br />
copie d’écran du jeu Minecraft<br />
Traitement automatique<br />
Un ordinateur est d’abord un outil permettant d’effectuer des<br />
calculs, capable de traiter une grande quantité de données dans<br />
un temps réduit. Il s’agit de déléguer les processus de bas niveau,<br />
qui sont acquis, mais prennent du temps, pour que l’humain<br />
puisse avoir le temps et les ressources cognitives pour les proces-<br />
sus de haut niveau comme le raisonnement. Au-delà de l’usage<br />
de la calculatrice auquel on pense immédiatement, d’autres outils<br />
offrent cette possibilité de délégation: les exerciseurs par exemple,<br />
offrent une correction automatique de réponses standards, permettant<br />
un entraînement individualisé et un feedback immédiat,<br />
plus efficace. L’enseignant, libéré de la correction, peut alors visualiser<br />
le profil de réponse de l’étudiant et proposer une explication<br />
et des exercices adaptés. Les exerciseurs les plus élaborés sont<br />
capables de conseiller eux-mêmes les exercices à faire en fonction<br />
des résultats de l’élève. Sur le versant production, les outils de<br />
programmation accessibles aux néophytes (par exemple scratch)<br />
se développent aussi sur tablette, permettant de construire des<br />
activités interactives pour les autres.<br />
Communication et collaboration<br />
L’usage de l’ordinateur est maintenant indissociable des outils de<br />
communication qui lui sont attachés, du courrier Internet aux<br />
réseaux sociaux. Pour l’enseignement, ce sont plutôt les outils de<br />
production collaborative qui vont nous intéresser. On citera tout<br />
d’abord les wikis, éditeurs collaboratifs asynchrones de pages Web,<br />
qui permettent de produire des encyclopédies locales pointant sur<br />
des références externes. Sur tablettes, des outils de prise de notes<br />
individuels (comme evernote), plus faciles à appréhender que des<br />
wikis, sont souvent utilisés comme répositoires de notes produites<br />
par des élèves ou groupes d’élèves. Les outils de mindmapping ou<br />
de collections de liens comme pearltrees & offrent la plupart<br />
du temps des fonctionnalités d’édition collaborative. La tablette<br />
permet également une utilisation collaborative de simulations et<br />
exerciseurs. Outre l’aspect pratique du travail de groupe pour la<br />
gestion de la classe, la collaboration oblige les élèves à expliciter<br />
leur compréhension de la situation et à confronter les hypothèses,<br />
pour s’engager dans une véritable activité d’apprentissage.<br />
Les usages passés en revue ci-dessus sont relativement peu innovants,<br />
et peu perturbateurs en termes de modes opératoires<br />
enseignants. Il existe des usages plus innovants de la technologie,<br />
comme le papier digital, feuille de papier équipé d’un code matriciel<br />
activant une adresse Internet sur un équipement qui peut être<br />
une tablette. La TinkerLamp & développée par les chercheurs<br />
de l’<strong>EPFL</strong> est de ce type. Le papier digital a pour avantage de permettre<br />
une gestion papier des activités <strong>informatique</strong>s, réalisant<br />
une continuité avec les classeurs papier habituellement utilisés<br />
par l’enseignant.<br />
Peu encombrantes, faciles d’utilisation et offrant des capacités<br />
très similaires à un ordinateur standard, les tablettes pourraient<br />
bien avoir un bel avenir en éducation, si on garde à l’esprit que<br />
ce n’est pas l’outil qui apporte à l’apprentissage, mais les activités<br />
que cet outil permet de faire. n<br />
GLOSSAIRE &<br />
Minecraft: Minecraft est un jeu vidéo de type sandbox (construction<br />
libre, bac à sable). www.minecraft.net W<br />
pearltrees: service gratuit qui permet à chacun d’organiser et<br />
partager ce qu’il aime dans Internet. www.pearltrees.com W<br />
TinkerLamp: www.simpliquity.com/tinkerlamp.php<br />
W = tiré de Wikipédia<br />
SPÉCIAL ÉTÉ – D – 21 AOÛT 2012<br />
51
52<br />
Where we see that the issue of data sustainability<br />
is not new.<br />
Où l’on voit que la question de la pérennité des documents<br />
ne date pas d’hier.<br />
La plupart des grands textes de l’antiquité nous sont parvenus<br />
grâce aux copies successives des scribes du moyen âge. C’est le<br />
cas des écrits d’Archimède. Tout ce que l’on connaît aujourd’hui<br />
des travaux de ce mathématicien grec se limite à 3 livres, appelés<br />
A, B et C. La dernière trace de A, ce fut en 1564 dans la bibliothèque<br />
d’un humaniste italien. La dernière fois qu’on a entendu<br />
parler de B, c’est en 1311, comme faisant partie de la bibliothèque<br />
papale à Vierbo, au nord de Rome. C’est grâce à des copies que<br />
leur contenu est arrivé jusqu’à nous. Le codex & C ne fut découvert<br />
qu’en 1906 et est arrivé au musée d’art Walters de Baltimore,<br />
le 19 janvier 1999.<br />
En réalité, le codex était caché à l’intérieur d’un livre de prières<br />
qu’un moine, un certain Johannes Myrones avait achevé d’écrire<br />
le 14 avril 1229. Par manque de parchemin, ce moine avait recyclé<br />
sept vieux parchemins usagés dont le codex C d’Archimède.<br />
Après avoir soigneusement effacé les textes, Johannes a coupé les<br />
feuillets en 2, les a reliées, tournées de 90 degrés et y a écrit ses<br />
prières. Les sept parchemins originaux avaient laissé la place à un<br />
palimpseste &, ici un livre de prières.<br />
Ce livre de prières fut découvert par J. L. Heiberg en 1906. À l’aide<br />
d’une simple loupe, il recopia le plus de texte qu’il pouvait et<br />
découvrit ainsi des textes d’Archimède totalement inconnus, ne<br />
figurant ni dans A, ni dans B: la Méthode et le Stomachion &,<br />
ce qui fit de ce codex un des plus célèbres manuscrits au monde.<br />
Ce livre aurait dû finir sa vie dans une institution, si un acheteur<br />
privé n’en avait fait l’acquisition en 1998. Quelle était sa motivation<br />
? Sauver cette œuvre unique afin de donner la possibilité aux<br />
rares personnes capables de lire les textes d’Archimède en grec<br />
ancien d’y avoir accès. Il a rassemblé des amis d’Archimède, et a<br />
décidé de payer leur travail. Cela représentait de grosses sommes,<br />
mais pas autant qu’on pourrait le penser, car ces spécialistes ne<br />
venaient pas pour l’argent, mais pour Archimède. Ils venaient de<br />
tous les horizons, physique des particules, philologie classique,<br />
conservation des livres, mathématiques antiques, gestion des<br />
données, imagerie scientifique et programmation. Et ils se sont<br />
mis à travailler tous ensemble sur le manuscrit.<br />
flash <strong>informatique</strong><br />
Le palimpseste d’Archimède de<br />
Syracuse à Baltimore<br />
Jacqueline.Dousson@epfl.ch, <strong>EPFL</strong> - Domaine IT, responsable communication<br />
Restauration<br />
Ce livre en très mauvais état avait continué à se dégrader après<br />
la découverte de Heiberg: des forgeries & y ont été rajoutées et<br />
les moisissures se sont étendues. Avant de commencer à travailler<br />
avec l’imagerie, il a fallu 4 ans pour démanteler le palimpseste et<br />
garantir sa conservation future. Après s’être débarrassé de la colle<br />
qui avait été rajoutée sur le dos du codex, il a fallu ôter mécaniquement<br />
et très soigneusement la cire qui recouvrait le texte.<br />
En effet, ce livre, ayant été utilisé lors de cérémonies du rite grec<br />
orthodoxe, était imprégné de cire de bougies. Il est difficile de<br />
dire à quel point l’état du livre était mauvais, très souvent il était<br />
même en lambeaux. Normalement, dans un livre, on ne se préoccupe<br />
pas des petits morceaux, mais ici chacun pouvait contenir un<br />
morceau du texte d’Archimède.<br />
une page typique du palimpseste d’Archimède. Le manuscrit original du texte<br />
d’Archimède est écrit de droite à gauche, dissimulé sous le texte de prières écrites<br />
de haut en bas. Par The Walters Museum (www.archimedespalimpsest.net)<br />
[CC-BY-3.0 via Wikimedia Commons]
Le palimpseste d’Archimède de Syracuse à Baltimore<br />
Où il est question de supports et de<br />
formats<br />
La Méthode a sans doute été écrite dans une lettre d’Archimède<br />
qui vivait à Syracuse à Eratosthène d’Alexandrie (celui-là même<br />
qui fit la première mesure de la circonférence de la Terre à partir<br />
de la distance entre Assouan et Alexandrie). Lettre écrite sur un<br />
rouleau de papyrus, comme c’était l’habitude à l’époque, elle a<br />
été ensuite retransmise sur des parchemins de codex lors des<br />
premiers siècles de notre ère. Avec déjà la problématique de<br />
changement de support et de format bien connue aujourd’hui…<br />
sur un rouleau le texte est écrit dans la longueur, dans un codex<br />
sur des folios ! un codex pouvant contenir bien plus d’informations<br />
qu’un rouleau. Aux IXe et Xe siècles, souvent dans l’Empire<br />
byzantin, les codex furent recopiés plusieurs fois, avec entretemps<br />
changement de fonte (passage des majuscules aux minuscules).<br />
Les textes redécouverts au XXe siècle ont été écrits au<br />
Xème siècle, à une époque plus proche de la nôtre que de celle<br />
d’Archimède et Archimède lui-même n’aurait sans doute pas pu<br />
les lire à cause de toutes les transformations subies.<br />
Imagerie et calcul<br />
Il a fallu également plusieurs mois de tâtonnements avant que<br />
les équipes d’imagerie et de calcul numérique aboutissent à une<br />
méthode satisfaisante pour différencier les prières du texte d’Archimède,<br />
puis vint le travail sur les 174 folios & du codex.<br />
Experts<br />
Ce fut ensuite le tour des experts en grec ancien, en manuscrits<br />
du Moyen Âge, en histoire des mathématiques qui ont travaillé<br />
sur les images mises à leur disposition, à la recherche des mots ou<br />
lettres manquantes, travail de plusieurs années qui a enfin permis<br />
de prendre connaissance de ces textes d’Archimède, parmi les<br />
plus importants pour la science. En même temps, d’autres textes<br />
anciens très intéressants qui provenaient des autres parchemins<br />
furent mis en évidence.<br />
GLOSSAIRE &<br />
codex: un livre manuscrit relié avec une<br />
couverture, au début l’écriture se faisait<br />
sur du parchemin (peau animale) puis à<br />
partir du XIIIème siècle sur du papier.<br />
folio: une feuille qui a deux côtés recto<br />
et verso. Le codex dont il est question<br />
ici avait 177 folios au départ, mais il en<br />
manque 3, peut-être sont-ils quelque<br />
part dans un musée ou sur les murs<br />
d’un collectionneur.<br />
forgerie: le terme est propre à l’expertise<br />
en écritures. Il s’agit du fait de fabri-<br />
quer un faux en écriture, soit de toutes<br />
pièces, soit en réutilisant des parties<br />
authentiques existantes, auxquelles<br />
des parties forgées sont ajoutées<br />
habilement de façon à laisser croire que<br />
l’ensemble serait authentique. W<br />
palimpseste: dérivé des termes grecs<br />
palin (de nouveau) et psan (frotter), ce<br />
terme signifie que le parchemin a été<br />
frotté à plusieurs reprises. Pour créer un<br />
parchemin, il faut gratter la peau d’un<br />
animal, et si l’on veut réutiliser un parchemin<br />
qui a déjà servi, il faut le gratter<br />
à nouveau.<br />
Creative Common Licence<br />
Un des résultats de cette expérience est une réflexion sur ce qui<br />
différencie les livres et les données dans le domaine des manuscrits<br />
anciens. Les livres eux-mêmes doivent être gardés par des<br />
institutions spécialisées garantissant leur conservation. À l’opposé,<br />
les données doivent être accessibles au plus grand nombre de<br />
personnes susceptibles de les étudier. C’est le choix qui a été fait<br />
au musée d’art Walters de Baltimore. Persuadé que la connaissance<br />
des documents anciens ne passera à l’avenir que par la<br />
comparaison et l’assemblage de textes situés dans des lieux dispersés,<br />
le conservateur du musée Walters a décidé de mettre sous<br />
licence Creative Commons toutes les données brutes du projet<br />
palimpseste à la disposition des internautes. Par ailleurs, il a mis<br />
plus de 19000 images d’objets de la collection dans wikimedia [1],<br />
et encourage tous les institutions et musées à suivre son exemple.<br />
Conclusion<br />
J’ai découvert l’histoire de ce palimpseste par une conférence TED<br />
de Will Noel, conservateur au musée d’art Walters de Baltimore<br />
[2]; je renvoie ceux qui voudraient en savoir plus à la lecture du<br />
livre co-écrit par William Noel et Reviel Netz [3]. On y apprend<br />
entre autres qu’Archimède était l’inventeur de l’application des<br />
mathématiques et des modèles abstraits au monde physique à la<br />
base de tous les traitements numériques d’images qui ont justement<br />
servi à redécouvrir ses textes !<br />
Références<br />
[1] commons.wikimedia.org/wiki/Category:Media_contributed_by_the_Walters_Art_Museum<br />
[2] www.ted.com/talks/lang/en/william_noel_revealing_the_<br />
lost_codex_of_archimedes.html<br />
[3] Le codex d’Archimède, William Noel et Reviel Netz, JC<br />
Lattès n<br />
stomachion (appelé aussi loculus<br />
d’Archimède): puzzle, sorte d’ancêtre du<br />
Tangram, contient 14 pièces de formes<br />
variées qui tiennent toutes dans un<br />
carré.<br />
W = tiré de Wikipédia<br />
SPÉCIAL ÉTÉ – D – 21 AOÛT 2012<br />
53
54<br />
Un mot: tablette – quelques regards: étymologie,<br />
technologie et illustration.<br />
Qui suis-je ? – HRB<br />
Je suis jeune, moins de deux ans et demi;<br />
je suis plus petite qu’un ordinateur portable, moins de dix pouces;<br />
je suis plus grande qu’un smartphone, plus de sept pouces;<br />
je suis légère, moins d’un kilo;<br />
je suis rapidement disponible;<br />
je suis plate comme une galette;<br />
je suis noire comme une ardoise;<br />
j’ai une bonne mémoire, 1 Giga de RAM vive et jusqu’à 64 Gigas<br />
de mémoire interne;<br />
je fonctionne dans toutes les positions grâce à mon gyroscope;<br />
je n’aime pas les souris;<br />
je suis tactile, j’aime les doigts, pas les gants, j’aime aussi certains<br />
stylets;<br />
je surfe sur le Net comme personne;<br />
je travaille sans fil, en Bluetooth ou en Wi-Fi;<br />
je fonctionne sur batteries rechargeables;<br />
j’ai un port USB;<br />
mon système d’exploitation est Android ou iOS;<br />
je stocke tout sur un SSD (solid-state drive);<br />
j’ai une place à tenir dans les carnets de dessins,<br />
je peux servir de liseuse;<br />
je mets à disposition une caméra et un<br />
appareil photo;<br />
je propose un clavier virtuel pour les notes;<br />
je peux intégrer un GPS;<br />
je remplace aisément la pile d’encyclopédies<br />
au salon, mais pas comme tabouret<br />
d’appoint;<br />
mon mode d’interaction<br />
avec l’utilisateur<br />
est intuitif,<br />
donc pas besoin<br />
d’apprentissage;<br />
certaines<br />
écoles font des<br />
économies de<br />
papier sur mon<br />
dos et bientôt,<br />
peut-être, j’allégerai<br />
les cartables des<br />
écoliers…<br />
une tablette !<br />
TABLETTE<br />
Esteban.Rosales@bluewin.ch, géologue et illustrateur<br />
Appoline.Raposo@epfl.ch, <strong>EPFL</strong> – Domaine IT<br />
Frederic.Rauss@epfl.ch, <strong>EPFL</strong> - DIT, rédacteur KIS et Médiacom<br />
flash <strong>informatique</strong><br />
Tablette – FR<br />
Voici un bon exemple d’un mot qui illustre à quel point la langue<br />
est vivante. Il n’est pas très éloigné le temps où une tablette évoquait<br />
bien des objets sauf un iPad, un Kindle, etc. Personnellement,<br />
la première chose à laquelle me fait penser le mot tablette,<br />
c’est l’hôtesse dans l’avion qui vient vous dire:<br />
- Nous allons atterrir, pouvez-vous relever votre tablette ?<br />
Techniquement, cette petite planche horizontale n’est pas ce qu’il<br />
y a de plus révolutionnaire, mais tout de même, que de repas<br />
mangés dans des conditions acceptables grâce à elles. Mes études<br />
de lettres devraient me faire songer aux tablettes sumériennes,<br />
3000 avant Jésus-Christ – on ne prenait pas encore l’avion à cette<br />
époque. Mais j’en sais encore moins sur ce sujet que sur la tablette<br />
padeuse, et je ne peux m’empêcher de me demander si les scribes<br />
mangeaient dessus… Ce qui me fait penser aux tablettes de chocolat,<br />
les deux, celles qui sont emballées dans un joli papier aluminium<br />
scandaleusement polluant, et celles, musclées, dont on<br />
se prend à rêver lorsqu’on devient un peu bedonnant, sâgesse<br />
oblige. Il y a également la tablette de médicaments qui protège<br />
dans ses petites alcôves pelliculées des remèdes divers et variés. Le<br />
mot tablette appartient à la famille étymologique de table, et que<br />
de repas me reviennent aussitôt<br />
en mémoire, pris à la table de la<br />
cuisine, et des tablées d’amis, des<br />
réunions, puis on songe à une table<br />
plus sérieuse, la table de travail, ou<br />
plus grave, la table d’opération. Au<br />
fil des sens, on trouverait également<br />
le tablier de cuisine, le tabloïd sans<br />
cesse critiqué, mais toujours parcouru,<br />
le tabulateur jamais au bon endroit,<br />
voire même dialectalement la taule. En<br />
tant que scribe fédéral, j’affectionne plus<br />
particulièrement le sens de la tablette<br />
sur laquelle on peut écrire quelques mots,<br />
prendre des notes. Et il est récent pour moi<br />
que ce mot se soit mis à désigner avant tout<br />
ce qui ressemble à la Porte des Étoiles de Stargate,<br />
avec au centre l’i-ni-ma-gi-na-ble il y a<br />
peu, c’est-à-dire un monde que je peux toucher<br />
du bout du doigt - que de souris sauvées. Ce qui<br />
ne nous économise pas, table ou tablette, de la<br />
nettoyer de temps à autre, sans quoi la finesse de l’objet<br />
est dégradée par des maculatures grasses qui, loin de rappeler les<br />
nobles ratures manuscrites, témoignent du passage de l’animalhumain<br />
qui laisse l’empreinte de son passage, comme un escargot<br />
ses bavures diamantées, sur les voies fulgurantes de l’univers<br />
virtuel. n
Les couvertures auxquelles vous avez<br />
échappé<br />
Richard Timsit 2<br />
e-Dito<br />
Richard Timsit 3<br />
Safecast – Mesures citoyennes de la<br />
radioactivité à l’âge de l’Internet<br />
Robin Scheibler 4<br />
La bibliothèque de l’<strong>EPFL</strong><br />
Isabelle Kratz 7<br />
Une mauvaise journée<br />
Guilaine Baud-Vittoz 7<br />
Les logiciels libres et les bibliothèques<br />
Raphaël Grolimund 9<br />
L’Open Access à l’<strong>EPFL</strong><br />
Julien Junod 10<br />
La citation des données de recherche<br />
Lionel Walter 12<br />
DRM et bibliothèques<br />
Alain Borel 13<br />
SavoirLibre pour la diffusion des<br />
savoirs scientifiques<br />
Omar Odermatt 15<br />
Licences libres et Open Access<br />
Nicolas Borboën 17<br />
Forme, signe et … évasion<br />
Vers une définition du document numérique<br />
Patricia Plaza-Gruber 21<br />
Publier ses données sous forme de<br />
Linked Open Data<br />
Philippe Cudré-Mauroux 24<br />
Impressum<br />
Revue consacrée aux technologies de<br />
l’information, éditée par le Domaine IT de<br />
l’<strong>EPFL</strong> (DIT). Les articles n’engagent que<br />
leurs auteurs, sauf ceux qui concernent de<br />
façon évidente des prestations officielles<br />
(sous la responsabilité du DIT ou d’autres<br />
entités). Toute reproduction, même partielle,<br />
n’est autorisée qu’avec l’accord de la<br />
rédaction et des auteurs.<br />
Dans ce numéro<br />
Rédacteurs en chef:<br />
Jacqueline Dousson & Richard Timsit,<br />
fi@epfl.ch<br />
Mise en page & graphisme:<br />
Appoline Raposo de Barbosa<br />
Comité de rédaction:<br />
Jean-Daniel Bonjour, Patrice Fumasoli,<br />
Florence Hagen, Laurent Kling, Julia<br />
Paolini, François Roulet, Christophe<br />
Salzmann & Predrag Viceić<br />
Vers un Nouveau Monde de données<br />
Hubert Guillaud 26<br />
Données de recherche et cahier de<br />
laboratoire<br />
Gaël Anex 32<br />
Cloud, une question de confiance<br />
Simon Leinen 36<br />
Sérénité dans les nuages<br />
Laurent Kling 39<br />
Delete ou la vertu de l’oubli à l’âge digital<br />
Francis Lapique 42<br />
Open Government Data en Suisse – Vers plus<br />
de transparence, d’efficacité et d’innovation<br />
grâce à l’ouverture des données publiques<br />
Antoine Logean 44<br />
Du bon usage des tablettes<br />
Mireille Bétrancourt 49<br />
Le palimpseste d’Archimède de<br />
Syracuse à Baltimore<br />
Jacqueline Dousson 52<br />
Mot-croisé: TABLETTE<br />
Esteban Rosales,<br />
Appoline Raposo de Barbosa,<br />
& Frédéric Rauss 54<br />
tout public<br />
public averti<br />
expert<br />
Prochaines parutions<br />
No Délai de rédaction Parution<br />
6 16.08.12 14.09.12<br />
7 27.09.12 16.10.12<br />
8 25.10.12 13.11.12<br />
Impression: Atelier de Reprographie <strong>EPFL</strong><br />
Tirage: 4000 exemplaires<br />
Adresse Web: flash<strong>informatique</strong>.epfl.ch<br />
Adresse: Domaine IT <strong>EPFL</strong><br />
Station 8, CH-1015 Lausanne<br />
Téléphone: +41 21 69 32246 & 32247<br />
Abonnement au FI par e-mail à:<br />
fi-subscribe@listes.epfl.ch<br />
SPÉCIAL ÉTÉ – D – 21 AOÛT 2012<br />
55
ISSN 1420-7192