01.07.2013 Views

version PDF - Flash informatique - EPFL

version PDF - Flash informatique - EPFL

version PDF - Flash informatique - EPFL

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

Data<br />

Digital<br />

Diffusion<br />

Document<br />

Données<br />

DRM<br />

été<br />

2012<br />

<strong>Flash</strong>Informatique.epfl.ch<br />

p/a <strong>EPFL</strong> - Domaine IT - Station 8 - CH 1015 Lausanne - tél. +41 21 69 322 11<br />

21.08.2012


On the importance of visual display tools in the new data world.<br />

De l’importance des outils de visualisation dans le nouveau monde<br />

des données.<br />

Sur le point de prendre un fusain ou un crayon pour dessiner une couverture de<br />

ce numéro spécial D (Documents, Données,…), pourquoi ne pas en choisir un bon<br />

échantillon, en faire un graphe et le proposer à la maquettiste pour une adaptation?…<br />

Gephi, (www.gephi.org), qui mériterait un bel article dans la rubrique<br />

Logiciel Libre m’a permis de réaliser rapidement la chose en prenant des données<br />

en provenance du réseau. Les routeurs d’une certaine importance délivrent les<br />

traces de tous les flux qui les traversent à des fins de facturation ou de sécurité.<br />

Netflow est un format<br />

SP 21.08.2012 bien répandu de ces flux<br />

SP ÉTÉ 2012<br />

<strong>Flash</strong>Informatique.epfl.ch<br />

qui donnent, entre autres,<br />

O<br />

N<br />

N<br />

E<br />

p/a <strong>EPFL</strong> - Domaine IT - Station 8 - CH 1015 Lausanne - tél. +41 21 69 322 11<br />

adresse source, adresse<br />

destination, port source,<br />

port destination ainsi que<br />

le nombre de bytes acheminés.<br />

En prenant un tout petit échantillon de ce qui a traversé en sortie notre<br />

routeur vers Switch la journée du 15 juin entre 10h et 12h avec les ports utilisés<br />

par le Web (80 et 443) et en agrégeant les adresses de l’<strong>EPFL</strong> par subnet on se<br />

retrouve avec assez de nœuds pour faire de belles images…<br />

Nous sommes submergés de données.<br />

Tous les automates en fournissent et nous en concevons tous les jours de nouveaux<br />

et de plus en plus complexes pour nous simplifier la vie…<br />

Heureusement, parmi ceux-ci, il y en a qui permettent de visualiser les données,<br />

pour y voir plus clair ou<br />

pour les faire parler plus<br />

vite. Comme le dit Vittoria<br />

Rezzonico dans la<br />

conclusion de son article<br />

sur R: «L’affichage des<br />

données est un art…»<br />

(FI5/2012, flash<strong>informatique</strong>.epfl.ch/spip.php ?article2552).<br />

Dans le domaine scientifique pour leur interprétation autant que dans les médias<br />

pour la qualité de la communication, la visualisation des données ou l’infographie<br />

a pris une importance exceptionnelle. Les nouveaux dispositifs de lecture qui sont<br />

devenus les supports de prédilection pour les revues scientifiques ou grand public,<br />

ne sont pas pour rien dans cette évolution. Datavisualization.ch suit de très près<br />

l’état de cet art et offre une sélection impressionnante d’outils.<br />

La conjugaison de plusieurs savoirs (<strong>informatique</strong>, design, communication) s’impose<br />

aujourd’hui pour réussir une visualisation correcte des données, l’haptique<br />

viendra demain se rendre indispensable pour permettre de toucher leur public.<br />

É<br />

C<br />

E<br />

S<br />

O<br />

D D<br />

U<br />

M<br />

N<br />

T<br />

S<br />

199.59.149.243<br />

77.75.72.52<br />

89.207.18.181<br />

64.215.255.16 130.223.28.155<br />

174.35.7.3<br />

69.171.224.55<br />

171.67.113.220<br />

50.19.104.28<br />

66.235.139.166<br />

87.248.125.23<br />

124.193.167.1<br />

67.195.186.127<strong>EPFL</strong>-14<br />

173.194.35.20<br />

<strong>EPFL</strong>-55<br />

173.194.32.77<br />

199.7.55.72<br />

217.26.52.8<br />

208.94.1.92 160.92.7.69<br />

80.239.255.107 93.88.240.99<br />

<strong>EPFL</strong>-239<br />

65.52.109.72<br />

193.200.220.200<br />

85.218.94.112<br />

8.20.213.100<br />

195.12.228.164<br />

66.220.151.82<br />

193.134.74.26<br />

184.154.163.58<br />

149.20.69.23<br />

195.141.85.93<br />

<strong>EPFL</strong>-157<br />

93.17.88.225<br />

173.194.32.116<br />

<strong>EPFL</strong>-244<br />

74.125.13.25<br />

66.249.72.146<br />

174.35.6.20 195.176.255.143 195.24.233.55 204.160.120.126<br />

217.163.21.40<br />

91.198.174.225<br />

<strong>EPFL</strong>-154 138.100.41.103<br />

99.198.125.117 <strong>EPFL</strong>-99 <strong>EPFL</strong>-140<br />

<strong>EPFL</strong>-5 <strong>EPFL</strong>-247<br />

180.76.5.53206.17.82.1<br />

68.232.35.119 198.151.217.248<br />

12.130.81.249<br />

80.77.144.35<br />

157.55.17.194<br />

173.194.35.40<strong>EPFL</strong>-183<br />

71.45.133.177 91.189.89.90 79.183.195.243<br />

66.220.151.78<br />

91.232.96.13<br />

79.125.16.23<br />

74.125.232.122<br />

66.220.146.94<br />

83.201.39.190 173.194.35.49<br />

85.218.29.30<br />

192.33.204.216<br />

212.47.171.87<br />

83.172.200.234<br />

<strong>EPFL</strong>-67<br />

195.141.85.90<br />

216.191.247.139<strong>EPFL</strong>-152<br />

<strong>EPFL</strong>-62<br />

173.194.35.56<br />

212.170.239.12<br />

80.239.255.120<br />

<strong>EPFL</strong>-104<br />

46.0.19.156<br />

67.228.66.123<br />

61.158.249.154<br />

69.171.224.37<br />

<strong>EPFL</strong>-37<br />

193.46.238.92<br />

91.191.146.206<br />

195.176.255.88<br />

194.150.236.159<br />

<strong>EPFL</strong>-222<br />

90.52.194.142<br />

188.60.88.121 EHE-101<br />

217.163.21.37<br />

192.33.210.16<br />

62.210.65.204 213.5.132.15<br />

216.115.111.47 68.67.179.212<br />

199.168.13.75<br />

195.176.255.83<br />

193.218.102.53<br />

130.190.36.39<br />

81.7.230.121<br />

174.35.7.21<br />

81.22.37.155<br />

222.128.196.101<br />

38.100.179.210 <strong>EPFL</strong>-232<br />

50.16.231.96<br />

83.140.105.187<br />

68.67.185.247<br />

208.91.128.58<br />

195.24.233.60<br />

<strong>EPFL</strong>-21<br />

EHE-99<br />

194.126.157.11 <strong>EPFL</strong>-135<br />

69.171.229.74 208.92.53.43 <strong>EPFL</strong>-65 85.17.80.120<br />

93.91.236.98<br />

178.250.0.100<br />

74.125.232.97<br />

110.75.34.138<br />

217.108.165.25 64.215.255.80<br />

205.251.209.161<br />

198.151.217.241<br />

67.228.183.35<br />

217.29.163.117<br />

<strong>EPFL</strong>-245<br />

85.17.80.124<br />

62.2.105.154 199.59.148.87<br />

66.235.138.18<br />

74.125.232.124<br />

212.239.25.139<br />

174.35.4.144<br />

62.161.94.223<br />

195.176.255.81<br />

95.172.94.28 74.117.185.150<br />

81.22.37.125<br />

94.23.243.218 77.238.178.122<br />

62.109.145.80<br />

184.72.11.140178.94.46.121<br />

137.254.16.69<br />

173.194.35.15<br />

78.40.123.10<br />

184.184.112.165<br />

129.194.8.73<br />

195.176.255.135<br />

83.140.105.62<br />

17.171.8.16<br />

21.08.2012<br />

SP<br />

183.91.4.73 66.231.94.105 87.248.121.190<br />

193.169.66.18<br />

64.4.61.95 184.73.219.64 183.60.52.68<br />

91.202.121.21 78.46.70.205<br />

88.255.82.102<br />

68.67.185.208<br />

74.125.13.54 74.86.70.106<br />

199.127.194.80<br />

192.167.23.210<br />

94.127.76.140<br />

174.35.6.24<br />

<strong>EPFL</strong>-34<br />

95.131.121.196<br />

67.215.229.16546.105.9.255<br />

192.33.203.72<br />

SP 74.125.79.94 ÉTÉ 2012 68.67.179.135<br />

80.74.154.241 46.105.100.222<br />

173.194.35.19<br />

50.116.55.164<br />

202.108.23.27 <strong>Flash</strong>Informatique.epfl.ch<br />

174.35.6.9 195.24.233.57<br />

70.48.126.210<br />

8.20.213.76 65.52.110.143<br />

23.21.160.167<br />

<strong>EPFL</strong>-53<br />

94.100.179.68<br />

<strong>EPFL</strong>-153<br />

74.125.13.82<br />

81.26.166.70O<br />

<strong>EPFL</strong>-238<br />

123.125.50.28 59.98.107.139 77.72.113.34 212.47.171.86<br />

184.72.228.198 114.108.157.112<br />

207.46.13.163<br />

208.94.0.161<br />

83.221.236.51<br />

208.94.0.99<br />

<strong>EPFL</strong>-87 217.163.21.36<br />

212.95.67.200<br />

212.25.65.1 193.49.247.199<br />

72.250.245.121 193.247.166.73<br />

N<br />

84.16.76.181<br />

193.247.166.51 74.15.179.217 182.118.12.156<br />

74.86.70.107<br />

66.244.153.192<br />

93.88.240.50 180.76.5.136<br />

83.43.195.135<br />

2.19.79.144<br />

17.154.66.38 212.103.75.210 <strong>EPFL</strong>-82<br />

62.211.72.133 N 124.247.239.63<br />

p/a <strong>EPFL</strong> <strong>EPFL</strong>-195 - Domaine IT - Station 8 - CH 1015 Lausanne - tél. +41 66.220.151.94<br />

21 69 322 11<br />

64.34.200.15446.211.9.16<br />

23.22.95.8 206.53.176.104 <strong>EPFL</strong>-203<br />

81.88.105.182 80.237.153.97<br />

85.13.135.248<br />

194.54.81.182<br />

199.59.241.216 173.194.35.10 <strong>EPFL</strong>-48<br />

92.123.74.64<br />

138.108.7.20<br />

199.7.57.72 208.81.234.117<br />

192.33.202.3<br />

68.67.185.252<br />

74.125.232.104<br />

174.35.7.22 62.212.85.145 176.34.197.122<br />

195.176.255.84<br />

74.125.232.121<br />

81.19.88.103<br />

<strong>EPFL</strong>-125 92.123.65.194<br />

208.74.76.163 223.132.27.137<br />

84.16.80.92<br />

E192.33.203.124 173.194.35.38<br />

<strong>EPFL</strong>-241<br />

195.186.17.100<br />

<strong>EPFL</strong>-11<br />

213.180.204.90<br />

74.125.13.56<br />

84.16.68.224<br />

184.154.197.3<br />

193.50.216.106 203.209.224.55<br />

61.8.48.57 92.123.74.72<br />

46.182.41.58 85.218.94.154<br />

220.181.181.221<br />

50.97.151.194 173.178.205.109<br />

94.245.70.55<br />

212.71.120.204159.245.16.100<br />

<strong>EPFL</strong>-156<br />

173.194.32.127<br />

195.81.229.100<br />

61.158.249.138<br />

31.186.231.25 37.59.16.162<br />

199.59.148.82<br />

93.184.220.33 85.125.84.133<br />

<strong>EPFL</strong>-209<br />

61.55.171.32<br />

173.194.32.83<br />

173.194.35.58<br />

220.181.181.226<br />

212.227.192.198<br />

EHE-66<br />

208.66.66.71 88.198.41.164<br />

188.121.55.80<br />

66.249.72.26<br />

<strong>EPFL</strong>-13<br />

220.181.181.230 205.186.187.171<br />

74.125.232.100<br />

173.194.35.35 78.111.253.47<br />

220.181.181.227<br />

180.76.6.231<br />

62.28.70.52<br />

54.240.162.172<br />

2.14.89.153<br />

174.37.214.243<br />

109.214.139.195<br />

69.171.227.71<br />

194.112.241.5<br />

66.249.72.80<br />

71.116.245.210<br />

61.182.131.25<br />

217.163.21.38<br />

123.125.46.36 174.35.7.26 207.46.13.114<br />

114.113.158.55<br />

<strong>EPFL</strong>-50<br />

2.19.73.133 219.142.127.20<br />

208.71.123.72<br />

208.94.2.106113.142.3.12<br />

83.139.126.203<br />

212.239.41.101<br />

199.7.51.190 68.67.185.210<br />

157.166.224.246<br />

208.94.0.105 93.88.243.116<br />

50.57.4.218<br />

173.192.42.179 23.21.182.111 <strong>EPFL</strong>-196174.92.229.9<br />

195.176.255.89<br />

180.76.5.196 82.199.80.141<br />

207.241.148.88<br />

74.125.71.105<br />

91.220.100.250<br />

82.192.95.92<br />

65.93.127.113<br />

81.18.191.158<br />

70.167.227.245 <strong>EPFL</strong>-240217.146.179.200<br />

180.76.5.170<br />

173.194.35.48<br />

<strong>EPFL</strong>-246 66.196.66.212 184.105.67.85<br />

<strong>EPFL</strong>-237<br />

74.125.232.96 110.49.241.190<br />

195.154.120.71<br />

95.172.94.62 174.35.6.10 77.75.72.19<br />

194.20.158.105 174.35.6.12<br />

23.21.183.70 86.194.220.48 218.104.71.174<br />

79.110.86.233<br />

119.188.40.81 93.88.240.54<br />

<strong>EPFL</strong>-155<br />

174.35.6.7 23.21.182.156<strong>EPFL</strong>-77<br />

<strong>EPFL</strong>-36<br />

130.158.6.56 91.213.227.150<br />

184.169.79.33<br />

68.168.112.46<br />

66.220.145.44<br />

180.149.135.236<br />

89.93.216.254 195.141.85.94<br />

50.116.55.35 188.132.215.82<br />

87.248.202.160<br />

<strong>EPFL</strong>-253<br />

122.11.51.16 <strong>EPFL</strong>-129 194.150.245.142 213.205.32.19<br />

180.76.5.111<br />

174.35.7.7<br />

<strong>EPFL</strong>-42<br />

217.174.118.194<br />

84.16.80.85<br />

70.25.39.180<br />

173.194.35.24 87.248.203.253<br />

74.125.232.98<br />

213.199.181.90 72.21.214.159<br />

173.194.35.5 81.26.216.23 82.98.105.20 60.28.212.53<br />

174.35.4.134<br />

194.62.234.39<br />

31.24.80.31<br />

212.147.54.162<br />

199.16.173.23<br />

176.34.132.201 194.7.148.38<br />

66.249.72.75<br />

<strong>EPFL</strong>-134<br />

180.76.5.98<br />

173.194.35.4<br />

<strong>EPFL</strong>-49<br />

178.154.205.251<br />

91.121.118.146<br />

<strong>EPFL</strong>-201 <strong>EPFL</strong>-20<br />

EHE-100 46.137.187.111 93.57.15.123<br />

<strong>EPFL</strong>-94<br />

77.75.76.72<br />

<strong>EPFL</strong>-160<br />

174.35.5.6<br />

74.125.232.103<br />

124.83.195.239<br />

123.125.65.93<br />

<strong>EPFL</strong>-46212.47.171.72<br />

173.194.35.0<br />

217.163.21.34<br />

<strong>EPFL</strong>-105 67.225.203.125<br />

188.62.41.102 <strong>EPFL</strong>-89<br />

184.72.234.3<br />

60.29.242.148<br />

É<br />

C<br />

E<br />

S<br />

O<br />

D D<br />

U<br />

M<br />

N<br />

T<br />

S<br />

Pour en savoir plus sur Gephi, voir l’article An Open Source Software for Exploring<br />

and Manipulating Networks de Mathieu Bastian, Sebastien Heymann et<br />

Mathieu Jacomy – gephi.org/publications/gephi-bastian-feb09.pdf. n<br />

2 flash <strong>informatique</strong><br />

Les couvertures auxquelles<br />

vous avez échappé<br />

Richard.Timsit@epfl.ch, <strong>EPFL</strong> – Domaine IT, illustrateur de la couverture<br />

DONNÉES<br />

O<br />

C<br />

U<br />

M<br />

E<br />

N<br />

T<br />

S<br />

SPÉCIAL<br />

ÉTÉ<br />

2012<br />

SP<br />

<strong>Flash</strong>Informatique.epfl.ch<br />

p/a <strong>EPFL</strong> - Domaine IT - Station 8 - CH 1015 Lausanne - tél. +41 21 69 322 11<br />

204.145.91.20<br />

205.251.242.133<br />

195.1.229.60 173.194.35.13 194.149.246.24 85.4.91.201 24.139.31.55<br />

2.19.76.20<br />

199.59.150.41 195.141.38.31<br />

157.56.248.9 <strong>EPFL</strong>-38<br />

75.101.163.8<br />

<strong>EPFL</strong>-6<br />

<strong>EPFL</strong>-43<br />

74.125.13.73<br />

173.194.32.113<br />

207.46.13.211<br />

123.125.115.62 173.194.35.42 85.218.7.66174.35.6.3<br />

192.33.202.32 182.55.248.100<br />

174.35.4.146<br />

123.125.114.64<br />

129.132.95.202<br />

123.125.115.75 88.190.36.183 213.92.10.33<br />

141.249.145.40<br />

78.109.88.177 130.14.29.109<br />

195.176.255.151<br />

208.94.2.104 122.226.169.183<br />

184.73.198.91<br />

199.7.50.72 86.219.132.103 217.20.138.66 87.249.105.26<br />

<strong>EPFL</strong>-179<br />

83.79.82.180 50.17.243.165 193.110.128.199 208.69.152.105<br />

31.186.231.31 64.95.73.13<br />

94.245.68.221<br />

<strong>EPFL</strong>-110<br />

61.135.218.37<br />

61.135.201.238 130.14.29.110<br />

80.251.169.132 69.36.34.24 221.123.170.40<br />

184.73.200.194<br />

85.218.96.175 65.52.109.7<br />

174.35.4.151<br />

64.236.124.229 66.220.151.88<br />

217.154.245.50<br />

173.194.35.8<br />

125.39.120.140<br />

<strong>EPFL</strong>-121<br />

216.52.208.152<br />

173.194.35.59 212.95.67.222<br />

193.110.128.197 62.161.94.222 66.249.72.117 213.202.98.213 <strong>EPFL</strong>-76<br />

205.251.209.29<br />

<strong>EPFL</strong>-41<br />

65.55.255.16<br />

<strong>EPFL</strong>-187188.61.27.235<br />

<strong>EPFL</strong>-90 114.80.190.99<br />

46.228.164.14<br />

72.55.189.164 95.172.94.35<br />

21.08.2012


e-Dito<br />

Richard.Timsit@epfl.ch, <strong>EPFL</strong> – Domaine IT<br />

D comme data, D comme donnée, D comme document?<br />

Pour ne pas trancher, il nous est apparu pratique et prudent de<br />

nous en tenir à la lettre D.<br />

Cette quatrième lettre de l’alphabet est le symbole de la porte, c’est<br />

bon signe ! Le dessin même de la lettre évoque le chambranle de celle-ci<br />

dans la cité ou le triangle de l’ouverture de la tente pour les nomades que<br />

l’on retrouve dans le delta.<br />

Initiale d’un Début ou d’un Départ pour un numéro spécial du <strong>Flash</strong> <strong>informatique</strong><br />

qui voulait traiter de ce que deviennent les documents en ce début<br />

du XXI° siècle où nous ne lisons plus, n’écrivons plus, n’archivons plus, ne<br />

pensons plus comme hier. Bien sûr, nous ne nous baignons jamais deux fois<br />

dans la même encre et les formes du livre n’ont toujours fait que changer, en<br />

nous changeant profondément.<br />

Ce numéro est constitué d’un grand nombre d’articles sur les Données dans<br />

tous leurs états, en toutes les langues, sur tous les supports, au point de laisser<br />

le Document somnoler sur son étagère. Il ne se fait pas oublier pour autant !<br />

Tout départ est une aventure et celui du numérique dans lequel nous sommes<br />

engagés prend l’allure d’un grand saut inquiétant. Nous sommes encore peu<br />

habitués à ces chiffres astronomiques et à ces croissances exponentielles et<br />

même si la terminologie du nuage ou de l’immatériel se veut rassurante, il est<br />

bien légitime de s’inquiéter et de penser confiance et pérennité.<br />

Un Exaoctet (Eo) de données représente environ 10.000 fois la capacité<br />

de la Bibliothèque du Congrès Américain.<br />

L’humanité a produit environ 5 Eo de données depuis son avènement<br />

jusqu’en 2003. En 2010, il suffisait de deux jours environ pour produire<br />

la même quantité [1].<br />

Ce numéro du FI nous le révèle une fois de plus, nous n’avons jamais<br />

été aussi merveilleusement outillés, mais toute technique étant à la<br />

fois remède et poison, il nous faut bien compter sur l’acquisition<br />

de savoirs pour apprendre à Discerner.<br />

[1] blog.dewost.com/big-data-petitesreflexions<br />

SPÉCIAL ÉTÉ – D – 21 AOÛT 2012<br />

3


Information technology and open-source: powerful<br />

tools for post-Fukushima environmentally concerned<br />

citizens.<br />

Les technologies de l’information et les logiciels ouverts:<br />

de puissants outils pour les citoyens soucieux<br />

de l’environnement après Fukushima.<br />

Le triple meltdown de la centrale de Fukushima, conséquence du<br />

terrible tremblement de terre et tsunami ayant ravagé le nord-est<br />

du Japon en mars 2011, a réveillé le spectre dormant de la peur<br />

nucléaire. Née à Hiroshima et Nagasaki, puis nourrie abondamment<br />

durant la guerre froide et l’intensive période d’essais nucléaires<br />

atmosphériques l’accompagnant, cette peur a finalement<br />

atteint pleinement la population civile lors des accidents de Three<br />

Mile Island, aux États-Unis, puis le pire jusqu’à Fukushima, Tchernobyl,<br />

en Ukraine quelques années plus tard.<br />

C’est pourquoi en ce beau week-end de mars 2011 suivant la<br />

catastrophe, de multiples questions se posaient. Faut-il, en plus<br />

des tremblements de terre et des tsunamis, craindre un danger<br />

invisible, pouvant potentiellement mener à des problèmes graves<br />

de santé, des cancers ? Mon environnement a-t-il été contaminé ?<br />

Est-il raisonnable de rester à Fukushima ? À Tokyo ? Au Japon ?<br />

Seules des données indépendantes de qualité peuvent non seulement<br />

commencer à répondre à toutes ces questions, mais aussi<br />

permettre une investigation détaillée des conséquences de l’accident,<br />

ainsi qu’un travail de décontamination où cela est nécessaire.<br />

Durant les premières semaines suivant la catastrophe, les<br />

seules sources publiant de telles données étaient le Ministère de<br />

l’Éducation, de la Culture, des Sports, des Sciences et de la Technologie<br />

du Japon (MEXT) et Tokyo Electric Company (TEPCO). Malheureusement,<br />

les données publiées par ces deux entités étaient<br />

au mieux lacunaires, avec seulement quelques points dans la préfecture<br />

de Fukushima, mais souvent aussi terriblement anciennes,<br />

de plusieurs jours, semaines, voire mois. Ajoutés à cela, un manque<br />

de transparence total dans les communications ainsi qu’un intérêt<br />

clair à manipuler les données ont contribué à décrédibiliser les<br />

mesures officielles de la radioactivité.<br />

Safecast: crowdsourcing et radioactivité<br />

C’est cette pénurie d’informations officielles qui a poussé un<br />

nombre important de citoyens à prendre la responsabilité de mesurer<br />

la radioactivité afin de garantir leur sécurité et celle de leur<br />

famille. Bien qu’un simple compteur Geiger soit suffisant pour<br />

cela, face à une demande aussi soudaine que massive, les stocks<br />

mondiaux furent épuisés après seulement une semaine. Et c’est<br />

4 flash <strong>informatique</strong><br />

Safecast<br />

Mesures citoyennes de la radioactivité à l’âge de l’Internet<br />

Robin Scheibler, fakufaku@gmail.com, designer, fabricant et réparateur de bGeigie (senseur mobile de radioactivité) à Safecast Japan<br />

à ce moment-là que quelque chose de magique est arrivé. Les<br />

citoyens ayant pu se procurer un compteur commencèrent à diffuser<br />

leurs mesures sur l’Internet, par l’intermédiaire d’un graphe<br />

en temps réel, ou simplement en posant l’appareil devant une<br />

webcam. En une semaine, plusieurs dizaines de flux de données<br />

étaient déjà disponibles en particulier sur Pachube & (renommé<br />

Cosm récemment), une plate-forme de partage ciblant l’Internet<br />

des objets.<br />

C’est dans ces conditions, durant la semaine suivant le 11 mars<br />

2011, qu’est né Safecast (www.safecast.org), une organisation<br />

bénévole dont le but est de fournir une information de qualité sur<br />

les niveaux de radioactivité. La première itération fut de rassembler<br />

toutes les données accessibles sur l’Internet, mais jusque-là<br />

éparses, et de les visualiser sur une seule carte. Cette première<br />

carte incluait alors aussi bien les données gouvernementales que<br />

citoyennes. Cependant, tous ces senseurs disponibles en ligne à<br />

ce moment-là étaient des senseurs fixes offrant certes une excellente<br />

résolution temporelle, mais peu de couverture spatiale, laissant<br />

de grandes zones vides de mesures, ou presque, après avoir<br />

zoomé sur une zone particulière.<br />

Cet effet rendait en pratique cette carte d’un intérêt limité étant<br />

donné que dans la plupart des cas, chaque individu est concerné<br />

tout particulièrement par les niveaux dans son environnement<br />

direct. Afin de répondre à ce besoin et remplir la carte simultanément,<br />

la première idée fut l’utilisation collective des compteurs<br />

Geiger et le partage en ligne des données collectées. Safecast<br />

prêta alors des compteurs contre la promesse de partager les<br />

résultats via un formulaire sur notre site Web. Ce fut le début du<br />

crowd-sourcing &.<br />

BentoGeigie: vers une mobilité des senseurs<br />

Ce système bien que répondant efficacement à un besoin humain<br />

a cependant rapidement montré ses limites quant à son efficacité<br />

en matière de collecte de données. Principal obstacle, l’aspect manuel<br />

demandant beaucoup de temps pour un nombre de mesures<br />

récoltées finalement pas si élevé. Toutefois, ce système a introduit<br />

l’élément crucial de la mobilité des senseurs eux-mêmes afin de<br />

couvrir un territoire extrêmement large avec un nombre d’appareils<br />

limité. La suite logique fut donc de fixer un compteur Geiger<br />

sur une voiture et d’enregistrer le niveau de radioactivité ainsi que<br />

la position à intervalles réguliers et pour toute la durée du voyage.<br />

Il est intéressant de noter que la toute première incarnation de ce<br />

système n’utilisait que des éléments accessibles à tout un chacun,<br />

mis à part le compteur Geiger. Le compteur est scotché contre la<br />

vitre côté passager, écran contre l’intérieur du cockpit, senseur<br />

pointant à l’extérieur. La valeur affichée est alors photographiée<br />

avec un smartphone, les données GPS sont automatiquement


Safecast, mesures citoyennes de la radioactivité à l’âge de l’Internet<br />

ajoutées au fichier qui est ensuite transféré vers un compte Flickr.<br />

Par la suite, une carte peut être générée avec un logiciel comme<br />

iPhoto par exemple. Cette méthode, bien que difficilement extensible<br />

à grande échelle à cause de son format difficile à lire automatiquement<br />

(photographie d’un écran), montre que tous les<br />

outils nécessaires sont disponibles.<br />

Après un premier prototype utilisant un netbook, un simple GPS<br />

USB, un Arduino ainsi que l’indispensable compteur Geiger, le<br />

Bento Geiger, ou bGeigie pour faire court, est finalement développé<br />

au Tokyo Hackerspace. Il s’agit d’un système indépendant<br />

entièrement contenu dans une boîte rectangulaire faisant penser<br />

à une boîte à déjeuner, ou bento en japonais. Le cœur du système<br />

est un Arduino, une plate-forme de développement rapide conçue<br />

à la base pour les artistes et bricoleurs, munie d’une carte d’extensions<br />

spécialement créée pour Safecast et qui inclut un GPS, une<br />

carte SD et une connexion à la sortie audio du compteur Geiger.<br />

Une fois fermé, le senseur est complètement étanche et peut être<br />

attaché à une voiture au moyen de deux sangles que l’on fixe dans<br />

une fenêtre et quelques ventouses pour la stabilité. Une fois allumé,<br />

le senseur compte le nombre d’impulsions venant du compteur<br />

dans un intervalle de 5 secondes puis enregistre cette valeur,<br />

accompagnée des coordonnées géographiques et du temps dans<br />

un fichier sur la carte SD. Une fois le voyage terminé, les données<br />

récoltées sont extraites de la carte et transférées dans la base de<br />

données, à partir de laquelle peut maintenant être créée une carte<br />

détaillée des niveaux de radiation.<br />

Depuis le premier prototype créé environ un mois après la catastrophe,<br />

environ quarante unités ont été construites, principalement<br />

manuellement. Ces unités sont ensuite prêtées à des<br />

bénévoles qui vont quadriller leur ville, ou l’utiliser lors de leurs<br />

déplacements quotidiens. Après avoir couvert ce qu’ils peuvent,<br />

les senseurs sont renvoyés à Safecast afin d’être redéployés chez<br />

d’autres bénévoles. Cette méthode a permis en moins d’une année,<br />

de récolter plus de trois millions de points de mesure uniques,<br />

principalement dans le nord-est du Japon, mais aussi dans le reste<br />

du monde, entre autres Hong Kong, la Californie, la Finlande, et<br />

même la Suisse.<br />

Open source et action citoyenne<br />

L’un des points forts de Safecast est un engagement absolu à<br />

publier toutes nos données libres de droits et sans restriction<br />

aucune. À cette fin, les données sont publiées sous une licence<br />

Creative Commons 0, c’est-à-dire directement dans le domaine<br />

public. Cela afin qu’il n’y ait aucune barrière à l’utilisation de ces<br />

données à des fins scientifiques ou informatives. Pour compléter<br />

cela, nous fournissons l’ensemble de nos données sur notre<br />

site Web en téléchargement libre dans un format texte et lisible<br />

automatiquement par ordinateur (https://api.safecast.org/system/<br />

measurements.tar.gz).<br />

En plus des données, tous les logiciels et hardwares développés<br />

à Safecast utilisent des licences open source, permettant d’être<br />

réutilisés avec très peu de contraintes. Le but est double. D’une<br />

part, le développement a été incroyablement accéléré par la réutilisation<br />

de code et designs déjà existants, ce qui a permis par<br />

exemple de concevoir et construire complètement un prototype<br />

de senseur en seulement un mois. D’autre part, de telles licences<br />

sont particulièrement appropriées dans le cadre d’une opération<br />

citoyenne, car elles permettent à d’autres groupes indépendants<br />

de créer leurs propres senseurs et ainsi leur propre jeu de données.<br />

Ceci est particulièrement souhaitable, car plus de données sont<br />

nécessairement mieux que moins de données, mais aussi, car les<br />

résultats ainsi produits indépendamment vont mutuellement renforcer<br />

leur crédibilité.<br />

Un activisme environnemental nécessaire<br />

La révolution industrielle du XIXe siècle et les prodigieuses avancées<br />

scientifiques qui l’ont accompagnée jusqu’à nos jours ont offert<br />

à l’humanité une sécurité et un confort tels qu’elle n’en avait<br />

jamais connu. Le revers de la médaille est bien entendu la pollu-<br />

SPÉCIAL ÉTÉ – D – 21 AOÛT 2012<br />

5


Safecast, mesures citoyennes de la radioactivité à l’âge de l’Internet<br />

Carte de l’<strong>EPFL</strong> à Lucens: http://maps.safecast.org/drive/647<br />

tion engendrée et ses conséquences sur la santé. Cette pollution<br />

se caractérise en particulier par des fuites ou rejets de substances<br />

toxiques dans la nature, tels que les incidents de Minamata au<br />

Japon dans les années 1940, la contamination de poulet par de la<br />

dioxine en Belgique en 1999 et de porc en Irlande en 2008. À cela<br />

vient s’ajouter la pollution engendrée par les conflits armés ou<br />

les tests d’armes, en particulier les retombées d’essais nucléaires<br />

atmosphériques, maintenant bannis, mais aussi par exemple l’utilisation<br />

massive d’agent orange, un herbicide particulièrement<br />

toxique, par l’armée américaine au Vietnam. Et bien entendu, les<br />

retombées d’accidents de centrales atomiques telles que Tchernobyl<br />

ou Fukushima.<br />

Il est indéniable que la régulation et le contrôle de l’industrie<br />

afin de limiter la pollution environnementale et ses effets sur la<br />

santé relèvent des gouvernements et organes officiels. Malheureusement,<br />

il arrive trop souvent que la vigilance de ces organes<br />

se relâche après de longues périodes sans incident notable, ou<br />

alors, plus sinistrement, sous l’influence de puissants groupes<br />

d’influence industriels. Dans ces cas-là, il est de la responsabilité<br />

des citoyens de prendre en mains le contrôle environnemental et<br />

d’informer les autorités ainsi que la population lorsque des situations<br />

problématiques sont découvertes.<br />

Bien que l’activisme environnemental ne soit pas nouveau en<br />

soi, l’émergence de l’Internet et des technologies de fabrication<br />

numérique ont complètement changé la donne. Il est, de nos<br />

jours, abordable pour des particuliers de faire fabriquer des pièces<br />

mécaniques sur mesure grâce aux imprimantes 3D. La découpe<br />

6 flash <strong>informatique</strong><br />

laser et les machines-outils à commande numérique, jusqu’à récemment<br />

réservées à l’industrie, sont maintenant utilisables par<br />

tout un chacun en particulier grâce aux FabLab et hackerspaces,<br />

des espaces communautaires partageant les frais d’achat de ces<br />

machines et offrant une formation concernant leur utilisation. En<br />

parallèle, cette communauté naissante se retrouve sur la toile ou<br />

elle partage idées, design, mode d’emploi, hardware et software.<br />

Cette prodigieuse révolution a finalement remis entre les mains<br />

des citoyens le pouvoir de contrôler leurs environnements. Et<br />

comme nous l’avons constaté au Japon après Fukushima, ils vont<br />

en faire usage quand ce sera nécessaire. n<br />

GLOSSAIRE &<br />

crowd-sourcing: mot construit en référence à l’outsourcing qui<br />

consiste à externaliser certaines tâches, le crowd-sourcing<br />

consiste à utiliser la créativité, l’intelligence et le savoir-faire<br />

d’un grand nombre d’internautes.<br />

Pachube (on prononce Patch bay): service Web qui permet de<br />

connecter et partager en temps réel les données d’un capteur.<br />

Racheté il y a quelques mois, le service a évolué et s’appelle<br />

désormais cosm.com.


La bibliothèque de l’<strong>EPFL</strong><br />

Isabelle.Kratz@epfl.ch, <strong>EPFL</strong> - Information scientifique et bibliothèques, cheffe du service<br />

A contribution to the <strong>Flash</strong> <strong>informatique</strong> special<br />

edition is definitely a challenge to undertake for<br />

librarians. So let’s try to do it with humour and imagination,<br />

but also with seriousness and rigor.<br />

C’est avec humour et imagination, mais aussi avec<br />

sérieux et rigueur que la Bibliothèque de l’<strong>EPFL</strong> a<br />

souhaité relever le défi d’une contribution à ce numéro<br />

spécial du <strong>Flash</strong> <strong>informatique</strong>.<br />

Il est vrai qu’en tant que spécialistes de l’information, nous savons<br />

combien nous pouvons apporter à l’étudiant, à l’enseignant et au<br />

chercheur. Dans une société où l’information nous arrive de toute<br />

part et a pris une valeur stratégique et économique de premier<br />

plan, notre cœur de métier bat plus que jamais.<br />

Une mauvaise journée<br />

Guilaine Baud-Vittoz, Guilaine.Vittoz@epfl.ch, <strong>EPFL</strong> - Information scientifique et bibliothèques, responsable Services et Formations aux Utilisateurs<br />

Il pleuvait ce matin-là et Jen avait oublié son parapluie. Il le savait<br />

pourtant que le temps allait être maussade, ils l’avaient annoncé à<br />

la radio tout à l’heure. Cela, et autre chose… une nouvelle, glissée<br />

entre la météo et 120 secondes, un flash info … oui … mais à quel<br />

propos ?<br />

À vrai dire, Jen avait d’autres choses en tête. Il devait absolument<br />

avancer dans sa recherche, car son professeur l’avait convoqué<br />

pour un point de situation. Il lui manquait encore quelques références,<br />

les résultats du labo, en un mot plusieurs heures de travail<br />

et des nuits blanches en perspective.<br />

Il chassa les gouttes glissant sur ses cheveux mi longs et évita machinalement<br />

la flaque d’eau qui s’accumulait toujours au même<br />

endroit, là devant le seuil de la Bibli. Il poussa ensuite la porte<br />

qui bien qu’automatique ne s’ouvrait jamais d’elle-même et entra.<br />

Madame Saihdo enfila son duffle-coat et regarda sa montre.<br />

Il était déjà huit heures et demie. Jamais elle n’arriverait à<br />

temps pour la séance de neuf heures en prenant les transports<br />

en commun. Elle sauta donc dans sa voiture, alluma<br />

l’autoradio et démarra. Arrivée sur le campus, toutes les<br />

places à proximité de son bureau étaient prises par d’autres<br />

véhicules… qui n’avaient de surcroit pas de vignettes. Cette<br />

fois elle allait vraiment être en retard. La séance se déroula<br />

mal, comme d’habitude aucune décision ne fut prise et le<br />

Professeur Tournedos monopolisa inutilement la parole.<br />

Mais il est aussi vrai que nous devons apprendre à mieux valoriser<br />

nos services et nos compétences, à sortir de notre discrétion<br />

quasi culturelle, à changer l’image du bibliothécaire traditionnel<br />

à chignon et lunettes: de l’acquisition de ressources, papier et<br />

électroniques, aux formations à l’information literacy, en passant<br />

par le conseil sur le droit d’auteur, l’aide à la bibliométrie, la<br />

sensibilisation aux grands enjeux de la diffusion de l’information<br />

scientifique…, nous aurions de quoi vous conter.<br />

Vous voulez en savoir plus ? Commencez par lire notre petite nouvelle<br />

et nos articles sur quelques aspects importants touchant à<br />

l’information, aux données et aux documents. Puis venez nous<br />

voir ou, encore mieux, nous pouvons venir vous rencontrer !<br />

Article du FI-<strong>EPFL</strong> 2012 sous licence CC BY-SA 3.0 / I. Kratz<br />

Il était déjà 10 heures et Madame Saihdo était maintenant de<br />

fort mauvaise humeur. Elle s’installa derrière son bureau et<br />

ouvrit sa boîte mail. Un sourire éclaira enfin son visage, M. Bircher<br />

lui avait envoyé le lien sur l’article recommandé la veille.<br />

Jen alla s’assoir à sa place fétiche. Lumineuse, calme, mais pas<br />

trop, une vue imprenable sur l’extérieur et sur cette jolie brune qui<br />

devait arriver dans une heure ou deux, juste avant qu’il ne reparte<br />

au labo. Mais une sensation inhabituelle d’inconfort fit rapidement<br />

son apparition. Qu’y avait-il de si différent aujourd’hui ? D’un<br />

mouvement d’épaule, il chassa ses doutes et se remit à son ordinateur.<br />

Google scholur, bromarr. Que lui avait dit Anah déjà ? Que<br />

les bibliothécaires lui avaient recommandé un outil plus efficace<br />

et paramétrable pour la gestion de ses références, un logiciel du<br />

nom de Zorro, Zorroooo. Non, il divaguait ! Il lui redemanderait le<br />

nom exact cet après-midi.<br />

Las, il ne trouvait pas de nouvelle référence dans les premières<br />

pages de Google scholar (il s’était tout de même souvenu !)<br />

Rien non plus dans le catalogue ou dans les bases de données.<br />

Étrange… d’ailleurs, ces derniers semblaient plus lents qu’à l’ordinaire,<br />

on aurait même dit qu’ils étaient incomplets. Bon, il fallait<br />

se résigner, oser monter là haut et aller voir l’homme ou la femme<br />

derrière le guichet : le bibliothécaire. Pourvu que ce soit le même<br />

que la dernière fois, celui qui parlait bien anglais et avait su comprendre<br />

son sujet de recherche en quelques phrases.<br />

SPÉCIAL ÉTÉ – D – 21 AOÛT 2012<br />

7


Une mauvaise journée<br />

Clic, clic et reclic. Vingt fois que Madame Saidho rafraîchissait<br />

la page de son navigateur et l’article ne s’affichait toujours<br />

pas. Pourtant, ce journal était accessible en temps normal<br />

! Elle le savait mieux que quiconque vu qu’elle en avait<br />

demandé l’abonnement. Remontée, elle empoigna le téléphone<br />

et appela la Bibliothèque. Les sonneries résonnaient<br />

interminablement à son oreille, augmentant sa frustration…<br />

Personne ! Elle raccrocha d’un coup sec, pestant contre les<br />

fonctionnaires jamais là lorsque l’on avait besoin d’eux et<br />

décida d’appeler son contact direct à la bibliothèque. Monsieur…<br />

elle n’arrivait décidément pas à se rappeler son nom.<br />

Lui d’habitude toujours disponible, prêt à l’orienter et lui<br />

donner les meilleurs conseils, n’était pas joignable non plus.<br />

Exaspérée, Madame Saidho laissa un message peu aimable<br />

sur le répondeur et envoya également un e-mail libérateur<br />

dans lequel elle ne mâcha pas ses mots.<br />

La matinée touchait à sa fin, Jen n’avait trouvé personne pour<br />

l’orienter et l’inconnue de la table en face n’avait pas montré<br />

le bout de son nez en trompette. La pluie continuait son chant<br />

mélancolique contre les vitres. Décidément, le temps reflétait ses<br />

états d’âme, il était donc temps de rejoindre les autres pour le déjeuner<br />

et passer à des questions beaucoup plus terre à terre. Sandwich<br />

ou menu 2 de la cafétéria ? Le menu 1 était toujours infâme…<br />

Une heure plus tard, Jen rejoint le laboratoire où l’ordinateur avait<br />

passé la nuit à cracher des données. À défaut d’une bibliographie<br />

convaincante, il aurait peut-être quelques résultats concrets à<br />

présenter. Il s’approcha de l’écran tel un papillon attiré par une<br />

ampoule incandescente et ne fut pas déçu. Chiffres et nombres,<br />

nombres et chiffres se chevauchaient et s’entremêlaient. Si nombreux<br />

que cela en était presque indécent… Mais il manquait à<br />

Jen une constante pour achever ses calculs. Ses camarades ne la<br />

connaissant pas, il ne savait trop à qui s’adresser. Bah, wikipédia<br />

lui fournirait sans doute la solution. À lui de convaincre maintenant<br />

son professeur de faire jouer son réseau pour obtenir des<br />

données similaires afin de les comparer. Le mieux serait d’y avoir<br />

accès directement en ligne !<br />

Après quelques sushis et un coca light en guise de repas de<br />

midi, Madame Saidho se plongea dans la lecture du plan<br />

que lui avait envoyé son rendez-vous de 17 heures. Au bout<br />

de quelques minutes, elle leva les yeux au ciel et se frotta<br />

les tempes. Mais comment osait-il lui présenter une telle<br />

bibliographie ? Il n’avait donc pas appris à utiliser un logiciel<br />

approprié ? Sans parler de ses citations… complètement<br />

fausses ! Au moins n’avait-elle pas décelé de trace de plagiat<br />

dans ses écrits. Dire qu’ils avaient dû hier encore sanctionner<br />

un étudiant, car il avait innocemment repris et remanié<br />

un article vieux de dix ans. Décidément, Madame Saidho ne<br />

comprenait pas comment des jeunes nés avec une souris au<br />

creux de la main n’arrivaient pas à maîtriser les ficelles du<br />

labyrinthe de l’information. Ils avaient pourtant l’air si à l’aise<br />

avec toutes les technologies.<br />

Madame Saidho reprit son téléphone et composa à nouveau<br />

le numéro de son contact à la Bibliothèque. D’autres journaux<br />

s’étaient révélés inaccessibles ce matin, l’empêchant de<br />

préparer sa conférence. Toujours pas de réponse.<br />

8 flash <strong>informatique</strong><br />

À bout de patience, Madame Saidho se dit que Jen avait<br />

intérêt à être ponctuel s’il ne voulait pas se retrouver face à<br />

une porte close. Elle serait mieux à travailler chez elle.<br />

Jen justement se dépêchait. Laissant Anah s’énerver et pester, car<br />

elle n’arrivait ni à mettre sa thèse en ligne ni à consulter celle<br />

de son ancien collègue, il attrapa son ordinateur portable et se<br />

dirigea vers le bureau de son professeur. Il tapa quelques coups<br />

discrets à la porte…<br />

Entrez, je vous attendais ! répondit-elle sèchement.<br />

Madame Saidho n’avait pas l’air d’excellente humeur et Jen sentit<br />

que l’entretien ne serait peut-être pas aussi productif qu’il l’espérait.<br />

Il la salua et, poliment, lui demanda ce qui n’allait pas.<br />

- Je n’ai accès à aucune de mes ressources habituelles, cela<br />

depuis ce matin. C’est extrêmement agaçant, d’autant plus<br />

que personne à la Bibliothèque ne répond à mes appels au<br />

secours.<br />

– C’est étrange, j’ai aussi rencontré des problèmes toute la journée…<br />

C’est bien la première fois que cela arrive.<br />

– Oui, effectivement. C’est comme si tout accès à l’information<br />

n’était plus possible. Comme si le courant ne passait plus depuis<br />

ce matin…<br />

Alors, lentement, la nouvelle refoulée remonta à la mémoire de<br />

Madame Saidho et de Jen. La radio… ce matin, juste après la météo…<br />

lui n’avait enregistré que le sketch, elle était concentrée sur<br />

la route, obnubilée par sa séance et son retard. Ils l’avaient tous<br />

deux oublié, le <strong>Flash</strong> info: «… En ce jour de septembre, un étrange<br />

virus a attaqué les Bibliothécaires, et seulement eux. D’origine<br />

psychologique, il aurait affaibli de manière simultanée et pour<br />

l’instant inexpliquée l’ensemble de la profession. Apparemment,<br />

l’élément déclencheur aurait été une phrase type répétée en<br />

boucle provoquant un court-circuit neuronal.<br />

Nous leur souhaitons un prompt rétablissement, et en attendant<br />

leur retour, évoquons ces tranches de vie partagées avec nos bibliothécaires<br />

fétiches: la première carte de bibliothèque, offerte<br />

comme une promesse d’ouverture à la Connaissance, les fausses<br />

excuses inventées pour justifier un retard et tenter de faire annuler<br />

l’amende, le taux de citation demandé en urgence pour l’audit<br />

du labo. Sans oublier bien sûr, le bibliothécaire fronçant les sourcils<br />

à l’arrivée d’une boisson ou d’un téléphone portable dans la<br />

zone de lecture, et cette mémorable séance de formation où nous<br />

avions appris ce que nous aurions dû savoir depuis plus de trois<br />

ans déjà… Et surtout, surtout LE livre, l’article qui nous manquait<br />

et que lui seul savait trouver, nous sauvant in extremis d’une dépression<br />

avant publication !…»<br />

Le silence de l’eau tombant toujours du ciel envahissait la pièce,<br />

Madame Saidho et Jen n’osaient se regarder. La phrase, ce fameux<br />

code provoquant l’épidémie dramatique: Mais à quoi donc servent<br />

encore les bibliothécaires dans ce monde de données virtuelles…<br />

Combien de fois l’avaient-ils pensée ? Alors qu’en fait…<br />

Dans un même élan, Madame Saidho et Jen allumèrent leur ordinateur<br />

et se précipitèrent sur un site de livraison de fleurs. Leurs<br />

partenaires bibliothécaires méritaient bien cela.<br />

Article du FI-<strong>EPFL</strong> 2012 sous licence CC BY-SA 3.0 /G. Baud-Vittoz


Les logiciels libres et les<br />

bibliothèques<br />

Raphael.Grolimund@epfl.ch, <strong>EPFL</strong> - Information scientifique et bibliothèques, bibliothécaire en charge des formations aux utilisateurs<br />

Will students in the future be able to access papers<br />

you write today?<br />

Pourrons-nous mettre à disposition des futurs étudiants<br />

les documents que vous rédigez aujourd’hui ?<br />

Pourrez-vous encore ouvrir dans dix ans le fichier que vous avez<br />

créé la semaine dernière ? Le logiciel que vous avez utilisé existerat-il<br />

encore ? Et que faites-vous lorsque vous rédigez un document<br />

avec des personnes qui n’utilisent pas le même logiciel ? Entre<br />

interopérabilité, pérennité et liberté, les logiciels libres prennent<br />

une importance fondamentale pour les étudiants, les enseignants,<br />

les chercheurs et les bibliothécaires.<br />

Nous, bibliothécaires, travaillons tous les jours en priorité pour<br />

vous donner accès à l’information dont vous avez besoin. Mais<br />

la pérennité des documents nous préoccupe. Car si nous pouvons<br />

vous mettre un document à disposition, nous cherchons à faire<br />

en sorte que ce soit encore le cas dans dix ans. L’arrivée des documents<br />

électroniques ne nous a pas ôté ce rôle. Bien au contraire !<br />

Toutefois, le passage à l’ère numérique a ajouté un intermédiaire<br />

dans la chaîne de mise à disposition des documents: le logiciel.<br />

La lecture des documents imprimés ne nécessitait aucune technologie.<br />

Aujourd’hui, en plus de se poser la question où et comment<br />

trouver une information pertinente et de qualité, le lecteur doit<br />

aussi se poser la question de savoir s’il pourra y avoir accès.<br />

Laissons de côté les problèmes d’accès liés aux modèles économiques<br />

de l’édition scientifique (voir article de Julien Junod sur<br />

l’Open Access) et aux DRM (voir article d’Alain Borel) pour se<br />

concentrer sur le rôle du logiciel 1 .<br />

Les étudiants ne peuvent plus travailler sans ordinateur et doivent<br />

apprendre à utiliser toute une série de logiciels pendant leurs<br />

études. Or, le choix de ces logiciels est loin d’être anodin. Ils sont<br />

aux deux extrémités du cycle de vie d’un document. Que ce soit<br />

pour des données de la recherche ou pour une publication, un<br />

logiciel est nécessaire lors de la production. Le lecteur ou le chercheur<br />

qui souhaite consulter les données a quant à lui besoin<br />

d’un logiciel pour y accéder. Le choix du logiciel est encore moins<br />

anodin lorsqu’on sait qu’un étudiant utilisera la majeure partie de<br />

sa future carrière le logiciel qu’il a appris à utiliser pendant ses<br />

études. Mais en quittant l’<strong>EPFL</strong>, il ne profitera plus du prix étudiant<br />

ou d’une licence payée par le DIT.<br />

Dès la création d’un document, l’étudiant est potentiellement<br />

confronté à un problème simple: comment travailler depuis plusieurs<br />

ordinateurs ? Que ce soit pour un travail personnel sur le-<br />

quel il souhaite plancher en cours et à la maison, ou un travail de<br />

groupe pour lequel il doit collaborer avec ses camarades, l’étudiant<br />

doit choisir le logiciel qu’il utilisera. Un problème de compatibilité<br />

peut sérieusement compliquer une activité aussi banale<br />

que rédiger un document.<br />

La licence d’un logiciel propriétaire est souvent payante, ce qui<br />

représente un frein pour un étudiant. Admettons qu’il ne s’agisse<br />

là que d’un détail, car il existe des logiciels propriétaires gratuits.<br />

De toute façon il y a bien plus gênant: le logiciel propriétaire produit<br />

généralement un format propriétaire qui ne peut être lu par<br />

aucun autre logiciel. L’utilisation de différents logiciels pour travailler<br />

sur un même document est donc exclue.<br />

Les services en ligne peuvent offrir une solution à ce problème,<br />

mais exposent l’étudiant à un autre danger: la pérennité des données<br />

n’est pas garantie. La possibilité d’accéder à un document<br />

n’est déjà pas assurée avec l’utilisation d’un logiciel propriétaire,<br />

car s’il disparaît, le logiciel n’évolue plus, rendant à terme les documents<br />

produits par son intermédiaire illisibles. Mais dans le cas<br />

d’un service en ligne, la situation est encore plus périlleuse. Les<br />

documents étant sur les serveurs du prestataire (et non sur l’ordinateur<br />

de l’utilisateur), les données deviennent instantanément<br />

inaccessibles si ce service ferme. Dans l’optique d’un accès aussi<br />

large que possible à l’information, le risque n’est pas acceptable.<br />

Les logiciels libres apportent des parades à ces risques. Premièrement,<br />

ils se basent sur des formats ouverts ce qui permet une<br />

standardisation des données. Le bénéfice le plus immédiat est<br />

l’interopérabilité. Un fichier peut être ouvert et édité par plusieurs<br />

logiciels différents. Deuxièmement, le code source d’un logiciel<br />

libre est accessible à toute personne intéressée à connaître son<br />

fonctionnement. Cela implique que si les créateurs du logiciel<br />

arrêtent de le développer, quelqu’un d’autre peut reprendre le<br />

flambeau. La disparition du logiciel n’est pas exclue, mais dans le<br />

cas d’un logiciel entouré d’une communauté nombreuse et active,<br />

les chances sont très réduites.<br />

Surtout, n’oublions pas que le logiciel libre, c’est avant tout le<br />

droit d’être libre. Libre de comprendre comment fonctionne le<br />

logiciel (en accédant au code source). Libre d’adapter le logiciel à<br />

ses propres besoins (en modifiant le code source et donc le fonctionnement<br />

du logiciel). Libre de collaborer avec quiconque. Un<br />

logiciel propriétaire ne permet pas cela. D’un côté, il y a les développeurs<br />

qui décident de l’évolution du logiciel et des fonctionnalités<br />

à ajouter; de l’autre, il y a les utilisateurs. Si un utilisateur<br />

constate un bug, il doit en faire part aux développeurs et attendre<br />

que ceux-ci trouvent une solution. Si l’utilisateur souhaite qu’une<br />

fonctionnalité soit ajoutée, il doit en faire la demande, attendre et<br />

espérer que sa requête sera prise en compte.<br />

1 Les exemples donnés seront du domaine documentaire, mais ces considérations sont valables pour d’autres types de données comme les données de<br />

la recherche, par exemple.<br />

SPÉCIAL ÉTÉ – D – 21 AOÛT 2012<br />

9


10<br />

Les logiciels libres et les bibliothèques<br />

Le logiciel libre pousse à la collaboration et implique ses utilisateurs<br />

dans l’évolution du logiciel. Si un utilisateur constate un<br />

bug, il peut en faire part à la communauté. Celle-ci l’aidera ou<br />

résoudra le problème. Ce modèle est très efficace, car la probabilité<br />

qu’un bug échappe à tout le monde diminue à mesure que<br />

la taille de la communauté augmente. De plus, si un utilisateur<br />

souhaite qu’une fonctionnalité soit ajoutée, il peut la développer<br />

lui-même ou demander à quelqu’un (pas forcément aux développeurs<br />

initiaux) de le faire.<br />

Prenons le cas de Zotero, gestionnaire de bibliographie. La communauté<br />

participe à la traduction de l’interface. Elle participe<br />

aussi à la création des styles de citation, qui déterminent le look<br />

d’une bibliographie, ainsi que celui des citations dans le texte. Cela<br />

représente une somme de travail telle qu’aucune équipe de développeurs<br />

ne pourrait la prendre en charge. Mais ce n’est pas tout.<br />

Un doctorant a créé une extension pour les utilisateurs de LaTeX<br />

donnant accès à la bibliothèque Zotero [1] depuis LaTeX, sans<br />

l’exportation manuelle requise auparavant. Il a mis à disposition<br />

de tous cette fonctionnalité dont il avait besoin. Il existe également<br />

une application pour Android et une autre pour iPad. Ni<br />

l’une ni l’autre ne sont l’œuvre de l’équipe de développeurs.<br />

Il est important de relever que l’implication dans la communauté<br />

d’un logiciel libre ne nécessite pas forcément des compétences en<br />

programmation. Les utilisateurs qui trouvent des bugs, qui posent<br />

des questions ou demandent de nouvelles fonctionnalités participent<br />

tout autant au développement du logiciel.<br />

L’ activité d’un service de bibliothèque est centrée sur la mise à<br />

disposition d’une information de qualité, sur place, à distance,<br />

sur tous supports. L’interopérabilité, la pérennité et un accès aussi<br />

libre que possible sont très importants à nos yeux, tout comme<br />

l’est le travail collaboratif. Les logiciels libres sont un choix naturel.<br />

C’est la raison pour laquelle nous les mettons en avant chaque<br />

fois que c’est possible et pertinent. n<br />

Référence<br />

[1] Zotero, un logiciel libre de gestion bibliographique,<br />

flash<strong>informatique</strong>.epfl.ch/spip.php?article2188<br />

Article du FI-<strong>EPFL</strong> 2012 sous licence CC BY-SA 3.0 / R. Grolimund<br />

flash <strong>informatique</strong><br />

What if all scientific publications were freely accessible<br />

on the Internet ?<br />

Et si tous les résultats de la recherche étaient en<br />

accès libre sur Internet ?<br />

La publication en libre accès (en anglais Open Access ou OA)<br />

permet d’offrir gratuitement des documents en ligne. N’importe<br />

qui peut alors accéder au contenu, à condition d’être connecté à<br />

Internet. Le plus souvent, ceci est réalisé au moyen d’un basculement<br />

de la facturation: dans le cas des articles, les frais de publication<br />

ne sont plus couverts par les abonnements aux revues, ils<br />

sont directement pris en charge par les auteurs (selon le modèle le<br />

plus répandu, d’autres possibilités existent). Ne payent plus ceux<br />

qui lisent, mais ceux qui écrivent.<br />

Ce que le libre accès n’est pas<br />

Mouvement philosophique ou modèle économique, ce mode de<br />

publication n’implique pas d’autres aspects qu’on lui attribue volontiers.<br />

Le contenu librement accessible n’est pas nécessairement<br />

libre de droits. Une consultation sans entrave n’implique pas une<br />

totale liberté d’utilisation, qui relève des questions de propriété<br />

intellectuelle, indépendamment du modèle choisi.<br />

La publication en libre accès n’est pas forcément une activité bénévole,<br />

comme en atteste le nombre croissant d’éditeurs commerciaux<br />

qui l’adoptent. La liberté d’accéder n’entraîne pas la liberté<br />

de publier. Les revues sérieuses reprennent le principe des comités<br />

de lecture [1], ou imaginent de nouveaux systèmes pour contrôler<br />

la qualité éditoriale nécessaire à leur réputation (PLoS ou Frontiers).<br />

On voit des formules à succès côtoyer des journaux obscurs,<br />

tout comme dans le modèle traditionnel.<br />

Qu’en est-il à l’<strong>EPFL</strong> ?<br />

L’Open Access<br />

Julien.Junod@epfl.ch,<strong>EPFL</strong> - Information scientifique et bibliothèq<br />

Les institutions de recherche disposent principalement de deux<br />

outils pour mettre en œuvre le libre accès, surnommés voies verte<br />

et dorée.<br />

Par le biais d’Infoscience [2], l’archive institutionnelle maison,<br />

l’<strong>EPFL</strong> soutient activement la voie verte. Celle-ci consiste à mettre<br />

à disposition du public une copie de l’article publié dans une<br />

revue payante, pour autant que l’auteur obtienne le consentement<br />

de l’éditeur, ce qui est souvent le cas. Officiellement, tous les<br />

membres de l’École sont encouragés à le faire. Dans la pratique,<br />

seul un tiers des publications répertoriées sont déposées dans<br />

l’archive, selon un pointage réalisé l’année passée [3].<br />

Ce premier aspect du libre accès est le plus pragmatique, puisqu’il<br />

perpétue le système payant traditionnel, tout en offrant un se-


à l’<strong>EPFL</strong><br />

ues, bibliothécaire en charge du dossier libre accès<br />

cond canal de diffusion gratuit. Le désavantage est une double<br />

facturation (au prix des abonnements s’ajoute la maintenance<br />

d’une infrastructure de publication sur Internet), et une barrière<br />

psychologique (un article téléchargé directement depuis la plateforme<br />

de l’éditeur a souvent plus fière allure).<br />

L’idéal serait donc la voie dorée, soit la publication dans une revue<br />

dont l’intégralité du contenu est disponible en libre accès. On allie<br />

alors prestige et gratuité. Pour l’instant, cette démarche reste entièrement<br />

à la charge des laboratoires. Ni la bibliothèque ni l’École<br />

n’ont conclu de partenariats avec les éditeurs dans le but de diminuer<br />

les frais de publication.<br />

Toujours selon l’étude citée, dans un peu moins de 5% des cas,<br />

les chercheurs ont choisi ce modèle et ont accepté de s’acquitter<br />

d’une facture s’élevant souvent à deux ou trois mille francs. Cette<br />

situation pourrait évoluer avec la constitution d’un fonds d’aide<br />

à la publication en libre accès, qui est en cours de discussion au<br />

Fonds National et à la Conférence des recteurs des universités<br />

suisses.<br />

Enjeux<br />

Parmi les arguments avancés en faveur du libre accès figure en<br />

première place celui d’une plus grande diffusion. Malheureusement,<br />

la mesure fiable d’un effet du libre accès sur le nombre de<br />

citations et de téléchargements se heurte à des difficultés méthodologiques<br />

considérables. À l’heure actuelle, personne n’est en<br />

mesure de fournir des statistiques complètes et comparables qui<br />

viendraient conforter ou mettre en doute ce postulat au demeurant<br />

raisonnable [4]. Les bibliothèques avaient aussi fondé beaucoup<br />

d’espoir sur le libre accès pour contenir la hausse du prix<br />

des abonnements aux périodiques [5]. Mais que l’on facture à la<br />

sortie où à l’entrée du circuit ne changera rien à l’affaire: le prix<br />

des revues augmente avec leur réputation. Une période de transition<br />

qui verrait cœxister les deux systèmes risque également de<br />

générer des coûts supplémentaires. Cependant, si l’on inclut les<br />

retours sur investissement dans l’analyse, des bénéfices pourraient<br />

être envisagés à long terme [6].<br />

L’explosion du nombre d’articles publiés, qui, encouragé par la politique<br />

du publish or perish, a plus que doublé ces quinze dernières<br />

années [7], n’aidera pas non plus à faire baisser le montant de la<br />

facture. De nombreux scientifiques doivent faire face aux souhaits<br />

contradictoires émis par les institutions, qui encouragent la<br />

publication en libre accès, mais exigent surtout que les articles paraissent<br />

dans des revues à fort facteur d’impact. Ces deux aspects<br />

n’étant pas conciliables dans tous les domaines de la recherche, le<br />

choix est souvent vite fait entre principes moraux et survie.<br />

Tout au plus, dans un monde où tout le monde est poussé à écrire<br />

et où plus personne n’a le temps de lire, paraît-il plus raisonnable<br />

de faire payer le privilège d’écrire plutôt que de pénaliser les personnes<br />

qui consacrent un peu de leur temps à la lecture. D’un<br />

autre côté, le monde de l’édition, qui se sentait très menacé par<br />

l’arrivée du libre accès, se résout progressivement à adopter ce<br />

modèle, bousculé par des nouveaux venus comme PLoS ou Biomed<br />

Central, qui ont fait la preuve de son succès et de sa rentabilité.<br />

Dans ce bras de fer, ni les craintes des éditeurs, ni les espoirs<br />

des bibliothécaires ne semblent s’être réalisés.<br />

Le mode de facturation traditionnel est un héritage direct d’une<br />

époque à laquelle le rôle des éditeurs et des bibliothèques consistait<br />

à fabriquer, diffuser et archiver des documents de papier. Or,<br />

comme il est impossible de contrôler la dissémination de documents<br />

électroniques – aucune réponse efficace n’ayant été trouvée<br />

au problème du piratage – le libre accès n’apporterait-il tout<br />

simplement pas la seule solution de financement viable dans un<br />

monde d’internautes qui considèrent le téléchargement gratuit<br />

comme un dû ?<br />

Références<br />

[1] Le DOAJ, le répertoire des périodiques en libre accès,<br />

soumet les éditeurs à des vérifications strictes avant de<br />

référencer un journal: www.doaj.org.<br />

[2] infoscience.epfl.ch<br />

[3] ROTH, Dylan. État de la publication en Open Access dans<br />

les disciplines scientifiques présentes à l’<strong>EPFL</strong>. 2011.<br />

infoscience.epfl.ch/record/169218.<br />

[4] Voir par exemple: DAVIS, Philip M. Open access, readership,<br />

citations: a randomized controlled trial of scientific journal<br />

publishing. The FASEB Journal, mars 2011.<br />

Ou encore une bibliographie plus complète de ce sujet<br />

controversé qui a fait l’objet de nombreuses recherches:<br />

opcit.eprints.org/oacitation-biblio.html.<br />

[5] Une augmentation de près de 400% sur une période<br />

couvrant les vingt dernières années, selon le rapport ARL<br />

Statistics 2008-2009. Association of Research Libraries,<br />

Washington.<br />

www.arl.org/bm~doc/arlstat09.pdf<br />

[6] HOUGHTON, John et al. Economic implications of alternative<br />

scholarly publishing models: Exploring the costs and<br />

benefits, rapport du Joint Information Systems Committee.<br />

2009. Une nouvelle étude, plus quantitative et consolidée<br />

quant aux modèles utilisés, est sur le point de paraître.<br />

ie-repository.jisc.ac.uk/278/<br />

[7] Selon le Web of science, on passe de près de deux millions<br />

de publications répertoriées en 1995 à un peu moins de<br />

cinq millions et demi en 2011.<br />

Article du FI-<strong>EPFL</strong> 2012 sous licence CC BY-SA 3.0 / J. Junod<br />

SPÉCIAL ÉTÉ – D – 21 AOÛT 2012<br />

11


12<br />

How to cite research data efficiently with the help<br />

of digital object identifiers (DOI) and the Datacite<br />

consortium.<br />

Une citation pérenne grâce au système des digital<br />

object identifiers (DOI) et au consortium Datacite.<br />

La problématique de la citation de sources numériques en ligne est<br />

bien connue [1]. Que ce soit des données primaires & ou des<br />

données secondaires &, le problème est identique. L’adresse<br />

URL est la solution de facilité, mais après quelques années, il est<br />

rare que celle-ci soit encore fonctionnelle. Alors, comment conforter<br />

l’apport indiscutable des liens hypertextes en garantissant leur<br />

pérennité ? Le concept de Digital Object Identifier (DOI) lancé en<br />

l’an 2000 par l’International DOI Foundation apporte une solution<br />

efficace à ce problème.<br />

Un DOI est une chaîne de caractères qui commence par 10. et<br />

contient un / (par exemple 10.1016/j.iheduc.2003.11.004). En<br />

ajoutant ce DOI à la suite de l’URL http://dx.doi.org on obtient<br />

une nouvelle URL http://dx.doi.org/10.1016/j.iheduc.2003.11.004.<br />

Celle-ci est par construction nettement plus pérenne que l’URL<br />

originale (dans ce cas précis http://www.sciencedirect.com/science/<br />

article/pii/S1096751603000897, URL qui sera amenée à changer<br />

à chaque fois que le service Sciencedirect sera renommé). Le système<br />

DOI enregistre chaque DOI ainsi que l’URL vers laquelle il<br />

doit être redirigé. Il vient d’être publié en tant que norme ISO [2].<br />

Ce procédé est largement établi et utilisé notamment par plus<br />

de 3000 éditeurs, regroupés au sein du consortium CrossRef &.<br />

Plus de 54 millions de documents numériques ont à ce jour un<br />

DOI. Les fournisseurs d’information s’engagent au moment de<br />

l’enregistrement d’un DOI à maintenir son fonctionnement pérenne.<br />

À chaque migration de leur système <strong>informatique</strong>, fusion<br />

de plusieurs organisations ou changement de nom, l’URL associée<br />

à un DOI doit être mise à jour. De plus, lors de l’enregistrement de<br />

l’URL associée à un DOI, l’éditeur a la possibilité d’ajouter d’autres<br />

informations (comme le titre d’un article, ses auteurs…) dans un<br />

format structuré. L’énorme base de données ainsi créée est ensuite<br />

utilisable gratuitement par les bibliothèques pour améliorer<br />

leurs services. À l’<strong>EPFL</strong>, nous l’utilisons notamment dans le cadre<br />

de l’archive institutionnelle Infoscience [3] ainsi que pour notre<br />

résolveur de liens SFX [4].<br />

Depuis 2010, de nombreuses bibliothèques se sont réunies dans un<br />

autre consortium, appelé Datacite [5], qui leur permet d’attribuer<br />

des DOI. Comme le nom du consortium l’indique, le but premier de<br />

ce consortium est de fournir des DOI à des données primaires de<br />

la recherche qui seraient stockées, par exemple, dans les systèmes<br />

d’information des bibliothèques universitaires. La bibliothèque de<br />

l’<strong>EPFL</strong>, en collaboration avec l’EPFZ [6], a rejoint ce consortium.<br />

flash <strong>informatique</strong><br />

La citation des données de<br />

recherche<br />

Lionel.Walter@epfl.ch, <strong>EPFL</strong> - Information scientifique et bibliothèques, bibliothécaire spécialiste IT<br />

Elle est donc désormais à même d’attribuer des DOI à des documents<br />

ou données qui lui sont confiés par le biais d’Infoscience.<br />

Ce service est d’autant plus important pour les données primaires,<br />

car certaines ne seront probablement jamais publiées par des éditeurs<br />

scientifiques.<br />

Une des premières applications concrètes de ce mécanisme porte<br />

sur les thèses. Toutes les thèses de l’<strong>EPFL</strong> ont désormais un DOI qui<br />

a la forme suivante 10.5075/epfl-thesis-4088 où 4088 est le<br />

numéro de la thèse. Ainsi, chaque doctorant peut citer sa thèse avec<br />

un lien pérenne vers le pdf dès qu’il connaît le numéro de sa thèse.<br />

Ce DOI sera d’ailleurs prochainement imprimé sur la page de couverture<br />

de la thèse. Les applications ultérieures de ce mécanisme<br />

concerneront probablement les données primaires. Mais de ce côté-là,<br />

rien n’est encore clairement établi. Quelles données doivent<br />

être conservées, dans quel format, pendant combien de temps ?<br />

Quelles métadonnées doivent être associées à ces données ? Quels<br />

sont les droits sur ces données, quelle licence utiliser ? Au niveau<br />

de la citation, des questions se posent sur la granularité à adopter<br />

pour l’attribution des DOI. Attribue-t-on un DOI pour un ensemble<br />

de données, ou bien un DOI pour chaque sous-ensemble ?<br />

Votre bibliothèque suit l’état de l’art dans ces différents domaines,<br />

notamment par sa participation au consortium Datacite et au<br />

projet e-lib.ch qui a pour but de penser la bibliothèque numérique<br />

de demain au niveau suisse. N’hésitez pas à nous contacter<br />

en cas de questionnements !<br />

Références<br />

[1] DELLAVALLE et al. Information Science: Going, Going,<br />

Gone: Lost Internet References. Science 2003 302: 787-<br />

788 (doi:10.1126/science.1088234)<br />

[2] Information et documentation — Système d’identifiant<br />

numérique d’objet, norme ISO 26324:2012:2012-05<br />

[3] infoscience.epfl.ch<br />

[4] library.epfl.ch/tools/?pg=sfx<br />

[5] datacite.org<br />

[6] www.doi.ethz.ch/index_f.html<br />

Article du FI-<strong>EPFL</strong> 2012 sous licence CC BY-SA 3.0 / L. Walter<br />

GLOSSAIRE &<br />

CrossRef: agence officielle d’enregistrement des DOI (digital<br />

object identifier) pour les éditeurs scientifiques.<br />

données primaires: résultats bruts d’expériences, mesures<br />

effectuées par des machines, relevés météorologiques,…<br />

données secondaires: documents décrivant et analysant des<br />

résultats obtenus, généralement basés sur des données<br />

primaires.


DRM et bibliothèques<br />

Alain.Borel@epfl.ch, <strong>EPFL</strong> - Information scientifique et bibliothèques, bibliothécaire coordinateur de team<br />

This paper deals with the consequences of Digital<br />

Rights Management/DRM systems for libraries, with<br />

specific examples at the <strong>EPFL</strong> Library.<br />

In fact, librarians consider that such systems hinder<br />

their users’ access to information. Furthermore,<br />

they are seriously problematic for the preservation<br />

of documents.<br />

Cet article traite des conséquences pour les bibliothèques<br />

(en général, et la Bibliothèque de l’<strong>EPFL</strong> en<br />

particulier) des systèmes de Digital Rights Management/DRM.<br />

Les bibliothécaires considèrent en effet<br />

que ces systèmes sont un obstacle à l’accès à l’information<br />

pour les lecteurs et posent, de plus, de graves<br />

problèmes de conservation des documents.<br />

Même dans le monde feutré des bibliothèques, il y a des sujets<br />

qui énervent. En effet, nous autres bibliothécaires sommes très<br />

attachés au principe de la liberté d’accès à l’information, ce qui<br />

nous oblige logiquement à prendre position face à certains problèmes<br />

socio-technologiques de ce début de XXIe siècle. Et parfois,<br />

croyez-le ou non, cela peut faire du bruit. Eh oui.<br />

Avec l’essor de la littérature numérique, les DRM (Digital Rights<br />

Management, expression désignant toutes sortes de systèmes de<br />

protection de données numériques contre la copie) sont devenus<br />

un sujet très sensible pour les bibliothèques [1]. Ils sont en effet<br />

en conflit avec plusieurs des principes qu’elles défendent. Examinons<br />

par exemple le code de déontologie des bibliothécaires<br />

suisses [2]. De par leur nature même, les DRM s’opposent à la<br />

promotion de l’accès aux documents: le contrôle imposé par le<br />

producteur est incompatible avec la diffusion du savoir prônée<br />

par les bibliothèques. D’autre part, les DRM sont un obstacle supplémentaire,<br />

peut-être insurmontable, pour la préservation des<br />

documents numériques, rendue déjà passablement compliquée<br />

par les questions de pérennité des systèmes et des formats. Les<br />

bibliothécaires sentent donc que leur responsabilité est engagée<br />

dans cette problématique.<br />

Les réactions les plus virulentes sont en général le fait d’activistes<br />

individuels (à petite échelle, votre serviteur n’est pas le dernier<br />

à pester contre les DRM chaque fois que l’occasion s’en présente),<br />

mais parfois la résistance s’organise plus formellement.<br />

Par exemple, la Déclaration des droits numériques du lecteur<br />

(Readers’ Bill of Rights for Digital Books) recueille l’adhésion d’un<br />

nombre croissant de lecteurs (évidemment), mais aussi de bibliothécaires<br />

[3], et même d’auteurs.<br />

logos de la Déclaration des droits numériques du lecteur (images sous licence<br />

Creative Commons Attribution-ShareAlike; source: readersbillofrights.info,<br />

réalisation originale Nina Paley)<br />

Les organisations professionnelles sont impliquées dans le débat<br />

depuis des années, avec bien sûr un langage plus mesuré. Dès<br />

2002, la commission sur le droit d’auteur et les questions légales<br />

de l’IFLA (International Federation of Library Associations and<br />

Institutions, principale organisation internationale représentant<br />

les intérêts des bibliothèques et de leurs usagers), s’est inquiétée<br />

des répercussions des DRM sur les services rendus [4]. En 2005,<br />

l’Association des Bibliothèques et Bibliothécaires Suisses (BBS, aujourd’hui<br />

BIS) prenait position sur les modifications de la Loi fédérale<br />

sur le droit d’auteur et les droits voisins (LDA) proposées par la<br />

Confédération et se prononçait contre les DRM en ce qui concerne<br />

les œuvres littéraires [5]. L’article 39a de la LDA, qui interdit le<br />

contournement des mesures techniques de protection du droit<br />

d’auteur, est tout de même entré dans la loi, mais il est important<br />

de noter que l’alinéa 4 autorise néanmoins le contournement si<br />

le but est une utilisation licite du contenu protégé. Les exceptions<br />

au droit d’auteur dont bénéficient les bibliothèques (par exemple<br />

le droit de créer des copies d’archive, LDA art. 24 al. 1bis) restent<br />

donc garanties par la loi.<br />

Où se place votre bibliothèque dans tout ça ? La Bibliothèque de<br />

l’<strong>EPFL</strong> a en fait assez peu de problèmes pratiques avec les DRM, ce<br />

genre de technologie étant peu répandu dans le domaine de l’information<br />

scientifique et donc beaucoup moins important pour<br />

nous que pour des bibliothèques de lecture publiques. En général,<br />

la seule restriction d’accès aux ressources documentaires numériques<br />

est un contrôle par adresse IP, plus rarement un mot de<br />

passe. On peut imaginer plusieurs explications à cette absence de<br />

DRM. Pour commencer, il faut se souvenir que la documentation<br />

scientifique numérique a vraiment décollé avec les périodiques<br />

électroniques, à partir du milieu des années 90. Proposés par les<br />

éditeurs avant le phénomène Napster &, les articles en ligne<br />

n’ont pas été encombrés de mesures de protection particulières et<br />

les chercheurs se sont habitués à cette situation assez confortable.<br />

D’autre part, on peut imaginer qu’il serait assez peu rentable pour<br />

les éditeurs de développer des DRM pour du contenu s’adressant à<br />

la communauté la mieux armée pour les contourner ! Quoi qu’il en<br />

SPÉCIAL ÉTÉ – D – 21 AOÛT 2012<br />

13


DRM et bibliothèques<br />

soit, le même genre de politique a généralement été appliqué aux<br />

livres électroniques (ebooks) et autres ressources documentaires<br />

numériques dans les domaines scientifiques et techniques.<br />

Néanmoins, la vigilance reste de mise: le monde de l’édition grand<br />

public semble beaucoup plus sensible à la tentation du DRM, et<br />

il serait regrettable que la contagion gagne notre tour d’ivoire. La<br />

politique documentaire de la bibliothèque est de favoriser autant<br />

que possible les contenus indépendants de la plate-forme et non<br />

encombrés de DRM (critères aussi appliqués par le Consortium<br />

des Bibliothèques Universitaires Suisses [6]) et d’éviter ceux qui<br />

ne suivraient pas ces principes. Malheureusement, ce n’est pas<br />

toujours possible et nous sommes parfois contraints d’obtenir la<br />

documentation réclamée par nos lecteurs auprès de fournisseurs<br />

moins conciliants. La plate-forme DawsonEra &, qui héberge<br />

certains ebooks de notre collection, en est un exemple. C’est parfois<br />

la seule façon d’obtenir un livre spécifique sous forme électronique;<br />

or la copie et l’impression des livres proposés sur cette<br />

plate-forme sont limitées à 5% du texte. De surcroît les documents<br />

ne peuvent être téléchargés pour une consultation hors<br />

connexion que pour une durée de quelques jours, après lesquels<br />

ils expirent et deviennent illisibles. Nous rencontrons aussi des<br />

documents à durée de vie limitée dans le cadre plus restreint de<br />

la fourniture d’articles par d’autres bibliothèques (service appelé<br />

prêt entre bibliothèques ou PEB dans notre jargon). La British Library,<br />

qui est une de nos sources pour ce service, nous envoie des<br />

articles scannés au format <strong>PDF</strong> protégés par un DRM qui les rend<br />

illisibles après quelques jours. Nous sommes donc forcés de les<br />

imprimer dès réception pour être sûrs que la personne qui nous a<br />

demandé un article pourra effectivement le lire.<br />

Pour finir, nous devons mentionner que conformément à l’article<br />

39b de la LDA, le Conseil fédéral a mis en place un Observatoire<br />

des mesures techniques (OMET) qui veille à ce que les mesures de<br />

protection n’étendent pas artificiellement la portée du droit d’auteur.<br />

En cas de problème ou de plainte, l’OMET peut faire office<br />

de médiateur ou de rapporteur auprès des autorités compétentes<br />

– une sorte de Monsieur Prix des DRM, en quelque sorte. Ces<br />

derniers mois, l’Observatoire a commencé à s’intéresser à l’utilisation<br />

de mesures techniques dans le domaine de la littérature<br />

scientifique. Un groupe de travail comprenant des représentants<br />

de plusieurs bibliothèques universitaires suisses (dont la Bibliothèque<br />

de l’<strong>EPFL</strong>) s’est réuni le 30 avril dernier pour un premier<br />

état des lieux: l’expérience de nos collègues de toute la Suisse est<br />

assez semblable à la nôtre. Afin d’approfondir cette question et<br />

d’avoir une idée plus nette de la situation, le groupe s’est lancé<br />

dans la préparation d’une enquête plus systématique auprès de<br />

toutes les institutions universitaires. Les résultats d’une telle enquête<br />

devraient décider de l’opportunité ou non d’actions plus<br />

concrètes.<br />

En résumé, les DRM sont perçus par les bibliothèques comme un<br />

obstacle sérieux au service public qui est notre mission première.<br />

À l’heure actuelle, les bibliothèques scientifiques comme celle de<br />

l’<strong>EPFL</strong> sont relativement à l’abri de ce problème, mais suivent avec<br />

attention l’évolution du marché pour éviter une dégradation de<br />

leurs services.<br />

14 flash <strong>informatique</strong><br />

Références<br />

[1] JACQUESSON, Alain. Du livre enchaîné aux DRM. BBF. 2011,<br />

n° 3, p. 36-41. bbf.enssib.fr/consulter/bbf-2011-03-0036-<br />

007 [consulté le 21.06.12]<br />

[2] www.bis.info/images/stories/documents/Verband/deontologie.pdf<br />

[consulté le 21.06.12]<br />

[3] labibapprivoisee.wordpress.com/2011/03/14/boudons-lescatalogues-des-gros-editeurs-bourres-de-drm/<br />

[consulté le<br />

21.06.12]<br />

[4] www.ifla.org/en/node/452 [consulté le 21.06.12]<br />

[5] www.bis.info/images/stories/documents/Fachthemen/Urheberrecht/stellung_uhr_fuer_bbs.pdf<br />

[consulté le 21.06.12]<br />

[6] infoscience.epfl.ch/record/165930/files/ebooks_bis2011.pdf<br />

[consulté le 21.06.12].<br />

Article du FI-<strong>EPFL</strong> 2012 sous licence CC BY-SA 3.0 / A. Borel<br />

GLOSSAIRE &<br />

DawsonEra: plate-forme de vente de livres électroniques, distribuant<br />

des titres de plusieurs centaines d’éditeurs. Cette forme<br />

d’agrégation de contenu permet de trouver relativement facilement<br />

un titre donné sous forme électronique et de l’acheter,<br />

au prix de conditions d’accès généralement plus restrictives<br />

en comparaison avec d’autres sources (l’agrégateur ayant intérêt<br />

à proposer aux éditeurs qu’il souhaite attirer sur sa plateforme<br />

les conditions qui leur paraîtront les plus favorables).<br />

Napster: un des premiers systèmes de partage de fichiers peerto-peer<br />

réellement populaires (démarré en 1999). Attaqué<br />

en justice par l’industrie musicale américaine à cause de la<br />

distribution très large de fichiers MP3 piratés, le service a<br />

fermé en 2001.


SavoirLibre is a new Web platform that aims at<br />

strengthening the dissemination, visibility and accessibility<br />

of scientific knowledge among the general<br />

public. This project was presented for the first time<br />

during the 13th edition of the LSM (Libre Software<br />

Meeting) on 12th July 2012. The beta <strong>version</strong> of<br />

savoirlibre.net is already online and the completed<br />

<strong>version</strong> will be available in autumn 2012.<br />

SavoirLibre est une nouvelle plate-forme Web dont<br />

le but est de renforcer la diffusion, la visibilité et<br />

l’accessibilité des savoirs scientifiques auprès du<br />

grand public. Ce projet a été présenté pour la première<br />

fois à l’occasion de la 13ème édition des RMLL<br />

(Rencontres Mondiales du Logiciel Libre) le 12 juillet<br />

2012. La <strong>version</strong> bêta du site savoirlibre.net est en<br />

ligne et la sortie de la <strong>version</strong> aboutie est prévue<br />

pour l’automne 2012.<br />

Quelle est la proportion des savoirs produits au sein des institutions<br />

scientifiques qui accèdent à l’espace public ? Quel est l’impact<br />

ou l’influence des savoirs produits au sein des universités sur<br />

la société ? Qu’advient-il des savoirs communiqués lors des événements<br />

scientifiques ? Les savoirs produits au sein des universités<br />

peuvent-ils intéresser le grand public ? Voici quelques questions<br />

qui sont à la base du développement du projet SavoirLibre.<br />

À l’origine du projet<br />

SavoirLibre, pour la diffusion<br />

des savoirs scientifiques<br />

Omar.Odermatt@savoirlibre.net, fondateur de la plate-forme SavoirLibre, savoirlibre.net<br />

Trois principaux constats sont à l’origine de la création de la plateforme<br />

SavoirLibre:<br />

1 Le volume des connaissances scientifiques double actuellement<br />

tous les cinq ans, alors que la transmission des fruits de<br />

la recherche vers les citoyens et les citoyennes reste très faible.<br />

50% des contenus scientifiques produits ne sont lus que par<br />

leurs propres auteurs et éditeurs, et 90% des recherches ne<br />

sont jamais citées. Un énorme fossé s’est creusé entre la quantité<br />

des savoirs produits et leur diffusion 1 .<br />

2 Notre époque est marquée par des mutations politiques,<br />

économiques, technologiques et environnementales déterminantes<br />

pour l’avenir de l’humanité. L’accès à des connaissances<br />

scientifiques à propos de ces mutations pourrait aider<br />

les citoyens et les citoyennes à mieux conscientiser ces problèmes<br />

et à se mobiliser davantage pour y faire face.<br />

3 Le bassin lémanique compte de nombreuses institutions universitaires<br />

de renommée internationale. De ce fait, un grand<br />

nombre de recherches sont menées dans la région et de nombreux<br />

événements scientifiques y sont organisés, ce qui draine<br />

des chercheurs de pointe du monde entier. Or, beaucoup de<br />

ces recherches, qui pourraient potentiellement intéresser<br />

le grand public, sont complètement ignorées de ce dernier.<br />

De même, certains événements scientifiques ne sont pas<br />

suffisamment visibles et restent confinés dans des cercles restreints<br />

de spécialistes, alors qu’ils seraient susceptibles d’intéresser<br />

les citoyens; ce qui pourrait aussi générer des échanges<br />

constructifs entre le monde scientifique et la société.<br />

Ainsi, beaucoup de moyens sont investis dans la production de<br />

nouvelles connaissances, alors que les structures de communication<br />

de la recherche sont encore trop peu développées. Une<br />

meilleure communication des fruits de la recherche permettrait<br />

de mieux valoriser les connaissances produites et de les partager<br />

davantage avec le grand public.<br />

Décloisonner et valoriser les savoirs<br />

Les nouvelles technologies d’information et de communication<br />

offrent des ressources très intéressantes pour opérer un décloisonnement<br />

des connaissances scientifiques. La plate-forme savoirlibre.net<br />

a été construite sur la base du système de gestion de<br />

contenu libre WordPress & qui offre un éventail très large de<br />

possibilités afin d’atteindre l’objectif principal du projet: valoriser<br />

1 CRIBB, Julian, SARI, Tjempaka. Open science, sharing knowlege in the global century. Ed. CSIRO. Collingwood. 2010<br />

SPÉCIAL ÉTÉ – D – 21 AOÛT 2012<br />

15


SavoirLibre, pour la diffusion des savoirs scientifiques<br />

SavoirLibre poursuit les objectifs spécifiques suivants:<br />

1 rapprocher la société du monde scientifique et de l’université;<br />

2 renforcer les usages citoyens des savoirs scientifiques;<br />

3 stimuler les débats sur les enjeux contemporains de société<br />

dans l’espace public;<br />

4 offrir un espace de réflexion interdisciplinaire et intersavoir<br />

sur les enjeux de société contemporains;<br />

5 documenter les événements scientifiques sur Internet afin<br />

d’augmenter leur impact;<br />

6 offrir une fenêtre de visibilité aux chercheurs et aux chercheuses<br />

sur Internet afin de valoriser leurs travaux sur la<br />

scène scientifique internationale.<br />

1 L’archivage permet de documenter les événements<br />

scientifiques par leur enregistrement et leur mise à disposition<br />

sur Internet.<br />

2 Un service de médiatisation qui consiste à réaliser des<br />

contenus audiovisuels à partir des sujets abordés lors des<br />

événements scientifiques. L’objectif est de présenter de<br />

manière synthétique et exemplifiée les propos des chercheurs<br />

et de les rendre plus accessibles et plus attractifs.<br />

3 La mise en lien permet de relier des contenus produits<br />

par SavoirLibre à des contenus complémentaires qui se<br />

trouvent à l’intérieur et à l’extérieur de la plate-forme.<br />

4 La mise en réseau consiste à augmenter la visibilité des<br />

contenus produits par la plate-forme grâce à l’utilisation<br />

des réseaux sociaux et de la liste de diffusion SavoirLibre.<br />

5 Le référencement permet d’améliorer le positionnement et<br />

donc la visibilité des contenus de SavoirLibre sur les moteurs<br />

de recherche.<br />

6 Les contenus sont produits exclusivement sous licences<br />

Creative Commons afin de renforcer leur diffusion et de<br />

garantir leur accès au plus grand nombre.<br />

16 flash <strong>informatique</strong><br />

les savoirs en les rendant plus accessibles pour le grand public,<br />

grâce à un travail de médiatisation des événements scientifiques<br />

sur Internet comme des conférences, des colloques, ou la sortie<br />

de publications. Les contenus produits par SavoirLibre s’adressent<br />

donc avant tout au grand public. Cependant, SavoirLibre effectue<br />

aussi un travail de documentation des événements scientifiques<br />

sur Internet; ceci permet, d’une part, de les pérenniser tout en<br />

augmentant leur visibilité et par là-même leur impact; et d'autre<br />

part, de valoriser le travail des chercheurs et des chercheuses sur<br />

la scène scientifique internationale en leur mettant à disposition<br />

un support d’édition complémentaire aux revues scientifiques.<br />

L’information sur la plate-forme est organisée de manière simple<br />

et compréhensible en suivant seulement trois catégories principales:<br />

événement, auteur et thème. Elle est rapidement accessible<br />

et comprend des fichiers textes, audios et vidéos qui peuvent<br />

être librement téléchargés et partagés. Les données sont toujours<br />

introduites et contextualisées ce qui facilite leur compréhension.<br />

SavoirLibre inscrit aussi sa démarche dans une recherche esthétique.<br />

L’unité visuelle de sa plate-forme permet l’identification des<br />

contenus qu’elle produit et la qualité esthétique de ses éléments<br />

graphiques vise à élargir son public à des non-spécialistes.<br />

SavoirLibre se positionne comme une plate-forme intersavoirs et<br />

ouverte, qui entend accueillir tout savoir pouvant intéresser le<br />

grand public; qu’il provienne des sciences sociales, des sciences<br />

exactes ou, encore, d’espaces extra-institutionnels. SavoirLibre est<br />

pour le moment totalement autofinancé et a débuté ses travaux<br />

en février 2010 en couvrant plusieurs événements organisés par<br />

l’Université de Lausanne et le Collège International de Philosophie<br />

de Paris &.<br />

GLOSSAIRE &<br />

Article du FI-<strong>EPFL</strong> 2012 sous licence CC BY-SA 3.0 /<br />

O. Odermatt<br />

Collège International de Philosophie de Paris (CIPh):<br />

organisme de recherche et de formation à la recherche ouvert<br />

au public où s'engagent et se croisent des pratiques philosophiques<br />

inédites. Situé à Paris, il fonctionne sur le modèle<br />

des universités ouvertes, dont il se distingue par le souci de<br />

donner un accès à la recherche en mouvement, plutôt qu'à un<br />

savoir constitué. www.ciph.org<br />

WordPress: système de gestion de contenu libre écrit en PHP<br />

reposant sur une base de données MySQL. WordPress est<br />

distribué par Automattic. www.wordpress.org. W<br />

W = tiré de Wikipédia


Licences libres et Open Access<br />

Nicolas.Borboen@epfl.ch, <strong>EPFL</strong> –STI - IGM - LENI (Laboratoire d’énergétique industrielle)<br />

How Open Access and Creative Commons licenses<br />

can apply to academic and research fields and what<br />

are the benefits.<br />

Comment le Libre Accès et les licences Creative<br />

Commons peuvent s’appliquer aux domaines académiques<br />

et de recherche et quels en sont les intérêts.<br />

Pour commencer, Creative Commons<br />

Le but de Creative Commons [1] (CC) est de proposer de manière<br />

simple et licite des alternatives aux droits de propriété intellectuelle<br />

établis dans une juridiction, y compris en Suisse et en Europe.<br />

À travers six contrats, ou licences Creative Commons [2], un<br />

auteur peut appliquer un moyen de régir les conditions de réutilisation<br />

et/ou de distribution de ses œuvres, de manière moins<br />

restrictive que le copyright en vigueur.<br />

Les licences Creative Commons ont été publiées la première fois<br />

le 16 décembre 2002, puis ont régulièrement évolué. La <strong>version</strong><br />

actuelle (depuis 2007 aux USA) est la 3.0.<br />

L’objectif de l’organisation est de permettre l’évolution d’une<br />

œuvre tout au long de sa diffusion en encourageant sa circulation,<br />

son échange et sa modification, de façon analogue aux<br />

différents types de licences [3] régissant les logiciels libres.<br />

Les six contrats<br />

Les six contrats types de Creative Commons sont issus de combinaisons<br />

de quatre options principales:<br />

Paternité (en anglais Attribution, BY): obligation de citer<br />

l’auteur.<br />

Interdiction de l’utilisation commerciale (en anglais Non<br />

commercial, NC): empêchement par l’auteur d’un usage<br />

commercial.<br />

Modification (en anglais No Derivs, ND): interdiction de<br />

modifier l’œuvre originale.<br />

Partage à l’identique (en anglais Share Alike, SA): distribution<br />

de toutes créations dérivées selon la même licence<br />

ou non.<br />

Certaines combinaisons n’étant pas compatibles entre elles, et le<br />

droit de paternité étant une condition sine qua non, il ne reste<br />

que les six contrats suivants: BY, BY-ND, BY-NC-ND, BY-NC, BY-<br />

NC-SA, BY-SA:<br />

Paternité<br />

Paternité<br />

Pas de modification<br />

Paternité<br />

Pas de modification<br />

Pas d’utilisation commerciale<br />

Paternité<br />

Pas d’utilisation commerciale<br />

Paternité<br />

Pas d’utilisation commerciale<br />

Partage à l’identique<br />

Paternité<br />

Partage à l’identique<br />

creativecommons.fr/licences/faq/<br />

À noter qu’il existe une septième possibilité, la licence Creative<br />

Commons Zéro (CCØ) [4] dont le but est de renoncer au maximum<br />

à ses droits d’auteur pour s’approcher au plus près du domaine<br />

public.<br />

Il existe de nombreux exemples d’utilisation de ces licences,<br />

comme l’album The Wired CD [5], les photos de campagne d’Obama<br />

[6], ainsi que les très nombreuses photographies sur Flickr [7],<br />

le film le Bal des Innocents [8], les articles de l’encyclopédie Wikipédia<br />

[9], les données géographiques d’OpenStreetMap [10] ou<br />

encore les articles du groupe logiciel libre [11] de l’<strong>EPFL</strong>. Mi-2011,<br />

Creative Commons International a publié un document sur la<br />

réussite de créateurs ayant placé leur contenu sous licence Creative<br />

Commons, The Power of Open [12], qui donne des exemples<br />

aussi variés que concrets.<br />

Fondation du mouvement libre accès<br />

La signature de l’Open Access Initiative [13] à Budapest en 2001<br />

est considérée comme le premier rassemblement fondateur du<br />

mouvement libre accès. En 2003, la Déclaration de Berlin sur le<br />

Libre Accès à la Connaissance en Sciences exactes, Sciences de la<br />

vie, Sciences humaines et sociales [14], construite et basée sur<br />

l’initiative de Budapest, est fondatrice du mouvement Libre Accès.<br />

Comme le montrent ces citations, les signataires de cette déclaration<br />

ont pour but la facilitation d’accès et d’utilisation des<br />

connaissances scientifiques:<br />

SPÉCIAL ÉTÉ – D – 21 AOÛT 2012<br />

17


Licences libres et Open Access<br />

L’Internet a fondamentalement transformé les réalités<br />

matérielles et économiques de la diffusion de la connaissance<br />

scientifique et du patrimoine culturel. Pour la<br />

toute première fois, l’Internet nous offre la possibilité de<br />

constituer une représentation globale et interactive de la<br />

connaissance humaine, y compris son patrimoine culturel,<br />

et la garantie d’un accès mondial.<br />

[…]<br />

Nous remplissons par trop imparfaitement notre mission<br />

de diffusion de la connaissance si l’information n’est pas<br />

mise rapidement et largement à la disposition de la société.<br />

De nouveaux modes de diffusion de la connaissance,<br />

non seulement sous des formes classiques, mais aussi, et<br />

de plus en plus, en s’appuyant sur le paradigme du libre<br />

accès via l’Internet, doivent être mises en place. Nous<br />

définissons le libre accès comme une source universelle de<br />

la connaissance humaine et du patrimoine culturel ayant<br />

recueilli l’approbation de la communauté scientifique.<br />

Dans le but de concrétiser cette vision d’une représentation<br />

globale et accessible de la connaissance, le Web du<br />

futur doit être durable, interactif et transparent. Le contenu<br />

comme les outils logiciels doivent être librement accessibles<br />

et compatibles.<br />

En plus d’assurer l’accès à la publication et sa pérennité, la déclaration<br />

garantit la reproductibilité des documents dans la définition<br />

d’une contribution au libre accès:<br />

Les contributions au Libre Accès se composent de résultats<br />

originaux de recherches scientifiques, de données brutes<br />

et de métadonnées, de documents sources, de représentations<br />

numériques de documents picturaux et graphiques,<br />

de documents scientifiques multimédias.<br />

Contrairement à ce que l’on pourrait croire, le libre accès ne se limite<br />

donc pas seulement à la publication finale, mais donne également<br />

accès aux éléments ayant permis cette publication. Le parallèle<br />

avec les fichiers sources d’un logiciel open source est évident.<br />

Parmi les 382 signataires [15] actuels de la Déclaration de Berlin,<br />

quelques institutions suisses y participent: les Académies suisses<br />

des sciences, la Conférence des recteurs (Universités et HEP), le<br />

Fonds national suisse de la recherche scientifique (FNS), l’ETHZ, les<br />

Universités de Fribourg, Saint-Gall et Zurich.<br />

Au niveau européen il existe l’Open Access Infrastructure for Research<br />

in Europe (OpenAIRE) [16], qui vise à soutenir la mise en<br />

œuvre du libre accès en Europe selon les directives de l’European<br />

Research Council (ERC) [17].<br />

Open Access<br />

L’Open Access [18], contrairement à l’Open<br />

Content, ne donne pas le droit de modifier le<br />

contenu de la publication, mais se contente<br />

d’assurer sa disponibilité et d’associer le<br />

contenu à un ou plusieurs auteurs. À l’inverse<br />

des contenus multimédia ou logiciels, ce point<br />

est crucial dans le milieu scientifique, car la<br />

18 flash <strong>informatique</strong><br />

modification d’une publication sans la recherche qui l’a constituée<br />

perd tout son sens. Les licences Creative Commons peuvent<br />

être utilisées pour permettre l’utilisation de publications en Open<br />

Access. Deux voies sont possibles:<br />

z la voie dite verte, où l’auteur publie dans un journal puis archive<br />

lui-même sa <strong>version</strong> du papier;<br />

z la voie en or, où l’auteur rend immédiatement public son article<br />

via le site de la revue ou via un Open Access Journal.<br />

Une des plates-formes la plus connue pour la voie en or est la<br />

Public Library of Science (PLoS) [19] qui, depuis 2003, a eu la<br />

volonté de créer une bibliothèque ouverte en ligne dédiée à plusieurs<br />

domaines médicaux ou scientifiques. La revue est payée par<br />

une contribution financière à laquelle sont soumis les articles publiés.<br />

Ce modèle auteur-payeur est parfois critiqué, pourtant les<br />

études montrent que son coût n’est pas forcément supérieur et<br />

surtout que le taux de citation des articles en Open Access est plus<br />

important que celui des articles en modèle Pay-to-access [20].<br />

Le concept de l’Open Access est de rendre l’article disponible immédiatement<br />

en ligne, sans frais d’accès et sans restriction sur<br />

la redistribution ou l’utilisation ultérieure, tant que l’auteur et la<br />

source sont cités comme spécifié dans la licence Creative Commons.<br />

Connaissances scientifiques et Creative<br />

Commons<br />

L’organisation Creative Commons cherche également à développer<br />

l’accès à la connaissance en proposant des supports simples:<br />

z En 2005, Creative Commons a lancé le projet Science Commons<br />

[21] dont le but premier est de développer une politique<br />

et des outils pour aider à la réutilisation (aka réutilisabilité)<br />

des recherches et des données de recherche.<br />

z Parallèlement à la recherche, Creative Commons pense aussi<br />

au monde de l’éducation en créant, en 2007, ccLearn [22] qui<br />

est dédié à la promotion de l’utilisation des Open Educational<br />

Resources (OER) [23], ou Ressources Éducatives Libres (REL)<br />

en français, ainsi que de l’Open Learning. Leur mission est de<br />

réduire les barrières légales, techniques et sociales pour le partage<br />

et la réutilisation du matériel éducatif.<br />

Open Education<br />

Toujours dans l’idée d’éliminer les barrières à la connaissance, des<br />

modèles d’éducation libres ont vu le jour sur la base des principes<br />

de l’Open Access. Les plus prestigieuses universités ont maintenant<br />

des cours disponibles pour tous et gratuitement, le MIT et<br />

Harvard se sont associés pour la plate-forme edX [24] alors que<br />

Princeton, Stanford, University of California, Berkeley, University<br />

of Michigan-Ann Arbor, and University of Pennsylvania ont lancé<br />

Coursera [25].


Licences libres et Open Access<br />

Un grand acteur du savoir libre est l’Open Course Ware<br />

Consortium [26] qui en plus de fournir une plate-forme<br />

à des universités (par exemple pour l’Institut des sciences<br />

et technologies de Paris [27]), a organisé l’Open Education<br />

Week [28] qui visait à informer sur le mouvement de<br />

l’éducation ouverte et sur son impact sur l’enseignement<br />

et l’apprentissage dans le monde entier.<br />

Le site Why Open Education Matters [29] propose des<br />

courts-métrages qui expliquent les bénéfices et les promesses<br />

des ressources d’éducation libres pour les enseignants,<br />

les étudiants et les écoles partout dans le monde.<br />

En 2004, l’Open Knowledge Foundation [30] est créée au<br />

Royaume-Uni dans un but non lucratif pour promouvoir<br />

la culture libre dans les domaines où les données peuvent<br />

être ouvertes, comme l’éducation et la science. Différents<br />

projets disponibles sur le site promeuvent l’accès libre et<br />

gratuit, la liberté de redistribution et de réutilisation, sans<br />

aucune restriction.<br />

Où trouver des ressources et où<br />

publier<br />

Parmi la multitude de sites concernés par l’Open Access, en voici<br />

une sélection:<br />

z Directory of Open Access Journals (DOAJ) [31]: compte un<br />

peu moins de 8000 revues et semble être un bon point de<br />

départ.<br />

z Registry of Open Access Repositories (ROAR) [32]: donne des<br />

informations sur la taille et le statut des dépôts à travers le<br />

monde.<br />

z ArXiv [33]: une des plus anciennes archives de prépublications<br />

électroniques compte 765 000 e-prints en Physique, Mathématique,<br />

Informatique, Biologie, Finance et Statistiques.<br />

z Public Library of Science (PLoS) [34]: indexé par Scopus [35],<br />

CrossRef [36], ainsi que par Google Scholar [37].<br />

z InTech [38]: 1800 livres, 13 journaux et presque 14 millions de<br />

téléchargements. Très actif dans les domaines de la médecine<br />

et de l’ingénierie.<br />

z Open Access Infrastructure for Research in Europe (OpenAIRE)<br />

[39]: au niveau européen, flirte avec les 10 000 publications<br />

et propose aussi des contenus non anglophones.<br />

z Association Savoir Libre [40]: va lancer sa plate-forme en automne<br />

prochain. Bien que dans les grandes lignes le concept<br />

soit le même que pour les autres plates-formes, l’association a<br />

pour but de stimuler les débats entre scientifiques et citoyens<br />

et d’encourager l’analyse interdisciplinaire des thèmes de<br />

société contemporains. Lire aussi l’article de Omar Odermatt,<br />

SavoirLibre pour la diffusion des savoirs scientifiques dans ce<br />

journal.<br />

z Open-access.net [41]: permet de répondre à la demande<br />

croissante que l’Open Access doit couvrir en Suisse. Son but<br />

est de rassembler sur sa plate-forme des informations éparpillées<br />

et de les rendre accessibles à différents groupes cibles.<br />

Open-access.net permet également de répondre aux questions<br />

juridiques [42] de l’Open Access en Suisse.<br />

Conférence Creative Commons –<br />

Bibliothèque de l’<strong>EPFL</strong><br />

Partager, télécharger, utiliser légalement…<br />

Grâce aux Creative Commons !<br />

z À l’<strong>EPFL</strong>: Infoscience [43] permet la soumission de publications<br />

selon la voie verte, alors que la bibliothèque [44] permet<br />

la recherche de ressources Open Access. Lire aussi l’article de<br />

Julien Junod, Open Access à l’<strong>EPFL</strong> dans ce journal.<br />

Conclusion<br />

Jeudi 25 octobre de 15h00 à 19h00<br />

au Forum du Rolex Learning Center,<br />

entrée gratuite, inscription obligatoire<br />

Rencontre organisée par la Bibliothèque de l’<strong>EPFL</strong> à l’occasion<br />

du dixième anniversaire des licences CC (Creative<br />

Commons).<br />

Depuis 10 ans déjà, les licences CC permettent de partager<br />

et de réutiliser du contenu publié librement sur Internet.<br />

Avec cette rencontre, vous serez en mesure de mieux<br />

comprendre les nouvelles pratiques de la création et de<br />

la diffusion à l’ère numérique, de mieux cerner les différentes<br />

utilisations qui peuvent être faites de ces licences,<br />

mais également de mieux maîtriser leur fonctionnement<br />

et leurs atouts.<br />

Informations et inscriptions sur: go.epfl.ch/lib-cc<br />

La production et la diffusion des connaissances dans le monde<br />

actuel dépendent presque totalement des outils <strong>informatique</strong>s.<br />

Cependant des barrières légales, techniques et sociales sont encore<br />

présentes et entravent la libre diffusion de la connaissance<br />

de manière globale. Les différentes initiatives présentées dans cet<br />

article ont comme point commun la mise en exergue ainsi que la<br />

promotion du partage et de l’échange de ces connaissances au<br />

moyen de différents outils mis à disposition. Les connaissances, et<br />

plus particulièrement les publications scientifiques, n’ont d’intérêt<br />

que si elles sont lues et appréciées (nombre de citations). L’évaluation<br />

de la publication et la réputation de l’auteur dépendent<br />

fortement de l’accessibilité aux publications, car au final c’est la<br />

communauté scientifique qui se régule et se modère d’elle-même.<br />

La chaîne de la libre connaissance, du support didactique à la<br />

recherche finale, a déjà bon nombre d’adhérents qui souhaitent sa<br />

démocratisation globale. Un partage plus important des connaissances<br />

actuelles en Open Access serait un enrichissement important<br />

pour l’humanité et profiterait à la majorité.<br />

SPÉCIAL ÉTÉ – D – 21 AOÛT 2012<br />

19


Licences libres et Open Access<br />

Pour en découvrir plus<br />

Classement antéchronologique:<br />

z BOULOGNE, François. Nouveaux enjeux de la publication<br />

scientifique. 23 avril 2012. sciunto.wordpress.com/2012/05/16/<br />

publication-dune-synthese-personnelle-surla-publicationscientifique/.<br />

z JEAN, Benjamin. Option Libre. Du bon usage des licences<br />

libres. Décembre 2011. Framasoft. framabook.org/option-libredu-bon-usage-des-licences-libres.<br />

z SCHÜTZ, Frédéric, POSSOZ, Anne. Licences Libres en toute (ré)<br />

créativité. <strong>Flash</strong> <strong>informatique</strong> spécial rentrée. 16 septembre<br />

2011. flash<strong>informatique</strong>.epfl.ch/spip.php ?article2475.<br />

z MASUTTI, Christophe. Pour libérer les sciences. 15 décembre<br />

2010. linuxetleschoses.tuxfamily.org/sciencelibre & www.<br />

framablog.org/index.php/post/2010/12/20/pour-liberer-lessciences-christophe-masutti.<br />

z RUTTER, Michael Patrick, SELLMAN, James. Uncovering open<br />

access. 9 novembre 2010. OpenSource.com. opensource.com/<br />

education/10/10/uncovering-openaccess. (traduction disponible<br />

sur www.framablog.org/index.php/post/2010/12/11/decouvrir-le-libre-acces).<br />

z DURAND-BARTHEZ, Manuel. Droits d’auteur & Publication<br />

scientifique. Mai 2009. www.univ-bordeaux.fr/ddoc/urfist/documents/durand-barthez.pdf.<br />

z THYS, Laurence. Aspects juridiques de la publication<br />

scientifique. 2009. www.ciuf.be/cms/images/stories/ciuf/biblio-theques/guidejuridique.pdf.<br />

z Divers auteurs. Libre accès (édition scientifique). Wikipédia.<br />

27 juillet 2006. fr.wikipedia.org/wiki/Libre_accès_(édition_<br />

scientifique).<br />

Références<br />

[1] creativecommons.org<br />

[2] creativecommons.org/licenses/<br />

[3] SCHÜTZ, Frédéric, POSSOZ, Anne. Licences Libres en toute<br />

(ré)créativité. <strong>Flash</strong> <strong>informatique</strong> spécial rentrée, 16<br />

septembre 2011, flash<strong>informatique</strong>.epfl.ch/spip.php ?article2475<br />

[4] creativecommons.org/publicdomain<br />

[5] creativecommons.org/wired<br />

[6] www.flickr.com/photos/whitehouse & www.framablog.org/<br />

index.php/post/2009/05/03/photographie-obama-davoscreative-commons<br />

20 flash <strong>informatique</strong><br />

[7] www.flickr.com/search/ ?l=cc<br />

[8] www.ecrivains.org/le-bal-des-innocents/<br />

[9] www.wikipedia.org<br />

[10] www.openstreetmap.org<br />

[11] flash<strong>informatique</strong>.epfl.ch/spip.php ?article2283<br />

[12] thepowerofopen.org<br />

[13] www.soros.org/openaccess<br />

[14] oa.mpg.de/files/2010/04/BerlinDeclaration_wsis_fr.pdf<br />

[15] oa.mpg.de/lang/en-uk/berlin-prozess/signatoren/<br />

[16] www.openaire.eu<br />

[17] erc.europa.eu/documents/erc-scientific-council-guidelinesopen-access<br />

[18] en.wikipedia.org/wiki/Open_access<br />

[19] www.plos.org<br />

[20] www.nature.com/nature/focus/accessdebate/21.html<br />

[21] sciencecommons.org<br />

[22] wiki.creativecommons.org/Creative_Commons_-_ccLearn<br />

[23] www.oercommons.org<br />

[24] www.edxonline.org<br />

[25] www.coursera.org<br />

[26] www.ocwconsortium.org<br />

[27] www.paristech.org<br />

[28] www.openeducationweek.org<br />

[29] whyopenedmatters.org<br />

[30] okfn.org<br />

[31] www.doaj.org<br />

[32] roar.eprints.org<br />

[33] arXiv.org<br />

[34] www.plos.org<br />

[35] www.scopus.com<br />

[36] www.crossref.org<br />

[37] scholar.google.com<br />

[38] www.intechopen.com<br />

[39] www.openaire.eu<br />

[40] savoirlibre.net<br />

[41] open-access.net<br />

[42] open-access.net/ch_en/general_information/legal_issues/<br />

[43] infoscience.epfl.ch<br />

[44] library.epfl.ch/en/ebooks/<br />

Article du FI-<strong>EPFL</strong> 2012 sous licence CC BY-SA 3.0 / N. Borboën


This paper presents a global approach to the concept<br />

of document which takes into account its digital<br />

evolution. It is a summary of a paper published<br />

in 2003 by Roger T. Pédauque, a multidisciplinary<br />

group of research scholars, which analyses the concept<br />

of document under three aspects: the document<br />

as a form (as a material or immaterial object),<br />

sign (as meaningful object) or medium (as communication<br />

vector).<br />

Objet de notre quotidien, le document nous paraît<br />

si évident qu'il ne semble pas nécessaire de le définir<br />

précisément. Et pourtant, l’exercice pourrait se<br />

révéler plus ardu qu’il n’y paraît. Information, donnée,<br />

texte, fichier, papier, article, feuille, ressource,<br />

image, courrier, etc. cette sélection de termes<br />

employés parfois comme synonymes ou pour désigner<br />

des objets similaires, nous montre à quel point<br />

l’objet document peut être complexe, et ce d’autant<br />

plus qu’il s’est trouvé enrichi, augmenté par le passage<br />

au numérique. Mais cette évolution, si elle lui<br />

a conféré une plus grande plasticité, a également<br />

induit, pour l’objet matériel que nous connaissions<br />

jusqu’ici, une perte de stabilité.<br />

En 2003, dans un article intitulé Document: forme, signe et<br />

médium, les re-formulations du numérique [1], un collectif<br />

de chercheurs transdisciplinaires, réunis sous le pseudonyme de<br />

de Roger T. Pédauque, se propose d’analyser la notion de document<br />

dans son passage au numérique et de le définir selon trois<br />

axes d’études:<br />

1 anthropologique (le document/forme comme objet à voir),<br />

2 cognitive (le document/texte comme objet à penser) et<br />

3 sociale (le document/relation comme objet à transmettre).<br />

Les caractéristiques dégagées dans chaque axe sont vues comme<br />

des traits dominants de celui-ci. Elles n’excluent pas les caractéristiques<br />

mises en lumière par les autres approches, mais mettent<br />

en évidence plusieurs dimensions du document, perméables entre<br />

elles, et qui s’éclairent mutuellement.<br />

Cet article se propose de présenter brièvement ces trois dimensions<br />

du document, illustrées par des propositions de définition,<br />

qui évoluent au gré des apports du numérique.<br />

Le document comme forme<br />

Forme, signe et … évasion<br />

Vers une définition du document numérique<br />

Patricia.Plaza@epfl.ch, <strong>EPFL</strong> - Domaine IT - KIS, responsable du projet GED<br />

Ici le document est traité comme un objet, matériel ou immatériel.<br />

Le document est un objet ou une inscription dont on repère<br />

les frontières et que l’on peut directement percevoir, sans utiliser<br />

d’outil. Le support traditionnel dominant est le papier, la trace<br />

l’écriture, manuscrite ou imprimée.<br />

Une première définition du document est ainsi posée par cette<br />

équation:<br />

Document = support + inscription<br />

La musique enregistrée, le cinéma puis l’audiovisuel ont introduit<br />

un premier changement, en rendant l’utilisation d’un outil nécessaire<br />

à la perception du contenu.<br />

Le passage de l’analogique au numérique a fondamentalement<br />

modifié la notion de support en permettant de mêler texte, image,<br />

son et animation. La publication électronique a ensuite rendu<br />

possible la production à la demande d’un document (à l’écran ou<br />

sur papier), déplaçant l’attention initialement portée au support<br />

vers la publication elle-même.<br />

Le passage au numérique a également induit des changements<br />

profonds au niveau de l’inscription. Dans le contexte numérique,<br />

celle-ci peut être rapprochée de la notion de codage utilisée en<br />

<strong>informatique</strong> et qui permet de manipuler, transporter des objets.<br />

Toujours dans ce contexte (et par analogie à la définition de<br />

programme <strong>informatique</strong> Programme = logiciel + données), la<br />

définition de document numérique peut être résumée ainsi:<br />

Document numérique = structure + données<br />

Comme on le sait, la structure peut énormément varier d’un document<br />

à l’autre, allant du très au très peu, voire pas, structuré. Deux<br />

courants de recherche analysent cette structuration. Le premier<br />

part de l’analogique pour aller vers le numérique, il concerne les<br />

procédés de dématérialisation des documents papier classiques,<br />

ou numérisation, qui se basent sur le traitement de l’image et la<br />

reconnaissance de formes. Le second courant fait le cheminement<br />

inverse: les documents sont reconstitués à partir d’algorithmes en<br />

remontant leur structure ou logique interne pour rendre le texte<br />

lisible à l’écran. Ces recherches ont débouché sur la bureautique,<br />

puis la publication électronique et ont trouvé une application à<br />

grande échelle avec la révolution du Web. À ce niveau, le Web<br />

peut être vu comme une infinité de documents reliés entre eux.<br />

Ces deux courants ont mis en évidence deux niveaux fondamentaux<br />

de structuration des documents:<br />

z la structure logique, c’est-à-dire la construction d’un document<br />

en parties et sous parties articulées entre elles, et dont<br />

l’élément de structure le plus bas est le texte ou le signal analogique<br />

(unifié sous différents formats: unicode, MPEG, …)<br />

z la représentation formelle de la présentation avec la notion de<br />

balisage qui décrit la structure d’un document plutôt que ses<br />

caractéristiques physiques.<br />

Le succès de la norme XML &, et de ces dérivés, est probablement<br />

dû à la convergence de ces mouvements.<br />

Ceci permet de modifier l’équation du document en y insérant ces<br />

nouvelles caractéristiques:<br />

SPÉCIAL ÉTÉ – D – 21 AOÛT 2012<br />

21


Forme, signe et … évasion<br />

Document XML = Données structurées + mise en forme [2]<br />

«Le numérique a déplacé la question du support du document,<br />

qui en assurait la stabilité grâce à la fixité de l’inscription,<br />

vers la problématique de sa structure (…). [E]n séparant<br />

de façon radicale la structure logique d’un texte de sa<br />

représentation visuelle, elle autorise des traitements formels<br />

différents pour un même contenu, à une échelle inédite».<br />

Pédauque, 2003<br />

De cet axe, une première définition, partielle, du document est<br />

proposée:<br />

«Un document numérique est un ensemble de données organisées<br />

selon une structure stable associée à des règles de<br />

mise en forme permettant une lisibilité partagée entre son<br />

concepteur et ses lecteurs»<br />

Pédauque, 2003<br />

Le document comme signe<br />

Cet axe d’étude traite du document comme objet signifiant. Une<br />

définition du document traditionnel pourrait être exprimée par<br />

l’équation suivante:<br />

Document = inscription + sens<br />

Le support est devenu ici secondaire. L’importance est donnée au<br />

contenu porteur de sens et matérialisé par l’inscription. Ce sens se<br />

définit par rapport au contexte de production et de diffusion du<br />

document qui va conditionner son interprétation.<br />

Trois idées-forces émergent de cette approche :<br />

1 La création: la mise en document est une manière pour nous<br />

d’appréhender ce qui nous entoure. En réalisant des documents,<br />

nous classons nos idées, organisons notre discours<br />

pour nous aider à penser le monde. La notion de genre textuel<br />

et de collection ici est fondamentale: les documents sont<br />

regroupés dans de grandes catégories dont les différents éléments<br />

sont en relation. Le classement varie selon les situations<br />

et les époques, il marque nos représentations sociales.<br />

2 L’interprétation: un document n’a de sens que s’il est lu ou<br />

interprété par un lecteur (au sens large), et cette interprétation<br />

dépend du contexte dans lequel elle se fait. Un même<br />

document pourra être compris de manière différente selon<br />

l’époque et la situation sociale ou individuelle du lecteur.<br />

3 Les signes: tout objet est potentiellement un signe et pourrait<br />

être un document. En ce sens, une carotte de glace, un<br />

échantillon de tissu, un animal dans un zoo, etc. [3], sont des<br />

documents, car ils sont décrits, classés et inventoriés dans un<br />

système de représentation. Mais la grande majorité des documents<br />

sont construits à partir du langage écrit ou parlé.<br />

Ces trois idées ont permis l’invention des langages documentaires<br />

organisés de façon associative ou hiérarchique (références<br />

bibliographiques, index, thésaurus, résumés, etc.), conséquence de<br />

l’explosion documentaire qui s’est manifestée dès la fin XIX e siècle.<br />

Il a ainsi été possible de construire à partir des documents (ou des<br />

images ou des objets eux-mêmes) un langage formel permettant<br />

de les classer pour les retrouver à la demande.<br />

Plus récemment, les outils de traitement automatique de la<br />

langue sont apparus, issus du travail commun d’informaticiens<br />

et de linguistes pour traiter une problématique similaire. Ils ont<br />

eu des résultats spectaculaires dans leur application au Web sous<br />

22 flash <strong>informatique</strong><br />

forme de moteurs. La démarche a consisté à isoler les éléments<br />

logiques pour les modéliser.<br />

À la lumière de ces éléments, l’équation définissant un document<br />

pourrait être modifiée comme suit:<br />

Document numérique = texte informé + connaissances<br />

Texte informé signifiant que le texte (au sens large, y compris audio-visuel)<br />

pourrait être soumis à un traitement afin d’en repérer<br />

les unités d’information. Le remplacement de sens par connaissances<br />

introduit la notion de personnalisation pour un lecteur ou<br />

un usager donné.<br />

L’arrivée du Web sémantique avec une structuration toujours plus<br />

formalisée des documents (XML) et l’insistance sur l’indexation<br />

(RDF &) a encore modifié la portée de ces évolutions en introduisant<br />

les ontologies. Ce n’est plus tant un ensemble de fichiers<br />

reliés entre eux qui est visé, mais la constitution d’un réseau qui<br />

utilise pleinement les capacités de calcul des machines connectées<br />

pour le traitement sémantique des textes. Des métadonnées que<br />

l’on peut modéliser et combiner prennent alors toute leur valeur.<br />

L’équation peut ainsi être complétée :<br />

Document WS = texte informé + ontologies<br />

Selon cet axe d’étude, une nouvelle définition, toujours partielle,<br />

du document peut être proposée:<br />

«Un document numérique est un texte dont les éléments sont<br />

potentiellement analysables par un système de connaissance<br />

en vue de son exploitation par un lecteur compétent»<br />

Pédauque, 2003<br />

Document comme médium<br />

Ici c’est la fonction sociale du document qui est analysée. Le document<br />

est principalement considéré comme vecteur d’un message<br />

entre des personnes.<br />

Deux idées sous-tendent cette approche:<br />

1 Le document a pour fonction de prouver.<br />

2 Le document a pour fonction d’informer.<br />

«Un document donne un statut à une information. Il est<br />

porté par un groupe social qui le suscite, le diffuse, le sauvegarde<br />

et l’utilise».<br />

Pédauque, 2003<br />

C’est également un discours rattaché à son auteur par une signature.<br />

Il a donc une valeur d’évidence de l’activité (avec un<br />

sens plus large que la notion de preuve juridique) et une valeur<br />

d’information, de renseignement, de témoignage.<br />

La définition suivante est avancée:<br />

Document = inscription + légitimité<br />

Les documents sont vus ici comme des outils de régularisation des<br />

sociétés humaines. Ils permettent de communiquer et de pérenniser<br />

les lois, normes et les informations nécessaires à leur fonctionnement.<br />

L’organisation politique et sociale s’appuie sur l’échange<br />

de documents.<br />

Une économie interne du document s’est construite à partir des<br />

évolutions technologiques qui le constituent et des modalités de<br />

la mise en document. Mettre en document peut être vu comme<br />

un acte de communication entre un ou plusieurs expéditeurs et<br />

un ou plusieurs destinataires. La dynamique de cette mise en document<br />

est étudiée principalement selon deux axes: le premier<br />

s’intéresse à la communication organisationnelle et étudie les do-


Forme, signe et … évasion<br />

cuments dans un processus de travail,<br />

le second analyse la communication<br />

des médias et s’intéresse au processus<br />

de publication.<br />

Une nouvelle équation définissant le<br />

document est proposée:<br />

Document numérique = texte +<br />

procédure<br />

L’avènement du Web a de nouveau<br />

induit un changement d’échelle étendant<br />

le numérique à la société toute<br />

entière et permettant à tout un chacun<br />

d’être à la fois producteur et consommateur<br />

de documents. L’augmentation<br />

du nombre de documents ainsi mis à<br />

disposition ne permet plus de repérer,<br />

filtrer ces documents de la manière<br />

classique, c’est-à-dire a priori. Ceci doit<br />

plutôt se faire a posteriori, selon divers<br />

procédés qui tiennent comptent des<br />

liens pointant vers les documents euxmêmes<br />

et des algorithmes des moteurs<br />

de recherche.<br />

Une troisième équation est proposée,<br />

qui intègre cette importance prise par<br />

le Web:<br />

Document Web = publication + accès repéré<br />

Dans cette équation,<br />

«la publication seule ne ferait plus la légitimité, il faudrait lui<br />

adjoindre la notoriété par le repérage de l’accès».<br />

Pédauque, 2003<br />

Une troisième définition du document est avancée:<br />

«Un document numérique est la trace de relations sociales<br />

reconstruites par les dispositifs <strong>informatique</strong>s».<br />

Pédauque, 2003<br />

En conclusion<br />

Dans chacun de ses axes, la notion de contrat de lecture est soulignée<br />

au travers de la lisibilité dans le premier, de la compréhension<br />

dans le second et de la sociabilité dans le troisième. Il est probable<br />

que dans ces trois dimensions s’incarne la notion moderne<br />

de document.<br />

«Un document ne serait finalement qu’un contrat entre des<br />

hommes dont les qualités anthropologiques (lisibilité-perception),<br />

intellectuelles (compréhension-assimilation) et sociales<br />

(sociabilité-intégration) fonderaient une part de leur<br />

humanité, de leur capacité à vivre ensemble».<br />

Pédauque, 2003<br />

Pour aller plus loin<br />

z PÉDAUQUE, Roger T. Le texte en jeu. Permanence et transformation<br />

du document 2005. [sic 00001401 - <strong>version</strong> 1].<br />

archivesic.ccsd.cnrs.fr/sic_00001401.<br />

OTLET Paul, Traité de documentation: le livre sur le livre, théorie et pratique. Bruxelles. Editions Mundaneum.<br />

1934. 431 p.<br />

z PÉDAUQUE, Roger T. Document et modernité. 2006 [sic<br />

00001741-<strong>version</strong> 1]. archivesic.ccsd.cnrs.fr/sic_00001741.<br />

z SALAÜN, Jean-Michel. Vu, lu, su: Les architectes de l'information<br />

face à l'oligopole du Web. Editions de la Découverte<br />

(09 février 2012).<br />

Références<br />

[1] PÉDAUQUE, Roger T. Document: forme, signe et médium,<br />

les re-formulations du numérique. Version 3. 8-07-2003.<br />

@rchiveSIC (2003) [sic_00000511 - <strong>version</strong> 1]. archivesic.<br />

ccsd.cnrs.fr/sic_00000511<br />

[2] En rappelant que stricto senso, la norme XML ne définit<br />

pas de mise en forme, celle-ci est définie par XSL.<br />

[3] Voir également l’article de ERTZSCHEID, Olivier. L’homme<br />

est un document comme les autres: du World Wide<br />

Web au World Life Web. Hermes, 53 (2009) 33-40<br />

[sic_00377457 - <strong>version</strong> 2]. archivesic.ccsd.cnrs.fr/<br />

sic_00377457. [consultation 05.07.2012].n<br />

GLOSSAIRE &<br />

RDF (Ressources Description Framework): modèle de métadonnées<br />

défini par le W3C.<br />

XML (Extensible Markup Language): est un langage <strong>informatique</strong><br />

de balisage générique qui dérive du SGML. W<br />

W = tiré de Wikipédia<br />

SPÉCIAL ÉTÉ – D – 21 AOÛT 2012<br />

23


24<br />

Welcome to the nascent Web of Data.<br />

Après des années de tâtonnements, le Web est enfin<br />

prêt à accueillir toute la richesse de vos données,<br />

et cela dans des formats ouverts et interopérables…<br />

Quel format choisir pour publier ses données en ligne ? Malgré<br />

l’engouement extraordinaire pour l’Open Data et le partage de<br />

données, le problème du choix du format se pose encore et toujours.<br />

Les formats antédiluviens ou semi-propriétaires (tels CSV<br />

ou Excel) sont bien sûr à proscrire, pour leur manque d’expressivité<br />

d’une part, et leur manque d’ouverture d’autre part. XML<br />

demeure un bon choix pour publier des documents. Il se révèle<br />

par contre peu pratique pour la publication de données brutes,<br />

de par la rigidité de ses schémas et la difficulté inhérente à mixer<br />

des éléments XML provenant de documents hétérogènes. JSON a<br />

le vent en poupe pour l’échange de données point à point, même<br />

si le format n’a jamais été prévu pour modéliser ou intégrer des<br />

données complexes.<br />

EU<br />

Institutions<br />

Brazilian<br />

Politicians<br />

ISTAT<br />

Immigration<br />

Data<br />

Gov.ie<br />

EEA<br />

Open<br />

Election<br />

Data<br />

Project<br />

EURES<br />

reegle<br />

Ren.<br />

Energy<br />

Generators<br />

GovWILD<br />

Lichfield<br />

Spending<br />

Traffic<br />

Scotland<br />

CORDIS<br />

(FUB)<br />

FTS<br />

legislation<br />

data.gov.uk<br />

ESD<br />

standards<br />

Scotland<br />

Pupils &<br />

Exams<br />

flash <strong>informatique</strong><br />

Publier ses données sous forme<br />

de Linked Open Data<br />

Philippe.Cudre-Mauroux@unifr.ch, Université de Fribourg, directeur de eXascale Infolab<br />

Crime<br />

Reports<br />

UK<br />

Ox<br />

Points<br />

Energy<br />

(En-<br />

AKTing)<br />

CORDIS<br />

(RKB<br />

Explorer)<br />

UK Postcodes<br />

Linked<br />

EDGAR<br />

(Ontology<br />

Central)<br />

Semantic<br />

XBRL<br />

Scotland<br />

Geography<br />

Finnish<br />

Municipalities<br />

reference<br />

data.gov.<br />

uk<br />

London<br />

Gazette<br />

GovTrack<br />

Piedmont<br />

Accomodations<br />

Italian<br />

public<br />

schools<br />

Population<br />

(En-<br />

AKTing)<br />

TWC LOGD<br />

US SEC<br />

(rdfabout)<br />

Hellenic<br />

PD<br />

NHS<br />

(En-<br />

AKTing) Mortality<br />

(En-<br />

AKTing)<br />

CO2<br />

Emission<br />

(En-<br />

AKTing)<br />

Ordnance<br />

Survey<br />

data.gov.uk<br />

intervals<br />

GeoWord<br />

Net<br />

El<br />

Viajero<br />

Tourism<br />

Turismo<br />

de<br />

Zaragoza<br />

Crime<br />

(En-<br />

AKTing)<br />

research<br />

data.gov.<br />

uk<br />

statistics<br />

data.gov.<br />

uk<br />

Eurostat<br />

(Ontology<br />

Central)<br />

Hellenic<br />

FBD<br />

educatio<br />

n.data.g<br />

ov.uk<br />

transport<br />

data.gov.<br />

uk<br />

Eurostat<br />

SMC<br />

Journals<br />

business<br />

data.gov.<br />

uk<br />

US Census<br />

(rdfabout)<br />

Ocean<br />

Drilling<br />

Codices<br />

Openly<br />

Local<br />

Janus<br />

AMP<br />

EUTC<br />

Productions<br />

patents<br />

data.go<br />

v.uk<br />

OpenEI<br />

DB<br />

Tropes<br />

FanHubz<br />

LOIUS<br />

Eurostat<br />

(FUB)<br />

Linked<br />

Sensor Data<br />

(Kno.e.sis)<br />

Climbing<br />

AEMET<br />

Rechtspraak.<br />

nl<br />

EUNIS<br />

NASA<br />

(Data<br />

Incubator)<br />

Yahoo!<br />

Geo<br />

Planet<br />

Magnatune<br />

Surge<br />

Radio<br />

Last.FM<br />

artists<br />

(DBTune)<br />

BBC<br />

Program<br />

mes<br />

BBC<br />

Wildlife<br />

Finder<br />

Telegraphis<br />

Taxon<br />

Concept<br />

Geo<br />

Linked<br />

Data<br />

riese<br />

Twarql<br />

Linked<br />

GeoData<br />

Metoffice<br />

Weather<br />

Forecasts<br />

John<br />

Peel<br />

(DBTune)<br />

GTAA<br />

Discogs<br />

(Data<br />

Incubator)<br />

Last.FM<br />

(rdfize)<br />

BBC<br />

Music<br />

Fishes<br />

of Texas<br />

Geo<br />

Names<br />

UMBEL<br />

WordNet<br />

(VUA)<br />

WordNet<br />

(W3C)<br />

Alpine<br />

Ski<br />

Austria<br />

EARTh<br />

Weather<br />

Stations<br />

Airports<br />

National<br />

Radioactivity<br />

JP<br />

Open<br />

Cyc<br />

Moseley<br />

Folk<br />

Music<br />

Brainz<br />

(Data<br />

Incubator)<br />

Geo<br />

Species<br />

Sears<br />

Music<br />

Brainz<br />

(DBTune)<br />

Chronicling<br />

America<br />

Product<br />

DB<br />

YAGO<br />

World<br />

Factbook<br />

WordNet<br />

(RKB<br />

Explorer)<br />

GEMET<br />

Classical<br />

(DB<br />

Tune)<br />

New<br />

York<br />

Times<br />

Lexvo<br />

Cornetto<br />

Audio<br />

Scrobbler<br />

(DBTune)<br />

Music<br />

Brainz<br />

(zitgist)<br />

Uberblic<br />

Product<br />

Types<br />

Ontology<br />

Jamendo<br />

(DBtune)<br />

Event<br />

Media<br />

Open<br />

Data<br />

Thesaurus<br />

URI<br />

Burner<br />

totl.net<br />

Open<br />

Corporates<br />

lingvoj<br />

AGROV<br />

OC<br />

Pokedex<br />

LOV<br />

RDF<br />

ohloh<br />

Poképédia<br />

Freebase<br />

LODE<br />

Italian<br />

Museums<br />

Lotico<br />

Linked<br />

MDB<br />

dbpedia<br />

lite<br />

Enipedia<br />

Linked<br />

Open<br />

Colors<br />

Linked<br />

User<br />

Feedback<br />

Goodwin<br />

Family<br />

SISVU<br />

Amsterdam<br />

Museum<br />

Smart<br />

Link<br />

meducator<br />

Klappstuhlclub<br />

Linked<br />

Crunchbase<br />

gnoss<br />

Greek<br />

DBpedia<br />

Taxono<br />

my<br />

Google<br />

Art<br />

wrapper<br />

Portuguese<br />

DBpedia<br />

Daily<br />

Med<br />

LinkedCT<br />

ChEMBL<br />

DBpedia<br />

La solution la plus prometteuse dans ce domaine est peut-être le<br />

LOD &, formalisme moderne et standardisé par l’organe faîtier<br />

du Web, le W3C.<br />

L’émergence du Web des données<br />

Tout commence en 2006 par une note publiée par Tim Berners-<br />

Lee promulguant une méthode de publication des données tirant<br />

partie de l’architecture du Web [1]. Le créateur du Web met en<br />

avant quatre principes fondamentaux qui sont toujours à la base<br />

de la publication de Linked Open Data:<br />

1. utiliser des URI & pour identifier les objets ou données à partager;<br />

2. utiliser des URI HTTP afin que n’importe qui puisse déréférencer<br />

lesdites URI, par exemple en utilisant un navigateur Web;<br />

3. fournir des informations structurées en RDF & lorsque lesdites<br />

URI sont déréférencées;<br />

4. et, finalement, inclure des liens vers d’autres URI similaires<br />

dans les informations ainsi fournies.<br />

Slideshare<br />

2RDF<br />

flickr<br />

wrappr<br />

Open<br />

Calais<br />

Semantic<br />

Tweet<br />

Ontos<br />

News<br />

Portal<br />

Linked<br />

Open<br />

Numbers<br />

TCM<br />

Gene<br />

DIT<br />

tags2con<br />

delicious<br />

semantic<br />

web.org<br />

Revyu<br />

iServe<br />

Drug<br />

Bank<br />

UniProt<br />

(Bio2RDF)<br />

OMIM<br />

UniParc<br />

Didactal<br />

ia<br />

Project<br />

Gutenberg<br />

PubMed<br />

yovisto<br />

Source Code<br />

Ecosystem<br />

Linked Data<br />

UniProt<br />

UniRef<br />

Reactome<br />

my<br />

Experiment<br />

SW<br />

Dog<br />

Food<br />

RDF<br />

Book<br />

Mashup<br />

OS<br />

Diseasome<br />

data<br />

dcs<br />

dataopenac-uk<br />

PRO-<br />

SITE<br />

Bricklink<br />

Manchester<br />

Reading<br />

Lists<br />

SSW<br />

Thesaur<br />

us<br />

SIDER<br />

UniSTS<br />

OGOLOD<br />

Sussex<br />

Reading<br />

Lists<br />

Plymouth<br />

Reading<br />

Lists<br />

Sudoc<br />

DDC<br />

BNB<br />

DBLP<br />

(FU<br />

Berlin)<br />

PDB<br />

ProDom<br />

MGI<br />

ERA<br />

SGD<br />

Medi<br />

Care<br />

UniPath<br />

way<br />

theses.<br />

fr<br />

St.<br />

Andrews<br />

Resource<br />

Lists<br />

Open<br />

Library<br />

IdRef<br />

Sudoc<br />

data<br />

bnf.fr<br />

LinkedL<br />

CCN<br />

DBLP<br />

(L3S)<br />

UN/<br />

LOCODE<br />

Pfam<br />

Pub<br />

Chem<br />

Chem2<br />

Bio2RDF<br />

NTU<br />

Resource<br />

Lists<br />

MARC<br />

Codes<br />

List<br />

Calames<br />

ECS<br />

Southampton<br />

EPrints<br />

Eurécom<br />

Open<br />

Library<br />

(Talis)<br />

P20<br />

VIVO<br />

Indiana<br />

STITCH<br />

Thesaurus<br />

W<br />

DBLP<br />

(RKB<br />

Explorer)<br />

PSH<br />

UB<br />

Mannheim<br />

CiteSeer<br />

NDL<br />

subjects<br />

ECS<br />

(RKB<br />

Explorer)<br />

VIVO<br />

Cornell<br />

RAMEAU<br />

SH<br />

Ulm<br />

ACM<br />

ePrints<br />

LCSH<br />

ndlna<br />

VIVO UF<br />

t4gm<br />

info<br />

ECS<br />

Southampton<br />

OAI<br />

RAE2001<br />

LAAS<br />

Deutsche<br />

Biographie<br />

LEM<br />

LIBRIS<br />

GND<br />

Wiki<br />

JISC<br />

KEGG<br />

Reaction<br />

KEGG<br />

Glycan<br />

IRIT<br />

Newcastle<br />

dotAC<br />

Budapest<br />

KISTI<br />

PBAC<br />

ntnusc<br />

lobid<br />

Resources<br />

VIAF<br />

Rådata<br />

nå!<br />

lobid<br />

Organisations<br />

ECCO-<br />

TCP<br />

Pisa<br />

IBM<br />

Roma<br />

IEEE<br />

As of September 2011<br />

fig. 1 – le LOD Cloud, où chaque nœud représente un jeu de données et chaque lien un ensemble d’interconnexions entre deux jeux de données. En septembre 2011, le LOD<br />

Cloud comptait plus de 30 milliards de triples. Il croît aujourd’hui de manière exponentielle. richard.cyganiak.de/2007/10/lod/lod-datasets_2011-09-19.pdf<br />

Affymetrix<br />

InterPro<br />

Gene<br />

Ontology<br />

BibBase<br />

HGNC<br />

GeneID<br />

KEGG<br />

Pathway<br />

Homolo<br />

Gene<br />

KEGG<br />

Drug<br />

KEGG<br />

Enzyme<br />

KEGG<br />

Compound<br />

bible<br />

ontology<br />

NSZL<br />

Catalog<br />

Norwegian<br />

MeSH<br />

NSF<br />

STW<br />

RESEX<br />

DEPLOY<br />

Courseware<br />

Europeana<br />

RISKS<br />

Swedish<br />

Open<br />

Cultural<br />

Heritage<br />

NVD<br />

GESIS<br />

Scholarometer<br />

LOCAH


Publier ses données sous forme de Linked Open Data<br />

Le résultat de cette potion magique en quatre points ? L’émergence<br />

d’un Web de données ouvertes et interconnectées, le LOD<br />

Cloud (fig. 1). De la BBC au New York Times en passant par les<br />

gouvernements américain ou britannique, un nombre toujours<br />

croissant d’acteurs choisissent LOD pour publier leurs données.<br />

L’avantage de cette approche tient en un mot: intégration. Alors<br />

qu’il faut souvent des semaines pour intégrer des données relationnelles<br />

ou XML hétérogènes, il suffit d’une requête SPARQL &<br />

(l’équivalent LOD de SQL) pour intégrer des jeux de données LOD,<br />

quels que soient leurs schémas et leur provenance.<br />

LOD: mode d’emploi<br />

Le processus de publication commence bien sûr par la con<strong>version</strong><br />

de ses données en RDF. Plusieurs solutions sont envisageables<br />

pour accomplir cette tâche. D2R [2], par exemple, est une solution<br />

générique qui permet de transformer semi-automatiquement<br />

des bases de données relationnelles en RDF par le biais de<br />

mappings configurables. XML2RDF [3] permet, lui, de convertir<br />

des documents XML. D’autres outils tels Protégé [4] ou IWB [5]<br />

fournissent des interfaces complètes pour éditer à la fois les données<br />

RDF et leurs schémas RDFS & (RDF Schema) ou OWL &.<br />

Une fois les données transformées en RDF, il est de bon ton de<br />

les lier à d’autres données existantes sur le LOD Cloud afin de<br />

promouvoir l’interopérabilité des jeux de données (cf. point 4 cidessus).<br />

Ces liens peuvent être établis au niveau des schémas (en<br />

écrivant des correspondances entre le schéma de ses données et<br />

d’autres schémas ou ontologies), ou au niveau des données ellesmêmes,<br />

en les reliant à d’autres données LOD de manière semiautomatique<br />

(p. ex., en utilisant Silk [6] ou en explorant des bases<br />

de données LOD comme DBpedia [7]).<br />

Reste finalement à publier les données ainsi obtenues. Là encore,<br />

plusieurs solutions sont possibles. La plus simple est sans doute<br />

de fournir un dump des données et de le référencer sur un catalogue<br />

en ligne (tel ckan [8]). Une autre solution est de charger<br />

ses données dans une base de données RDF (comme Virtuoso [9],<br />

Owlim [10], ou une base de données classique supportant le RDF<br />

telle que DB2 ou Oracle) et de fournir une interface de requêtes<br />

(SPARQL end-point) afin que tout un chacun puisse directement<br />

interroger et intégrer ce nouveau jeu de données avec des données<br />

existantes, et ce de manière dynamique.<br />

De nombreuses ressources sont disponibles en ligne pour vous<br />

GLOSSAIRE &<br />

LOD (Linked Open Data): méthode de publication<br />

de données s’appuyant sur les<br />

technologies Web (URIs, liens, RDF) et<br />

promulguant l’interconnexion des jeux<br />

de données.<br />

OWL (Web Ontology Language): supplante<br />

RDFS en permettant la définition de<br />

schémas de données complexes.<br />

RDF (Resource Description Framework):<br />

pierre angulaire du Web sémantique<br />

et du LOD, RDF modélise les données<br />

sous forme de triples . , par exemple,<br />

encode le fait que phil_cm est le créateur<br />

du document paper182.<br />

RDFS (RDF Schema): couche schéma de<br />

RDF, qui permet de spécifier le schéma<br />

de ses données RDF en définissant des<br />

hiérarchies de classes et de prédicats.<br />

SPARQL: langage de requêtes structuré,<br />

pendant de SQL pour les données RDF.<br />

bon point de départ pour explorer l’univers LOD. Le jeu en vautil<br />

la chandelle ? D’après la Loi de Metcalf, l’utilité d’un réseau<br />

d’information est proportionnelle au carré du nombre de ses<br />

connexions. Alors, données liées ou données esseulées, le choix<br />

est peut-être moins cornélien qu’il n’y paraît.<br />

Références<br />

[1] www.w3.org/DesignIssues/LinkedData.html<br />

[2] d2rq.org/<br />

[3] www.gac-grid.de/project-products/Software/XML2RDF.html<br />

[4] protege.stanford.edu/<br />

[5] www.fluidops.com/information-workbench/<br />

[6] www4.wiwiss.fu-berlin.de/bizer/silk/<br />

[7] dbpedia.org/<br />

[8] thedatahub.org/group/lodcloud<br />

[9] virtuoso.openlinksw.com/<br />

[10] www.ontotext.com/owlim<br />

NB: Philippe Cudré-Mauroux est Professeur FNS à l’Université<br />

de Fribourg. Il sera Program Committee Chair de l’International<br />

Semantic Web Conference 2012 qui se déroulera à<br />

Boston en novembre. Webpage: diuf.unifr.ch/xi/ n<br />

aider dans cette démarche. Linkeddata.org est sans doute un www.w3.org/DesignIssues/LinkedData.html<br />

URI (Uniform Resource Identifier): courte<br />

chaîne de caractères identifiant une ressource<br />

sur un réseau physique ou abstraite,<br />

et dont la syntaxe respecte une<br />

norme d’Internet. Un URI doit permettre<br />

d’identifier une ressource de manière<br />

permanente, même si la ressource est<br />

déplacée ou supprimée. W<br />

W = tiré de Wikipédia<br />

SPÉCIAL ÉTÉ – D – 21 AOÛT 2012<br />

25


26<br />

At the European Open Data Week which took place<br />

in Nantes from 21 to 26 May 2012, Hubert Guillaud<br />

was invited to give a talk on the data Web, to go<br />

beyond and broaden the particular issue of re-using<br />

public data. This talk is reproduced hereunder.<br />

À l’occasion de la Semaine européenne de l’Open<br />

Data [1] qui se déroulait à Nantes du 21 au 26 mai<br />

2012, Hubert Guillaud était invité à faire une présentation<br />

sur le Web des données, pour dépasser et<br />

élargir la problématique particulière de la réutilisation<br />

des données publiques. En voici la transcription<br />

qui est également disponible sur le blog www.internetactu.net<br />

[2].<br />

Nous sommes passés d’un Web de l’information et de la connaissance<br />

à un Web de données. «Les données sont le nouveau pétrole<br />

de l’économie» [3], expliquait le consultant Clive Humby dès<br />

2006. Tim O’Reilly et John Battelle ne disaient pas autre chose<br />

quand ils imaginaient le concept de Web² [4] devenu depuis (et<br />

il serait intéressant de regarder comment) celui des Big Data &.<br />

Nous n’échapperons pas à l’exploitation maximale de la puissance<br />

des données par l’analyse, la combinaison, la représentation, la<br />

recherche, le traitement…<br />

Tout est données<br />

Le Web est un écosystème de bases de données interconnectées.<br />

Les données sont partout, sous forme d’énormes répertoires de<br />

données produisant elles-mêmes leurs propres données, car la<br />

flash <strong>informatique</strong><br />

Vers un Nouveau Monde de<br />

données<br />

Hubert Guillaud, rédacteur en chef d’InternetActu.net et responsable de la veille à la Fondation Internet nouvelle génération, fing.org<br />

façon même dont nous interrogeons ces données devient ellemême<br />

source de données. C’est d’ailleurs la première des données,<br />

la plus accessible, la plus importante, celle de nos comportements<br />

en ligne, de nos historiques de navigations.<br />

Tout est information. Tout est données. Mais c’est avant tout un<br />

monde du temps réel, de l’immédiateté. Les données ne cessent<br />

de s’accumuler, mais ce sont les plus récentes qui ont toujours le<br />

plus d’importance, car elles permettent de comprendre à la fois<br />

le monde d’aujourd’hui et prédire le monde de demain. «90% de<br />

l’ensemble des données du monde ont été créées ces deux<br />

dernières années» [5], estimait récemment Stephen Gold d’IBM<br />

lors d’une présentation au récent Webcom de Montréal. Nous<br />

vivons un datadéluge: l’essentiel des données que nous utiliserons<br />

dans deux ans n’aura rien à voir avec celles que nous<br />

utilisons aujourd’hui. Les données sont un nouveau pétrole inépuisable,<br />

mais qu’on brûle aussi rapidement que le précédent.<br />

Le Web est devenu «la base de données de nos intentions»,<br />

affirmait John Battelle en 2003 [6]. Le moindre de nos clics sert<br />

à la construire. Notre surf, notre historique, ce sur quoi nous cliquons,<br />

ce sur quoi nous nous attardons en ligne est tracé, mesuré<br />

et influe sur ce à quoi nous accédons. La moindre de nos actions<br />

sur l’Internet est une donnée, même le temps passé sur une page.<br />

Ce sont nos comportements qui font l’Internet.<br />

La première des données, le pétrole non raffiné, est bien celle<br />

de nos comportements en ligne, ces milliards de clics que nous<br />

faisons sur le Web à chaque instant. Ces bases de données de<br />

petits cookies que nous transportons par-devers nous via nos<br />

navigateurs. Nous sommes devenus Midas. Tout ce que nous touchons<br />

devient données, devient or, pétrole. «L’<strong>informatique</strong> se<br />

dissout dans nos comportements» expliquait déjà en 2007 Adam<br />

Greenfield [7]. Le Web nous trace en permanence. Nous n’avons<br />

pas le droit de ne pas y être tracés, insistait Alexis Madrigal [8].


Vers un Nouveau Monde de données<br />

Mais ne nous y trompons pas. Ce ne sont pas les données publiques<br />

ni les données ouvertes qui sont le seul pétrole de cette<br />

économie. Ce sont d’abord nos données personnelles: «Les données<br />

personnelles sont le nouveau pétrole de l’Internet et la nouvelle<br />

monnaie du monde numérique», soulignait Meglena Kuneva,<br />

Commissaire européenne à la consommation en 2009. Et les<br />

données personnelles sont la prochaine génération de données à<br />

ouvrir, comme l’expliquait récemment David Eaves [9], spécialiste<br />

de ces questions.<br />

… je te dirai qui tu es<br />

Vous avez certainement dû voir cette vidéo [10] des lunettes de<br />

réalité augmentée de Google et plus encore l’une de ses parodies,<br />

qui augmente l’interaction que nous avons avec la réalité des<br />

publicités [11]. En préparant votre café, vous avez automatiquement<br />

de la publicité qui s’affiche en contexte. Comme l’illustre le<br />

projet Google Glass [12], les données vont s’immiscer toujours<br />

plus près de nous, au cœur de nos comportements et de notre<br />

intimité, se nourrissant de l’un et de l’autre.<br />

Il n’y a presque plus de données qui ne soient pas personnelles.<br />

Tout le monde se souvient des fichiers de logs d’AOL [13], c’està-dire<br />

le journal des utilisations d’Internet de plusieurs dizaines<br />

de milliers d’utilisateurs, qui ont permis, rien qu’en observant ce<br />

que ces utilisateurs ont recherché en ligne, d’en identifier un très<br />

grand nombre. Ces données ne portaient pourtant aucune information<br />

nominative. Il n’empêche. Elles ont permis d’identifier des<br />

gens, simplement en observant les sites sur lesquels ils se sont<br />

rendus. Aujourd’hui, par exemple, la startup Face.com permet<br />

d’analyser n’importe quelle image du Web, de vous donner des<br />

informations sur un visage: à savoir si c’est un homme, s’il sourit,<br />

son âge. La start-up est même capable de reconnaître des gens<br />

en photo ou en vidéo nominativement avec une assez incroyable<br />

précision, en puisant dans des banques d’images documentées<br />

(où les noms sont renseignés), comme le net en regorge – c’est<br />

l’exemple de l’identification des personnages de Star Trek [14].<br />

Demain, quand vous publierez une photo sur l’Internet, l’infrastructure<br />

sera capable non seulement d’identifier les métadonnées<br />

associées à l’image (date de prise de vue, appareil, etc.), mais également<br />

de reconnaître qui est sur la photo, avec toutes les avantages<br />

et les dérives que cela comporte. Le croisement d’énormes<br />

capacités de traitements et de tout aussi vastes bases de données<br />

signe la fin des données personnelles [15].<br />

Bien sûr, toutes les données ne sont pas devenues personnelles<br />

(les horaires de transports, les données de capteurs environnementaux,<br />

les documents administratifs… par exemple), mais une<br />

masse considérable de données qui ne l’étaient pas a priori sont<br />

en passe de le devenir. D’autant plus que leur couplage, chaque<br />

jour plus facile, peut à chaque moment faire basculer des données<br />

sans valeur en données à caractère personnel. Les données transforment<br />

l’Internet en un lieu où les gens n’ont plus d’anonymes<br />

que leur nom. Et celui-ci, en fait, n’a plus beaucoup d’importance.<br />

Il n’est plus un rempart contre la personnalisation.<br />

Voici une application qui s’appelle SceneTAP [16]. Elle consiste<br />

à installer une simple caméra dans un bar. Celle-ci va compter<br />

les gens présents afin d’évaluer le taux de remplissage, en utilisant<br />

l’API & de Face.com (dont nous parlions juste avant), elle<br />

va être capable de déterminer le pourcentage de filles et de garçons,<br />

leurs âges moyens respectifs et demain peut-être d’identifier<br />

les personnes présentes. SceneTAP va ainsi permettre à chacun<br />

depuis son application pour smartphone de voir, en temps réel,<br />

quels sont les bars qui bougent aux alentours. Est-ce que la population<br />

qui est à l’intérieur correspond à celle que je recherche…<br />

comme l’expliquait Yves Eudes dans un récent numéro du Monde<br />

magazine.<br />

SPÉCIAL ÉTÉ – D – 21 AOÛT 2012<br />

27


Vers un Nouveau Monde de données<br />

Le plus intéressant dans cet exemple, ne repose pas tant dans les<br />

nouvelles données issues de ce système, que d’observer comment<br />

elles fonctionnent, comment elles se reproduisent et se démultiplient<br />

entre elles. Installer une caméra dans un bar n’a pas d’intérêt<br />

en soi. L’intérêt c’est le couplage des données que la caméra produit<br />

avec d’autres bases de données, comme celles de Face.com.<br />

On ne produit pas seulement plus de données. Ce qu’il faut comprendre,<br />

c’est que ces données sont désormais en réseau. Et du<br />

fait même qu’elles sont en réseau, elles se démultiplient et produisent<br />

de nouvelles données. Les données ne sont pas enfermées<br />

dans des silos, le fait même qu’elles puissent se combiner,<br />

s’interroger les unes les autres, produit un nouvel Internet, une<br />

nouvelle infrastructure basée sur l’échange de données [17]. C’est<br />

l’économie des API [18], des mashups & de services, l’un des<br />

points clef de la structure de ce Nouveau Monde de données. Nos<br />

systèmes sociotechniques ont accès à une foultitude de bases de<br />

données permettant de reconfigurer les données à la volée, de<br />

leur donner du sens par leur croisement même.<br />

Dans ce Nouveau Monde, la moindre de nos actions produit des<br />

données, comme l’illustre très bien cet exemple, parmi des dizaines<br />

de milliers d’autres. Ashtmapolis [19] consiste en un petit<br />

capteur GPS qui se branche au bout de n’importe quel inhalateur<br />

de ventoline que prennent les asthmatiques. Ce capteur connecté<br />

permet de renseigner, sans avoir à remplir le moindre formulaire,<br />

les zones où les asthmatiques souffrent, simplement en l’utilisant.<br />

Il produit des cartographies permettant aux asthmatiques<br />

de documenter le réel à plusieurs, de s’entraider pour repérer les<br />

zones dangereuses, les zones à pollen par exemple, qu’ils pourront<br />

plus facilement éviter. Asthmapolis est une parfaite illustration du<br />

monde de capteurs qui se met en place. Le prix modique des capteurs,<br />

leur bidouillabilité permet d’envisager leur démultiplication,<br />

et ce, sans qu’on y pense, sans avoir à faire d’action de renseignement<br />

de données. C’est l’Internet des objets, l’Internet des capteurs<br />

qui vient documenter notre monde réel, l’hybridant d’une<br />

ombre d’information partout et en tout temps. Nous entrons<br />

dans un monde où toutes nos actions, même la plus insignifiante,<br />

produisent potentiellement des données, de manière volontaire,<br />

comme à notre insu.<br />

28 flash <strong>informatique</strong><br />

Tout est appelé à devenir des données<br />

J’aime beaucoup cet exemple de lunettes [20] développé par Rosalind<br />

Picard directrice du Groupe de recherche sur l’<strong>informatique</strong><br />

affective au MIT [21], car elle permet d’entrouvrir de nouveaux<br />

horizons pour comprendre jusqu’où va aller cette mise en données<br />

du monde. Ce sont des lunettes qui servent à mesurer notre<br />

niveau d’interaction réel avec les autres. Cette paire de lunettes a<br />

pour fonction d’aider celui qui la porte à décoder les émotions de<br />

la personne avec qui il discute. Les lunettes sont équipées d’une<br />

petite caméra qui surveille plusieurs points du visage de son interlocuteur<br />

et leurs mouvements pour le décrypter. Des petites<br />

lumières rouges, jaunes et vertes installées sur le bord du champ<br />

de vision permettent de traduire les expressions de l’interlocuteur<br />

selon qu’elles sont négatives, neutres ou positives. L’idée derrière<br />

ce projet, c’est de voir comment les détecteurs d’émotions<br />

peuvent nous aider à mieux nous comprendre mutuellement. La<br />

plupart du temps, nous n’arrivons pas à repérer les signes de communication<br />

non verbaux que nous avons lors de nos interactions<br />

physiques. Demain, ces signes non verbaux seront décodés par<br />

nos systèmes techniques et viendront nous aider à comprendre<br />

les autres, à mesurer nos temps de paroles pour nous montrer par<br />

exemple que nous ne laissons pas assez de temps d’expression à<br />

ceux avec lesquels nous discutons. La production de données est<br />

appelée à s’immiscer dans les plis les plus intimes de nos interactions<br />

sociales.


Vers un Nouveau Monde de données<br />

Dans ce Nouveau Monde de données, nous allons également avoir<br />

de nouveaux producteurs et de nouveaux modes de production<br />

de données. Tout et tout le monde va produire des données. Elle<br />

ne sera pas seulement le fait de systèmes techniques ou d’institutions,<br />

qui étaient les principaux producteurs de données, mais elle<br />

va être de plus en plus le fait d’individus, comme le montrent les<br />

cartographies d’Usahidi [22], FixMyStreet [23] ou Leon à Mérignac<br />

[24]. La donnée va être coproduite par des utilisateurs et<br />

des capteurs toujours plus nombreux, toujours plus accessibles (et<br />

accessibles de partout) via l’Internet mobile.<br />

Mais si l’on parle d’une démultiplication des données, il faut également<br />

évoquer la transformation des modalités de traitement,<br />

ces algorithmes qui nous gouvernent [25]. On observe souvent<br />

l’émergence massive de données, comme matière première<br />

de la connaissance, de la représentation, de la discussion, de la<br />

décision, de la production, de l’évaluation… Mais on interroge peu<br />

le rôle de la collecte et du traitement des données. Pourtant, nous<br />

sommes de plus en plus confrontés à un tissage complexe qui va<br />

de la discrétisation des données (c’est-à-dire la manière dont elles<br />

sont produites et collectées) à la programmabilité des données<br />

(c’est-à-dire la manière dont elles sont traitées, programmées,<br />

algorithmisées).<br />

L’utilisateur face à l’algorithme<br />

Nous sommes tous producteurs de données. Mais peut-on reléguer<br />

l’infrastructure et l’architecture, la manière dont celles-ci<br />

sont utilisées, à des spécialistes et à des programmes face auxquels<br />

nous nous sentons démunis et face auxquels nous pourrions<br />

n’avoir plus aucun pouvoir. Il semble essentiel de regarder où sont<br />

les lieux de pouvoir des systèmes techniques et comment faire<br />

que le code, l’algorithme puissent demain être plus accessibles à<br />

tous. Face au déluge de données, il nous faut aussi nous intéresser<br />

aux formes de traitement auxquelles les données donnent lieu.<br />

Quelle est la place de l’utilisateur dans les traitements dont nous<br />

sommes tributaires, comme ceux qui disposent de site Internet<br />

sont tributaires des changements algorithmiques du moteur de<br />

recherche de Google (les Google Dance) pouvant les faire passer<br />

d’un très bon classement à un très mauvais, simplement parce que<br />

l’algorithme qui produit ces classements a changé. Dans ce Nouveau<br />

Monde de données, nous devons interroger les traitements<br />

bâtis par les statisticiens, physiciens, mathématiciens, ingénieurs<br />

et spécialistes des réseaux, pour savoir quelle est la place de l’utilisateur<br />

dans ces traitements. Comment un monde couvert de données<br />

devient un monde qui rend du pouvoir à l’utilisateur plutôt<br />

qu’il ne l’aliène ? Si on connait les régulations qui encadrent la<br />

collecte de données, on connait moins celles qui encadrent les<br />

modalités de traitement des données, notamment tels qu’ils ont<br />

désormais lieux dans les mashups de services, dans les échanges<br />

entre API que nous évoquions précédemment.<br />

C’est cet ensemble: ces données, multipliées par ces données en<br />

réseau, ces nouveaux modes de production, ces nouveaux types<br />

de producteurs, et ces nouvelles modalités de traitement qui<br />

créent un Nouveau Monde de données. C’est le monde des #bigdata.<br />

Un monde conduit (data driven) par les données dont il faut<br />

comprendre le but, les enjeux, l’objectif. À quoi vont-elles servir ?<br />

Qui va les traiter ? Comment ?<br />

Ce Nouveau Monde ne produit pas des données pour des données.<br />

Le but de ce Nouveau Monde n’est pas de produire des fichiers<br />

Excel pour des fichiers Excel. Regardez comment fonctionne la<br />

Google Car, cette voiture sans conducteur, qui vient d’être autorisée<br />

à rouler dans le Nevada [26]. «La voiture autonome consiste<br />

à analyser et prédire le monde 20 fois par seconde», expliquait<br />

Anthony Levandowski, responsable du projet de voiture autonome<br />

de Google [27]. Elle est un pur produit de données [28]. Elle ne<br />

fonctionne que par les données qu’elle capte de son environnement<br />

(elle est bardée de capteurs), mais également de données<br />

distantes comme la configuration des routes issues du projet<br />

Google Maps et des données de géolocalisation.<br />

Ce Nouveau Monde analyse le monde réel en permanence dans le<br />

but de produire de la prévisibilité [29], de rendre le monde prédictible.<br />

Nous sommes confrontés à un avenir où tout va être prévisible<br />

par les autres, via le nuage <strong>informatique</strong> et la façon dont<br />

nous sommes liés via l’Internet.<br />

Ce Nouveau Monde cherche à nous permettre en permanence de<br />

situer nos comportements dans l’univers social, via un maelström<br />

de données comportementales sur lesquelles seront appliqués des<br />

algorithmes prédictifs. Derrière les produits de données, c’est bien<br />

évidemment notre perception de nous-mêmes qui va s’en trouver<br />

modifiée. Car nous sommes au centre de ce monde de données.<br />

SPÉCIAL ÉTÉ – D – 21 AOÛT 2012<br />

29


Vers un Nouveau Monde de données<br />

Rester maîtres des données<br />

Nous sommes au centre de ce festin de données. Et comme dans<br />

tout Nouveau Monde, nous devons apprendre à y survivre.<br />

Nous avons besoin d’outils capables de nous rendre plus anonymes<br />

ou de nous rappeler de l’être. Nous avons besoin d’outils<br />

capables de mentir pour nous selon les personnes à qui l’on<br />

s’adresse, les systèmes que l’on autorise à se connecter à nos données<br />

ou aux données que d’autres collectent sur nous. Plus que<br />

jamais, nous avons besoin d’identités actives [30], c’est-à-dire,<br />

comme le proposait l’intuition de Daniel Kaplan et Charles Népote<br />

de la Fing, non seulement d’être maîtres des données que nous<br />

libérons, mais surtout de faire en sorte que leurs conséquences<br />

nous soient transparentes.<br />

Comment s’assurer que ces informations que nous émettons ou<br />

qui transitent par nous et nos objets ne puissent pas permettre<br />

d’identification formelle ou d’interprétation qui nous échappent ?<br />

Comment séparer qui je suis d’où je suis ? Pourquoi trop de systèmes<br />

enregistrent-ils des données qu’ils n’ont pas besoin de<br />

conserver ? C’est d’ailleurs l’argumentaire d’un rapport de l’EFF<br />

(Electronic Frontier Foundation) [31] sur la confidentialité de nos<br />

localisations, qui s’inquiète de savoir si nous pourrons toujours nous<br />

déplacer sans que nos moindres mouvements soient systématiquement<br />

et secrètement enregistrés par un tiers pour une utilisation<br />

ultérieure, comme le font déjà nos téléphones mobiles mouchards.<br />

«Il faut construire des systèmes qui ne collectent pas les données<br />

en premier lieu» [32] recommandent-ils, simplement sous<br />

le prétexte que ce serait la voie la plus facile… Pour cela, il faut<br />

que les systèmes de traitement soient conçus en intégrant un<br />

large éventail de politiques de confidentialité. Il faut construire<br />

des systèmes géolocalisés qui ne sachent pas où nous sommes,<br />

c’est-à-dire des titres de transport qui n’enregistrent pas l’endroit<br />

où nous sommes par exemple ou des modules de géolocalisation<br />

anonymes, avec des identifiants dynamiques, qui ne permettent<br />

pas de corréler simplement une personne et un lieu… Pour les militants<br />

de l’EFF, les techniques cryptographiques doivent être systématiquement<br />

exploitées afin, par exemple qu’un service sache<br />

localiser quelqu’un, identifier qu’il a un compte sur un service, lui<br />

appliquer un tarif (à un péage urbain ou au passage par un portillon<br />

de métro par exemple…), mais sans dire qui il est. Une autre<br />

couche d’information doit lui permettre, s’il le souhaite, de discuter<br />

ou localiser ses amis… Sans que tout cela ne soit accessible en<br />

clair pour chacun des services utilisés, comme c’est trop souvent<br />

le cas actuellement. Les protocoles cryptographiques nécessaires<br />

existent. Ils représentent certes un défi technique et nécessitent<br />

des investissements, mais ils sont seuls en mesure de nous permettre<br />

d’échapper à la transparence de nos déplacements tout en<br />

tirant avantage des services géolocalisés.<br />

Il y a un enjeu à faciliter l’exploitation des données comme le<br />

clament O’Reilly et Battelle, mais aussi à raréfier les informations<br />

qu’elles portent. Cette opposition engendre un point de tension<br />

dont il va être difficile de trouver l’équilibre. Mais si on veut prôner<br />

un droit à l’oubli, un droit à l’erreur, un droit à l’accès aux<br />

données qui transitent par nous, il va non seulement falloir faciliter<br />

leur exploitation, mais surtout faciliter leur accès, leur gestion.<br />

Demain plus qu’aujourd’hui, tous les champs des formulaires ne<br />

doivent pas être obligatoires.<br />

30 flash <strong>informatique</strong><br />

Nous avons besoin d’un meilleur accès à la collecte de données,<br />

de meilleures garanties quant aux règles qui régissent les processus<br />

(afin qu’elles ne puissent être changées unilatéralement par<br />

exemple) et de meilleures assurances et protections quant à la<br />

dissémination des données.<br />

Dans ce Nouveau Monde, nous avons besoin de nouveaux repères.<br />

Nous avons besoin de nous approprier les données que nous<br />

produisons pour comprendre ce qu’elles produisent. Nous avons<br />

besoin d’outils, d’expérimentations, de méthodologies. Nous<br />

avons besoin de lieux, d’espaces, physiques ou virtuels, ouverts, de<br />

ressources organisées pour échanger et comprendre ce Nouveau<br />

Monde. C’est à cela que devraient ou pourraient servir les Info<br />

Labs [33], un concept de lieu ouvert que nous vous invitons à<br />

préciser et discuter avec nous. Nous avons besoin d’organiser collectivement<br />

les formes d’appropriation culturelles de ce Nouveau<br />

Monde dans lequel nous pénétrons. Nous avons besoin plus que<br />

jamais d’espaces pour le comprendre, ensemble.<br />

Remerciements<br />

Cette présentation puise dans de nombreux articles présentés sur<br />

InternetActu.net [34] et en partie compilés dans Un Monde de<br />

données [35], un livre numérique de la collection Washing Machine<br />

[36] disponible chez tous les libraires électroniques.<br />

Références<br />

[1] Semaine européenne de l’Open Data: www.opendataweek.<br />

org/<br />

[2] www.internetactu.net/2012/06/01/vers-un-nouveaumonde-de-donnees/<br />

[3] Clive Humby: ana.blogs.com/maestros/2006/11/data_is_<br />

the_new.html<br />

[4] Concept de Web²: www.internetactu.net/2009/09/01/le-<br />

Web-a-la-puissance-2-le-Web-20-cinq-ans-plus-tard/<br />

[5] Stephen Gold d’IBM: t.co/1kPp4YyJ<br />

[6] John Battelle: battellemedia.com/archives/2003/11/the_database_of_intentions.php


Vers un Nouveau Monde de données<br />

[7] Adam Greenfield www.internetactu.net/2007/12/21/comment-proteger-notre-vie-privee-dans-un-monde-ou-latracabilite-explose/<br />

[8] Alexis Madrigal: www.internetactu.net/2012/04/26/les-limites-du-ciblage-publicitaire-personnalise/<br />

[9] David Eaves: eaves.ca/2012/03/29/next-generation-opendata-personal-data-access/<br />

[10] www.youtube.com/watch ?v=9c6W4CCU9M4<br />

[11] Projet Google Glass: https://plus.google.<br />

com/111626127367496192147/posts<br />

[12] Vidéo sur l’interaction avec la publicité: www.youtube.com/<br />

watch ?v=_mRF0rBXIeg&feature=youtu.be<br />

[13] Logs d’AOL: www.internetactu.net/2006/09/07/a-qui-appartiennent-mes-logs/<br />

[14] Idendification des personnages de Star Trek: www.technovelgy.com/ct/Science-Fiction-News.asp<br />

?NewsNum=2262<br />

[15] La fin des données personnelles: www.internetactu.<br />

net/2009/09/21/critique-du-web²-34-toutes-les-donneessont-devenues-personnelles/<br />

[16] SceneTAP: www.scenetap.com/<br />

[17] L’Internet des API: www.internetactu.net/2011/06/21/comprendre-facebook-33-linternet-des-api-le-Web-des-applications/<br />

[18] Économie des API: www.slideshare.net/3scale/the-api-economy-api-provider-perspective-european-identity-summit-2012<br />

[19] Ashtmapolis: asthmapolis.com/<br />

[20] Exemple de lunettes: www.internetactu.net/2011/09/15/<br />

augmenter-notre-intelligence-emotionnelle/<br />

[21] Groupe de recherche sur l’<strong>informatique</strong> affective au MIT:<br />

affect.media.mit.edu/<br />

GLOSSAIRE &<br />

API ( Application Programming Interface):<br />

interface fournie par un programme<br />

<strong>informatique</strong> qui permet l’interaction des<br />

programmes les uns avec les autres,<br />

de manière analogue à une interface<br />

homme-machine, qui rend possible<br />

l’interaction entre un homme et une<br />

machine. W<br />

Big Data: expression anglophone utilisée<br />

pour désigner des ensembles de données<br />

qui deviennent tellement volumineux<br />

qu’ils en deviennent difficiles à<br />

travailler avec des outils classiques de<br />

gestion de base de données. Dans ces<br />

nouveaux ordres de grandeur, la capture,<br />

le stockage, la recherche, le partage,<br />

l’analyse et la visualisation des données<br />

doivent être redéfinis. Les perspec-<br />

[22] Usahidi: ushahidi.com/<br />

[23] www.fixmystreet.com/<br />

[24] Leon à Mérignac: leon.merignac.com/<br />

[25] Ces algorithmes qui nous gouvernent: www.internetactu.<br />

net/2012/01/05/reseaux-sociaux-33-ces-algorithmes-quinous-gouvernent/<br />

[26] Voiture sans conducteur: www.numerama.com/magazine/21736-les-voitures-sans-conducteur-arrivent-au-nevada.html<br />

[27] www.wired.com/magazine/2012/01/ff_autonomouscars/all/1<br />

[28] Vers des produits de données: www.internetactu.<br />

net/2011/10/04/vers-des-produits-de-donnees/<br />

[29] www.internetactu.net/2009/11/18/la-capacite-predictivede-nos-systemes-socio-techniques-va-t-elle-tuer-notrelibre-arbitre/<br />

[30] Identités actives: fing.org/ ?-Identites-actives-<br />

[31] Electronic Frontier Foundation: https://www.eff.org/wp/<br />

locational-privacy<br />

[32] Que faire face à la puissance des données: www.internetactu.net/2009/10/26/critiques-du-web²-44-que-faire-face-ala-puissance-des-donnees/<br />

[33] Info Labs: www.internetactu.net/2012/05/15/avons-nousbesoin-dinfo-labs/<br />

[34] InternetActu: www.internetactu.net/<br />

[35] Un Monde de données: www.publie.net/fr/<br />

ebook/9782814505063/un-monde-de-données<br />

[36] Washing Machine: www.publie.net/fr/list/collection-3587<br />

-washing-machine/page/1/date n<br />

tives du traitement des big data sont<br />

énormes, notamment pour l’analyse<br />

d’opinions ou de tendances industrielles,<br />

la génomique, l’épidémiologie<br />

ou la sécurité. W<br />

mashup: application composite dont le<br />

contenu provient de la combinaison de<br />

plusieurs sources d’information.<br />

W = tiré de Wikipédia<br />

SPÉCIAL ÉTÉ – D – 21 AOÛT 2012<br />

31


32<br />

The laboratory notebook is an essential tool in research.<br />

It allows experimental follow-up and data<br />

organization. This article aims to present its evolution<br />

towards the electronic era and to introduce the<br />

<strong>EPFL</strong> campus-wide project focusing on improving<br />

the research data management.<br />

Le cahier de laboratoire est un outil clef du travail<br />

de recherche. Il permet le suivi des expériences et<br />

l’organisation des résultats. Cet article a pour but de<br />

présenter son évolution vers l’ère de l’<strong>informatique</strong><br />

et d’introduire le projet d’amélioration de la gestion<br />

des données de recherche actuellement en cours à<br />

l’<strong>EPFL</strong>.<br />

Contexte du projet à l’<strong>EPFL</strong><br />

Dans cet article, nous nous concentrerons sur un projet initié par<br />

le Doyen à la Recherche, Prof. Benoît Deveaud-Plédran en collaboration<br />

avec le Doyen de la Faculté des Sciences de la Vie, Prof.<br />

Didier Trono. L’objectif vise à améliorer la gestion des données de<br />

recherche dans l’environnement académique.<br />

Le problème de base s’articule autour de la forte augmentation<br />

des volumes de données générées par la recherche et de leur organisation.<br />

Le besoin est particulièrement fort dans les sciences<br />

de la vie, principalement dû aux limites pratiques du cahier de<br />

laboratoire traditionnel, cet outil indispensable aux scientifiqueschercheurs-explorateurs<br />

pour mémoriser leur savoir.<br />

Le CSIN, Coordination des Systèmes d’INformation, est en charge<br />

de mener à bien ce projet en proposant des solutions <strong>informatique</strong>s<br />

de type ELN (Electronic Lab Notebook) et LIMS (Laboratory<br />

Information Mangement System).<br />

Ce projet exploratoire permettra d’acquérir de l’expérience afin de<br />

réitérer la démarche dans d’autres facultés.<br />

En mars 2012, le CSIN a procédé à une première phase d’analyse<br />

auprès de 27 laboratoires des SV. Cette première étape a permis de<br />

distinguer plus précisément les problèmes actuels et leurs conséquences.<br />

Les prochaines étapes consisteront à identifier et évaluer<br />

une sélection de logiciels répondant aux besoins des chercheurs<br />

en Sciences de la Vie. Dès le mois d’octobre 2012 et avec le soutien<br />

technique du DIT, cinq laboratoires pilotes pourront tester un<br />

logiciel de leur choix en conditions réelles.<br />

L’analyse sur le terrain<br />

La Faculté SV fait face à une explosion des volumes de données<br />

<strong>informatique</strong>s. Les nouveaux équipements de recherche, de plus<br />

flash <strong>informatique</strong><br />

Données de recherche et cahier<br />

de laboratoire<br />

Gael.Anex@epfl.ch, <strong>EPFL</strong> - Coordination des systèmes d’information, responsable du projet gestion des données de recherche<br />

en plus performants, génèrent de grandes quantités de données.<br />

L’avènement de la génomique et des séquenceurs ADN à haut<br />

débit révolutionne la recherche sur le vivant et les perspectives<br />

de découvertes. D’autres domaines sont également d’importants<br />

générateurs de données. Par exemple l’imagerie avec les nouveaux<br />

équipements de microscopie et d’imagerie médicale où la protéomique<br />

avec les spectromètres de masse sont également d’importants<br />

générateurs de données.<br />

L’évolution de ces équipements n’est pas sans conséquence. Les<br />

besoins en terme de calculs et traitements s’amplifient. Les supercalculateurs<br />

(HPC) et les compétences des bio-informaticiens sont<br />

indispensables aujourd’hui pour interpréter les données produites.<br />

Parallèlement aux traitements, les ressources en terme de stockage<br />

deviennent très importantes. Le SV-IT, service <strong>informatique</strong><br />

de proximité, propose des espaces de stockage de qualité professionnelle<br />

pour la conservation ainsi que le backup des données<br />

(sv-it.epfl.ch/page-8073-fr.html).<br />

Le volume officiellement utilisé pour tous les laboratoires SV est<br />

d’environ 65 To. De plus, des données de recherche sont également<br />

gérées dans l’environnement Vital-IT du Swiss Institute<br />

Bioinformatics (www.vital-it.ch).<br />

Or, l’analyse au sein des laboratoires visités (27) a mis à la lumière<br />

plus de 500 To dispersés sur des supports de stockage tels que CD,<br />

DVD, disques durs internes et externes, NAS locaux et autres fournisseurs<br />

d’espaces de stockage indépendants de l’<strong>EPFL</strong>.<br />

Devant les importants volumes de données à conserver et la<br />

charge financière que cela représenterait, les laboratoires se sont<br />

tournés vers des systèmes de stockage grand public, car meilleur<br />

marché. Malheureusement, les performances sont limitées ou inadaptées<br />

aux besoins et les taux de panne sont élevés, générant des<br />

catastrophes humaines et des scènes de désolation devant des<br />

disques durs inertes ou autres DVD illisibles contenant les années<br />

de travail de l’utilisateur.<br />

En plus des besoins en ressources <strong>informatique</strong>s performantes<br />

liées au traitement et au stockage, les laboratoires SV font également<br />

face à des problèmes d’organisation logique ou scientifique<br />

des données <strong>informatique</strong>s.<br />

L’organisation des données<br />

Le cahier de laboratoire est l’outil principal pour organiser les<br />

informations de recherches. Aujourd’hui au format papier, il est<br />

(ou devrait être) utilisé par tous les chercheurs pour dire ce qu’il<br />

fait, faire ce qu’il dit et prouver ce qu’il a fait. C’est un élément<br />

d’excellence sur le plan des pratiques de la recherche qui peut être<br />

perçu sous différents angles:


Données de recherche et cahier de laboratoire<br />

Scientifique<br />

C’est un élément de mémoire et de transfert de connaissances<br />

en interne, preuve du savoir-faire du laboratoire et permettant<br />

d’établir sa compétence.<br />

Traçabilité<br />

C’est un élément indispensable à une démarche qualité, preuve<br />

du professionnalisme du chercheur au sein de la communauté<br />

scientifique, permettant de répondre à des exigences règlementaires<br />

et de garantir la traçabilité des résultats.<br />

Juridique<br />

C’est un élément de protection de la propriété intellectuelle,<br />

preuve du savoir-faire du laboratoire à une date précise permettant<br />

la signature de contrat, le dépôt de brevets ou la résolution<br />

de litige.<br />

Pour simplifier, le cahier de laboratoire permet de lier les informations<br />

de recherche, les conditions d’expérimentation et les résultats<br />

obtenus dans un ou plusieurs documents.<br />

Voici un exemple d’évolution d’un équipement de recherche:<br />

Les limites du cahier papier traditionnel<br />

Si le cahier de laboratoire traduit une volonté de partage et de<br />

mémorisation de l’information au sein du laboratoire et de la<br />

communauté scientifique, il présente un certain nombre de limites<br />

difficilement surmontables et dont les évolutions technologies<br />

des équipements amplifient les effets.<br />

Le chercheur devant le plus souvent traiter des résultats obtenus<br />

de divers appareillages via des outils <strong>informatique</strong>s, le cahier<br />

papier n’est donc plus utilisable directement. Il n’y a plus de continuité<br />

entre les données extraites de l’équipement (données primaires),<br />

les données traitées (données secondaires) et les résultats<br />

finaux (données concluantes), d’où un problème d’organisation<br />

des données de traçabilité des informations.<br />

Une autre limitation se situe au niveau de la retranscription,<br />

parfois fastidieuse, des résultats issus des appareils de mesure.<br />

L’efficacité et la qualité de la rédaction sont limitées, car le cahier<br />

papier demande de convertir toutes les données dans un format<br />

papier. Si aujourd’hui un tableau Excel imprimé peut encore être<br />

collé sur une page de cahier, il n’est pas possible d’imprimer et de<br />

coller avec un tube de colle des images hautes résolutions, des<br />

séquences ADN, des vidéos, des sons, ou autres analyses spectrométriques.<br />

un microscope en 1743 et en 2012<br />

et voici comment a évolué le cahier de laboratoire:<br />

en 1743 et en 2012<br />

SPÉCIAL ÉTÉ – D – 21 AOÛT 2012<br />

33


Données de recherche et cahier de laboratoire<br />

De plus, les cahiers papier sont dégradables et leur sécurité tient<br />

à des bonnes pratiques de laboratoires (GLP – Good Laboratory<br />

Practice), d’utilisation et de conservation. D’un poinr de vue réglementaire,<br />

l’authentification de chaque passage du cahier peut se<br />

révéler très contraignante avec un flux de signatures/validations<br />

rarement accompli selon les règles de l’art.<br />

La rédaction d’articles est souvent un pénible travail de recherche<br />

documentaire dans de nombreux cahiers papier, parfois<br />

difficilement interprétable. Et quand vient le moment de retrouver<br />

des données <strong>informatique</strong>s relatives à un passage du cahier de<br />

labo prouvant un résultat important, il faut s’armer de patience et<br />

fouiller dans les données dispersées sur une multitude de supports<br />

<strong>informatique</strong>s, processus pouvant être long et décourageant.<br />

À noter que le partage et la réutilisation des données sont quasiment<br />

impossibles, car liés au raisonnement, au style rédactionnel,<br />

à l’écriture de chacun et à l’éventuelle accessibilité des cahiers<br />

archivés par les précédents chercheurs.<br />

Il en résulte un manque d’homogénéité général et une réelle<br />

difficulté à effectuer des recherches dans les nombreux travaux<br />

archivés, d’où une capitalisation et une valorisation limitées du<br />

savoir.<br />

Les conséquences sont multiples, par exemple:<br />

z la perte des données primaires et secondaires,<br />

z l’incapacité à reproduire une expérience,<br />

z la perte des connaissances acquises durant les travaux de<br />

recherche,<br />

z le gaspillage de ressources financières et matérielles pour régénérer<br />

les données perdues,<br />

z la difficulté à rassembler les données pour la rédaction d’articles,<br />

en cas de conflits (preuves) ou pour le dépôt de brevets.<br />

Ces conséquences influencent la qualité de la recherche. Aux<br />

États-Unis par exemple, les agences de fonds l’ont bien compris et<br />

deviennent de plus en plus pointilleuses par rapport à ces notions<br />

de gestion des données. Depuis le 18 janvier 2011, le NSF (National<br />

Science Foundation), www.nsf.gov/eng/general/dmp.jsp) exige<br />

des candidats de prévoir une description et une planification des<br />

méthodes de gestion des données <strong>informatique</strong>s qui seraient générées<br />

grâce à l’éventuelle obtention du fonds.<br />

Les solutions électroniques<br />

Les laboratoires industriels sont les premiers à développer des solutions<br />

pour répondre à ces problèmes de gestion. Dès les années<br />

1990, des prototypes de cahiers de laboratoires électroniques sont<br />

apparus. Ils n’ont pas obtenu le succès escompté du fait de la<br />

lourdeur de leur implémentation et de la complexité de leur fonctionnement.<br />

En 1995, à l’initiative d’une dizaine de sociétés pharmaceutiques,<br />

des standards ont été définis et le développement des ELN (Electronic<br />

Laboratory Notebook) a été initié. Le développement des<br />

technologies <strong>informatique</strong>s, notamment sur le Web, a permis de<br />

commercialiser une seconde génération d’ELN plus souples et<br />

efficaces.<br />

Parallèlement, la publication de la première <strong>version</strong> du 21CFR<br />

Part 11 par la FDA (Food and Drug Administration aux USA) trai-<br />

34 flash <strong>informatique</strong><br />

tant de la gestion des enregistrements et de la signature électronique,<br />

a fortement incité l’industrie pharmaceutique à adopter un<br />

environnement <strong>informatique</strong> de travail moderne et sécurisé.<br />

Au début des années 2000 apparaissent les premières solutions<br />

clefs en main commercialisées principalement pour les secteurs<br />

de la chimie médicinale et les sites de développement des grandes<br />

entreprises pharma. Les ELN étaient alors très spécialisés sur un<br />

métier et inadaptés au large secteur de la R&D.<br />

Avec l’éclatement de la bulle Internet et la crise de l’<strong>informatique</strong><br />

des années 2001 – 2003, les projets de développement d’ELN ont<br />

été considérablement ralentis. Mais, dès 2004, avec l’accroissement<br />

des budgets liés à la gestion des données issues de la R&D,<br />

un fort développement de l’activité du marché des solutions <strong>informatique</strong>s<br />

pour le marché des sciences de la vie et de la chimie<br />

a permis de faire évoluer les ELN vers des solutions plus performantes.<br />

Le marché des ELN se développe depuis 2005 de 30% à 40% par<br />

année. La chimie médicinale n’est plus le seul domaine abordé par<br />

les ELN et d’autres domaines comme la biotechnologie peuvent<br />

aujourd’hui trouver des solutions à leurs besoins. Le marché de<br />

l’ELN représentait en 2011 environ 50 millions de dollars, mais<br />

reste en deçà des 450 millions de dollars de ventes annuelles<br />

d’autres solutions <strong>informatique</strong>s comme les LIMS (Laboratory<br />

Information Management System), sujet que nous aborderons un<br />

peu plus loin dans cet article.<br />

Les avantages du cahier de laboratoire<br />

électronique<br />

Quel que soit le domaine de recherche, le cahier de laboratoire<br />

électronique est un outil qui permet à l’utilisateur d’enregistrer au<br />

quotidien tous ses travaux, d’assurer la traçabilité de l’expérimentation<br />

scientifique, de l’idée à la conclusion.<br />

L’ELN facilite la création, la formalisation, l’organisation, l’accès et<br />

le partage des données de recherche électroniques en se conformant<br />

aux normes légales, réglementaires et scientifiques.<br />

Il s’appuie sur une infrastructure de stockage <strong>informatique</strong> centralisée<br />

et évolutive dont l’utilisateur n’a plus à ce soucier. Fini les<br />

crises de nerfs dues aux disques durs externes récalcitrants, aux<br />

commandes Shell barbares ou aux fastidieux transferts de données<br />

manuels d’un ordinateur à l’autre.<br />

Les avantages:<br />

z enregistrer électroniquement les travaux effectués pour un<br />

projet de recherche;<br />

z offrir un accès centralisé à toutes les données liées à une expérience;<br />

z être consulté à distance (via le Web);<br />

z fluidifier les flux d’informations (collecte, organisation et restitution);<br />

z accéder rapidement à l’information (indexation et outils de<br />

recherche);<br />

z faciliter la rédaction de comptes rendus, de synthèses et de<br />

rapports scientifiques;<br />

z standardiser les descriptions des expériences et la saisie des<br />

informations;


Données de recherche et cahier de laboratoire<br />

z assurer la traçabilité des données <strong>informatique</strong>s;<br />

z réduire les risques associés au support papier;<br />

z assurer une organisation pérenne des données.<br />

L’utilisation de logiciels de type ELN permettrait d’améliorer l’organisation<br />

des données, la gestion des connaissances et de garantir<br />

la pérennité du savoir-faire au sein des laboratoires.<br />

Le LIMS, complément indispensable en<br />

Sciences de la Vie<br />

L’informatisation à grande échelle dans la R&D et en particulier<br />

dans les Sciences du Vivant a permis le développement de logiciels<br />

LIMS (Laboratory Information Management System). Les premiers<br />

LIMS apparaissent en 1980 avec comme objectif d’assurer le suivi<br />

des échantillons de laboratoire. Rapidement adoptés par l’industrie,<br />

ils assurent la traçabilité et une grande reproductibilité par<br />

l’utilisation de processus normalisés.<br />

Le LIMS devient alors indispensable pour un suivi efficace des produits<br />

ou échantillons sur l’ensemble des phases d’élaboration dans<br />

un labo.<br />

En perpétuelle évolution, les solutions LIMS intègrent aujourd’hui<br />

des fonctionnalités comme:<br />

z la gestion des échantillons;<br />

z la gestion des protocoles de laboratoire;<br />

z des outils d’analyses de résultats;<br />

z des outils de reporting;<br />

z des possibilités de connexion avec d’autres systèmes d’informations<br />

scientifiques (ELN ou logiciels d’analyse de données);<br />

z l’intégration des flux de données des équipements;<br />

z des bases de données centralisées (plasmids, oligos, chimiques,<br />

protéines, etc.);<br />

z la gestion de l’inventaire du laboratoire;<br />

z la gestion des achats de consommables.<br />

z la gestion des stocks.<br />

Les évolutions des LIMS tendent à créer des chevauchements avec<br />

certaines fonctionnalités des ELN. Cette con<strong>version</strong> fonctionnelle<br />

assez récente permet d’envisager, à court terme, une fusion de ces<br />

deux systèmes.<br />

Le plus important à retenir est que le LIMS reste principalement<br />

centré sur les échantillons et leur analyse, alors que l’ELN, plus<br />

global, est dédié aux expériences et permet d’en tracer la conception,<br />

le suivi, la méthodologie d’analyse et l’interprétation des résultats.<br />

L’ELN assure également la structuration des informations<br />

et des données <strong>informatique</strong>s, il garantit ainsi une réutilisabilité<br />

des informations aux chercheurs.<br />

Les principales difficultés à surmonter<br />

Malgré les bénéfices envisageables de l’utilisation d’outils <strong>informatique</strong>s<br />

de gestion (ELN ou LIMS) et de la nécessité d’évoluer<br />

vers des systèmes informatisés, un long chemin reste à parcourir<br />

et des obstacles restent à surmonter avant de généraliser leur utilisation<br />

au sein de notre environnement académique. Par exemple:<br />

z la grande variété de domaines que devraient couvrir les solutions<br />

<strong>informatique</strong>s;<br />

z la standardisation des processus de recherche (sans nuire à la<br />

créativité);<br />

z l’opinion de l’utilisateur globalement satisfait du papier;<br />

z la méconnaissance des améliorations qu’ameneraient des outils<br />

<strong>informatique</strong>s;<br />

z les aspects humains, réticences aux changements, effets Big<br />

Brother;<br />

z le manque de recul et la peur de l’inconnu.<br />

La transition du système papier, colle et stylo vers des systèmes<br />

électroniques demandera du temps et d’importantes collaborations<br />

entre communauté scientifique et les services <strong>informatique</strong>s.<br />

La suite du projet<br />

L’analyse sur le terrain a mis en exergue la complexité du sujet,<br />

mêlant règlements sur les processus de recherche, respects<br />

des principes organisationnels, normalisation de l’information<br />

scientifique, outils <strong>informatique</strong>s et… facteurs humains.<br />

Différentes mesures sont en cours d’élaboration, notamment la<br />

création d’un règlement sur la gestion des données de recherche<br />

au niveau de l’<strong>EPFL</strong> définissant par exemple la période minimale<br />

de conservation des données, les conditions cadres et les moyens<br />

à disposition.<br />

Le DIT et le CSIN travaillent à l’identification d’une solution de<br />

stockage <strong>informatique</strong> centralisée, mutualisée et évolutive répondant<br />

aux nouveaux besoins de stockage.<br />

En octobre 2012, afin de mieux cerner les améliorations qu’offrent<br />

les ELN et les LIMS, nous procéderons à une phase pilote auprès<br />

de cinq laboratoires de la Faculté des Sciences de la Vie. Impliqués<br />

dès l’étape de sélection du logiciel, les membres des laboratoires<br />

pourront utiliser une solution en conditions réelles durant une<br />

période de 4 à 5 mois<br />

Les conclusions de cette évaluation seront rendues pour la fin<br />

février 2013.<br />

L’expérience acquise durant cette phase à caractère exploratoire<br />

sera très utile pour l’implémentation ultérieure d’outils <strong>informatique</strong>s<br />

au sein d’autres facultés intéressées par cette démarche<br />

d’amélioration de la gestion des données de recherche.<br />

Si le sujet a piqué votre curiosité, nous nous tenons à votre disposition<br />

pour plus d’informations ou pour procéder à une analyse<br />

approfondie de la situation dans votre laboratoire. Vos expériences,<br />

conseils et remarques seront les bienvenus. n<br />

SPÉCIAL ÉTÉ – D – 21 AOÛT 2012<br />

35


36<br />

Cloud Computing techniques have the potential to<br />

address data- and compute-intensive challenges in<br />

academic research and education, for example in<br />

the field of scientific data life cycle management.<br />

However, it currently raises new issues in the fields<br />

of laws and regulations, economics, dependency<br />

and loss of control. Could national or communityspecific<br />

approaches help make this technology palatable?<br />

Les techniques du Cloud Computing sont prometteuses<br />

pour répondre aux défis modernes de l’IT académique<br />

comme ceux du cycle de vie (accès, traitement,<br />

sauvegarde) de l’information scientifique.<br />

Mais elles apportent leur lot de problèmes légaux,<br />

économiques ainsi que de dépendance et de perte<br />

de contrôle. Est-ce qu’une approche nationale ou<br />

communautaire pourrait nous aider à bénéficier du<br />

cloud?<br />

Les services basés sur le modèle du cloud [1] sont largement répandus<br />

dans le monde universitaire: qui n’utilise pas d’engins de<br />

recherche tels que Google ou Bing ? De nombreux étudiants partagent<br />

des fichiers sur des services comme Dropbox. L’utilisation<br />

d’outils de collaboration tels que Gmail ou Skype ou de réseaux<br />

sociaux en ligne comme Facebook ou LinkedIn<br />

ne se limite plus à la vie privée. Quelques<br />

chercheurs curieux ont déjà trouvé que, munis<br />

d’une simple carte de crédit, ils peuvent créer<br />

des systèmes impressionnants et stocker des<br />

quantités énormes de données sur des services<br />

comme l’AWS de Amazon, Azure de Microsoft,<br />

Google App Engine/Google Compute Engine et<br />

j’en passe.<br />

Soucis de perte de contrôle<br />

Si les services cloud sont très utiles et agréables<br />

à utiliser, il reste souvent un sentiment de malaise<br />

chez l’utilisatrice ou l’utilisateur. Parmi les<br />

questions qu’on peut se poser, citons:<br />

Où sont mes données ?<br />

Savoir où se trouve ce à quoi l’on tient apporte<br />

toujours un certain réconfort. C’est la même<br />

chose pour les données importantes … même<br />

si on ne peut pas être à 100% sûr que le disque<br />

que l’on tient dans sa main sera effectivement<br />

flash <strong>informatique</strong><br />

Cloud,<br />

une question de confiance<br />

Simon.Leinen@switch.ch, team leader, Peta-Solutions, SWITCH<br />

lisible au moment opportun. Dans le cloud, le lieu de stockage<br />

est diffus, quasiment par définition. Un autre aspect de lieux<br />

concerne le cadre légal, dont je vais parler plus loin.<br />

Qui a accès à mes données ?<br />

Dans mon institution, je peux savoir (au moins approximativement)<br />

qui a la possibilité d’accès aux données que je stocke sur les<br />

systèmes, et en estimer les risques. Dans le cloud, cela n’est guère<br />

transparent.<br />

À part les opérateurs du service, on peut se soucier également des<br />

tiers qui ont des désirs plus ou moins légitimes de fouiller dans ces<br />

données. Dans ce contexte, on entend souvent parler du USA PA-<br />

TRIOT act qui donne aux organismes (américains) d’application de<br />

la loi des pouvoirs assez larges et discrets sur les données gérées<br />

par des sociétés américaines au sens large [2]. Il faut dire que les<br />

lois dans la plupart des pays européens confèrent des privilèges<br />

similaires à leurs autorités respectives [3].<br />

Qui va m’aider en cas de soucis ?<br />

L’efficacité et l’économie des services cloud sont dues en grande<br />

partie à un niveau très élevé d’automatisation. Le service à la<br />

clientèle traditionnel — c’est-à-dire par des êtres humains — est<br />

un peu contradictoire avec ce modèle.<br />

Qui va payer la facture ?<br />

Un grand nombre de services cloud sont offerts sans rémunération,<br />

ce qui est au premier abord fort sympathique. Mais fournir<br />

intérieur du Centre de traitement de données de Facebook à Prineville dans l’Oregon. Photographie de<br />

Alan Brandt


Cloud, une question de confiance<br />

des services a un coût, et les fournisseurs de services veulent, pour<br />

la plupart, que cela rapporte; on peut ainsi se demander qui joue<br />

le rôle du client. Certains disent que l’utilisateur n’est en fait pas<br />

le client, mais la marchandise que le fournisseur vend à ses vrais<br />

clients, ceux qui payent pour la publicité. En fait la marchandise,<br />

c’est l’attention de l’utilisateur et/ou des informations démographiques,<br />

qui peuvent être d’une précision assez surprenante,<br />

incluant des informations sur son comportement qu’on aurait<br />

tendance à considérer confidentielles.<br />

Le cloud sera-t-il encore là pour moi demain ?<br />

Ce qui nous mène à des questions de pérennité. Même si l’on<br />

accepte l’affichage de publicité et des intrusions dans sa sphère<br />

privée, il reste un risque si le business case ne fonctionne pas: soit<br />

le service qu’on a commencé à apprécier devient soudain payant,<br />

soit le fournisseur se voit obligé de trouver d’autres moyens<br />

d’y trouver son compte, qui risquent de changer les conditions<br />

d’usage en défaveur de l’utilisateur. Ou bien le service disparaît<br />

tout simplement; en donnant assez de temps aux utilisateurs d’en<br />

extraire leurs données, on l’espère, et si possible, sous une forme<br />

utilisable ailleurs.<br />

Solution: un cloud à moi tout seul ?<br />

Tout cela peut paraître bien inquiétant, et certains vont se dire<br />

qu’il vaut mieux éviter tous ces risques en construisant des clouds<br />

privés (private clouds). Ceux-ci épousent les principes techniques<br />

des grands clouds publics: virtualisation, gestion automatisée,<br />

interfaces self-service; mais dans le contexte d’une entreprise.<br />

Aujourd’hui, presque tous les grands fournisseurs de matériel<br />

<strong>informatique</strong> pour l’entreprise vendent ce type de solutions: HP,<br />

IBM, Dell, Cisco, EMC² et autres.<br />

Mais en choisissant cette alternative, on risque de passer à côté<br />

d’une grande partie des avantages: l’échelle sera forcément limitée,<br />

les prix vont plutôt ressembler aux systèmes high-end, et l’accès<br />

depuis l’extérieur sera entravé par les firewalls, ce qui ne facilite<br />

pas les applications partagées avec le monde hors entreprise, y<br />

compris des employés qui sont prêts à travailler depuis l’extérieur.<br />

Surtout, on n’arrive pas à se débarrasser d’une grande partie du<br />

travail qu’on devrait peut-être outsourcer à des spécialistes afin<br />

de mieux pouvoir se concentrer sur le cœur de son métier.<br />

Et si un peu de perte de contrôle, ça en<br />

valait la peine ?<br />

Si on revisite les questions du début de l’article avec objectivité,<br />

il y a pour chaque question des arguments allant dans le sens<br />

inverse:<br />

Où sont mes données ?<br />

Les données dans le cloud sont vraisemblablement mieux protégées<br />

— entre autres grâce à la distribution spatiale — que celles<br />

qu’on garde près de soi.<br />

Qui a accès ?<br />

Les personnes qui font tourner le cloud sont des professionnels<br />

avec un sens éthique élevé, et à qui leurs employeurs, pour leur<br />

propre intérêt, ont instauré des règles strictes sur l’accès aux données<br />

de leurs clients, avec des mécanismes de protection et d’audit.<br />

Dans la plupart des entreprises, ces mécanismes sont encore<br />

lacunaires, ce qui confère un grand pouvoir, et donc une grande<br />

responsabilité, aux super users.<br />

Qui va m’aider ?<br />

Les systèmes grand public sont généralement assez conviviaux,<br />

surtout quand ils ont de la concurrence. Et vous pourrez sans<br />

doute trouver assistance dans des forums ou auprès de connaissances.<br />

Qui paie ?<br />

Il y a souvent la possibilité, surtout pour les entreprises, d’avoir<br />

un accès payant sans publicité, et même avec du support humain.<br />

Sur la question de la pérennité, ce n’est pas si problématique dans<br />

des segments du marché où la concurrence fonctionne. Et les<br />

solutions in-house ont leur lot de risques, surtout quand ils dépendent<br />

de personnes qui vont un jour vous quitter, par exemple<br />

salle de stokage du DIT à la fin du 20ème siècle; bandes magnétiques et cartouches sont alignées à perte de vue<br />

SPÉCIAL ÉTÉ – D – 21 AOÛT 2012<br />

37


Cloud, une question de confiance<br />

quand elles finissent leur thèse. Notons qu’une objectivité totale<br />

est mal placée ici: à risques égaux, on va préférer les risques anciens,<br />

qu’on a en quelque sorte apprivoisés, aux risques nouveaux,<br />

plus difficiles à évaluer faute d’expérience.<br />

Au fond, faire confiance et déléguer des responsabilités à des tiers,<br />

c’est une base du progrès de notre société vers le partage de travail<br />

et la spécialisation. On peut y regretter le danger d’aliénation,<br />

mais il faut avouer que ce développement nous a apporté pas<br />

mal d’avantages, et de toute façon il semble difficile à stopper.<br />

Comme nous avons appris à confier notre argent aux banques,<br />

et nos vies à des médecins, pilotes etc., on va peut-être finir par<br />

céder nos données même les plus importantes à des spécialistes<br />

anonymes. Mais ce sera un long processus, et on aimerait éviter<br />

les trop grosses bourdes, si possible.<br />

Archivage des données scientifiques: vers<br />

un cloud académique suisse ?<br />

Un des grands défis pour l’université est la gestion de la connaissance<br />

sous forme numérique. Ceci ne comprend pas seulement<br />

les e-publications, mais aussi les données primaires et secondaires<br />

utilisées dans leur production. La situation actuelle est insatisfaisante<br />

à plus d’un égard: les données générées par des scientifiques,<br />

souvent à grands coûts et efforts, sont trop rarement partagées<br />

avec d’autres chercheurs, et se perdent trop souvent après la fin<br />

d’un projet ou d’une thèse, faute de moyens et de motivation.<br />

Même quand les données sont conservées, il est souvent difficile<br />

de les utiliser, soit à cause des formats problématiques, soit pour<br />

des raisons logistiques.<br />

La CUS (conférence universitaire suisse) va lancer un projet 2013-<br />

2016 sous le nom Information scientifique: accès, traitement<br />

et sauvegarde pour étudier cette problématique.<br />

Les solutions cloud ont beaucoup de potentiel comme infrastructure<br />

de base pour une gestion améliorée de données scientifiques:<br />

elles pourraient fournir de la capacité de stockage économe, accessible<br />

à travers l’Internet sans entraves de bande passante limitée,<br />

liée avec des possibilités de traitement sur place, par exemple<br />

sous la forme de services de location de VM (machines virtuelles).<br />

Pour des raisons de souveraineté, il est souhaité que ces infrastructures<br />

soient sous contrôle suisse. C’est une belle occasion pour<br />

l’ensemble des universités d’étudier différentes options pour se<br />

doter d’une telle infrastructure: avec des partenaires industriels,<br />

en fédérant les private clouds émergeant des universités, ou pourquoi<br />

pas en mandatant une organisation commune, comme cela<br />

s’est fait avec SWITCH pour le réseau académique voilà presque<br />

25 ans. Quel que soit le résultat, SWITCH est prêt à assister les<br />

universités dans leurs choix, en vue de trouver une solution — qui<br />

sera forcément un compromis — correspondant aux critères techniques,<br />

économiques et de gouvernance.<br />

Un tel cloud suisse, encore plus s’il est contrôlé par les Hautes<br />

Écoles, pourrait aider à surmonter les inhibitions que de nombreuses<br />

universités ont par rapport au cloud, pour des raisons<br />

légales, mais aussi de contrôle. Il reste à espérer que cela ne va pas<br />

mener à un nouveau réduit helvétique, mais nous aider à maitriser<br />

cette technologie afin de pouvoir mieux bénéficier des atouts des<br />

grands clouds industriels, ainsi que de contribuer à la stratégie<br />

cloud au niveau européen [4].<br />

38 flash <strong>informatique</strong><br />

Références<br />

[1] Quand cet article parle du cloud, je focalise sur des caractéristiques<br />

suivantes: des systèmes matériels/logiciels d’un<br />

ensemble d’équipements consumer-grade — donc bon<br />

marché grâce à l’échelle et la compétitivité du marché —<br />

sous une gestion centralisée et hautement automatisée,<br />

permettant une grande évolutivité (scalability); basés sur<br />

ce genre d’infrastructures, des services grand public et<br />

accessibles par Internet, qui sont financés par la publicité,<br />

facturés à l’usage, ou soutenus par des modèles hybrides<br />

style freemium. Pour une définition plus rigoureuse de<br />

Cloud Computing, il y a l’excellent travail de NIST (NIST<br />

SP800-145, nist.gov).<br />

[2] Cette loi concerne toutes les sociétés qui ont une attache<br />

aux États-Unis, et également si les données sont stockées<br />

en dehors du territoire américain, Microsoft et Google<br />

ont dû clarifier ce point: www.zdnet.com/blog/igeneration/<br />

microsoft-admits-patriot-act-can-access-eu-based-clouddata/11225<br />

et www.wiwo.de/politik/ausland/datenspeicherung-google-server-in-europa-vor-us-regierung-nicht-sicher/5156042.html.<br />

[3] Hogan Lovells. White Paper on Governmental Access<br />

to Data in the Cloud Debunks Faulty Assumption That<br />

US Access is Unique. May 2012. www.hldataprotection.<br />

com/2012/05/articles/international-eu-privacy/hogan-lovells-white-paper-on-governmental-access-to-data-inthe-cloud-debunks-faulty-assumption-that-us-access-isunique/.<br />

[4] KROES, Neelie. A European Cloud Strategy. Discours du 25<br />

juin 2012. europa.eu/rapid/pressReleasesAction.do ?aged=0<br />

&format=HTML&guiLanguage=en&language=EN&reference<br />

=SPEECH/12/490 n


Sérénité dans les nuages<br />

Laurent.Kling@epfl.ch, <strong>EPFL</strong> -STI, coordinateur <strong>informatique</strong> à la Faculté des Sciences et Techniques de l’Ingénieur<br />

Trust the clouds.<br />

How to use cloud computing without any security<br />

risk?<br />

Faites confiance aux nuages.<br />

Comment faire pour utiliser le Cloud computing sans<br />

risque pour la sécurité ?<br />

Avec l’été apparaît un florilège de questionnaires ludiques:<br />

z regardez-vous les nuages avant de sortir ?<br />

z faites-vous confiance aux prévisions météo ?<br />

z aimez-vous les cerfs-volants ?<br />

z prenez-vous les avions ?<br />

z êtes-vous en sécurité dans un vol transatlantique ?<br />

z connaissez-vous les nuages <strong>informatique</strong>s (Cloud) ?<br />

z utilisez-vous les nuages (Cloud) ?<br />

Notre horizon de travail s’élargit sans fin. Du terminal nous sommes<br />

passés à l’ordinateur individuel. Par la suite, nous sommes tombés<br />

dans la toile et ses multiples périphériques. Maintenant, on nous<br />

propose le Cloud comme lieu d’hébergement de nos données.<br />

Nuages noirs sur les données<br />

En feuilletant le dernier best-seller à l’ombre des palmiers, on retrouve<br />

la joie du farniente et la délectation de récupérer son livre<br />

maculé de protection solaire. Une fois sa lecture terminée, il finira<br />

peut-être sa course dans une valise ou sera abandonné dans la<br />

chambre d’hôtel, voire oublié dans l’avion.<br />

Si vous utilisez une tablette numérique pendant les vacances, le<br />

scénario est différent. Votre appareil résiste faiblement à l’intrusion<br />

du sable et à une immersion involontaire dans l’eau de mer. Il<br />

est également improbable que vous oubliiez l’appareil dans votre<br />

lieu de villégiature. La destruction du livre sera rapidement réalisée<br />

par un geste de votre doigt.<br />

La seule liaison de votre tablette est l’éther d’où vous téléchargez<br />

un jeu pour remplacer ce succès de librairie. Sans le savoir, votre<br />

visite sur le magasin électronique vous expose à deux dangers<br />

imperceptibles:<br />

z un déluge d’ondes électromagnétiques,<br />

z une utilisation du Cloud à l’insu de votre plein gré.<br />

Si les nuages conservent vos données, le côté évanescent et immatériel<br />

représente une source d’inquiétudes:<br />

z à qui faire confiance ?<br />

z où se trouvent mes données ?<br />

z qui y a accès ?<br />

Le responsable <strong>informatique</strong> est confronté aux mêmes problèmes,<br />

il se pose les mêmes interrogations multipliées par le nombre<br />

d’utilisateurs. Pour se soustraire à ce questionnement, il va peutêtre<br />

le bannir: non, cet outil nuageux n’est pas admis dans l’environnement<br />

de notre entreprise.<br />

Cette logique peut engendrer une spirale de mesures de plus en<br />

plus restrictives, une paranoïa numérique:<br />

z interdire les services faisant appel aux nuages,<br />

z empêcher la gestion des machines par les usagers,<br />

z supprimer les clés USB,<br />

z verrouiller l’accès au lecteur de DVD,<br />

z supprimer Internet.<br />

Ce cauchemar est démultiplié quand un responsable de l’entreprise<br />

amène un iPad. Cet appareil possède uniquement deux interfaces:<br />

z USB pour se synchroniser avec le poste de travail,<br />

z réseau sans fil, le reste du temps.<br />

Tous les dispositifs de protection disparaissent, la tablette propose<br />

même de se passer d’ordinateur, l’ensemble des opérations se fait<br />

à travers les nuages.<br />

Interdire ou éduquer ?<br />

Il est aisé pour un responsable réseau d’interdire l’accès à un service.<br />

Le moyen le plus efficace est d’exclure la plage d’adresses IP<br />

du fournisseur.<br />

Cette censure devient plus difficile quand il s’agit d’une application<br />

qui fait appel à plusieurs nuages pour irriguer le service.<br />

iTunes utilise le nuage d’Apple, mais également d’autres sources<br />

comme Amazon.<br />

Finalement, l’usager bien informé peut ouvrir une connexion VPN<br />

privée qui permet de contourner toutes les mesures de modération<br />

de trafic Internet. De données clairement identifiables, on<br />

se retrouve devant des données encapsulées dans un flux crypté<br />

impénétrable pour l’entreprise. Le comble est que l’objectif de la<br />

politique de prohibition est esquivé.<br />

Domiciliation des données<br />

La vision classique de la conservation des informations est une<br />

délimitation physique. Elle est représentée par les trois cercles<br />

concentriques: l’utilisateur, son ordinateur, son entreprise. Le<br />

monde extérieur est identifié comme une menace. Une relation<br />

de confiance s’établit entre chaque niveau interne, l’information<br />

est dupliquée et conservée. Cette vision est rassurante, je travaille<br />

sur mon ordinateur qui est dans l’entreprise, isolé du dehors.<br />

SPÉCIAL ÉTÉ – D – 21 AOÛT 2012<br />

39


Sérénité dans les nuages<br />

moi-même, mon ordinateur et mon entreprise versus le monde extérieur<br />

En réalité, quand des éléments personnels sont contenus dans<br />

l’appareil, ils deviennent de facto incorporés dans l’entreprise. Par<br />

exemple, mes musiques, mes photos, mes livres, mes vidéos sont<br />

strictement privés, mais peuvent se retrouver dans mon ordinateur<br />

de bureau.<br />

Moi-même, mes informations privées, mon travail,<br />

mon ordinateur et mon entreprise versus le monde extérieur<br />

Logiquement, le responsable <strong>informatique</strong> va exclure ces données<br />

privées de la sauvegarde, mais en cas de vol ou de crash de mon<br />

ordinateur, je serais fort mécontent si je ne les récupère pas.<br />

Moi-même, mes informations privées, mon travail,<br />

mon ordinateur et mon entreprise versus le monde extérieur<br />

Cette promiscuité se retrouve également dans le courrier électronique,<br />

contient-il uniquement des données professionnelles ?<br />

Les nuages<br />

Il y a 5 ans, le téléphone intelligent (smartphone) était réservé<br />

aux responsables ou aux passion-<br />

nés, le choix de l’appareil était dicté<br />

par la compatibilité avec le système<br />

<strong>informatique</strong> de l’entreprise.<br />

Pour la messagerie de Microsoft<br />

(Exchange), uniquement les appareils<br />

avec Windows Mobile étaient<br />

acceptables.<br />

Au même moment est apparu<br />

l’iPhone qui est rapidement devenu<br />

un nouveau paradigme. D’un écosystème<br />

fermé de messagerie, on<br />

passe à un choix simple correspondant<br />

aux acteurs du marché (Microsoft<br />

Exchange, mobileMe, Google<br />

Gmail, Yahoo, AOL et les autres).<br />

Cette liberté acquise, les utilisateurs<br />

ont pris l’habitude d’amener leurs<br />

propres matériels pour travailler en<br />

entreprise (Bring Your Own Device).<br />

L’ubiquité des données des nuages<br />

combinées avec les équipements<br />

des usagers entrainent un modèle<br />

innovant.<br />

40 flash <strong>informatique</strong><br />

moi-même, mes appareils, mes informations privées et professionnelles, les<br />

nuages et mon entreprise versus le monde extérieur<br />

A priori, ce modèle est un cauchemar pour la sécurité des données:<br />

z de l’entreprise ?<br />

z privées ?<br />

z qui est le propriétaire ?<br />

z où sont-elles conservées ?<br />

Le marché de la synchronisation des informations dans les nuages<br />

est en plein essor. Chaque constructeur cherche à se positionner<br />

comme fournisseur exclusif de services.<br />

Un récent article de la revue électronique Ars Technica décrit les<br />

principaux acteurs du marché et leurs caractéristiques: arstechnica.com/gadgets/2012/04/cloud-storage-a-pricing-and-featureguide-for-consumers/.<br />

Le leader de ce marché est DropBox, un débat revient régulièrement<br />

au premier plan: faut-il l’interdire ou l’autoriser ?<br />

Ce service dans les nuages offre:<br />

z une intégration directe dans les ordinateurs, c’est un emplacement<br />

dans la hiérarchie du disque,<br />

Windows OS X Linux Android iOS Windows<br />

Phone<br />

third-party clients<br />

disponibilité des outils de synchronisation selon les plates-formes ©Ars Technica<br />

n disponible et n indisponible<br />

Web


Sérénité dans les nuages<br />

z une synchronisation entre plusieurs appareils (les documents<br />

sont automatiquement dupliqués),<br />

z un hébergement dans les nuages (les éléments synchronisés<br />

sont également accessibles par un navigateur Web),<br />

z une possibilité de partager des informations.<br />

Quatre composants supplémentaires expliquent son succès:<br />

z gratuit avec un quota de 2Go,<br />

z la capacité de revenir sur une <strong>version</strong> antérieure des documents,<br />

z une disponibilité sur quasiment toutes les plates-formes: Mac<br />

OS, Windows, Linux, iOS, Android, BlackBerry;<br />

z et avantage non négligeable, une myriade d’applications qui<br />

intègrent ce service.<br />

La seule lacune à relever est l’absence de client natif sur Windows<br />

Phone.<br />

En autorisant DropBox dans l’entreprise, on se retrouve devant<br />

trois dilemmes, les données ne sont pas chez nous, je ne sais pas<br />

ce qui est sauvegardé, l’entreprise peut faire faillite ou être poursuivie<br />

par la justice du pays hôte (en l’occurrence les États-Unis).<br />

Le premier réflexe d’une équipe <strong>informatique</strong> pour répondre à ces<br />

contraintes serait de recréer le service. Cela représente un travail<br />

très conséquent qui entrainerait immanquablement une <strong>version</strong><br />

allégée sans saveur. Si la culture multiplate-forme n’est pas présente<br />

dans l’entreprise, le projet risque une annihilation mutuelle<br />

par les spécialistes de chaque chapelle.<br />

Trois pistes permettent d’envisager son utilisation en entreprise:<br />

z encrypter les données,<br />

z sauvegarder la hiérarchie d’un appareil,<br />

z créer un compte DropBox pour chacun.<br />

Encrypter les données<br />

un document encrypté contenu dans les nuages<br />

La principale crainte est que les informations confidentielles soient<br />

lues par une personne tierce. L’encodage permet de répondre facilement<br />

à ce problème. Naturellement, le programme choisi doit<br />

être compatible avec le nuage utilisé.<br />

Difficulté supplémentaire, les applications doivent être disponibles<br />

pour toutes les plates-formes (Mac OS, Linux, Windows et iOS).<br />

Pour DropBox, il existe une solution logicielle remplissant ces<br />

critères, KeePass. L’article de Jean-Daniel Bonjour sur ce produit<br />

open source décrit son utilisation quotidienne: flash<strong>informatique</strong>.<br />

epfl.ch/spip.php ?article2180.<br />

Si ce produit est, au départ, prévu pour conserver des mots de<br />

passe, il peut contenir n’importe quel fichier texte.<br />

Le principal intérêt de KeePass est de disposer de clients gratuits<br />

ou payants sur la totalité des plates-formes utilisées avec<br />

DropBox.<br />

Avec cette méthode, la sécurité est triple:<br />

z le document est encodé,<br />

z le compte dans les nuages possède un accès authentifié,<br />

z la communication se fait par un canal sécurisé.<br />

TrueCrypt est un challenger sérieux. Il permet de créer un fichier<br />

encrypté contenant l’équivalent d’une hiérarchie de dossiers et de<br />

documents. Son seul défaut actuel est de ne pas disposer de client<br />

synchronisé sur iOS avec DropBox.<br />

base de données encryptées avec KeePass, synchronisées avec DropBox<br />

La taille du fichier encrypté est un paramètre essentiel, chaque<br />

modification d’un fichier encodé entraine son transfert complet.<br />

Un volume raisonnable se mesure en kilo-octets voire en mégaoctets.<br />

Il faut également tenir compte des déplacements à l’étranger<br />

qui pourraient engendrer un trafic Internet trop important,<br />

rapidement ruineux.<br />

À titre d’exemple, je partage une base de données dans DropBox<br />

avec mon collègue. Contenue dans un fichier KeePass, elle englobe<br />

les informations des machines gérées conjointement. Sa<br />

taille est de 25 Ko, sa synchronisation ne pose aucun problème,<br />

même à travers une connexion téléphonique GSM.<br />

En outre, il est préférable de conserver encryptés uniquement des<br />

documents sans mise en forme.<br />

Par exemple, un article complémentaire sur l’utilisation des<br />

nuages devient 85 fois plus volumineux avec les illustrations en<br />

<strong>PDF</strong> (14’537 octets en format texte et 1’246’059 octets en pdf),<br />

flash<strong>informatique</strong>.epfl.ch/IMG/pdf/2-12-page4-2.pdf.<br />

SPÉCIAL ÉTÉ – D – 21 AOÛT 2012<br />

41


Sérénité dans les nuages<br />

Sauvegarder la hiérarchie d’un appareil<br />

Maintenant que les données sensibles sont sécurisées, car encodées,<br />

comment s’assurer de disposer d’une copie dans l’entreprise ?<br />

Avec DropBox, tous les appareils synchronisés possèdent les<br />

mêmes documents, si le service disparaît, un duplicata est conservé<br />

sur chacun d’entre eux. La sauvegarde de l’une de ces machines<br />

est suffisante pour garantir l’intégrité des informations.<br />

Créer un compte pour chacun<br />

L’idée de créer un accès dans le nuage pour chaque employé peut<br />

sembler excessive (avec l’’adresse de messagerie utilisée comme<br />

nom d’utilisateur).<br />

Qui serait le possesseur de ce compte, l’individu ou l’entreprise ?<br />

Dans de nombreuses firmes, le contenu de la boite de messagerie<br />

est la propriété de l’entreprise malgré le caractère nominatif de<br />

l’e-mail. Ainsi, au départ de l’employé, les données des services<br />

dans les nuages liées à ces identifications restent dans son patrimoine.<br />

Apple applique un principe similaire: chaque entrée iTunes correspond<br />

à une adresse de messagerie. Si l’entreprise administre ces<br />

comptes, elle gère les informations conservées. A priori compliquée,<br />

cette méthode de gouvernance permet de séparer la sphère<br />

privée du travail.<br />

Confiance dans les nuages<br />

Les nuages sont intrinsèquement du même niveau de qualité que<br />

les services offerts à l’intérieur de l’entreprise.<br />

La confiance doit être évaluée pour chaque outil qu’il soit interne<br />

ou externe, des parades comme l’encryption du contenu doivent<br />

nous faire prendre conscience de l’importance d’avoir des mots de<br />

passe sûrs. Quand les entreprises ne maintiennent pas correctement<br />

vos informations, comme récemment LinkedIn, leurs divulgations<br />

entrainent la révélation au monde entier d’un accès. Si<br />

ce mot de passe est réutilisé dans un autre contexte, le risque de<br />

cascade sécuritaire est extrême (il ouvre une réaction en chaîne<br />

pouvant mener aux données de l’entreprise, LindedIn > Google ><br />

Yahoo > <strong>EPFL</strong>).<br />

Aux chantres de la simplicité qui me proposent d’employer<br />

mon compte Google/Facebook/LinkedIn comme source unique<br />

d’authentification, je réponds que j’utilise une méthode plus complète:<br />

z pour chaque service, machine, compte, je crée un mot de<br />

passe complexe,<br />

z ils sont conservés dans un fichier crypté par une clé,<br />

z les fichiers sont déposés dans DropBox, automatiquement<br />

synchronisés sur tous les appareils sous mon contrôle,<br />

z les clés sont détenues dans ma mémoire !<br />

Naturellement, la perte des sésames due à un oubli ou à un accident<br />

brise ce schéma. Par précaution, ces clés sont conservées<br />

dans des enveloppes scellées dans un coffre-fort physique.<br />

Curieusement, nous acceptons encore d’échanger du courrier<br />

électronique sans garantie de l’expéditeur avec un contenu apparaissant<br />

en clair sur l’entier de son parcours, une vraie carte<br />

postale. Dans le cas de brevet ou de contrat échangé par e-mail<br />

non encrypté, le problème de sécurité provient bien de la manière<br />

d’utiliser l’outil, mais pas de son fonctionnement. n<br />

42 flash <strong>informatique</strong><br />

Delete<br />

ou la vertu de<br />

Francis.Lapique@epfl.ch, <strong>EPFL</strong> - Domaine IT<br />

Some personal thoughts after reading the book<br />

Delete by V. Mayer-Schönberger.<br />

Quelques réflexions suite à la lecture du livre Delete<br />

de Mayer-Schönberger.<br />

À la fin du XVIIIe siècle, le philosophe Jeremy Bentham imagine<br />

un type d’architecture carcérale qu’il nomme le Panoptique. Un<br />

gardien, logé dans une tour centrale, observe tous les prisonniers,<br />

enfermés dans des cellules individuelles autour de la tour, sans<br />

que ceux-ci puissent savoir qu’ils sont observés. Ce dispositif<br />

devait ainsi créer un sentiment d’omniscience invisible chez les<br />

détenus. En 1975, Michel Foucault met ce terme au centre de sa<br />

réflexion en étendant le dispositif de Bentham:<br />

Mais le panoptisme ne doit pas être compris comme un<br />

édifice onirique: c’est le diagramme d’un mécanisme de pouvoir<br />

ramené à sa forme idéale; son fonctionnement abstrait<br />

de tout obstacle, résistance ou frottement, peut bien être<br />

présenté comme un pur système architectural et optique:<br />

c’est en fait une figure qu’on peut et qu’on doit détacher de<br />

tout usage spécifique.<br />

(Surveiller et punir, Gallimard, 1975)<br />

En 2009, Viktor Mayer-Schönberger, actuellement professeur à<br />

l’OII (Oxford Internet Institute), parle dans son ouvrage Delete:<br />

The Virtue of Forgetting in the Digital Age [1] d’un panoptique<br />

numérique, un espace dans lequel nous sommes constamment<br />

sous le regard des autres. Pour illustrer son propos, V. Mayer-<br />

Schönberger nous présente deux anecdotes emblématiques et<br />

une nouvelle de Jorge Luis Borges.<br />

Andrew Feldmar est un psychothérapeute à Vancouver. Son histoire<br />

a été rapportée dans le New York Times. Un jour il décide<br />

d’aller au Tacoma International Airport de Seattle pour accueillir<br />

un ami. Au passage de la frontière canado-américaine, il est googlé<br />

par un garde-frontière. Le garde-frontière découvre un article<br />

que M. Feldmar a écrit dans les années 1990 à propos de ses expériences<br />

avec du LSD. Sur la base de cet élément, le garde demande<br />

à M. Feldmar si cela est exact. Celui-ci répond positivement et<br />

se voit empêché d’entrer aux États-Unis, non seulement pour ce<br />

jour-là, mais pour toujours. Signalons qu’avant de recevoir l’autorisation<br />

de retourner au Canada, après cinq heures de garde, il a<br />

dû signer une lettre d’aveu, dans laquelle il reconnaît avoir violé<br />

le U.S. Controlled Substance Act.


l’oubli à l’âge digital<br />

Le deuxième cas est tout aussi instructif. Il y a quelques années,<br />

Stacy Snyder, 25 ans, enseignante stagiaire à la Conestoga Valley<br />

High School de Lancaster (Pennsylvanie), a posté sur sa page<br />

MySpace une photo d’elle portant un chapeau de pirate, un<br />

gobelet à la main, légendée Pirate éméché. Ayant découvert<br />

ladite page, son superviseur lui a expliqué que l’image témoignait<br />

d’un manque de professionnalisme, et la doyenne de la School of<br />

Education de l’université de Millersville où Stacy était inscrite a<br />

jugé que c’était pour ses élèves mineurs une incitation virtuelle<br />

à la consommation d’alcool. Quelques jours avant la date prévue,<br />

l’université a refusé de lui délivrer son diplôme d’enseignante.<br />

La jeune femme a poursuivi l’université en justice, l’accusant<br />

d’avoir violé le Premier amendement en la pénalisant pour son<br />

comportement (parfaitement légal) en dehors des heures de travail.<br />

Mais en 2008, un juge fédéral de district a rejeté sa demande,<br />

au motif que si Stacy Snyder était bien une employée du service<br />

public, sa photo ne se rapportait à aucun sujet d’intérêt public et<br />

que son Pirate éméché ne relevait donc pas du discours protégé.<br />

Jorge Luis Borges dans sa nouvelle Funes ou la mémoire fait le<br />

récit suivant. Funes est un jeune homme qui, depuis un accident<br />

de cheval, a perdu la capacité d’oublier. Il est capable de lire et de<br />

se souvenir de centaines de livres, mot pour mot, mais il est incapable<br />

d’en tirer aucun savoir, car cela nécessite de l’abstraction,<br />

de la généralisation, et par conséquent l’oubli des détails, ce que<br />

Funes ne peut plus faire. Il est pour toujours prisonnier dans les<br />

détails de son passé et meurt peu de temps après.<br />

Ces trois exemples doivent nous aider, selon Viktor Mayer-Schönberger,<br />

à comprendre les changements fondamentaux que nous<br />

impose la mémoire numérique. Premièrement, d’ordre cognitif,<br />

avec une perte d’abstraction que l’on peut résumer ainsi : là où il<br />

y avait autrefois une forêt, nous ne percevons plus que les arbres;<br />

deuxièmement, le souvenir autrefois difficile et coûteux, devient<br />

le défaut et l’oubli une exception coûteuse. Coûteuse effectivement<br />

quand on songe que les quelques secondes qu’il faut pour<br />

examiner chaque photo numérique et décider s’il convient de la<br />

conserver ou non, nous coûtent plus que l’espace que cette photo<br />

prendra sur notre disque dur. Coûteuse en temps aussi, si vous<br />

décidez de faire le ménage dans vos 45,234 mails de votre compte<br />

gmail !<br />

Viktor Mayer-Schönberger insiste, la mémoire numérique crée<br />

un panoptique temporel, dans lequel nous devons prendre<br />

en compte le fait que non seulement nous sommes observés,<br />

mais que les générations futures pourront observer ce que nous<br />

sommes en train de faire. Avec pour résultat éventuel, la peur que<br />

ces informations numériques soient brandies contre nous, dix ans<br />

plus tard, lorsqu’on cherchera un emploi ou demandera un prêt<br />

bancaire…<br />

Il rappelle l’importance de l’oubli social. En effaçant les mémoires<br />

externes, écrit-il, la société accepte que l’individu évolue avec le<br />

temps, puisse apprendre de ses expériences passées et modifier<br />

son comportement. Au contraire, une société qui enregistre tout<br />

nous enchaîne à nos actions passées, rendant toute échappée impossible.<br />

Il conclut que, sans une certaine forme d’oubli, le pardon<br />

devient une entreprise difficile.<br />

Quelles solutions ? Parce que se souvenir et oublier est une démarche<br />

humaine, Viktor Mayer-Schönberger pense à fixer une<br />

date d’expiration pour toutes les informations que nous stockons.<br />

Lorsqu’elle est atteinte, l’information est détruite, c’est-à-dire oubliée.<br />

Comme nous devrions fixer nous-mêmes ces dates d’expiration,<br />

cela nous rappellerait que la plupart des informations ne<br />

sont pas intemporelles, mais liées à un contexte spécifique dans<br />

le temps, et qu’elles perdent de leur valeur et de leur importance<br />

dans la durée. Il poursuit en signalant qu’une certaine forme d’oubli<br />

graduel, d’information qui rouille serait plus proche de l’oubli<br />

humain. Mais il faut également de nouvelles approches, des droits<br />

à l’information privée, des lois…<br />

Quelques pistes:<br />

z un bouton pour supprimer l’enregistrement de vos 10 dernières<br />

requêtes de recherche ?<br />

z la possibilité de demander, au moment du téléchargement de<br />

vos images , une date d’expiration ?<br />

z ou bien une solution radicale: l’abstinence digitale. Mais<br />

sommes-nous prêts à renoncer aux bénéfices offerts par le<br />

partage des données?<br />

Je vous laisse découvrir vous-mêmes les autres propositions de<br />

l’auteur de l’essai, ainsi que la présentation de son livre qu'il a<br />

faite chez Google: www.youtube.com/watch?v=GRmoX7MbLp0..<br />

À l’autre extrême du spectre de cette problématique de la mémoire<br />

numérique, Gordon Bell, le père de la gamme PDP-11, aujourd’hui<br />

chez Microsoft, ne quitte plus une SenseCam qu’il porte autour du<br />

cou depuis 2003. Gordon Bell vise une immortalité numérique en<br />

enregistrant tous les moments de sa vie, documents, pages Web …<br />

À suivre dans son livre: Total Recall: How the E-Memory Revolution<br />

Will Change Everything, co-signé avec Jim Gemmell.<br />

Référence<br />

[1] MAYER-SCHÖNBERGER, Viktor. Delete: The Virtue of Forgetting<br />

in the Digital Age, Princeton University Press n<br />

SPÉCIAL ÉTÉ – D – 21 AOÛT 2012<br />

43


44<br />

Making data freely accessible and reusable for more<br />

transparency, innovation and efficiency — that is<br />

Open Data.<br />

Ouvrir les données publiques, de façon libre et réutilisable<br />

pour plus de transparence, d’efficacité et<br />

d’innovation – c’est ça, l’Open Data.<br />

Dans nos gouvernements et administrations publics, les données<br />

occupent aujourd’hui plus que jamais une place centrale. Que<br />

ce soit dans l’administration des finances fédérales, des services<br />

sociaux, dans les domaines des infrastructures publiques ou de<br />

l’éducation, le traitement de ces données, leur stockage, leur archivage<br />

sont au cœur de l’activité de nos institutions publiques.<br />

dessin de Rolf Willi<br />

Avec le développement fulgurant des technologies de l’information<br />

et la montée en puissance d’Internet, la gestion de ces données<br />

publiques a pris de nouvelles dimensions. Il est par exemple<br />

vite apparu qu’un usage mal intentionné des données personnelles<br />

représentait une menace sérieuse pour le respect de la sphère<br />

privée du citoyen. C’est ainsi qu’en 1983 la Suisse adopte la Loi<br />

sur la protection des données (LPD) [1] définissant de manière<br />

précise les types de données faisant partie de la sphère privée et<br />

ne devant en aucun cas être utilisées sans l’aval de la personne<br />

concernée.<br />

Si une partie des données stockées dans les bases de données de<br />

nos administrations relève de la sphère privée, une autre partie<br />

est publique et d’intérêt général (voir encart Données privées et<br />

données publiques). Les pays anglo-saxons ainsi que les états du<br />

nord de l’Europe reconnurent très tôt la valeur et l’importance de<br />

ces données publiques. C’est ainsi que dans les années soixante<br />

flash <strong>informatique</strong><br />

Open Government Data en Suisse<br />

Vers plus de transparence, d’efficacité et d’innovation grâce à l’ouverture des données publiques<br />

Antoine.Logean@opendata.ch, @ecolix, fondateur et membre du comité Opendata.ch & consultant en software engineering chez innoQ<br />

déjà ils adoptèrent une charte prônant le libre accès à l’information<br />

pour tous (Freedom of Information Act) [2]. De manière<br />

similaire, fût adoptée en Suisse en 2006 la Loi fédérale sur la<br />

transparence [3] visant «à promouvoir la transparence quant à<br />

la mission, l’organisation et l’activité de l’administration (…) en<br />

garantissant l’accès aux documents officiels.:<br />

1 Toute personne a le droit de consulter des documents officiels<br />

et d’obtenir des renseignements sur leur contenu de la part<br />

des autorités.<br />

2 Elle peut consulter les documents officiels sur place ou en<br />

demander une copie. La législation sur le droit d’auteur est<br />

réservée.<br />

3 Si les documents officiels ont déjà été publiés par la Confédération<br />

sur papier ou sous forme électronique, les conditions<br />

énoncées aux al. 1 et 2 sont réputées remplies.» (LTrans, Art. 1)<br />

Après la Loi sur la protection des données, nous assistons donc<br />

à un changement de paradigme: désormais, toutes les informations<br />

et tous les documents de l’administration fédérale sont<br />

accessibles au public. Ce droit peut être restreint si des intérêts<br />

publics ou privés prépondérants s’y opposent. Plusieurs cantons<br />

et grandes communes ont depuis 2006 introduit un tel principe<br />

de transparence.<br />

Ouvrir les données publiques ?<br />

À quoi ça sert ?<br />

On serait tenté de croire que cette loi fédérale sur la transparence<br />

est suffisante. Pourquoi faut-il encore une ouverture complète<br />

des données publiques ? Pourquoi veut-on encore aller plus loin ?<br />

Qu’est-ce donc que ce mouvement Open Data ?<br />

Les services publics financés par le gouvernement ont pour tâche<br />

de créer, gérer et publier des données dans un cadre juridique bien<br />

précis. Ces données sont nécessaires à leur fonctionnement. Si par<br />

exemple un service est en charge de la planification du réseau de<br />

distribution d’eau, il va devoir dresser une cartographie précise<br />

des différentes conduites d’eau, leur âge, leur type… idem pour la<br />

planification des routes, des espaces verts, des crèches,… La liste<br />

est encore très longue ! Toutes ces données couvrent un très grand<br />

nombre de domaines (voir encart Données privées et données<br />

publiques). Elles ont pour la plupart du temps un potentiel socio-économique<br />

allant bien au-delà du cadre prescrit par la loi.<br />

Nos autorités sont donc assises sur un véritable trésor de données<br />

largement sous-utilisées. En effet la législation actuelle régie par<br />

la Loi sur la transparence est basée sur une approche passive où<br />

les prestations sont délivrées sur demande. Le mouvement Open<br />

Government Data propose au contraire une approche active<br />

où les données publiques sont mises en libre accès dans un format<br />

non propriétaire afin de pouvoir être réutilisées. Nous passons<br />

donc d’un modèle passif basé sur la demande à un modèle actif


Open Government Data en Suisse<br />

Données privées<br />

Données privées et données publiques<br />

Pour mieux appréhender ce qu’est l’Open Government Data, il est important de bien faire la différence entre les données<br />

faisant partie de la sphère privée tombant sous le coup de la loi sur la protection des données et les données d’intérêt général<br />

appartenant à la sphère publique. Comme représenté sur la figure ci-après, l’Open Government Data ne concerne que les<br />

données publiques.<br />

public<br />

Open<br />

Data<br />

Open<br />

Data<br />

Le type d’information tombant sous le coup de la loi sur la<br />

protection des données:<br />

z des données personnelles (ou nominatives) permettant<br />

l’identification directe ou indirecte d’une personne physique<br />

(noms, prénoms, adresses (physique et électronique),<br />

numéro de téléphone, lieu et date de naissance,<br />

numéro de sécurité sociale, numéro de carte<br />

de paiement, plaque d’immatriculation d’un véhicule,<br />

photo, empreinte digitale, ADN, etc.)<br />

z des opinions ou activités religieuses, philosophiques,<br />

politiques ou syndicales,<br />

z des données se rapportant à la santé, à la sphère intime<br />

ou à l’appartenance à une race,<br />

z des mesures d’aide sociale,<br />

z des poursuites ou sanctions pénales et administratives;<br />

z …<br />

Tous ces types de données sont privés et ne doivent en aucun<br />

cas être rendus publics sans l’aval de la personne intéressée.<br />

Government<br />

Data<br />

Open<br />

Government<br />

Data<br />

Open<br />

Government<br />

private<br />

Government<br />

Données publiques<br />

Les données publiques regroupent des informations d’intérêt<br />

général collectées par nos autorités et administrations.<br />

C’est ces données sur lesquelles se concentre le mouvement<br />

Open Government Data. La liste est longue et il n’est pas<br />

aisé d’en faire un inventaire exhaustif. À titre d’exemple, les<br />

données publiques peuvent contenir des informations dans<br />

les domaines suivants:<br />

z la citoyenneté: résultats d’élections, cartes des bureaux<br />

de vote, cartes électorales, décès, mariages, naissances,<br />

répertoire des prénoms déclarés…<br />

z l’urbanisme: fonds de cartes des plans de voirie, tracés<br />

des routes, description des trottoirs, volume du bâti…<br />

z les services publics: liste des établissements scolaires,<br />

des écoles maternelles et élémentaires, des crèches, des<br />

haltes-garderies, des piscines…<br />

z l’environnement: liste des parcs et jardins, carte des<br />

arbres d’alignement, bâtiments, référentiels de la flore, …<br />

z la culture: liste d’ouvrages disponibles, notices des<br />

œuvres de fonds des musées, statistiques des prêts dans<br />

les bibliothèques, …<br />

z …<br />

SPÉCIAL ÉTÉ – D – 21 AOÛT 2012<br />

45


Open Government Data en Suisse<br />

basé sur l’offre. Le guichet servi par un fonctionnaire attendant<br />

les requêtes du citoyen est remplacé par une grande surface selfservice<br />

ouverte 24 heures sur 24.<br />

Les bénéfices d’une telle ouverture des données publiques se font<br />

sentir dans trois domaines: la transparence, l’innovation et les<br />

économies de coûts de fonctionnement.<br />

Transparence<br />

La transparence permet aux citoyens de voir et de comprendre.<br />

En s’ajoutant aux organes de contrôle déjà en place, elle permet<br />

une surveillance par le citoyen des activités de nos autorités<br />

(principe many eyes). Elle permet également une meilleure adéquation<br />

entre l’offre des services publics et les besoins du citoyen<br />

ainsi qu’une meilleure acceptation du travail des administrations<br />

gouvernementales. Ces divers aspects liés à la transparence sont<br />

au cœur du développement ces 20 dernières années de ce que<br />

l’on a appelé le New Public Management et l’E-gouvernement. La<br />

transparence est une condition essentielle au succès de la mise en<br />

place d’une coopération réussie entre les citoyens et l’administration<br />

permettant aux individus d’apporter une contribution active<br />

à la gestion de l’État, de l’amélioration de son efficacité et de la<br />

qualité de ses services.<br />

Innovation<br />

L’ouverture des données publiques stimule l’innovation. En effet<br />

ces données peuvent être réutilisées par des entreprises privées<br />

pour donner naissance à de nouveaux services. L’expérience<br />

anglo-saxonne a de plus montré comment l’ouverture de données<br />

publiques fait naître un nouveau marché où journalistes,<br />

développeurs et entrepreneurs se spécialisent dans la représentation<br />

et l’interprétation de ces données publiques pour définir<br />

de nouveaux services. Un des premiers bénéficiaires de ce marché<br />

émergent de services constitue bien évidemment les institutions<br />

publiques elles-mêmes. La Suisse ne doit pas laisser passer un tel<br />

potentiel d’innovation.<br />

Économie des coûts<br />

Un troisième avantage potentiel est l’économie des coûts. En effet<br />

la collecte, la création, la vérification, le croisement et le stockage<br />

de données effectués par nos administrations engendrent des<br />

coûts considérables. En utilisant l’architecture simple et robuste<br />

offerte par le Web ainsi que des formats de données non propriétaires,<br />

il est possible d’accéder et d’utiliser ces données avec<br />

un minimum de frais de fonctionnement. Un accès Internet et un<br />

navigateur Web suffisent. Les premiers bénéficiaires de cet accès<br />

facilité aux données sont à n’en pas douter les administrations<br />

elles-mêmes. En effet la même interface Web peut être utilisée,<br />

aussi bien pour l’échange interne d’information entre deux départements<br />

d’une même administration que pour celui d’un citoyen<br />

voulant accéder à des données publiques.<br />

Quelles sont les mesures à prendre ?<br />

Plusieurs jeux de données sont déjà disponibles en libre accès et<br />

font partie intégrante des services de certains départements. C’est<br />

le cas notamment des offices de statistiques, des centres de géoinformations<br />

ou des services d’archives. Par conséquent l’ouver-<br />

46 flash <strong>informatique</strong><br />

ture généralisée et complète de toutes les données publiques peut<br />

se faire par l’intermédiaire de ces services déjà existants.<br />

Afin de réaliser pleinement le potentiel lié à l’ouverture et à la<br />

réutilisation des données publiques, un engagement et une collaboration<br />

de différents acteurs est nécessaire:<br />

z Les politiques doivent définir au niveau fédéral, cantonal et<br />

communal un cadre législatif et exécutif permettant une ouverture<br />

et une réutilisation des données publiques;<br />

z Les responsables des administrations publiques doivent eux<br />

assurer le financement, l’organisation et la réalisation technique<br />

liées à une mise à disposition des données dans des formats<br />

ouverts interprétables par une machine ;<br />

z Les citoyens ainsi que les organisations civiques doivent dans<br />

une démarche participative utiliser et s’approprier ces données<br />

publiques pour intensifier le dialogue avec nos autorités ;<br />

z Les médias doivent se saisir de ces données, et par l’intermédiaire<br />

des techniques de journalisme de données, les analyser,<br />

les interpréter et surtout les visualiser permettant ainsi à un<br />

large public d’en comprendre la signification;<br />

z Les développeurs de logiciels doivent utiliser ces données publiques<br />

afin de développer de nouvelles applications ;<br />

z Le corps enseignant à tous les niveaux doit inclure dans ses<br />

programmes l’analyse, l’interprétation et la réutilisation des<br />

données publiques.<br />

Naissance de l’association Opendata.ch<br />

près d’une centaine de développeurs, designers et citoyens porteurs d’idées se sont<br />

retrouvés au mois de septembre 2011 à Lausanne et à Zurich pour le premier atelier<br />

make.opendata.ch. make.opendata.ch/doku.php?id=event:2011-09<br />

Le mouvement Open Government Data en Suisse est encore jeune.<br />

Il a débuté fin 2010. Initié par le /ch/open [4] et SI [5] un groupe<br />

de travail autour de l’ouverture des données publiques a été créé.<br />

En collaboration avec le groupe parlementaire pour une <strong>informatique</strong><br />

durable [6], ce groupe de travail a organisé en juin 2011<br />

aux Archives fédérales à Berne la première conférence Open-


Open Government Data en Suisse<br />

Les ateliers make.opendata.ch<br />

Devons-nous attendre que les autorités aient ouvert complètement<br />

les données publiques ? Non. Nous pouvons déjà<br />

nous mettre au travail avec les données que nous avons.<br />

C’est précisément la fonction des ateliers make.opendata.ch<br />

(en anglais aussi appelé Open Data Hackathon). Ces ateliers<br />

sont des événements exploratoires organisés par l’association<br />

Opendata.ch<br />

qui permettent à des<br />

développeurs, journalistes,<br />

graphistes<br />

et citoyens porteurs<br />

d’idées de produire<br />

des prototypes pour<br />

expliciter ce qu’il est<br />

possible de réaliser<br />

avec les données<br />

publiques déjà existantes.<br />

Se voulant délibérément<br />

ouverte et<br />

participative, l’organisation<br />

est volontairement flexible et légère. Les résultats<br />

délivrés et l’expérience immersive (voir la vidéo [7]) d’un tel<br />

campus sont incomparables! La liste complète des projets<br />

[8] peut-être consultée sur le site make.opendata.ch.<br />

Ici quelques exemples d’applications réalisées dans le cadre<br />

de ces ateliers:<br />

Visualisation interactive du budget de<br />

la ville de Berne<br />

Cette application [9] permet de naviguer de manière interactive<br />

dans le budget de la ville de Berne. Nul besoin d’être<br />

un expert comptable pour se faire une idée des dépenses de<br />

la ville.<br />

Where did my taxes go ?<br />

Cette application [10] permet à tout citoyen zurichois de<br />

se faire une idée rapide de la manière dont ses impôts sont<br />

dépensés par la ville de Zurich.<br />

How green is my street ?<br />

Partant des données de consommation d’électricité de<br />

chaque bâtiment de Lausanne, cette application [11] permet<br />

de se faire une idée de la consommation moyenne de<br />

son quartier.<br />

SPÉCIAL ÉTÉ – D – 21 AOÛT 2012<br />

47


Open Government Data en Suisse<br />

data.ch [12]. Cette première rencontre au niveau fédéral connut<br />

un large succès et a été suivie de la rédaction d’un manifeste ainsi<br />

que de diverses actions parlementaires.<br />

Faisant suite à cette première conférence, au mois de septembre<br />

2011 a eu lieu le premier campus make.opendata.ch [13] de<br />

Suisse (voir encart Les ateliers make.opendata.ch).<br />

Durant deux jours une centaine de développeurs, journalistes, graphistes<br />

et citoyens porteurs d’idées ont imaginé comment réutiliser<br />

les données publiques disponibles. Au total une vingtaine de<br />

projets ont vu le jour.<br />

Afin de fédérer les efforts, l’association Opendata.ch a été fondée<br />

le 19 janvier 2012. Le rôle de son comité [14] est d’une part de<br />

soutenir les parlementaires et d’aider les administrations à faire<br />

le pas de l’ouverture et, d’autre part, de mettre sur pied les ateliers<br />

make.opendata.ch [15] ainsi que d’organiser la conférence<br />

annuelle Opendata.ch.<br />

Depuis la naissance de l’association Opendata.ch, les choses sont<br />

allées vite et le mouvement ne cesse de prendre de l’ampleur:<br />

deux autres ateliers make.opendata.ch ont été organisés sur Genève,<br />

Zurich et Berne [16]. Au total près de 300 développeurs,<br />

journalistes, graphistes et citoyens se sont à nouveau retrouvés<br />

et ont donné naissance à toute une série de nouveaux projets /<br />

applications ou visualisations.<br />

Au niveau fédéral, faisant suite aux diverses actions parlementaires<br />

[17] le département fédéral des archives a entamé la création<br />

d’un inventaire des documents pouvant être rendus publics.<br />

Au mois de mars 2012 le Conseil fédéral a approuvé une révision<br />

totale de la loi sur la météorologie (LMét) qui prévoit notamment<br />

le libre accès à toutes les prestations de base et données climatiques<br />

et météorologiques du service météorologique national<br />

[18].<br />

Enfin le 28 juin dernier s’est déroulée à Zurich la deuxième<br />

conférence Opendata.ch 2012 [19] lors de laquelle furent présentés<br />

les résultats de la première étude faite sur les divers<br />

aspects liés à l’ouverture des données publiques en Suisse<br />

[20]. La ville de Zurich, coorganisatrice de l’événement, a également<br />

lancé officiellement son nouveau portail Open Government<br />

Data [21].<br />

Un nouvel atelier make.opendata.ch [22] sur le thème de la<br />

santé est prévu pour la fin du mois de septembre 2012 sur Genève<br />

et Bâle.<br />

Perspectives<br />

L’ouverture des données publiques en Suisse n’en est qu’à ses<br />

débuts. Beaucoup de choses restent encore à faire. Cependant<br />

comme la bien dit l’ancien président français Nicolas Sarkozy<br />

«C’est un chemin sans retour». La plupart du temps nos autorités<br />

ont déjà compris l’intérêt et les enjeux liés à une ouverture des<br />

données publiques. Elles restent cependant encore prudentes et<br />

hésitent encore à s’atteler à sa mise en œuvre. Cela demandera<br />

un peu de temps. En bons Suisses, nous avançons prudemment, à<br />

petits pas, … mais sûrement !<br />

48 flash <strong>informatique</strong><br />

Références<br />

[1] www.admin.ch/ch/f/rs/235_1/index.html<br />

[2] fr.wikipedia.org/wiki/Freedom_of_Information_Act<br />

[3] www.ejpd.admin.ch/content/ejpd/fr/home/themen/staat_<br />

und_buerger/ref_gesetzgebung/ref_abgeschlossene_projekte0/ref_oeffentlichkeitsprinzip.html<br />

[4] www.ch-open.ch<br />

[5] www.s-i.ch<br />

[6] www.durabilite-numerique.ch<br />

[7] www.youtube.com/watch ?v=ZTfBtS5RXOI<br />

[8] make.opendata.ch/doku.php ?do=search&id=%40project<br />

[9] t.preus.se/bernbudget2012/<br />

10] wheredidmytaxesgo.nelm.io<br />

[11] opendata.utou.ch/lausanne/<br />

[12] www.durabilite-numerique.ch/2011/06/open-gov-data-c/<br />

[13] fr.opendata.ch/projects/make-opendata-ch-2011/<br />

[14] opendata.ch/organisation/board/<br />

[15] make.opendata.ch<br />

[16] make.opendata.ch/doku.php ?id=event:2012-03<br />

[17] 1: www.parlament.ch/f/suche/pages/geschaefte.aspx ?gesch_id=20113346,<br />

2: www.parlament.ch/f/suche/pages/<br />

geschaefte.aspx ?gesch_id=20113358, 3: www.parlament.<br />

ch/f/suche/pages/geschaefte.aspx ?gesch_id=20113380,<br />

4: www.parlament.ch/f/suche/pages/geschaefte.aspx ?gesch_id=20113902,<br />

5: www.parlament.ch/f/suche/pages/geschaefte.aspx<br />

?gesch_id=20113884<br />

[18] www.news.admin.ch/dokumentation/00002/00015/index.<br />

html?lang=fr&msg-id=43617<br />

[19] fr.opendata.ch/2012/06/22/conference-opendata-ch-<br />

2012-pour-un-acces-libre-et-une-reutilisation-des-donnees-publiques-en-suisse/<br />

[20] www.itopia.ch/repository/Publikationen/OGD_Studie_<br />

Schweiz_Juni_2012.pdf<br />

[21] data.stadt-zuerich.ch/portal/de/index/ogd/daten.html<br />

[22] fr.opendata.ch/projects/make-opendata-ch-2012-la-sante/<br />

n


Du bon usage des tablettes<br />

Mireille.Betrancourt@unige.ch, Université de Genève, professeure en Technologies de l’information et processus d’apprentissage à la Faculté de<br />

Psychologie et Sciences de l’éducation & directeur de TEFCA<br />

The case for tablets in education beyond the media<br />

enthusiasm.<br />

Le point sur le potentiel des outils mobiles en éducation<br />

au delà de l’engouement médiatique.<br />

La dernière décennie a connu un développement fulgurant des<br />

dispositifs mobiles comme les liseuses (en anglais e-book pour<br />

electronic book) et les tablettes tactiles (ou pad en anglais). Outre<br />

leur usage domestique et de loisirs, ces outils offrent des potentialités<br />

inédites pour les situations d’enseignement, de formation<br />

et de travail. Du fait de leur faible encombrement facilitant la<br />

mobilité, ces dispositifs permettent de consulter des documents<br />

dans des contextes variés (salle de classe, musée, etc.) tout en gardant<br />

les avantages du numérique (flexibilité de la présentation<br />

de l’information, outil de recherche dans une grande quantité de<br />

données, par exemple).<br />

Toutefois, l’utilisation de ces outils mobiles n’est pas neutre en<br />

termes d’activité de l’utilisateur. En effet, du fait d’un écran de<br />

taille réduite, ces outils proposent de nouveaux formats de présentation<br />

de l’information et de nouveaux modes d’interaction<br />

avec le contenu, ce qui a des conséquences en amont sur la<br />

conception des documents et des interfaces, et en aval sur les<br />

usages que l’on peut en faire. Or c’est bien de la qualité des usages<br />

que dépendra in fine l’efficacité de l’outil.<br />

Tablettes, liseuses,<br />

ordinateurs, qu’est-ce<br />

que ça change en termes<br />

d’interaction ?<br />

Dotés de fonctionnalités spécifiques,<br />

les différents outils numériques<br />

n’offrent pas tous les mêmes possibilités<br />

en termes d’usage. Alors que les liseuses<br />

sont, comme leur nom l’indique,<br />

destinées principalement à la lecture<br />

et à la consultation de documents, les<br />

tablettes sont plutôt assimilables à des<br />

ordinateurs de taille réduite, dont les<br />

fonctionnalités sont similaires à celles<br />

de leurs grands frères.<br />

Toutefois, la taille réduite de l’écran<br />

a des répercussions non négligeables<br />

sur la présentation et l’organisation de<br />

l’information. Tout d’abord, elle oblige<br />

à repenser l’organisation classique des<br />

mur d’info de BFMTV sur iPad<br />

zones informationnelles et de navigation, cette dernière étant<br />

en général accessible à la demande, mais pas de manière permanente.<br />

Pour faciliter la recherche de contenu, la conception<br />

de documents pour ces supports doit privilégier les structures<br />

peu hiérarchiques, des unités d’information brèves de la taille de<br />

l’écran si possible, et des titres de chapitres explicites.<br />

Un deuxième élément important en termes d’interaction personne-machine<br />

est la disparition des périphériques d’entrée clavier<br />

– souris, remplacé le plus souvent par une interface tactile,<br />

à l’exception de certaines liseuses qui disposent seulement de<br />

boutons de navigation insérés dans le cadre. À la différence des<br />

premiers Tablet PC, l’interaction tactile multitouch des tablettes<br />

n’est pas une simple transposition de l’interaction avec la souris<br />

ou avec un stylet, elle obéit à une autre logique où le geste<br />

devient porteur de signification. Que ce soit le feuilletage ou le<br />

zoom, l’interaction se rapproche d’un geste naturel, ce qui rend<br />

l’interface plus intuitive, plus facile à apprendre et plus agréable à<br />

utiliser. D’autre part, l’interface tactile réintroduit la coordination<br />

œil-main: à la différence de l’interaction avec la souris, l’œil suit<br />

et contrôle ce que fait la main, comme pour l’écriture, le dessin et<br />

autres activités de précision. Seul un entraînement intensif permet<br />

d’effectuer un geste précis sans contrôle direct, comme en<br />

musique. Même si l’utilisateur chevronné ne sent pas de difficulté<br />

à utiliser une souris, l’interaction n’en reste pas moins consommatrice<br />

de ressources cognitives, même minimes, pour rétablir le lien<br />

entre le geste et son résultat. L’interface tactile réalise ainsi l’idéal<br />

de la manipulation directe imaginée par Norman notamment, où<br />

SPÉCIAL ÉTÉ – D – 21 AOÛT 2012<br />

49


Du bon usage des tablettes<br />

l’utilisateur interagit directement avec les objets de l’interface<br />

plutôt qu’au travers d’un langage de commandes et où le résultat<br />

de ses actions est perçu directement et immédiatement. Cette approche<br />

a donné naissance aux interfaces graphiques telles qu’on<br />

les connaît depuis les années 1980. Avec l’interface tactile, c’est<br />

aussi les menus hiérarchiques qui disparaissent, remplacés par des<br />

onglets ou des murs d’images que l’on peut feuilleter horizontalement.<br />

Offrant une interaction simplifiée, paraissant plus naturelle,<br />

la tablette minimise les ressources mobilisées par l’utilisateur pour<br />

la manipulation de l’interface.<br />

Bien sûr l’interface tactile n’a pas que des avantages, notamment<br />

en termes de contrôle utilisateur. En effet, le doigt est un pointeur<br />

beaucoup moins précis que la souris et l’interface tactile réagit<br />

au moindre contact, y compris involontaire, ce qui peut poser<br />

problème dans des situations de mobilité. L’interface tactile n’est<br />

pas non plus forcément la meilleure option en termes de sécurité<br />

(contact involontaire), de robustesse (écran fragile, sensible aux<br />

salissures) et de luminosité (écran peu lisible en pleine lumière,<br />

hormis certaines liseuses à écran réflectif et technologie e-ink).<br />

Finalement, une interaction simplifiée ne permet pas la subtilité<br />

offerte par les applications PC. La tablette est donc plutôt réservée<br />

à des usages ponctuels, en situation de mobilité ou avec de jeunes<br />

enfants.<br />

Quels atouts pour l’apprentissage et<br />

l’enseignement ?<br />

Nous parlerons ici des tablettes plutôt que des liseuses, dans la<br />

mesure où les liseuses offrent des fonctionnalités limitées que<br />

l’on peut retrouver dans les tablettes. On l’a vu, l’interface tactile<br />

change radicalement le mode d’interaction avec les documents<br />

et applications, introduisant de nouvelles habitudes, de nouveaux<br />

éléments d’interfaces, de nouvelles affordances (incitations<br />

à l’action générées par les éléments de l’environnement). Pour<br />

les situations d’enseignement, cette interaction plus directe est<br />

d’abord un atout pour les apprenants qui peuvent mobiliser toute<br />

leur attention à la compréhension du sujet plutôt qu’à la manipulation<br />

de l’interface. C’est d’autant plus vrai pour les jeunes enfants<br />

non lecteurs, qui s’approprient les interfaces tactiles en quelques<br />

minutes. Du côté de l’enseignant, une interaction simplifiée est<br />

également un atout, car la tâche qui occupe l’essentiel des ressources<br />

cognitives de l’enseignant est la gestion de ses 25 élèves<br />

ou ses 150 étudiants: mobiliser leur attention, les engager dans la<br />

réflexion, faciliter leur compréhension. Un dernier avantage et non<br />

des moindres est le prix réduit de l’objet par rapport à un ordinateur<br />

standard pour la plupart des usages que l’on en fait en classe.<br />

images sous licence CC BY-NC-ND 3.0/Stéphanie Burton, Philippe Devaud et l’équipe fri-tic. www.fri-tic.ch.<br />

50 flash <strong>informatique</strong><br />

Sur la question de l’apport de cet outil aux apprentissages, si l’on<br />

se fie aux médias qui ne tarissent pas d’éloge sur les tablettes, on<br />

aurait enfin trouvé la solution idéale pour dynamiser l’enseignement<br />

et favoriser l’apprentissage. Mais est-ce bien le cas ? Bien<br />

que les tablettes offrent des atouts convaincants en termes d’interaction,<br />

il faut se méfier des affirmations rapides. Comme pour<br />

tout support numérique, c’est moins ce que l’outil fait qui importe<br />

que ce que l’on peut faire avec cet outil. De ce point de vue, les<br />

tablettes possèdent trois caractéristiques intéressantes pour les<br />

situations d’enseignement:<br />

z Tout d’abord elles sont mobiles, ce qui permet une utilisation<br />

flexible en salle de classe ou en extérieur, voire une utilisation<br />

par l’étudiant à la maison si la tablette est confiée personnellement<br />

à l’élève.<br />

z Elles sont minimalement intrusives par comparaison aux ordinateurs<br />

fixes et même portables: leur écran horizontal ne<br />

perturbe pas les interactions entre étudiants ou entre enseignants<br />

et étudiants, elles peuvent facilement se ranger au<br />

côté des outils plus traditionnels, livres et cahiers.<br />

z Enfin elles offrent l’atout de la spontanéité: rapidement opérationnelles<br />

à l’allumage, les applications sont robustes et faciles<br />

d’utilisation comme on l’a dit précédemment ; en outre,<br />

l’interface tactile permet de passer facilement d’activités individuelles<br />

à des activités collectives puisque l’interaction n’est<br />

pas limitée par la présence d’une seule souris.<br />

Ces trois caractéristiques assurent aux tablettes une qualité d’interaction<br />

que les ordinateurs ne possèdent pas: la continuité, au<br />

sens où cet outil ne perturbe pas le déroulement pratique de l’enseignement<br />

et s’intègre aux outils usuels de la classe. S’il est jugé<br />

facile à utiliser et potentiellement utile, un outil qui ne perturbe<br />

pas les modes opératoires des utilisateurs aura plus de chance<br />

d’être accepté, puis utilisé au maximum de ses potentialités.<br />

Des usages au service des apprentissages<br />

Si la tablette offre de nombreux atouts comme outil personnel<br />

de l’élève, elle ne se substitue pas à des dispositifs pour la classe<br />

entière (tableau blanc interactif par exemple) qui sont plutôt des<br />

outils de l’enseignant. La tablette peut être utilisée dans la plupart<br />

des usages de l’ordinateur personnel, que l’on classera en quatre<br />

catégories en fonction de la plus-value apportée par le support<br />

numérique. Pour chaque catégorie, on distinguera un versant utilisation<br />

de ressources et un versant production par les élèves de<br />

contenu ou ressources.<br />

Stockage et réutilisation<br />

Cela paraît trivial aujourd’hui, l’ordinateur<br />

par le truchement du Web<br />

permet l’accès à une quantité d’information<br />

virtuellement infinie sur à<br />

peu près n’importe quel sujet. Pourtant<br />

cette possibilité est peu utilisée<br />

en situation d’enseignement, que<br />

ce soit à l’école obligatoire ou dans<br />

l’enseignement supérieur, en partie<br />

à cause de la pléthore de documents<br />

retrouvés pour chaque requête et


Du bon usage des tablettes<br />

leur fiabilité variable, mais aussi, car une autre voix que celle de<br />

l’enseignant s’inviterait en classe. Tout le monde s’accorde sur<br />

l’importance de former les jeunes élèves à la recherche d’information,<br />

mais personne n’est volontaire, sous prétexte que les élèves<br />

le feraient couramment chez eux. Or les études montrent bien que<br />

les compétences de recherche des 12-15 ans ne sont pas si développées<br />

lorsqu’il s’agit de sujets complexes, mais surtout que la<br />

plupart n’ont aucune compréhension de la façon dont le Web ou<br />

les moteurs de recherche fonctionnent. Et au-delà des procédures<br />

d’utilisation des moteurs de recherche, il s’agit bien de former à la<br />

culture numérique, dont l’évaluation de la fiabilité des sources et<br />

du contenu trouvé. Sur le versant production, l’ordinateur offre la<br />

possibilité de stocker une production et la réviser ultérieurement,<br />

capacité évidente, mais sur laquelle se base la plupart des usages<br />

professionnels. Ces documents peuvent à leur tour être rendus accessibles<br />

sur le Web, comme dans l’initiative wikimini (www.wikimini.ch)<br />

où les jeunes élèves écrivent des articles encyclopédiques<br />

pour leurs pairs, passant de consommateurs à acteurs du Web.<br />

Visualisation<br />

C’est peut-être la plus-value du numérique que les enseignants<br />

mobilisent le plus: la capacité de fournir des visualisations dynamiques<br />

et interactives. Que ce soit des vidéos documentaires<br />

ou des simulations permettant d’expérimenter des phénomènes<br />

physiques inaccessibles autrement, il s’agit de s’appuyer sur la<br />

puissance du traitement visuel humain pour appréhender des<br />

phénomènes complexes, qu’ils soient du domaine de l’histoire ou<br />

des sciences. Sur tablette, l’interaction tactile et individualisée<br />

permet à l’étudiant de se concentrer uniquement sur le contenu,<br />

qu’il manipulera selon ses propres hypothèses et rythmes de compréhension.<br />

Au-delà de la consultation, les élèves peuvent également<br />

construire des visualisations: montage multimédia pour un<br />

exposé, carte heuristique, construction 3D sur la base de plan sur<br />

des jeux créatifs type Minecraft &.<br />

copie d’écran du jeu Minecraft<br />

Traitement automatique<br />

Un ordinateur est d’abord un outil permettant d’effectuer des<br />

calculs, capable de traiter une grande quantité de données dans<br />

un temps réduit. Il s’agit de déléguer les processus de bas niveau,<br />

qui sont acquis, mais prennent du temps, pour que l’humain<br />

puisse avoir le temps et les ressources cognitives pour les proces-<br />

sus de haut niveau comme le raisonnement. Au-delà de l’usage<br />

de la calculatrice auquel on pense immédiatement, d’autres outils<br />

offrent cette possibilité de délégation: les exerciseurs par exemple,<br />

offrent une correction automatique de réponses standards, permettant<br />

un entraînement individualisé et un feedback immédiat,<br />

plus efficace. L’enseignant, libéré de la correction, peut alors visualiser<br />

le profil de réponse de l’étudiant et proposer une explication<br />

et des exercices adaptés. Les exerciseurs les plus élaborés sont<br />

capables de conseiller eux-mêmes les exercices à faire en fonction<br />

des résultats de l’élève. Sur le versant production, les outils de<br />

programmation accessibles aux néophytes (par exemple scratch)<br />

se développent aussi sur tablette, permettant de construire des<br />

activités interactives pour les autres.<br />

Communication et collaboration<br />

L’usage de l’ordinateur est maintenant indissociable des outils de<br />

communication qui lui sont attachés, du courrier Internet aux<br />

réseaux sociaux. Pour l’enseignement, ce sont plutôt les outils de<br />

production collaborative qui vont nous intéresser. On citera tout<br />

d’abord les wikis, éditeurs collaboratifs asynchrones de pages Web,<br />

qui permettent de produire des encyclopédies locales pointant sur<br />

des références externes. Sur tablettes, des outils de prise de notes<br />

individuels (comme evernote), plus faciles à appréhender que des<br />

wikis, sont souvent utilisés comme répositoires de notes produites<br />

par des élèves ou groupes d’élèves. Les outils de mindmapping ou<br />

de collections de liens comme pearltrees & offrent la plupart<br />

du temps des fonctionnalités d’édition collaborative. La tablette<br />

permet également une utilisation collaborative de simulations et<br />

exerciseurs. Outre l’aspect pratique du travail de groupe pour la<br />

gestion de la classe, la collaboration oblige les élèves à expliciter<br />

leur compréhension de la situation et à confronter les hypothèses,<br />

pour s’engager dans une véritable activité d’apprentissage.<br />

Les usages passés en revue ci-dessus sont relativement peu innovants,<br />

et peu perturbateurs en termes de modes opératoires<br />

enseignants. Il existe des usages plus innovants de la technologie,<br />

comme le papier digital, feuille de papier équipé d’un code matriciel<br />

activant une adresse Internet sur un équipement qui peut être<br />

une tablette. La TinkerLamp & développée par les chercheurs<br />

de l’<strong>EPFL</strong> est de ce type. Le papier digital a pour avantage de permettre<br />

une gestion papier des activités <strong>informatique</strong>s, réalisant<br />

une continuité avec les classeurs papier habituellement utilisés<br />

par l’enseignant.<br />

Peu encombrantes, faciles d’utilisation et offrant des capacités<br />

très similaires à un ordinateur standard, les tablettes pourraient<br />

bien avoir un bel avenir en éducation, si on garde à l’esprit que<br />

ce n’est pas l’outil qui apporte à l’apprentissage, mais les activités<br />

que cet outil permet de faire. n<br />

GLOSSAIRE &<br />

Minecraft: Minecraft est un jeu vidéo de type sandbox (construction<br />

libre, bac à sable). www.minecraft.net W<br />

pearltrees: service gratuit qui permet à chacun d’organiser et<br />

partager ce qu’il aime dans Internet. www.pearltrees.com W<br />

TinkerLamp: www.simpliquity.com/tinkerlamp.php<br />

W = tiré de Wikipédia<br />

SPÉCIAL ÉTÉ – D – 21 AOÛT 2012<br />

51


52<br />

Where we see that the issue of data sustainability<br />

is not new.<br />

Où l’on voit que la question de la pérennité des documents<br />

ne date pas d’hier.<br />

La plupart des grands textes de l’antiquité nous sont parvenus<br />

grâce aux copies successives des scribes du moyen âge. C’est le<br />

cas des écrits d’Archimède. Tout ce que l’on connaît aujourd’hui<br />

des travaux de ce mathématicien grec se limite à 3 livres, appelés<br />

A, B et C. La dernière trace de A, ce fut en 1564 dans la bibliothèque<br />

d’un humaniste italien. La dernière fois qu’on a entendu<br />

parler de B, c’est en 1311, comme faisant partie de la bibliothèque<br />

papale à Vierbo, au nord de Rome. C’est grâce à des copies que<br />

leur contenu est arrivé jusqu’à nous. Le codex & C ne fut découvert<br />

qu’en 1906 et est arrivé au musée d’art Walters de Baltimore,<br />

le 19 janvier 1999.<br />

En réalité, le codex était caché à l’intérieur d’un livre de prières<br />

qu’un moine, un certain Johannes Myrones avait achevé d’écrire<br />

le 14 avril 1229. Par manque de parchemin, ce moine avait recyclé<br />

sept vieux parchemins usagés dont le codex C d’Archimède.<br />

Après avoir soigneusement effacé les textes, Johannes a coupé les<br />

feuillets en 2, les a reliées, tournées de 90 degrés et y a écrit ses<br />

prières. Les sept parchemins originaux avaient laissé la place à un<br />

palimpseste &, ici un livre de prières.<br />

Ce livre de prières fut découvert par J. L. Heiberg en 1906. À l’aide<br />

d’une simple loupe, il recopia le plus de texte qu’il pouvait et<br />

découvrit ainsi des textes d’Archimède totalement inconnus, ne<br />

figurant ni dans A, ni dans B: la Méthode et le Stomachion &,<br />

ce qui fit de ce codex un des plus célèbres manuscrits au monde.<br />

Ce livre aurait dû finir sa vie dans une institution, si un acheteur<br />

privé n’en avait fait l’acquisition en 1998. Quelle était sa motivation<br />

? Sauver cette œuvre unique afin de donner la possibilité aux<br />

rares personnes capables de lire les textes d’Archimède en grec<br />

ancien d’y avoir accès. Il a rassemblé des amis d’Archimède, et a<br />

décidé de payer leur travail. Cela représentait de grosses sommes,<br />

mais pas autant qu’on pourrait le penser, car ces spécialistes ne<br />

venaient pas pour l’argent, mais pour Archimède. Ils venaient de<br />

tous les horizons, physique des particules, philologie classique,<br />

conservation des livres, mathématiques antiques, gestion des<br />

données, imagerie scientifique et programmation. Et ils se sont<br />

mis à travailler tous ensemble sur le manuscrit.<br />

flash <strong>informatique</strong><br />

Le palimpseste d’Archimède de<br />

Syracuse à Baltimore<br />

Jacqueline.Dousson@epfl.ch, <strong>EPFL</strong> - Domaine IT, responsable communication<br />

Restauration<br />

Ce livre en très mauvais état avait continué à se dégrader après<br />

la découverte de Heiberg: des forgeries & y ont été rajoutées et<br />

les moisissures se sont étendues. Avant de commencer à travailler<br />

avec l’imagerie, il a fallu 4 ans pour démanteler le palimpseste et<br />

garantir sa conservation future. Après s’être débarrassé de la colle<br />

qui avait été rajoutée sur le dos du codex, il a fallu ôter mécaniquement<br />

et très soigneusement la cire qui recouvrait le texte.<br />

En effet, ce livre, ayant été utilisé lors de cérémonies du rite grec<br />

orthodoxe, était imprégné de cire de bougies. Il est difficile de<br />

dire à quel point l’état du livre était mauvais, très souvent il était<br />

même en lambeaux. Normalement, dans un livre, on ne se préoccupe<br />

pas des petits morceaux, mais ici chacun pouvait contenir un<br />

morceau du texte d’Archimède.<br />

une page typique du palimpseste d’Archimède. Le manuscrit original du texte<br />

d’Archimède est écrit de droite à gauche, dissimulé sous le texte de prières écrites<br />

de haut en bas. Par The Walters Museum (www.archimedespalimpsest.net)<br />

[CC-BY-3.0 via Wikimedia Commons]


Le palimpseste d’Archimède de Syracuse à Baltimore<br />

Où il est question de supports et de<br />

formats<br />

La Méthode a sans doute été écrite dans une lettre d’Archimède<br />

qui vivait à Syracuse à Eratosthène d’Alexandrie (celui-là même<br />

qui fit la première mesure de la circonférence de la Terre à partir<br />

de la distance entre Assouan et Alexandrie). Lettre écrite sur un<br />

rouleau de papyrus, comme c’était l’habitude à l’époque, elle a<br />

été ensuite retransmise sur des parchemins de codex lors des<br />

premiers siècles de notre ère. Avec déjà la problématique de<br />

changement de support et de format bien connue aujourd’hui…<br />

sur un rouleau le texte est écrit dans la longueur, dans un codex<br />

sur des folios ! un codex pouvant contenir bien plus d’informations<br />

qu’un rouleau. Aux IXe et Xe siècles, souvent dans l’Empire<br />

byzantin, les codex furent recopiés plusieurs fois, avec entretemps<br />

changement de fonte (passage des majuscules aux minuscules).<br />

Les textes redécouverts au XXe siècle ont été écrits au<br />

Xème siècle, à une époque plus proche de la nôtre que de celle<br />

d’Archimède et Archimède lui-même n’aurait sans doute pas pu<br />

les lire à cause de toutes les transformations subies.<br />

Imagerie et calcul<br />

Il a fallu également plusieurs mois de tâtonnements avant que<br />

les équipes d’imagerie et de calcul numérique aboutissent à une<br />

méthode satisfaisante pour différencier les prières du texte d’Archimède,<br />

puis vint le travail sur les 174 folios & du codex.<br />

Experts<br />

Ce fut ensuite le tour des experts en grec ancien, en manuscrits<br />

du Moyen Âge, en histoire des mathématiques qui ont travaillé<br />

sur les images mises à leur disposition, à la recherche des mots ou<br />

lettres manquantes, travail de plusieurs années qui a enfin permis<br />

de prendre connaissance de ces textes d’Archimède, parmi les<br />

plus importants pour la science. En même temps, d’autres textes<br />

anciens très intéressants qui provenaient des autres parchemins<br />

furent mis en évidence.<br />

GLOSSAIRE &<br />

codex: un livre manuscrit relié avec une<br />

couverture, au début l’écriture se faisait<br />

sur du parchemin (peau animale) puis à<br />

partir du XIIIème siècle sur du papier.<br />

folio: une feuille qui a deux côtés recto<br />

et verso. Le codex dont il est question<br />

ici avait 177 folios au départ, mais il en<br />

manque 3, peut-être sont-ils quelque<br />

part dans un musée ou sur les murs<br />

d’un collectionneur.<br />

forgerie: le terme est propre à l’expertise<br />

en écritures. Il s’agit du fait de fabri-<br />

quer un faux en écriture, soit de toutes<br />

pièces, soit en réutilisant des parties<br />

authentiques existantes, auxquelles<br />

des parties forgées sont ajoutées<br />

habilement de façon à laisser croire que<br />

l’ensemble serait authentique. W<br />

palimpseste: dérivé des termes grecs<br />

palin (de nouveau) et psan (frotter), ce<br />

terme signifie que le parchemin a été<br />

frotté à plusieurs reprises. Pour créer un<br />

parchemin, il faut gratter la peau d’un<br />

animal, et si l’on veut réutiliser un parchemin<br />

qui a déjà servi, il faut le gratter<br />

à nouveau.<br />

Creative Common Licence<br />

Un des résultats de cette expérience est une réflexion sur ce qui<br />

différencie les livres et les données dans le domaine des manuscrits<br />

anciens. Les livres eux-mêmes doivent être gardés par des<br />

institutions spécialisées garantissant leur conservation. À l’opposé,<br />

les données doivent être accessibles au plus grand nombre de<br />

personnes susceptibles de les étudier. C’est le choix qui a été fait<br />

au musée d’art Walters de Baltimore. Persuadé que la connaissance<br />

des documents anciens ne passera à l’avenir que par la<br />

comparaison et l’assemblage de textes situés dans des lieux dispersés,<br />

le conservateur du musée Walters a décidé de mettre sous<br />

licence Creative Commons toutes les données brutes du projet<br />

palimpseste à la disposition des internautes. Par ailleurs, il a mis<br />

plus de 19000 images d’objets de la collection dans wikimedia [1],<br />

et encourage tous les institutions et musées à suivre son exemple.<br />

Conclusion<br />

J’ai découvert l’histoire de ce palimpseste par une conférence TED<br />

de Will Noel, conservateur au musée d’art Walters de Baltimore<br />

[2]; je renvoie ceux qui voudraient en savoir plus à la lecture du<br />

livre co-écrit par William Noel et Reviel Netz [3]. On y apprend<br />

entre autres qu’Archimède était l’inventeur de l’application des<br />

mathématiques et des modèles abstraits au monde physique à la<br />

base de tous les traitements numériques d’images qui ont justement<br />

servi à redécouvrir ses textes !<br />

Références<br />

[1] commons.wikimedia.org/wiki/Category:Media_contributed_by_the_Walters_Art_Museum<br />

[2] www.ted.com/talks/lang/en/william_noel_revealing_the_<br />

lost_codex_of_archimedes.html<br />

[3] Le codex d’Archimède, William Noel et Reviel Netz, JC<br />

Lattès n<br />

stomachion (appelé aussi loculus<br />

d’Archimède): puzzle, sorte d’ancêtre du<br />

Tangram, contient 14 pièces de formes<br />

variées qui tiennent toutes dans un<br />

carré.<br />

W = tiré de Wikipédia<br />

SPÉCIAL ÉTÉ – D – 21 AOÛT 2012<br />

53


54<br />

Un mot: tablette – quelques regards: étymologie,<br />

technologie et illustration.<br />

Qui suis-je ? – HRB<br />

Je suis jeune, moins de deux ans et demi;<br />

je suis plus petite qu’un ordinateur portable, moins de dix pouces;<br />

je suis plus grande qu’un smartphone, plus de sept pouces;<br />

je suis légère, moins d’un kilo;<br />

je suis rapidement disponible;<br />

je suis plate comme une galette;<br />

je suis noire comme une ardoise;<br />

j’ai une bonne mémoire, 1 Giga de RAM vive et jusqu’à 64 Gigas<br />

de mémoire interne;<br />

je fonctionne dans toutes les positions grâce à mon gyroscope;<br />

je n’aime pas les souris;<br />

je suis tactile, j’aime les doigts, pas les gants, j’aime aussi certains<br />

stylets;<br />

je surfe sur le Net comme personne;<br />

je travaille sans fil, en Bluetooth ou en Wi-Fi;<br />

je fonctionne sur batteries rechargeables;<br />

j’ai un port USB;<br />

mon système d’exploitation est Android ou iOS;<br />

je stocke tout sur un SSD (solid-state drive);<br />

j’ai une place à tenir dans les carnets de dessins,<br />

je peux servir de liseuse;<br />

je mets à disposition une caméra et un<br />

appareil photo;<br />

je propose un clavier virtuel pour les notes;<br />

je peux intégrer un GPS;<br />

je remplace aisément la pile d’encyclopédies<br />

au salon, mais pas comme tabouret<br />

d’appoint;<br />

mon mode d’interaction<br />

avec l’utilisateur<br />

est intuitif,<br />

donc pas besoin<br />

d’apprentissage;<br />

certaines<br />

écoles font des<br />

économies de<br />

papier sur mon<br />

dos et bientôt,<br />

peut-être, j’allégerai<br />

les cartables des<br />

écoliers…<br />

une tablette !<br />

TABLETTE<br />

Esteban.Rosales@bluewin.ch, géologue et illustrateur<br />

Appoline.Raposo@epfl.ch, <strong>EPFL</strong> – Domaine IT<br />

Frederic.Rauss@epfl.ch, <strong>EPFL</strong> - DIT, rédacteur KIS et Médiacom<br />

flash <strong>informatique</strong><br />

Tablette – FR<br />

Voici un bon exemple d’un mot qui illustre à quel point la langue<br />

est vivante. Il n’est pas très éloigné le temps où une tablette évoquait<br />

bien des objets sauf un iPad, un Kindle, etc. Personnellement,<br />

la première chose à laquelle me fait penser le mot tablette,<br />

c’est l’hôtesse dans l’avion qui vient vous dire:<br />

- Nous allons atterrir, pouvez-vous relever votre tablette ?<br />

Techniquement, cette petite planche horizontale n’est pas ce qu’il<br />

y a de plus révolutionnaire, mais tout de même, que de repas<br />

mangés dans des conditions acceptables grâce à elles. Mes études<br />

de lettres devraient me faire songer aux tablettes sumériennes,<br />

3000 avant Jésus-Christ – on ne prenait pas encore l’avion à cette<br />

époque. Mais j’en sais encore moins sur ce sujet que sur la tablette<br />

padeuse, et je ne peux m’empêcher de me demander si les scribes<br />

mangeaient dessus… Ce qui me fait penser aux tablettes de chocolat,<br />

les deux, celles qui sont emballées dans un joli papier aluminium<br />

scandaleusement polluant, et celles, musclées, dont on<br />

se prend à rêver lorsqu’on devient un peu bedonnant, sâgesse<br />

oblige. Il y a également la tablette de médicaments qui protège<br />

dans ses petites alcôves pelliculées des remèdes divers et variés. Le<br />

mot tablette appartient à la famille étymologique de table, et que<br />

de repas me reviennent aussitôt<br />

en mémoire, pris à la table de la<br />

cuisine, et des tablées d’amis, des<br />

réunions, puis on songe à une table<br />

plus sérieuse, la table de travail, ou<br />

plus grave, la table d’opération. Au<br />

fil des sens, on trouverait également<br />

le tablier de cuisine, le tabloïd sans<br />

cesse critiqué, mais toujours parcouru,<br />

le tabulateur jamais au bon endroit,<br />

voire même dialectalement la taule. En<br />

tant que scribe fédéral, j’affectionne plus<br />

particulièrement le sens de la tablette<br />

sur laquelle on peut écrire quelques mots,<br />

prendre des notes. Et il est récent pour moi<br />

que ce mot se soit mis à désigner avant tout<br />

ce qui ressemble à la Porte des Étoiles de Stargate,<br />

avec au centre l’i-ni-ma-gi-na-ble il y a<br />

peu, c’est-à-dire un monde que je peux toucher<br />

du bout du doigt - que de souris sauvées. Ce qui<br />

ne nous économise pas, table ou tablette, de la<br />

nettoyer de temps à autre, sans quoi la finesse de l’objet<br />

est dégradée par des maculatures grasses qui, loin de rappeler les<br />

nobles ratures manuscrites, témoignent du passage de l’animalhumain<br />

qui laisse l’empreinte de son passage, comme un escargot<br />

ses bavures diamantées, sur les voies fulgurantes de l’univers<br />

virtuel. n


Les couvertures auxquelles vous avez<br />

échappé<br />

Richard Timsit 2<br />

e-Dito<br />

Richard Timsit 3<br />

Safecast – Mesures citoyennes de la<br />

radioactivité à l’âge de l’Internet<br />

Robin Scheibler 4<br />

La bibliothèque de l’<strong>EPFL</strong><br />

Isabelle Kratz 7<br />

Une mauvaise journée<br />

Guilaine Baud-Vittoz 7<br />

Les logiciels libres et les bibliothèques<br />

Raphaël Grolimund 9<br />

L’Open Access à l’<strong>EPFL</strong><br />

Julien Junod 10<br />

La citation des données de recherche<br />

Lionel Walter 12<br />

DRM et bibliothèques<br />

Alain Borel 13<br />

SavoirLibre pour la diffusion des<br />

savoirs scientifiques<br />

Omar Odermatt 15<br />

Licences libres et Open Access<br />

Nicolas Borboën 17<br />

Forme, signe et … évasion<br />

Vers une définition du document numérique<br />

Patricia Plaza-Gruber 21<br />

Publier ses données sous forme de<br />

Linked Open Data<br />

Philippe Cudré-Mauroux 24<br />

Impressum<br />

Revue consacrée aux technologies de<br />

l’information, éditée par le Domaine IT de<br />

l’<strong>EPFL</strong> (DIT). Les articles n’engagent que<br />

leurs auteurs, sauf ceux qui concernent de<br />

façon évidente des prestations officielles<br />

(sous la responsabilité du DIT ou d’autres<br />

entités). Toute reproduction, même partielle,<br />

n’est autorisée qu’avec l’accord de la<br />

rédaction et des auteurs.<br />

Dans ce numéro<br />

Rédacteurs en chef:<br />

Jacqueline Dousson & Richard Timsit,<br />

fi@epfl.ch<br />

Mise en page & graphisme:<br />

Appoline Raposo de Barbosa<br />

Comité de rédaction:<br />

Jean-Daniel Bonjour, Patrice Fumasoli,<br />

Florence Hagen, Laurent Kling, Julia<br />

Paolini, François Roulet, Christophe<br />

Salzmann & Predrag Viceić<br />

Vers un Nouveau Monde de données<br />

Hubert Guillaud 26<br />

Données de recherche et cahier de<br />

laboratoire<br />

Gaël Anex 32<br />

Cloud, une question de confiance<br />

Simon Leinen 36<br />

Sérénité dans les nuages<br />

Laurent Kling 39<br />

Delete ou la vertu de l’oubli à l’âge digital<br />

Francis Lapique 42<br />

Open Government Data en Suisse – Vers plus<br />

de transparence, d’efficacité et d’innovation<br />

grâce à l’ouverture des données publiques<br />

Antoine Logean 44<br />

Du bon usage des tablettes<br />

Mireille Bétrancourt 49<br />

Le palimpseste d’Archimède de<br />

Syracuse à Baltimore<br />

Jacqueline Dousson 52<br />

Mot-croisé: TABLETTE<br />

Esteban Rosales,<br />

Appoline Raposo de Barbosa,<br />

& Frédéric Rauss 54<br />

tout public<br />

public averti<br />

expert<br />

Prochaines parutions<br />

No Délai de rédaction Parution<br />

6 16.08.12 14.09.12<br />

7 27.09.12 16.10.12<br />

8 25.10.12 13.11.12<br />

Impression: Atelier de Reprographie <strong>EPFL</strong><br />

Tirage: 4000 exemplaires<br />

Adresse Web: flash<strong>informatique</strong>.epfl.ch<br />

Adresse: Domaine IT <strong>EPFL</strong><br />

Station 8, CH-1015 Lausanne<br />

Téléphone: +41 21 69 32246 & 32247<br />

Abonnement au FI par e-mail à:<br />

fi-subscribe@listes.epfl.ch<br />

SPÉCIAL ÉTÉ – D – 21 AOÛT 2012<br />

55


ISSN 1420-7192

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!