Contribution du Conseil scientifique au Livre blanc du CNRS sur le « projet de loi sur le numérique »

Progressistes publie ce plaidoyer des scientifiques du CNRS. Ici, c’est toute une conception de la science qui est défendue comme bien commun de l’humanité, avec, pour corollaire, un libre accès des résultats de l’activité scientifique. 


INTRODUCTION 

La place du numérique dans l’activité scientifique est devenue capitale aujourd’hui, même si, bien entendu, il faut avoir conscience qu’il ne fait en partie que figer ou « photographier » le réel et la recherche dans un état donné. L’activité scientifique comporte bien d’autres facettes que la gestion de données. Cependant, la numérisation des données utilisées par les scientifiques et de leurs publications permet un traitement automatisé, un transfert rapide, une harmonisation des méthodes d’accès et des descriptions ; tout cela est susceptible de mettre à la portée du chercheur une immense matière, riche et diversifiée, en des temps singulièrement raccourcis. Dégageant ainsi les scientifiques d’une partie des tâches répétitives et grandes consommatrices de temps, le numérique peut libérer leurs capacités réflexives et créatrices. On peut sans doute à cet égard, comme cela a été maintes fois écrit, comparer les possibilités ouvertes à la recherche par le numérique à celles qu’ont connues les savants des XVIe et XVIIe siècles avec l’invention de l’imprimerie et l’accélération des échanges de savoir qui en a résulté. 

À TRAVERS LES DISCIPLINES LES SHS

En sciences humaines et sociales, en ce qui concerne les publications scientifiques récentes, alors que de plus en plus de revues francophones sont en libre accès immédiat ou après quelques années (notamment grâce à HumaNum, BSN, OpenEdition), les revues anglophones sont souvent cantonnées à des plates-formes assez chères ; le dépôt parallèle d’articles dans des archives ouvertes est peu développé. La numérisation des sources imprimées utilisées par nombre de disciplines, qu’il s’agisse de publications scientifiques plus anciennes ou de romans, journaux, traités juridiques, etc., est, elle, en bonne voie ; elle se fait souvent en libre accès, même si certaines grandes entreprises (comme Gale) produisent également des bases de données à des prix prohibitifs, pratiquement inaccessibles en Europe. 

Des plates-formes d’échange de données chiffrées, qu’il s’agisse des échelles les plus détaillées de la statistique publique ou de données produites par la recherche, ont également été mises en place (réseau Quetelet, DIMESHS, etc.) : elles assurent à la fois une meilleure circulation des données, le respect des contraintes nécessaires, d’anonymisation par exemple, et la documentation (« métadonnées ») sans laquelle les chiffres seraient inutilisables.
Cela dit, les données des sciences humaines et sociales, extrêmement variées selon les disciplines (de l’histoire de l’art à l’économie, en passant par la linguistique), sont loin de se limiter à des imprimés libres de droits ou des chiffres. Les platesformes de partage restent à inventer pour, par exemple, les photographies d’archives ou d’œuvres d’art prises dans un but scientifique (ce qui se heurte au droit de reproduction) ; elles sont encore peu développées pour les données issues d’enquêtes qualitatives de terrain (qui posent de délicats problèmes) d’anonymisation, de mise en forme et de documentation). Le problème est ici que nombre de données utilisées par les scientifiques en SHS ne sont pas produites par eux (qu’il s’agisse d’une chanson, d’un rapport d’activité d’entreprise ou de l’architecture d’un monument) : d’autres personnes, physiques ou morales, disposent de droits sur elles. Partage de données et techniques de «fouille de données et de textes » sont ainsi inégalement répandus selon les types de données, pour des raisons principalement d’obstacles juridiques, et de manque de moyens en personnel pour la production et le maintien de métadonnées de qualité. Du fait de ces contraintes, pour beaucoup de types de données en SHS, il semble difficile d’imaginer un libre partage qui irait au-delà d’un partage pour usage scientifique, avec toutes les difficultés que présente la définition de ce périmètre. Au-delà, il y aurait en effet des dangers de captation de données qui peuvent être très sensibles. Par ailleurs, pour certains types de données, le temps d’exploitation pouvant mener à des publications est assez long, ce qui plaide pour des délais avant mise en partage ajustés à ces particularités. 

Sciences de l’Univers 

En astronomie, et plus généralement dans une partie des sciences de l’Univers ou des sciences d’observation, se généralise le paradigme d’observatoire virtuel. Les données sont libres d’accès en astronomie pour toute la communauté après la fin d’une période propriétaire. C’est l’approche du réemploi maximalisé des données qui est privilégiée. Pour cela, il est nécessaire d’harmoniser et de standardiser les formats, les descriptions et les modes d’accès aux données d’archives, aux métadonnées et aux applications susceptibles de les traiter, de manière à réaliser l’interopérabilité. Cette interopérabilité s’étend à la liaison des données de la recherche avec les publications en ligne. Les dangers de captation à des fins commerciales ont été peu prégnants jusqu’à ce jour, même si les choses pourraient changer à l’avenir (par exemple avec la « météorologie spatiale » et l’observation détaillée des éruptions solaires). 

Biologie 

En biologie, l’édition numérique est généralisée et la recherche d’articles se fait via des plates-formes thématiques développées par des institutions académiques et permettant d’accéder librement aux résumés d’articles. La plus importante (PubMed) est proposée par le National Institute of Health américain (NIH). L’accès à la totalité des articles est lui généralement payant, le transfert du copyright à l’éditeur étant la pratique la plus courante. Il est à noter que le NIH, s’est opposé à cette pratique et propose en accès libre, via PubMed, une version non formatée de tout article publié par un éditeur décrivant des travaux financés par le NIH. Depuis une dizaine d’années, l’open access se développe. Le coût de publication est alors généralement payé par les auteurs lors de la publication. 

Si les techniques de « fouille de données » sur les textes ne sont pas prioritaires pour la plupart des domaines de la biologie en termes d’outil de découverte, (mais plutôt en termes de collecte documentaire) la « fouille de données » proprement dite prend une place de plus en plus importante. Le libre accès à ces données est répandu, à l’instar de ce qui s’est passé pour le génome humain. De nombreux éditeurs dont Nature, conditionnent d’ailleurs la publication d’un article au dépôt des données en masse, associées à une publication, sur une plateforme accessible gratuitement par tous. Il est à noter que cette exigence va au-delà des données numériques et concerne également le matériel produit dans le cadre d’une publication. Lorsqu’un papier décrit un matériel particulier (lignée de cellules, micro-organismes ou souris génétiquement modifiées, virus, anticorps…), l’éditeur (Nature…) demande un engagement de l’auteur pour la donation de ce matériel aux autres chercheurs académiques. Des plates-formes internationales existent pour la conservation et la distribution de ce matériel. 

Au-delà de la question des données en masse, plusieurs éditeurs, dont Nature, songent à mettre en place un système permettant d’accéder, via leur site, aux données brutes ayant conduit à l’élaboration des figures d’un article. Si cela permet au lecteur de s’assurer de la bonne interprétation des résultats, la question se pose de la propriété de ces données et de leur cession éventuelle. 

Physique 

En ce qui concerne la physique hors « grands instruments », l’accès libre aux données brutes n’est pas encore très répandu. En revanche, de nombreuses bibliothèques numériques ont été constituées et mises en libre accès par des groupes de chercheurs ; régulièrement mises à jour, elles portent aussi bien sur la modélisation théorique de problèmes génériques (conduction électrique, dynamique moléculaire) que sur la mise au point et le pilotage d’expériences (interfaçage d’appareils, bibliothèques pour le traitement des données). Le numérique joue également un rôle essentiel dans le domaine de la diffusion des résultats, avec l’utilisation quasisystématique des serveurs de pré-publications. Le dépôt sur ces serveurs se fait de manière simultanée avec l’envoi à une revue scientifique avec comité de lecture, et permet de « prendre date » immédiatement. 

Chimie 

Le domaine de la chimie est en fait vraiment intermédiaire entre les pratiques des sciences de la biologie et celles de la physique. La règle, ce sont des publications dans des journaux payants de sociétés savantes (American Chemical Society, Royal Society) ou sociétés commerciales (Wiley, Elsevier…) et un développement timide de l’open access type gold payé par les auteurs. Il y a en fait peu de différences entre les deux, les négociations avec l’ACS ont été à un moment donné plus dures qu’avec Elsevier. Il n’y a pas de prépublication comme ArXiv. Des bases de données libres d’accès se développent, notamment la base de Cambridge, qui contient toutes les structures moléculaires publiées. 

Mathématiques et informatique

En mathématiques, les bases de données relatives aux publications sont très importantes pour le travail individuel et communautaire. Une particularité de cette discipline est l’importance de l’accès facile aux publications « anciennes » (plusieurs années, décennies, voire siècles). La pérennité quant à l’accès à ces publications est donc capitale pour la recherche. Les plates-formes d’archivage des publications comme HAL ou Arxiv répondent donc en partie à cette problématique et sont à soutenir, ainsi que les platesformes de métadonnées (MathSciNet, Zentralblatt…). En ce qui concerne les données numériques, il est nécessaire que, pour des questions de reproductibilité, comparaison et interprétation de méthodes de simulation et calcul, elles soient librement accessibles et elles aussi pérennisées (archivage, catalogues de jeux de données…), et ceci concerne aussi bien les logiciels que les codes de calcul. Par ailleurs les mathématiques jouent un rôle important dans l’analyse, la gestion et l’exploitation des masses des données (questions autour du big data). Il est certainement très important que les données soient accessibles, mais quand elles deviennent de plus en plus massives il faut aussi pouvoir les exploiter de manière efficace. Dans ce domaine, il y a d’importants défis à relever pour la recherche mathématique. 

LA « PUBLICATION » DES DONNÉES

Une question importante transversale aux disciplines est celle de la « publication » des données. L’exigence du libre accès est claire dans le cas de données associées à des publications dûment validées par les revues à comité de lecture. Mais qu’en est-il de données qui seraient mises en ligne avant publication, par exemple pour analyse et interprétation dans le cadre de larges collaborations? C’est une réalité qui monte dans nombre de disciplines. Ce problème est d’autant plus aigu que la définition même de ce qu’est une donnée publiée est parfois floue. 

DANGERS ET GARDE-FOUS JURIDIQUES 

On constate donc que, comme tout avancée, la numérisation des données et des résultats de la science peut avoir des contre-effets. Les résultats scientifiques jouent un rôle capital dans la concurrence économique mondiale en conférant à leurs détenteurs des avantages compétitifs parfois considérables. En retour, la science moderne a besoin, pour se développer et expérimenter, de technologies que va souvent lui offrir le monde de la production régi par le marché. C’est particulièrement le cas des fonctionnalités qui peuvent être fournies par les éditeurs scientifiques
Pourtant chacun sait que le développement de la connaissance se fait à travers les échanges d’idées, de résultats et de données entre scientifiques. Il est donc impératif de limiter la captation du travail de ces derniers par les intérêts privés et en même temps de fournir un cadre légal pour permettre de libérer autant que faire se peut l’échange des données d’usage scientifique. 

TROIS PRINCIPES 

Le Conseil scientifique soutient trois principes importants qui permettraient de répondre à ces objectifs : 

1. La liberté complète de circulation et d’usage des données scientifiques pour réutilisation dans le cadre de la science, sous réserve qu’un temps minimal de réserve permettant aux producteurs de données de les interpréter et de publier soit garanti par la loi. Cette exigence de libre circulation des données s’étend d’une part aux publications et d’autre part aux données et textes non scientifiques à l’origine mais constituant la matière première de beaucoup de recherches, notamment en sciences humaines et sociales. 

2. Cette exigence de mise à disposition des données s’étend aux services à valeur ajoutée (traitement massif de type « big data », fouilles de données, lien aux métadonnées, interopérabilité) qui doivent également être publics et libres d’accès pour éviter toute captation abusive. Ceci supposerait, dans le cas de création de services et de plates-formes par les éditeurs, et plus généralement le secteur privé, des garanties légales de juste prix non discriminants. 

3. Elle suppose aussi la clarification des droits à disposer de l’usage de leurs productions scientifiques et de leurs publications par les auteurs face aux éditeurs et aux autres acteurs privés. Les droits de propriété intellectuelle des scientifiques ne doivent en aucun cas être concédés gratuitement aux éditeurs, de manière à favoriser la libre circulation des résultats scientifiques. 

Le Conseil scientifique tient également à saluer le travail réalisé par le COMETS dans son rapport intitulé «Les enjeux éthiques du partage des données scientifiques » et il souscrit aux recommandations contenues dans ce texte. 

Laisser un commentaire

Entrez vos coordonnées ci-dessous ou cliquez sur une icône pour vous connecter:

Logo WordPress.com

Vous commentez à l'aide de votre compte WordPress.com. Déconnexion / Changer )

Image Twitter

Vous commentez à l'aide de votre compte Twitter. Déconnexion / Changer )

Photo Facebook

Vous commentez à l'aide de votre compte Facebook. Déconnexion / Changer )

Photo Google+

Vous commentez à l'aide de votre compte Google+. Déconnexion / Changer )

Connexion à %s