Rapport de recherche évaluation ouverte par les pairs

Introduction

Ce rapport s’inscrit dans la conclusion du projet Revue2.0 – Repenser les revues savantes en SHS porté par la Chaire de recherche du Canada sur les écritures numériques. Dans ce court texte, nous proposons un état de la question de l’évaluation par les pairs et un ensemble de remarques issues de l’expérimentation de l’évaluation ouverte par les pairs dans le cadre de la revue en sciences humaines Sens public.

À partir de considérations générales, mais non exhaustives, des modalités et modèles de l’évaluation ouverte par les pairs, et en nous basant sur les expériences et retours des revues partenaires de cette expérimentation, nous proposons quelques scénarios de mise en pratique de l’évaluation ouverte dans le cadre de la publication d’une revue en sciences humaines et sociales.

Les ressources consultées pour la constitution de ce rapport sont en ligne, en libre accès et disponibles à la fin de ce rapport.

L’évaluation par les pairs (ou peer review) désigne l’activité collective de chercheur·e·s pour établir une expertise scientifique et critique du travail d’un·e autre chercheur·e1. Cette activité est employée pour fonder diverses décisions du côté du comité éditorial (acceptation sous conditions ou non/refus d’articles ou d’autres formats de textes scientifiques ; financement de projets ou d’infrastructures de recherche ; octroi de pris et récompenses ; jalons dans la carrière comme l’embauche, le renouvellement d’un contrat, etc.).

Dans le cadre de ce rapport, nous nous concentrons plus particulièrement sur l’évaluation par les pairs dans le contexte de publication par des revues en sciences humaines.

État de la question

L’évaluation par les pairs peut être opérée selon différents modes :

C’est notamment vers ces différents modes, leurs faiblesses et autorités respectives, que s’orientent les discussions et débats au sein de la communauté scientifique. Il nous semble important, avant de présenter les expérimentations et les résultats de ces expérimentations, d’établir un état de la question. La question de l’évaluation ouverte par les pairs est traitée dans le cadre d’une littérature riche : depuis les années 1990, elle est notamment discutée par les STEM (Science, Technology, Engineering, and Mathematics) et les sciences médicales, dans la sphère anglo-saxonne notamment. Elle semble cependant avoir moins d’ancienneté dans le cas de disciplines comme les humanités et sciences sociales et dans la sphère francophone notamment.

Évaluation par les pairs : tradition et problématiques

Dans un premier temps, nous souhaitons établir un état de la recherche et du débat existant sur l’évaluation ouverte par les pairs, et ce, dans l’objectif de souligner les aspects pouvant être inclus dans la constitution d’un protocole et de possibles scénarios de mise en pratique.

L’évaluation par les pairs est conçue comme un des principes de la publication scientifique, elle est au centre du processus de production et de diffusion de la recherche et se présente même, pour le cas de la production en sciences humaines et sociales, comme une condition sine qua non de la publication : les retours de l’examen d’une proposition pour publications par des spécialistes compétent·e·s dans le champ disciplinaire de l’auteur·e déterminent souvent la destinée de cette proposition (publiable ou non, sous réserve de modifications mineures ou majeures). Cette étape a pour objectif d’assurer la véracité et la qualité scientifique de la proposition, il s’agit de garantir de la la méthodologie et de la cohérence du propos. L’évaluation s’impose ainsi comme un indicateur de qualité de la revue et c’est sur cet examen qu’elle fonde son autorité.

Cependant ce modèle, établi comme un standard de la démarche scientifique moderne, demeure dans les faits relativement nouveau :

The myth that scientists adopted peer review broadly and early in the history of science is surprisingly widely believed, despite being false. It’s true that peer review has been used for a long time […]. But in most scientific journals, peer review wasn’t routine until the middle of the twentieth century, a fact documented in historical papers by Burnham, Kronick, and Spier. (Nielsen, 2009)

L’usage de l’évaluation par les pairs s’est en effet généralisé relativement récemment, si l’on considère une histoire longue de la publication, soit au milieu de XXe siècle pour les publications scientifiques (Nielsen, 2009). Il est en revanche remarquable de constater que, suite à la généralisation de cette pratique, le mode en simple aveugle a été adopté majoritairement. C’est notamment vis-à-vis de ce mode, qui est un déséquilibre concret de l’identification entre deux status scientifiques contextuels2, que les débats se concentrent dus aux risques latents, et certainement inévitables, de biais de lecture et de conflits d’intérêts.

La garantie qui est placée au sein de l’évaluation par les pairs n’est pas infaillible et à bien des égards cette garantie et l’autorité qui lui sont assignées apparaissent comme des projections d’un idéal quelque peu conservateur dans ce qu’est ou doit être la recherche et la production scientifique. L’évaluation en tant que validation comporte la question épineuse de l’héritage et d’une reconnaissance par ceux·elles qui constituent les représentant·e·s d’une discipline et les gardien·ne·s de possibles déviances/évolutions. Dans le cas d’une évaluation simple ou double aveugle, la question de l’identité de l’auteur·e du propos apparaît plus épineuse pour la bonne conduite du processus : l’exigence doit-elle être la même entre le premier article d’un·e auteur·e et l’article d’un·e spécialiste confirmé·e ? Les chercheur·e·s émergeant·e·s peuvent-ils·elles prétendre aux mêmes capacités méthodologiques dans la structuration de leurs écritures qu’un·e chercheur·e établi·e ? Quel est l’espace de jeu de l’apprentissage dans le processus d’évaluation scientifique ? Le rôle de l’évaluateur·rice est-il celui de porter une réflexion et d’encourager la progression d’une carrière naissante ? Le pendant, la connaissance de l’auteur·e et le mode d’évaluation du cas par cas qui semble écarter le problème d’une exigence latérale dans sa radicalité, charrie de plus avec lui les risques de la prétention de qualité apposée au nom.

Si le mode du double-aveugle évacue en apparence les privilèges du nom, son anonymat qui fonde principalement sa renommée n’est qu’idéal. Dans la mesure où le pair est un·e spécialiste du sujet traité par l’auteur·e qui prétend à une expertise analogue, relativement au type de sujet plus ou moins représenté dans la communauté scientifique, mais également conformément à l’insertion de ces deux spécialistes dans les réseaux scientifiques de leur discipline, il est en réalité peu probable que auteur·e·s et évaluateur·rice·s ne se connaissent pas… il est même probable qu’ils se reconnaissent réciproquement compte-tenu de leurs discours et approches scientifiques respectives. La question de l’anonymat semble ainsi concentrer certaines des principales problématiques de l’évaluation par les pairs.

Au-delà de possibles biais de lecture, l’évaluation par les pairs ne constitue pas un maillage infaillible : plusieurs canulars, fraudes, plagiats scientifiques se sont fait les témoins, volontaires ou non, d’une problématique du système d’évaluation3.

En soi, l’évaluation par les pairs présente les limites de sa pratique dans son ensemble : lenteur, privilège, subjectivité, arbitraire, scepticisme, carriérisme sont des aspects qui sont ceux de possibles dysfonctionnements au sein des institutions de savoir et dont ce mode hérite.

Aujourd’hui le constat des problèmes que l’évaluation traditionnelle génère et la volonté de déconstruire les mythes historiques de cette pratique amènent à penser un renouvellement de la pratique ou à envisager une bifurcation vers des modèles alternatifs qui correspondraient davantage aux besoins et usages des revues en sciences humaines et sociales tout en évitant les écarts de lecture. Une de ces alternatives, celle testée dans le cadre des expérimentations éditoriales du projet Revue2.0, est l’évaluation ouverte.

Évaluation ouverte : une alternative en débat

L’évaluation ouverte est bien claire dans sa définition : l’anonymat est abandonné entre l’auteur·e et l’évaluateur·rice. Les débats qui concernent cette alternative contribuent cependant à créer des disparités dans la définition générale, c’est pourquoi nous y revenons rapidement. Nous retenons ici deux définitions :

The whole review process is entirely transparent. Each submitted manuscript is immediately made available on the journal’s website. Reviews and comments from readers are welcomed, and are considered alongside the formal peer reviews solicited from experts by the journal. All the reviews, the author’s responses, and the original and final versions of the article are published, and the appointed reviewers and editors are acknowledged by name in the final version. (Shotton, 2012)

Open peer review consists of signed reviews that can be posted on the Internet together with accepted and refused manuscripts and grant proposals. The idea is to have a more transparent process not only in scientific journals but, most of all, in granting organizations. (After all, anyone with enough tenacity can have a paper accepted given the dozens of scientific journals nowadays, but in most countries there are only a few granting agencies.) I defend that transparency and openness must be implemented in scientific journals, granting agencies, job applications, and every single step of the academia. Secrecy forges despotism. Transparency is always the best protection against abuse. (missing reference)

Si l’ouverture est ci-dessus définie comme permettant une identification réciproque entre l’auteur·e et l’évaluateur·rice, elle implique également, et cela la définit encore davantage, la dynamique du dialogue. Cette idée se propose comme une alternative au processus d’évaluation dans la mesure où elle redéfinit l’évaluation par les pairs en tant que tel : il ne s’agit plus d’une étape s’inscrivant dans un mouvement vertical – hiérarchique – et à sens unique. L’évaluation ouverte prétend à un espace pour un échange scientifique entre spécialiste ou amateur·e d’un sujet, espace qui est alors à même d’inverser une tendance du travail universitaire fondée sur une majorité de travail invisible (Fitzpatrick & Rowe, 2010). La transparence ici suppose un processus qui s’inscrit plus directement dans un esprit de communauté de savoir (Sauret, 2020).

Des expérimentations ont été notamment menées par Kathleen Fitzpatrick, directrice en humanités numérique et professeur d’anglais à l’Université du Michigan, qui s’est demandé ce que deviendrait l’évaluation par les pairs si elle ressemblait davantage à la dynamique d’écriture et de partage d’écriture du blog, plus proche ainsi de la conversation scientifique [@fitzpatrick_keywords_2010-1].

La dynamique de contrôle de qualité dans cette alternative est alors gérée différemment : à la manière d’open space, les écritures se trouvent sous le regard des autres, la vérification est alors horizontalement et devient l’affaire de tous·tes. Parce qu’elle déroge notamment à une idée d’une tradition (qui est une fausse ou une relativement jeune tradition), l’alternative de l’évaluation n’est pas admise de façon unanime dans la communauté scientifique : si les problématiques de l’évaluation traditionnelle (ses failles, ses inadaptations aux pratiques actuelles) sont discutées, la solution de l’évaluation ouverte est sujette à des débats parfois clivants dans la communauté scientifique, au vu de conceptions profondes de la recherche et du savoir universitaire.

Parce que la hiérarchie est floutée entre l’auteur·e et l’évaluateur·rice, la question se pose alors de savoir si le terme évaluation est toujours à propos. Sans entrer totalement dans ce débat, il est possible de considérer que si étymologiquement e-valuere consiste à « accorder de la valeur », le nouveau mouvement de l’évaluation ouverte apporte de la valeur au contenu et à l’expérience de réflexion justement par le fait du dialogue. L’estimation d’une valeur est alors déplacée dans une autre dynamique qui n’est plus celle d’une livraison mais celle d’une communication, et ainsi le sens de l’évaluation comme procédure est davantage justifié dans la transmission d’un point de vue que dans la réception d’un état de fait. Dans la mesure d’une évolution de la pratique, il serait également envisageable de renommer le processus sous l’expression de discussion avec les pairs4. Le problème de ce terme, dans le cadre des considérations institutionelles actuelles, est peut-être une dévaluation de la formule et ainsi une distinction trop forte entre deux procédures, qui en réalité sont liées par une évolution des pratiques.

L’ouverture de l’évaluation, parce qu’elle implique notamment une accessibilité plus souple pour les relecteur·rice·s au contenu, est souvent associée à la démarche de libre accès du savoir : l’évaluation ouverte présuppose des documents rendus disponibles, mais l’inverse n’est cependant pas vrai comme le montrent des modèles de revues diffusées par Elsevier qui conservent un mode d’accès payant (Suber, 2004). C’est justement cette dimension du libre accès, permettant la relecture de plusieurs acteur·rice·s différent·e·s, qui, en plus de comporter le risque de « cannibaliser » les ventes pour les éditeurs (Fitzpatrick, 2018)5, était un argument à une décrédibilisation du savoir.

On comprend dans la discussion sur cette alternative, l’extension d’un principe qui peut déranger certaines approches : au-delà d’une question d’autorité scientifique, c’est également toute une conception du savoir qui est renouvelée et bouleversée (Guédon, 2014 ; Sauret, 2020). L’alternative d’une discussion – préférée à une évaluation sur les approches, les méthodes et résultats engagés – porte l’idée de savoirs pluriels : la science n’est alors plus question de validation et d’ancienneté, mais de discussion et de pluralité épistémologique. Également le savoir devient l’affaire d’une communication entre plusieurs individus où le contrôle des bonnes pratiques est davantage le fait d’un environnement d’écriture6.

Si on les compare bel et bien, il s’avère pourtant que l’évaluation traditionnelle et l’évaluation ouverte constituent deux processus de lecture bien différents dans la mesure où dans le cas de l’évaluation traditionnelle, il est demandé à l’évaluateur·rice un examen d’ensemble du document (structure, chronologie du développement, construction de l’argumentaire) en plus d’éléments qui sont plus ouvertement subjectifs (originalité, pertinence, intérêt de la recherche pour le domaine d’étude) ; tandis que dans le cas de l’évaluation ouverte, l’évaluateur·rice lit le document sans une vision holistique, mais dans une démarche plus focalisée [Fitzpatrick interview].

L’évaluation ouverte est ainsi défendue comme permettant :

L’ouverture de l’évaluation ne présume pas d’une absence d’intermédiaire : comme pour l’évaluation traditionnelle, le comité éditorial contrôle les retours d’évaluation avant de les transmettre à l’auteur·e. Si elle est considérée comme une alternative à l’évaluation traditionnelle, l’évaluation ouverte se différencie moins au regard d’un niveau de scientificité que d’une approche différente du savoir universitaire.

Expérimentations dans le projet Revue2.0

L’un des objectifs du projet Revue2.0 a notamment été la préservation d’une identité éditoriale tout en procédant à la transaction numérique : il s’agit de repenser les pratiques éditoriales, les faire évoluer dans un média aux plasticités et dynamiques différentes, tout en conservant leur cohérence avec le profil de la revue. La question s’est donc posée pour la phase d’évaluation par les pairs : comment assurer une évaluation anonyme dans un espace cependant ouvert, dans un réseau dont nous avons déjà peine à assurer la sécurité de nos données personnelles ? L’anonymat n’a pas les mêmes limites et caractéristiques dans le média numérique et c’est ce point qui a notamment été pensé pour concevoir l’expérimentation de l’évaluation ouverte tout en conservant les principes de la chaîne éditoriale des deux revues qui se sont prêtées à l’expérience : la revue Itinéraires et la revue Sens public.

Itinéraires

Présentation de la revue

Itinéraires. Littérature, textes, cultures est une revue d’études littéraires et culturelles qui prend en 2008 la suite de la revue Itinéraires et contacts de cultures, revue de littérature francophone créée en 1982. Cette nouvelle série, tout en conservant son héritage francophoniste, s’ouvre à de nouvelles thématiques (numérique, genre, études postcoloniales) et à d’autres disciplines (analyse du discours, sciences de l’information et de la communication) pour étudier les phénomènes d’émergence littéraires et culturels.

En 2015, la revue fait le choix d’une diffusion intégralement numérique en accès libre et ouvert sur la plateforme OpenEdition Journals, et explore depuis les potentialités de la diffusion numérique, en termes de formats d’écriture ou d’insertion de contenu multimédia. Volontiers tournée vers l’innovation, la revue concrétise également son intérêt pour le numérique par la publication de numéros thématiques (Les blogs : écritures d’un nouveau genre, 2010 ; Textualités numériques, 2015 ; Ethos numériques, 2016 ; Littératures expérimentales, 2018). La revue participe avec enthousiasme au projet Revue2.0 qui lui permet d’interroger ses pratiques et d’explorer les potentialités du numérique, notamment en termes de production et de diffusion.

Les observations tirées de l’expérience de l’évaluation par les pairs

La phase d’observation menée dans le cadre de Revue2.0 a permis à Itinéraires d’échanger avec les chercheur·e·s et les autres revues du projet et ainsi de prendre le recul nécessaire, nourri de regards extérieus, pour interroger ses propres pratiques.

L’évaluation par les pairs a été identifiée depuis longtemps par la revue comme une étape problématique du processus éditorial. Lent et complexe, le processus mis en place ne donne pas entière satisfaction et fait l’objet de discussions régulières au sein du comité de rédaction. Si la revue a opté pour une évaluation en double aveugle, elle défend néanmoins un modèle d’évaluation bienveillante. Les expert·es sollicité·es sont invité·es à s’inscrire dans une démarche constructive visant avant tout à aider l’auteur·rice à améliorer son article, article qui a fait l’objet d’une première forme d’évaluation de la part du comité de rédaction (pour les varias) ou des responsables de dossier thématique, en ce qui concerne leur intérêt et leur adéquation avec la ligne éditoriale de la revue.

Bien que cadré par des procédures et des supports (formulaire d’évaluation et note aux expert·es), ce processus d’évaluation n’est pas entièrement satisfaisant. D’une part, la qualité des évaluations est variable (c’est un constat classique) et les deux expertises sont régulièrement contradictoires, ce qui ajoute de la complexité au système en introduisant une forme de négociation entre les résultats obtenus et la décision finale de publication. D’autre part, la revue invite dans sa procédure les auteur·rice·s à proposer une réponse aux expert·e·s s’ils ou elles le souhaitent. Bien que cela ne soit pas fréquent, la revue souhaite encourager cette pratique dans la mesure où cela permet entre autres au comité de disposer d’éléments intéressants pour statuer sur la décision de publication.

Méthode

Ces éléments d’observation nous ont conduit à mener une expérience d’évaluation visant à mettre en place un dispositif de conversation entre les expert·es dans un premier temps, puis éventuellent entre les expert·e·s et l’auteur·rice. Il ne s’agit donc pas d’une évaluation ouverte, au sens où l’anonymat des expert·e·s et de l’auteur·rice a été conservé, mais plutôt de permettre les conditions d’une discussion entre les experts pour rompre avec un processus fragmenté et le rendre plus continu et conversationnel.

L’hypothèse de départ est la suivante : engagés dans une conversation, les expert·e·s pourraient formuler différemment leurs avis et tirer profit de la discussion avec l’autre expert·e. Cela pourrait permettre d’améliorer la qualité des expertises en limitant par exemple les tournures blessantes ou les avis trop peu nuancés. D’autre part, cela permettrait, sinon d’aboutir à un consensus, du moins de permettre un échange et une confrontation d’idées fructueuse, au bénéfice de l’auteur·rice, du comité de rédaction pour prendre sa décision finale et des expert·e·s eux-mêmes. Les résultats de cette discussion pourraient en outre constituer un matériau très intéressant susceptible d’accompagner la publication de l’article. Il s’agirait d’une sorte de compte rendu prépublication, qui permettrait par ailleurs de citer le nom des expert·e·s et de valoriser leur travail et leur investissement en le rendant visible.

L’expérimentation a commencé en septembre 2019 et s’est terminée en avril 2021. Le dispositif mis en place reposait sur Stylo pour l’édition de l’article et les formulaires d’évaluation, associé à Hypothesis pour l’annotation du texte. L’expérimentation avait donc aussi pour objet de tester l’appropriation des outils par les acteurs impliqués dans le processus.

Le comité de rédaction a tout d’abord sélectionné un article parmi les propositions de varias reçues récemment et contacté l’auteur pour savoir s’il acceptait d’y participer, ce qui a été le cas.

La proposition ayant été reçue au format Microsoft Word, le premier travail a consisté à l’intégrer dans Stylo en le transformant au format markdown et en structurant les références au format bibtex. Ce premier travail a été effectué par le secrétaire de rédaction de la revue.

Deux experts ont ensuite été sollicités. La première, membre du comité de rédaction et un second extérieur, spécialiste de l’auteur étudié dans le texte7.

Une fois les experts choisis, il et elle ont été invités à créer un compte sur Stylo et un autre sur Hypothesis. Sur Stylo ils ont eu accès au formulaire d’évaluation de la revue reproduit pour l’occasion à partir d’un compte « ILTC_Eval » dédié à l’expérimentation et donc indépendant du compte de la revue à partir duquel l’article a été édité. Sur Hypothesis, il et elle ont été invités à créer un compte avec un identifiant préservant leur anonymat, puis à rejoindre l’espace privé « Itinéraires ».

Une documentation a été fournie aux experts pour les guider dans ces différentes étapes. Elle expliquait les objectifs de l’expérimentation, le dispositif technique, les outils utilisés et les différentes étapes, en indiquant les liens nécessaires et en proposant des captures d’écran pour faciliter la prise en main d’Hypothesis en particulier et éviter les problèmes identifiés par la revue Sens public.

Les experts ont été invités à annoter l’article avec Hypothesis sur une version HTML produite à partir de Stylo et à taguer leurs annotations en reprenant les catégories proposées par le formulaire d’évaluation :

Nous leur avons laissé la liberté d’ajouter d’autres tags, ce qui était pour nous l’occasion de tester notre formulaire d’expertise et de prendre en compte de potentielles suggestions de nouvelles catégories.

Une période a enfin été déterminée en accord avec les experts, de manière à ce que l’évaluation se déroule dans un temps délimité, pour favoriser les échanges et la conversation.

Résultats

Les experts ont bien pris en main les différents outils et l’article a fait l’objet de 150 annotations : 112 de la part de l’expert extérieur·e à la revue et 38 de la part de l’experte de la revue.

11 tags ont été utilisés, soit 8 de plus que ceux qui étaient proposés. Les tags ajoutés sont les suivants : Complément, Question, Structure, Manque de précision, Construction, Logique, Justification du corpus.

Il n’y a pas eu de difficulté pour la création d’un compte sur Stylo (en passant par un compte Huma-Num) ni pour la rédaction directement dans l’outil, même si les experts n’ont pas eu à utiliser la syntaxe Markdown.

La création d’un compte Hypothesis a posé plus de problème. Même s’il était précisé qu’il fallait choisir un identifiant préservant leur anonymat, deux des trois experts contactés8 ont spontanément créé un identifiant à leur nom et il a donc fallu en créer un nouveau.

La seconde experte a réalisé beaucoup moins d’annotations que le premier, ce qui s’explique en partie par le fait qu’elle est intervenue après le passage du premier expert et que, malgré des indications pour éviter cette situation, elle a vu les annotations du premier expert en lisant le texte. De fait, elle n’a pas fait un certain nombre de remarques qui avaient déjà étaient faites par le premier expert et nous pouvons penser que sa lecture a été influencée par la lecture des annotations, même si, dit-elle, elle a essayé de ne pas les lire et de ne pas en tenir compte.

Notons que les deux experts ont détecté l’identité de l’auteur de l’article, certainement en faisant une recherche sur le titre, le même auteur ayant publié un article au titre proche sur le même auteur mais avec un angle différent. Cela confirme la difficulté de maintenir l’anonymat dans de petites communautés.

Les deux experts étaient d’accord sur l’article et pointaient les mêmes problèmes aboutissant au même avis : publiable sous réserve de modifications importantes. De ce fait, il n’y a pas vraiment eu de discussion.

L’expertise arrivant à son terme, l’auteur nous a écrit pour signifier qu’il renoncait à son texte, expliquant que le temps ayant passé, sans réflexion sur le sujet avait évolué et qu’il ne croyait plus à son article qu’il considérait comme un échec et qu’il préférait conserver à l’état de document de travail. Nous avons tenté de le convaincre de poursuivre le travail et d’entrer dans la conversation comme cela était prévu. La transmission des rapports d’expertise l’a conforté dans son idée et nous n’avons donc pas pu aller au bout de l’expérimentation en organisant une discussion entre les experts et l’auteur.

Discussion

Les personnes contactées à qui nous avons expliqué le dispositif que nous souhaitions mettre en place et ses objectifs ont toutes parues très intéressées, ce qui semble indiquer que la démarche proposée trouve un écho favorable dans la communauté de chercheur·e·s en études littéraires et culturelles. Ce premier constat est très positif et nous amène à penser que les différents acteurs sont d’accord pour considérer que le système classique d’évaluation en double aveugle mérite d’être repensé et amélioré et que des outils tels que Stylo et Hypothesis peuvent permettre de créer un dispositif conversationnel efficace ouvert ou non.

L’expérience devra être répétée sur plusieurs articles pour obtenir plusieurs cas de figure, notamment lorsque les deux experts ne sont pas d’accord sur le texte. C’est cet échange d’arguments, au premier niveau du dispositif qui nous semble particulièrement. Néanmoins, pour ne pas le fausser, il faudrait trouver le moyen que les experts puissent lire et annoter le texte sans voir les annotations de l’autre expert, au moins dans un premier temps, ou bien tenir compte du fait que cela n’est pas possible et définir un ordre d’intervention suivant une certaine logique.

Dans le cadre de cette expérience, les experts ont travaillé avec rigueur et bienveillance, de sorte que nous n’avons pas été amenés à intervenir pour reprendre les évaluations avant de les transmettre à l’auteur. Ce cas pourrait néanmoins se produire, même si une de nos hypothèses est que le travail collaboratif entre les deux experts, qui par ailleurs sont informés que l’auteur aura accès à leurs annotations, doit permettre de limiter les problèmes de ce point de vue.

Les experts ont bien pris en main l’outil mais cela a néanmoins nécessité un accompagnement et a demandé du temps. Dans un premier temps, pour que l’expérimentation se passe bien il, s’agissait de bien expliquer le dispositif, à la fois en ce qui concerne ses attendus et ses aspects techniques. Il a fallu également faire un accompagnement personnalisé tout au long du processus pour aider les experts dans la prise en main des outils. La production de documents a pris un certain temps, mais comme pour toute procédure, ces documents pourront servir dans le cadre du renouvellement de cette expérience.

L’ajout de catégories ou tags durant l’annotation est riche d’enseignement et devrait nous permettre de revoir notre formulaire d’expertise en ajoutant par exemple la question récurrente de la présentation et de la justification du corpus de l’étude.

Sens public

La revue Sens public est une revue créée en 2003 par Gérard Wormer et se définit comme une revue interdisciplinaire et internationale spécialisée en sciences humaines. Sens public est une revue en ligne qui s’est investie dès ses débuts dans la réflexion sur la structuration du savoir dans un environnement numérique. Parce qu’elle valorise la rigueur scientifique et qu’elle s’engage dans le savoir libre et ouvert, la revue édite ses articles via l’outil Stylo qui est un éditeur de texte sémantique développé par la Chaire de recherche du Canada sur les écritures numériques. L’outil, utilisé au départ pour l’édition finale de l’article une fois l’évaluation par les pairs effectuée, entre désormais dans le processus de publication dès le début de la chaîne éditoriale : les articles sont proposés, évalués et édités dans l’espace de Stylo. Associé à l’outil d’annotation Hypothesis, Stylo apparaissait comme le lieu permettant l’évaluation par les pairs au même titre que le principe du commentaire dans un document Word (usage habituellement adopté par les revues pour le suivi de l’évaluation). L’outil d’annotation Hypothesis a été choisi comme un espace d’échanges pour l’expérimentation de l’évaluation ouverte afin d’inscrire notre réflexion dans les standards de l’annotation Web. Dans cette perspective, le dialogue se situe à même les contenus scientifiques et permet ainsi de réinterpréter l’évaluation en tant que dynamique de circulation et processus d’annotation.

Au sein de la revue Sens public, l’expérimentation d’évaluation ouverte s’est faite progressivement. Après une période de transition entre évaluation en double aveugle, elle a été finalement adoptée officiellement. L’évaluation ouverte devait être tout d’abord testée dans le cadre d’un dossier thématique. Il s’est avéré, contre toute attente de la coordination de Sens public, qu’une réticence – parfois une résistance claire – a été exprimée du côté des auteur·e·s du dossier. Le dossier, qui devait être le terrain d’expérimentation pour l’évaluation ouverte, a donc été évalué selon la procédure habituelle, à savoir l’évaluation en double aveugle. La revue a donc tenté une première adaptation de l’outil Hypothesis dans Stylo en vu de permettre une évaluation anonyme du côté des auteur·e·s comme des évaluateur·rice·s. Pour ce faire, plusieurs groupes privés d’annotation ont été créés en vue de gérer les accès de chacun·e·s :

A été aussi utilisée dans le cadre de l’expérimentation, une modalité particulière de l’outil Stylo, à savoir le versionnage des articles. Pour tout article destiné à l’évaluation, une nouvelle version était créée portant le titre « Version pour évaluation ». Dans ces versions, le nom de l’auteur·e était effacé. Ces versions étaient numérotées pour les différentes évaluations (afin que l’anonymat entre évaluateur·rice·s soit également respecté). C’est à partir de ces versions que l’annotation dans le cadre de l’évaluation était effectuée : en soi, les retours d’un·e évaluateur·rice n’étaient visibles que sur la preview (ou visualisation Web) de l’article et uniquement dans le groupe d’annotation privé qui lui était assigné.

Une fois les annotations complétées, les retours d’évaluations étaient transférés du groupe d’évaluation fermé (SpEvaluateurF) au groupe des auteur·e·s (SpAuteur) à l’endroit identique de l’annotation d’origine et dans une version de l’article différente (titrée « Retour d’évaluation ») où notamment le nom de l’auteur·e était restauré. Ces transferts ne pouvaient cependant pas être effectués automatiquement et nécessitaient un copier-coller séparé, ce qui représentait un travail important et chronophage en termes d’édition.

La solution d’un anonymat non par le groupe d’annotation mais par l’identité de l’évaluateur·rice (par l’utilisation d’un pseudonyme) a été envisagée mais a été abandonnée dans la mesure où elle complexifiait le protocole d’annotation et rendait plus difficile l’identification de l’évaluateur·rice par la coordination.

Plusieurs failles dans la privacy et la préservation d’un anonymat ont rapidement été repérées par la coordination et ont mené à considérer plus sérieusement l’alternative de l’évaluation ouverte :

La coordination de la revue a conclu que l’outil Hypothesis dans le cadre de la publication d’articles via Stylo n’était pas adapté pour l’évaluation anonyme (double ou simple) et ne pouvait que très difficilement être détourné en ce sens. C’est notamment pour toutes ses raisons que Sens public, à la suite de l’évaluation dudit dossier, a décidé d’envisager l’évaluation ouverte comme principe de la chaîne éditoriale et de l’identité de la revue et de l’adopter officiellement après une période d’essai.

L’évaluation ouverte a été expérimentée par le comité éditorial comme par des évaluateur·rice·s externes désigné·e·s par le comité et plusieurs phénomènes ont attiré notre attention sur l’impact de cette alternative.

L’adoption de l’évaluation ouverte nous a amené à faire l’économie du groupe d’annotation spEvaluateurF pour ne conserver uniquement que le groupe d’annotation spEvaluateurO. La distinction entre les différents groupes relève désormais moins d’un principe de fermeture ou d’ouverture que d’une logique d’étape dans la chaîne éditoriale : les groupes spAuteur et spEditeur s’inscrivent dans le moment d’édition de l’article tandis que le groupe spEvaluateurO ne concerne que la phase d’évaluation/relecture. Le versionnage a été conservé dans le cadre de l’expérimentation pour distinguer ces moments et avoir un suivi au fil de l’eau de l’article.

Au-delà des refus formulés par certains évaluateur·rice·s contacté·e·s par la coordination, les évaluateur·rice·s ayant accepté dans leur majorité ont démontré davantage de soucis quant à la réception de leurs retours : un évaluateur a demandé à la coordination que ces annotations soient relues afin de contrôler qu’aucunes ne pouvaient être mal interprétées par l’auteur·e9. La revue, qu’il s’agisse d’évaluation ouverte ou en double aveugle, contrôle toujours les retours d’évaluation avant de les transmettre à l’auteur·e. Cependant le fait d’un souci explicite de la part de l’évaluateur – instaurant de plus un type d’échange différent avec la coordination – témoigne d’une implication vis-à-vis du contenu et a été encourageant pour la poursuite de l’expérimentation. L’espace d’évaluation a par la suite basculé vers un réel espace de discussion pour le cas d’un article où l’auteur et l’évaluateur ont échangé à même le contenu scientifique par l’intermédiaire des annotations : leurs discussions ont même débordé de l’espace prévu à cet effet pour se poursuivre par l’intermédiaire des réseaux sociaux.

Les auteur·e·s ont également fait des retours sur cette expérience. Si la plateforme Hypothesis requiert en effet une identification supplémentaire (en plus de l’identification à Stylo) et que le processus d’évaluation, parce que plus proche de celui de la discussion, demande des allers-retours successifs, les points positifs relevés étaient les suivants :

Sans trop de surprise, il s’est avéré que l’évaluation ouverte coïncide parfaitement avec l’identité de la revue en ce qu’elle permet d’instaurer un dialogue entre différentes approches scientifiques dans l’oubli d’un statut, d’une affiliation ou d’une posture d’autorité.

Scénarios d’usage et mise en pratique

Au vu de ce que nous avons expérimenté, nous proposons les points suivants pour un protocole de mise en place d’évaluation ouverte dans le cadre d’une revue en sciences humaines :

La question d’un protocole d’évaluation ouverte concerne davantage les besoins et objectifs de communautés volontaires à expérimenter la constitution du savoir comme un processus ouvert de dialogue en ligne. Les aspects ou scénarios de l’évaluation ouverte doivent donc être discutés et négociés au sein des communautés selon leurs pratiques d’écriture et de lecture (Fitzpatrick & Rowe, 2010). C’est notamment une des perspectives du projet Revue2.0 dont hérite le partenariat Revue3.0.

Bibliographie

  1. Nous prenons ici comme définition de départ, la définition de l’Institut de l’information scientifique et technique du CNRS : « l’évaluation par les pairs désigne la validation d’un article par un comité de lecture composé de scientifiques, experts dans le même champ disciplinaire que le contenu de l’article. Ce processus est destiné à lui assurer une qualité scientifique. » 

  2. Parce que liés par une discipline ou une approche commune, un·e auteur·e pourra devenir l’évaluateur·rice d’un autre qui aura été précédemment son évaluateur·rice. 

  3. Nous pouvons citer le fameux article « De la culture du viol chez les chiens » de Peter Boghossian et James Lindsay – le premier enseigne la philosophie à l’université d’État de Portland (Oregon), le second, titulaire d’un doctorat en mathématiques, est essayiste – qui a été publié dans la revue Cogent Social Sciences et qui présente une pseudo-étude tendant à montrer que le pénis ne devait pas être considéré comme l’organe masculin de la reproduction mais comme une construction sociale et explique notamment que le pénis étant la source d’une culture du viol, y compris du viol de la nature, il est donc en partie responsable du réchauffement climatique. 

  4. Le terme discussion est proposé dans la mesure de sa polysémie : pouvant désigner une procédure d’examen critique et un dialogue. 

  5. Ce qui, en réalité, dans le cas de l’ouvrage de Kathleen Fitzpatrick Planned Obsolescence s’est avéré faux puisque la version mise en ligne a au contraire boosté les ventes. Voir la version ouverte de Planned Obsolescence

  6. On peut citer comme exemple du savoir comme le fait d’un commun, notamment le principe de l’encyclopédie Wikipédia qui a conçu des espaces de discussions méta à même les pages publiées : exemple

  7. Précisons ici que trouver un second expert spécialiste de l’auteur étudié dans le texte, disponible pendant une période troublée marquée par des grèves en France puis par la pandémie de Covid19 et acceptant de participer à l’évaluation a été très difficile et a considérablement ralenti le processus. 

  8. Un des experts contactés a débuté l’expérimentation en créant un compte Hypothesis avant de ne plus donner de nouvelles. 

  9. C’est là un constat qui fait écho au témoignage de Kathleen Fitzpatrick qui a considéré les retours en ligne sur ses ouvrages comme très critiques tout en évitant de paraître dédaigneux ou rabaissant (Fitzpatrick, 2018)