Sur 3597 publications étudiées, 987 sont touchées par de telles erreurs, soit près de 20 % ! La cause de cette épidémie est simple : l’évocation de gènes suppose souvent l’utilisation de longues listes, qui sont stockées dans un tableau. Problème, Excel confond certains noms de gènes avec des dates ou nombres classiques. Un souci que rencontrent également d’autres tableurs.
Exemple, Septin 2, connu sous le nom de SEPT2, se transforme en 2 septembre sous Excel. Il en va de même avec MARCH1, converti en 1er mars. Quant aux identifiants RIKEN utilisés dans ce secteur, ils sont eux aussi convertis par Excel. Par exemple, 2310009E13 devient 2.31E+13. De nombreux fichiers Excel liés à des publications scientifiques sont touchés par ces problèmes, faussant ainsi les données proposées par les chercheurs.
Ces documents étant massivement réemployés par la communauté scientifique, ces erreurs se diffusent. Un nettoyage des fichiers Excel en circulation et une meilleure formation des utilisateurs seront requis pour éliminer ce problème, qui atteint aujourd’hui une ampleur inédite. Une suite de scripts Bash est proposée sur SourceForge.net afin d’aider à détecter les erreurs dans les noms de gènes présents au sein de fichiers Excel.
O_O