Par Juan Pablo Marín Díaz, Data Scientist chez Datasketch
Le big data est à la mode dans tous les secteurs, et le journalisme ne fait pas exception. Les Panama Papers, et le prix Pulitzer que l’équipe derrière le projet a remporté, ont prouvé que la technologie, la collaboration et l’utilisation de données pouvaient permettre de créer des récits journalistiques impactants.
L’un des premiers défis à relever est celui de la démystification du big data. Il faut révéler ce qui se cache vraiment derrière ce mot lorsque l’on parle d’investiguer avec de la donnée.
Dans le cas des Panama Papers, le volume total de données ayant fuité représentait environ 2.6 téraoctets (soit 2 600 Go). Cependant, seuls 22 mégaoctets sont arrivés jusqu’à la base de donnée finale qui a été utilisée dans la plupart des publications. Pour mettre ces chiffres en perspective, imaginons qu’un mégaoctet corresponde à un centime d’euro ; un téraoctet serait alors l’équivalent de 10 000 euros. Dès lors, sur les 26 000 euros d’informations disponibles, seuls 22 centimes ont été utilisés dans la base de données. Cela signifie qu’une partie colossale de l’information n’a pas été utilisée.
Faire des révélations nécessite de croiser de multiples sources d’informations et de les réorganiser en sous-catégories pour élaborer une histoire. Dans n’importe quel récit qui repose sur de la donnée, chaque source pourrait déboucher sur une histoire unique. C’est la raison pour laquelle, bien que le journalisme puisse bénéficier d’outils d’analyse du big data, il reste difficile de se reposer sur de telles technologies pour soutenir l’évolution d’un data-journalisme éclairé.
L’avènement du « big small data »
Quelle taille fait le big data ? Cela dépend à qui l’on pose la question. Pour certains, la data est dite « big » dès qu’elle dépasse un téraoctet (l’équivalent de 2 millions de photos).
Juan Pablo Marín Díaz, auteur originel de ce billet, préfère utiliser une échelle plus pragmatique :
« Le big data, c’est tout ce qui ne rentre pas dans une feuille de tableur. »
Comme exprimé plus haut, même dans des affaires d'envergure comme les Panama Papers, la donnée finale qui est utilisée pour construire des récits est en réalité un ensemble de petits jeux de données. Car les humains ne peuvent digérer que des informations qui sont accessibles, triées et informatives : peu importe le volume de données que vous mobilisez pour votre article, vous finirez avec de multiples jeux de données de taille réduite.
Ne nous leurrons pas : le big data, c’est pour les machines. Plutôt que de nous concentrer sur ces jeux de données massifs, nous devons, en tant que journalistes, nous employer à maîtriser de petits jeux de données, c’est-à-dire quelques feuilles de calcul qui agrègent au maximum quelques milliers d’informations brutes. Cette école de pensée qui considère que le big data est l'affaire de machines alors que la small data, elle, concerne bien les humains a d’abord été initiée par Allen Bonde, directeur adjoint du marketing chez Repsly.
De nombreux journalistes manquent encore de moyens pour trouver et collecter facilement ces petits jeux de données, et de méthodes pour les explorer et les combiner afin de les mettre en récit.
Collecter de la small data
- data.world est une bonne adresse pour trouver des jeux de « small data ». Ils utilisent des technologies de web sémantique et leur communauté met des jeux de données à la disposition de tous dans différents formats accompagnés d’outils de visualisation pour les analyser.
- Le site Statista collecte des millions de statistiques à propos de différents projets, et est particulièrement utile pour visualiser des marchés ou des tendances business.
Par ailleurs, faire des recherches du côté de la donnée traitée et organisée par des citoyens est une manière innovante d’améliorer sa collecte de small data. Cette « small data citoyenne » est très puissante pour engager les lecteurs et trouver des sujets d’articles intéressants. Un nombre croissant de citoyens utilisent les réseaux sociaux pour publier des données factuelles sur différents sujets qui leur tiennent à cœur.
Distribución de la población condenada y privada de la libertad
según modalidad delictiva (2016) pic.twitter.com/ZdrlPTLY6x— Alejandro Peláez (@apelaez1) 18 mars 2017
Combiner des jeux de small data
- Concernant le croisement de small data, pour un article, la meilleure façon de procéder consiste à utiliser des outils de visualisation comme datawrapper ou flourish.
- Il existe aussi Figshare, un outil originellement conçu pour permettre aux scientifiques de partager de la donnée et des graphiques, et qui intègre désormais de nombreuses informations utiles à n’importe quel chercheur.
- Enfin, n’hésitez pas à explorer le portail de ressources pour le data-journalisme en Amérique Latine : Datasketch, qui aide les journalistes à tirer profit de la donnée en leur fournissant des outils simples pour améliorer leur storytelling.
Utiliser la small data pour créer des récits impactants
Maîtriser l’utilisation de la donnée peut ouvrir la porte à de nouvelles formes innovantes de journalisme qui offrent des résultats tangibles. L’année dernière, la collaboration de journalistes de Datasketch avec un utilisateur de Twitter qui avait collecté des informations sur les féminicides a par exemple débouché sur un rapport concernant les violences faites aux femmes en Colombie.
Ensemble, ils ont construit la base de données la plus exhaustive sur les féminicides en Colombie à partir de différentes sources comme le droit d'accès à l'information. Ils ont notamment utilisé la plateforme QueremosDatos, des jeux de données qu’ils ont eux-mêmes constitués et des enquêtes en ligne.
Le résultat a permis de réaliser le rapport final, qui rend accessible en ligne une trentaine de jeux de small data. Mais ce travail n’a pas seulement permis de raconter l’histoire de ces violences, il a aussi contribué à faire émerger des solutions. La donnée collectée a ainsi servi à interpeller le gouvernement colombien au travers d’installations physiques afin qu’il se saisisse de ce grave problème.
Cet article est tiré d’un billet originellement publié sur IJNet, il vous est présenté dans le cadre d’un partenariat éditorial entre IJNet et Méta-Media. © [2018] Tous droits réservés