Articles

Evaluer la dynamique de son Domaine d’Intérêt

,

En amont de la plénière de novembre 2021, l’équipe Craft a organisé 2 ateliers thématiques : l’un axé sur la mesure de la dynamique des données, le second sur la qualité des données. Retour sur le 1e atelier : « Evaluer la dynamique de son Domaine d’Intérêt par des indicateurs ».

 

La réflexion proposée aux participants à ce premier atelier était de coconcevoir les futurs indicateurs de volume et d’activité, en se basant sur :

  • Des données historiques,
  • Des données cumulées sur une période choisie

… sur 3 types de médias

  • L’extranet Craft
  • Les sites web appelant les Widgets
  • Les applications web utilisant l’API

En complément de la réflexion initiale de l’équipe Craft sur les indicateurs à implémenter, et des demandes déjà émises par différents partenaires cet atelier a permis de dégager un certain nombre de besoins.

 

Retour sur les échanges & réflexions

Tableau blanc

Pour les outils de valorisation des données (API, Widgets), on note une demande importante d’indicateurs autour de la valorisation de la donnée :

  • Nombre de consultations, de demande de créations, modifications et mise en relation
  • Critères de recherche les plus fréquents
  • Nombre de fiches « valorisables » : combien de fois mes fiches sont valorisées et sur quels outils /où ?
  • Nombre de consultations par langue (Fr, En)

À la différence, quand il s’agit des indicateurs de la plateforme Craft, les demandes se portent surtout sur des indicateurs de suivi et d’activité des utilisateurs :

  • Nombre de connexions
  • Nombre de contributeurs à la plateforme, nombre de contributeurs actifs sur son DI
  • Nombre de fiches mises à jour, les 5 champs les plus régulièrement mis à jour par DI
  • Dernières mises à jour

Une différenciation est toutefois à faire entre les indicateurs que les applications web (Plug in Labs, portail CMM…) peuvent fournir et ceux de Craft.

 

Une demande importante a également été faite autour d’indicateurs de complétude :

  • Complétude des champs
  • Niveau de remplissage par DI
  • Volume du type de données disponibles EN vs FR
  • Analyse des fiches par critères, indicateur d’analyse de contenu d’un champ (ex : participation à un projet UE : oui /non)

Plus d’information sur les indicateurs de qualité : Connaitre et maintenir la qualité de ses données

 

Enfin, deux autres demandes, en marge de notre étude, ont été formulées :

  • Savoir qui consulte des fiches sur les sites. Pour ceux utilisant des API, ce point est sous le contrôle de l’application Web et des outils d’analyse intégrés (Analytics). Pour les Widgets, ceci reste à étudier, dans le respect de la confidentialité indispensable (RGPD).
  • Être en mesure de relancer automatiquement l’administrateur du domaine dans Craft, d’une mise à jour non effectuée par exemple. Ceci sera fait dans le cas de widgets, indirectement, en informant l’utilisateur d’un widget de l’état de traitement de sa demande.

 

Cet atelier a été riche d’enseignements et a permis à de compléter les réflexions en cours, grâce à des échanges fructueux ! Toute l’équipe remercie les participants et s’occupe de la mise en application des demandes.

 

 

Connaitre et maintenir la qualité de ses données

,

L’équipe Craft a organisé en novembre 2021 un atelier sur la qualité des données.
Cet atelier s’appuyait sur la restitution du travail d’Elouan Girot, stagiaire en licence MIASHS, sur la « qualité des données » dans Craft. Il a permis de définir et d’identifier des indicateurs génériques de qualité pour les Domaines d’Intérêt, de calculer avec des outils statistiques (R) ces indicateurs et de programmer un outil de visualisation et de suivi en temps réel de ces indicateurs.

Pour ce travail, Elouan s’est appuyé sur les indicateurs de la thèse de Ion George Todoran sur la dynamique de la qualité de l’information et des données d’un système d’information complexe (Etude Performance et fiabilité. Télécom Bretagne ; Université de Rennes1,
2014
). Les indicateurs sont :

  • Qualité « système » : temps d’accès, sécurité, disponibilité de la plateforme …
  • Qualité de « structuration » : présence d’une Chaine de valeur, présence d’infobulles, traduction des champs…
  • Qualité des « données et valeurs » : les champs sont-ils remplis, comportent-ils des données aberrantes, niveau de confiance …

Nous nous sommes intéressés aux 2 derniers types d’indicateurs. En allant dans le détail, nous pouvons préciser :

  • Données et valeurs :
    • Complétude : indicateur qui mesure la quantité/le pourcentage de valeurs manquantes pour chaque champ
    • Précision : indicateur qui mesure le degré de précision que l’on observe dans la saisie des données. Il vérifie notamment la présence éventuelle de valeurs aberrantes
    • Obsolescence / fraicheur des données : indicateur qui s’intéresse à la distribution des entités selon le champ « date de dernière modification »
  • Structuration :
    • Coût descriptif : c’est le rapport entre le nombre de champs d’un DI, et le nombre d’entités de ce DI. Un faible nombre de champs pour un grand nombre d’entités se traduit par un coût descriptif faible. L’entrée d’un nouvel acteur se fait rapidement et favorise la dynamique du DI. Inversement, un grand nombre de champs pour peu d’entités indique un coût descriptif fort, il faut structurer énormément pour un parc d’acteurs réduit. Il faudra donc se poser la question de la rationalité et de l’exploitation de ces données (faut-il passer plus de temps à renseigner ou à exploiter/valoriser ?)
    • Unicité descriptive : indicateur qui s’intéresse au nombre de champs uniques (non présent dans d’autres DI) par rapport au nombre total de champs de ce DI. Plus ce pourcentage est élevé, meilleure est la qualité des données. Inversement une unicité descriptive faible inique que les champs du DI sont déjà présents ailleurs (dans d’autres DI ou dans les Champs Communs). Il faudra donc s’interroger sur l’intérêt de « recréer » ces champs dans le DI alors qu’ils existent ailleurs.
    • Ambiguïté potentielle / taux de liberté descriptive : indicateur qui s’intéresse au nombre de champs de texte libre par rapport au nombre total de champs du DI. Ainsi, les champs de texte libre permettent une grande liberté d’expression et donc de capter les spécificités et subtilités des compétences des acteurs. Mais cela peut complexifier les actions de classifications et de segmentation. Et donc de valorisation.

L’intérêt de cette démarche est bien de nous questionner sur les champs et les types d’informations que l’on collecte dans nos Domaines d’Intérêt et d’identifier des pistes d’amélioration.

Plus d’information sur les indicateurs de suivi de son Domaine d’Intérêt : Evaluer la dynamique de son Domaine d’Intérêt

Le calcul de ces indicateurs doit être réalisé à différentes échelles pour être pertinent. Nous avons donc distingué :

  • gros grain : calcul à l’échelle du DI : notamment au niveau de l’ensemble des Champs Communs
  • grain moyen : calcul par bloc de données
  • grain fin : calcul d’indicateurs au niveau de chaque champs.

Indicateurs

A partir de cette première analyse, Elouan a pu calculer ces indicateurs pour quelques DI et proposer un tableau de bord interactif grâce à une API de Craft et une interface de visualisation sous Shiny :

Ce tableau de bord est encore au stade expérimental et nous cherchons des partenaires susceptibles de tester et travailler avec nous sur ce sujet. N’hésitez pas à revenir vers nous pour prolonger cette façon originale de voyager dans vos données !