Quelle est la valeur d'une donnée ?

 
Quand on entend quelqu’un parler de business intelligence et que ses yeux brillent de mille feux quand il évoque les résultats obtenus, on comprend que cette « intelligence » génère de la valeur. On part en général du principe que les données sous-jacentes sont disponibles, centralisées, normalisées et surtout qu’elles sont bonnes ! De la bonne grosse donnée, bien riche en information, évidemment à forte valeur ajoutée et recélant son lot d’opportunités cachées qui ne demanderaient qu’à jaillir si on prenait la peine de gratter.
 
Mais qu’en est-il vraiment ? Est-ce qu’on ne se fait pas de fausses idées quant à la nature réelle des données ? Sait-on seulement ce que de la « bonne donnée » veut dire ? Est-ce qu’une bonne donnée génère tout le temps de la valeur ? De quelle valeur on parle ? En quoi une donnée peut-elle être considérée comme bonne au temps T et moins bonne au temps T+1 ? Et peut-elle redevenir bonne au temps T+2 ? Ou n’est-elle bonne qu’une fois combinée à une autre donnée ? Du coup, faut collecter quoi ? Et garder quoi ? Pendant combien de temps ? Où et comment ? Que de questions …
 
A priori d’aucun dirait que si une donnée permet à un quidam d’éviter une voiture au temps T, la donnée (et l’information qui en résulte) est considérée par ledit quidam comme bonne. Mais si la même donnée (ou information) lui parvient une seconde après l’impact avec la voiture, elle aura forcément moins de valeur à ses yeux. Simple, non ? Donc, si on suit ce raisonnement, la valeur d’une information varierait en fonction du temps. Et donc la valeur de la donnée aussi ! CQFD, non ?
 
Pas exactement. En fait la donnée et l’information ne sont pas la même chose : la seconde est fonction (parfois complexe) de la première. Ainsi l’information, aussi pertinente soit-elle au temps T, est toujours issue d’une ou plusieurs données (plus ou moins raffinées, plus ou moins traitées) qui ont été collectées opportunément à cet effet. Mais du coup, comment reconnaître les données qui ont ou pourraient avoir de la valeur un jour, de celles qui n’en auront jamais ?
 
Avant tout il faut se mettre d’accord sur ce qu’est une donnée, dans quelle mesure elle peut s’avérer « bonne », et surtout quand. De là il devient aisé de discriminer une donnée « bonne » d’une qui ne le serait pas, et de mettre en place une stratégie adaptée aux besoins de sa collecte spécifique. Si tout se passe comme prévu, il sera alors possible de résoudre ce défi considérable, en limitant les données à stocker tout en améliorant de façon significative la qualité des indicateurs qui en résultent. Efficient et élégant. Imparable !
 

Définir ce qu’est la bonne donnée

Commençons par la donnée elle-même (avant de se pencher sur sa qualité). Il y a mille façons de définir ce qu’elle est. L’une d’elles consiste à différencier la donnée en fonction de sa valeur: court-terme ou long-terme. Les données avec une valeur court-terme vous permettent de répondre rapidement aux questions posées en utilisant directement lesdites données, sans autre forme. Vous les collectez, vous les utilisez, vous avez la réponse. Et vous passez à autre chose. Prises une à une, chacune de ces données à valeur court-terme n’apporte qu’une vue parcellaire de la réalité, mais qui répond utilement à un besoin posé sur le moment.
 
Prises dans leur ensemble, toutes ces données à valeur court-terme disposent d’un potentiel de valeur énorme car elles peuvent vous permettre de réellement mieux appréhender votre réalité. On parle alors de données à valeur long-terme. Avec elles, vous pouvez prévoir les changements saisonniers importants et les anticiper, ce qui pourrait avoir un impact non négligeable sur votre stock et vos ventes. Vous pouvez déceler des risques liés à la météo ou aux changements géopolitiques dans votre chaîne d’approvisionnement, ce qui pourrait vous éviter des surprises. Ou vous pouvez analyser et comprendre comment la mobilité affecte les habitudes d’achat de vos clients, ce qui pourrait vous éviter bien des désagréments. Pour autant que vous ayez eu le réflexe de capturer les bonnes données quand l’opportunité se présentait, les données à valeur long-terme peuvent se révéler très puissantes quand on sait les manier.
 
Une autre façon de voir les choses est de considérer la façon dont cette donnée est utilisée dans votre organisation. Ainsi la donnée peut être directement utilisée dans des systèmes capables de d’agir de façon automatisée ou elle peut être mise à disposition de personnes qui pourront ensuite décider et agir en toute connaissance de cause (ce qui n’aurait pas été possible sans ladite donnée).
 
On parle de données à valeur indirecte quand ces données sont utilisées pour influencer les décisions des personnes ou pour améliorer des processus opérationnels. Un bon exemple est la gestion du risque dans les banques ou les assurances. Dans les deux cas, les données sont utilisées pour influencer les décisions des personnes ET pour améliorer des processus opérationnels.
 
Les données à valeur indirecte constituent depuis très longtemps le cœur des données. Des professions entières se sont construites autour: comptabilité, modélisation des risques actuariels, conception expérimentale en recherche médicale, etc. À plus petite échelle, vous pourriez avoir utilisé des données pour générer des rapports ou des visualisations interactives. Tous ces cas d’usage et tant d’autres similaires utilisent tous des données à valeur indirecte. Car dans tous les cas, ceux qui vont intégrer l’information présentée vont l’intégrer dans leur prochaine action. Que ce soit une action contenant ladite information ou une action la rejetant expressément, ils seront influencés. Et cette influence génère en règle générale de la valeur. Indirectement.
 
A contrario les données à valeur directe sont des données qui vont directement influencer les systèmes opérationnels. Les systèmes de recommandation NetFlix, Amazon, Facebook and Co. sont de parfaits exemples de systèmes utilisant des données à valeur directe : les choix des premiers utilisateurs peuvent influer le choix des suivants. La question à plusieurs milliards est : quand cette influence aura-t-elle lieu ? Et son corollaire : quelle sera son amplitude et pourrai-je en tirer parti ? A voir le succès de certains réseaux, il semblerait bien que des gens aient compris comment faire…
 
L’usage de données à valeur directe induit une délégation de la décision d’action aux systèmes dits « data driven » (ou pilotés par les données). Un excellent exemple de business utilisant des données à valeur directe est le monde du trading à haute fréquence: les données – ici les ordres d’achat ou de vente – viennent influencer le transport et la livraison de la ressource, à savoir principalement de l’argent. Dans d’autres industries (pensez Walmart, Amazon, Alibaba, et tant d’autres…), les biens physiques sont acheminés automatiquement en fonction des données des commandes payées. Ce qui est vrai par ailleurs pour le routage des biens physiques est vrai pour le routage virtuel: les médias numériques des entreprises comme Netflix ou Comcast utilisent des pipelines automatisés pour optimiser la livraison de contenu numérique à leurs clients. Et que dire des avions, bateaux, voitures, trains qui disposent tous de systèmes qui décident et agissent à notre place, ne serait-ce que les freins ABS. Bref, vous l’aurez compris, des données à valeur directe, ce n’est pas cela qui manque et savoir les exploiter peut générer un fort ROI.
 
On peut aussi voir les choses autrement et ne considérer que seules les données qui génèrent de la croissance sont de « bonnes » données. Générer de la croissance, c’est exploiter et apporter de la valeur à la partie non encore desservie de votre marché. Les bonnes données devraient alimenter plusieurs indicateurs clé de performance (KPI) concis et précis. Ces KPI devraient pouvoir décrire votre réalité et prédire une situation, devraient être actionnables et devraient mesurer l’impact de votre action. Yapluka, ajouterai-je !
 

Mais quelle donnée garder ?

Alors comment s’y prendre ? Données court-terme ou long-terme, à valeur directe ou indirecte, uniquement générant de la croissance, comment s’y retrouver ? En théorie, c’est relativement simple : d’abord bien comprendre quelle est la nature des données nécessaires à votre activité et au pilotage de cette dernière. Une fois identifiée, il s’agit de filtrer les données en fonction et de les enrichir avec de la méta-information (histoire de comprendre le contexte). Puis il faut comprendre et apprendre à anticiper. Et enfin alimenter les indicateurs en bout de chaîne, tout en laissant aux experts métier un accès aux données normalisées pour faciliter l’émergence de nouvelles idées (car il est toujours sain de se rappeler que personne n’a la science infuse et que les meilleures idées proviennent toujours des gens du terrain).
 
Mais prudence ! Sans stratégie ni gouvernance, ce type de projet comporte un risque très significatif de produire des résultats négatifs ou faussement positifs ou pire, ambigus. Ainsi pour collecter et traiter de la donnée à valeur directe, il est absolument nécessaire de maîtriser les mécanismes qui sous-tendent les données à valeur indirecte. Dans les premiers temps la donnée doit être supervisée par l’humain, histoire de s’assurer qu’elle reste cohérente (et interprétable). Puis au fur et à mesure de la compréhension de ce qu’il y a « dans » les données, des filtres automatisés pourront prendre le relais. Dans tous les cas, il n’est pas recommandé d’injecter de la donnée à valeur direct dans des systèmes automatisés sans s’être préalablement assuré de sa qualité.
 
D’où l’importance de bien comprendre de quoi il s’agit et d’en garder la maîtrise. Si le risque de se perdre dans des raisonnements circulaires (ou tautologiques) est grand, celui de ne pas s’en rendre compte l’est encore plus. Cela conduit à des prises de décision effectuée sur la base de données erronées ou incomplètes. Ce qui peut affecter la pérennité de n’importe quelle entreprise (rappelez-vous KODAK et sa difficile transition vers le numérique). Dans ce genre d’exercice, il est absolument nécessaire de bien savoir interpréter ce qui est remonté. Aussi le meilleur conseil est de s’appuyer sur des professionnels de la donnée pour vous accompagner.

 

KABE

Vos données ont de la valeur !

La Data Intelligence est destinée aux gestionnaires, décideurs et dirigeants d’entreprise. Il s’agit de la mise en œuvre des moyens, outils et méthodes destinés à fournir l’information utile pour décider et agir en toute connaissance de cause. Mettez-toutes les chances de votre côté en vous appuyant sur des professionnels de la donnée.

Les experts CALYPS sont là pour vous aider