Demain je suis malade !

 
Cette boutade, prononcée un nombre incalculable de fois par vos collègues farceurs (ou démissionnaires), résume une problématique clé lors du déploiement d’un système prédictif en milieu professionnel.
 
En effet, imaginez que l’on puisse à l’avance vous annoncer le nombre de dossiers qui vont s’empiler sur votre bureau ou le nombre de cafés nécessaires pour absorber la charge de travail dans les prochains jours. Plus encore, le temps que vous allez passer à traiter cette pile qui chatouille le plafond ou que vous allez « whatsapper » votre moitié pour repousser le resto St-Valentin. Comment réagiriez-vous ?
Cette éventualité est tout aussi alléchante qu’anxiogène. Si je sais, alors je peux anticiper ! Oui mais dans quel sens ? Je peux soit me préparer psychologiquement et assurer mes arrières, soit je peux choisir d’être malade demain. Cette parabole révèle un paradoxe que nous appellerons l’appréhension du future annoncé : « vous allez vous faire renverser par une moto demain car vous traverserez avec le nez sur TikTok ». Il est peu probable que vous acceptiez ce destin qui vous qualifierait pour les Darwin Awards, et a priori vous allez agir en conséquence. Dans la situation inverse où « votre journée sera sans accros demain, soyez heureux ! », il n’est pas impossible que la moto soit de la partie et que l’annonce ait alimenté votre appétit pour le risque au croisement. Comme quoi, tout dépend de vous au final, non ?
 
Alors comment contourner ces biais psychologiques (très humains somme toute) sans tomber dans la crainte perpétuelle du pire ?
 

Le système prédictif

Tout d’abord, rappelons qu’un système prédictif n’est pas Prolix le Devin. En effet, tout comme notre cerveau il a besoin qu’on lui enseigne, qu’on lui fasse palper la réalité, qu’on développe son expérience pour éveiller une intuition numérique. A ces fins, un algorithme est abreuvé de données historiques suffisamment fraiches pour refléter la situation actuelle. On peut parler de compromis « volume/pertinence ». La procédure est alors toujours la même :
système prédictif
Merci à René Goscinny et Albert Uderzo
1. On entraine le système à reproduire la réalité passée en lui fournissant la bonne réponse, à savoir ce qui s’est effectivement déroulé.
 
2. Lorsque qu’il s’est construit une représentation adéquate, on lui cache la réponse et on observe la véracité des prédictions sur de nouvelles données.
 
3. La dernière étape est de lâcher la bête en situation réelle (c’est-à-dire en production) : par exemple les données d’aujourd’hui sont utilisées pour prédire demain. Il faudra alors attendre 24h pour juger de la performance.
Aussi avancé soit-il, l’algorithme n’en restera pas moins un outil statistique, alimenté par des données réelles et donc imparfaites. En clair, toute prédiction doit être accompagnée de sa marge d’erreur qui reflète le degré d’incertitude quant aux chiffres annoncés :  « demain il fera 2°C ± 10°C » ne vous aidera pas à choisir vos vêtements alors que « demain il fera 2°C ± 1°C » va vous permettre de préparer la doudoune. En plus de l’incertitude, il est bon de fournir un indice de confiance qui (comme son nom l’indique) va développer l’adhésion de l’utilisateur. Prenons encore la météo « demain il va neiger avec un indice de confiance 4/5  » : cela vous montre que lorsque nous prédisons de la neige (incertitude comprise), nous tombons juste 4 fois sur 5. A vous ensuite de décider si vous suivez ou pas. Nous en revenons alors au débat initial.
 
Les Réseaux de Neurones Artificiels (le Deep Learning) permettent d’atteindre des niveaux de performance inégalés dans quasi tous les domaines d’application du Machine Learning et en particulier pour prédire le futur à partir du passé et du présent. On parle dans le jargon de Prévisions de Séries Temporelles comme par exemple (tenter de) prédire l’évolution du cours du Bitcoin. Mais alors pourquoi ne pouvons-nous pas prédire les résultats de l’EuroMillions avec un tel outil ? Eh bien simplement parce que la machine qui tire les numéros est conçue pour générer des données qui sont intrinsèquement imprévisibles. Tout est mis en œuvre pour que le tirage d’un numéro soit totalement indépendant du tirage des numéros précédents. Alors oui, même si le 11 n’est pas sorti depuis longtemps, vous ne saurez jamais quand il réapparaitra.
 
Il se trouve que pour la plupart des environnements qui impliquent des êtres humains, il existe des motifs plus ou moins complexes qui se répètent au cours du temps. En statistiques, on parle de « saisonnalité » journalière, hebdomadaire, mensuelle, annuelle, etc. Sans forcément vous en rendre compte , vos actions et interactions se répètent d’une semaine sur l’autre avec évidement des variations (mais pas tant que ça). Prenons l’exemple du service des urgences d’un hôpital : au cours d’une journée normale, les patients arrivent de manière apparemment aléatoire, mais avec des tendances. En effet, typiquement l’affluence globale est plus grande le matin ou en fin de journée. Il y a certains jours de la semaine où les flux sont plus importants l’après-midi, des jours du mois avec des évènements spécifiques qui impactent les admissions et quand arrive l’hiver, les maladies saisonnières viennent changer la donne.
 
L’être humain développe rapidement une intuition qualitative dans son environnement qui prend en général peu, voire un seul facteur en compte. C’est pour cela que l’on se trompe finalement très souvent dans nos prédictions :  « il a plu les deux derniers jours… Oh ben demain il va faire beau! ». La beauté d’un algorithme de Machine Learning d’un système prédictif est d’être capable de confronter la vision qualitative de l’être humain à une prédiction quantitative. Et cela en prenant en compte autant de facteurs qu’on le souhaite. Le Deep Learning, bien que plus gourmand en données et en temps de calcul, permet en plus de recroiser automatiquement tous ces facteurs et de trouver des liens non triviaux et parfois contre-intuitifs. Il comprend souvent mieux son bout de réalité que l’être humain qui le programme.
 
Toutefois il y a un seuil de précision qui ne peut pas être surpassé. Selon la qualité des données et le degré de chaos de l’environnement qu’elles traduisent, chaque signal possède son bruit ou (autrement dit) son « degré de Loterie » qui est, vous l’aurez compris, imprévisible. C’est justement ce qui rend les prédictions de valeurs boursières si difficiles: elles sont trop variables et dans ce cas, on parle alors de volatilité.
 
Résumons-nous: un système prédictif est caractérisé par :
• une performance de prédiction sur les données passées
• une performance en production (dans la vraie vie)
• une incertitude sur les prédictions
• un indice de confiance basé sur les prédictions depuis la mise en production
• une précision globale limite imposée par les données (<100%).
 
Comme vous l’aurez compris, on regarde d’abord si on peut faire confiance. Puis on prend les prévisions avec des pincettes et on prévoit une marge de manœuvre. La clef, lorsque des humains sont dans la chaine, est d’informer sans imposer : la machine assiste, mais ne décide pas. C’est le professionnel qui s’organise autour des chiffres qu’il reçoit. Mais alors comment contourner l’effet « demain, je suis malade » ? Eh bien simplement sous l’effet de la modération par la foule. Chacun doit avoir accès au même niveau d’information et les décisions sont prises de manière collégiale à niveau hiérarchique égal : ainsi les prévisions sont accessibles à tout ce qui modère les comportements individualistes.
 
Chez Calyps nous avons nativement intégré cette vision dans notre module de prévision des flux aux urgences, et ce en partenariat étroit avec les professionnels de santé. Nous fournissons des systèmes prédictifs pertinents qui résolvent des problèmes tangibles formulés par le terrain.
 

Vos données ont de la valeur !

La Data Intelligence est destinée aux gestionnaires, décideurs et dirigeants d’entreprise. Il s’agit de la mise en œuvre des moyens, outils et méthodes destinés à fournir l’information utile pour décider et agir en toute connaissance de cause. Mettez-toutes les chances de votre côté en vous appuyant sur des professionnels de la donnée.

Les experts CALYPS sont là pour vous aider