Maîtriser la donnée change la donne

 
C’est en général une fois exposé au feu ennemi qu’on se rend compte si on est préparé ou pas. Et c’est vrai aussi pour un projet d’Intelligence Artificielle (ou IA) : ce n’est qu’une fois qu’il est lancé qu’on se rend compte si la donnée est bonne, si les contraintes sont maîtrisées et/ou si tous les facteurs influant sont inclus.
 
Chez CALYPS, cela fait maintenant plus de 2 ans que nous avons commencé notre périple dans le monde fascinant de l’IA. Ce que nous considérions comme une expérimentation toute au plus exploratoire dans les premiers temps est vite devenue un projet à part entière, puis un pilier de notre activité principale.
 
Cependant, force est de constater que pareille aventure ne se fait pas sans un minimum de préparation et surtout sans prendre en considération tous les aspects de la problématique : « pondre » un algorithme qui s’acquittera de sa tâche avec plus ou moins de bonheur en fonction des données qui l’alimenteront n’est étonnamment pas la partie la plus compliquée à résoudre, loin s’en faut. En réalité, si la collecte et la préparation de la donnée s’avère plus difficile qu’on pourrait s’y attendre, la traduction des résultats en information utile l’est plus encore.
 

Collecter la donnée

Commençons par la collecte de la donnée : cette étape, triviale s’il en est, est déjà en soi un défi à part entière. Il s’agit notamment d’identifier les sources sensées répondre aux besoins et de s’assurer que lesdites sources acceptent de jouer leur rôle (à savoir fournir de la donnée selon des termes définis), et ce de façon répétée, régulière et cadrée.
 
Mais accéder aux données requises n’est pas une mince affaire : les sources sont multiples, hétérogènes et bien souvent inaccessibles au commun des mortels. Nonobstant les contraintes techniques qui ne manqueront pas de se rappeler à votre bon souvenir, les contraintes liées à la propriété et/ou aux contraintes légales et/ou celles liées à l’éthique peuvent rapidement vous obliger à réviser vos ambitions et à reconsidérer votre approche. Bien des projets IA buttent sur cette première difficulté et n’arrivent pas à se concrétiser, faute de données accessibles.
 

RETROUVEZ-NOUS AU DATATRENDS 2019

le 19 novembre 2019 au SwissTech Convention Center

Lors de cette 2ème édition de DataTrends, le Groupe T2i, IBM et CALYPS partageront leur vision des technologies data actuelles et futures. Dans ce cadre, CALYPS expliquera comment l’intelligence artificielle aide l’hôpital à anticiper les admissions, les sorties, les hospitalisations sans subir les pics.

Datatrends 2019
Datatrends 2019

Préparer la donnée

Mais allons un cran plus loin : imaginons que vous collectiez des données, et ce de façon régulière et constante (ce qui est déjà une gagure). Il vous faut maintenant vous assurer qu’elles sont dans un état exploitable par votre IA. Ainsi la préparation des données est une étape incontournable qui vous conduira à bien des déconvenues, voire des déceptions si vous la négligez. Outre la qualité qui n’est jamais garantie et qui impactera fortement la pertinence des résultats calculés par votre IA, la cohérence et la consistance des données collectées devront être vérifiées, et ce tout au long du processus.
 
La plupart du temps, elles sont brutes de décoffrage, souvent mal formatées, parfois erronées, quelques fois incohérentes et, hélas, rarement consistantes sur la durée. Trier, nettoyer, compléter, réconcilier, consolider, filtrer : telles sont les tâches (souvent ingrates, car Murphy n’est jamais loin) qui vous attendent et qui accapareront une (trop) grande partie de votre attention. Bien des projets IA s’arrêtent à cette étape, simplement parce que la matière première nécessaire à leur exploitation n’est pas à la hauteur des ambitions.
 

Mesurer les résultats

Vous voilà maintenant avec des données collectées régulièrement, de qualité, consistantes et cohérentes. A ce stade, vous pouvez vous estimer heureux, car ce n’est pas le cas de tout le monde. Votre (ou vos) data scientist est sur le pied de guerre et affine ses algorithmes au fur et à mesure des besoins de votre IA. Tout les signaux sont au vert, votre IA va commencer à produire des résultats et, si tout est correct, ces derniers vont probablement vous surprendre, voire vous décevoir (qui sait). Par contre, s’ils sont trop bons, méfiez-vous et demandez-vous pourquoi se satané Murphy s’acharne à se rappeler à votre bon souvenir. Néanmoins, vous avez maintenant des résultats et c’est une bonne chose. Il vous faut les traduire en information à valeur ajoutée et, si possible, utile (quant à faire) pour l’utilisateur final.
 
Indépendamment du sujet de la question auquelle votre IA tente de trouver une réponse, la problématique de la pertinence de ladite réponse est loin d’être une sinécure: si elle n’est pas au rendez-vous, il n’y a guère de chance pour que la confiance de l’utilisateur final y soit aussi. Et c’est clé : sans pertinence, votre IA ne sera pas utilisée ou pire, elle le sera au départ et rapidement mise de côté, faute d’utilité avérée. Pour éviter de tomber dans cette situation, il est impératif que chacune des prédictions que votre IA produira soit mesurée face aux réalités du terrain et confrontée aux contraintes du contexte de votre activité.
 
Dans tous les cas vous devrez être capable de comprendre les facteurs qui ont amené votre IA à produire cette prédiction (plutôt qu’une autre) et, si nécessaire, il vous faudra aussi expliquer pourquoi elle dévie (ou pas) des attentes. Immanquablement on en revient à votre capacité effective de collecter de la donnée fiable. Sans elle, impossible de fermer la boucle et de permettre à votre IA d’apprendre. Sans elle, impossible pour vous de mesurer la pertinence des prédictions de votre IA. Sans elle, impossible d’imaginer simplement faire de l’IA.
 

La donnée : matière première de CALAI

Chez CALYPS, nous faisons de l’IA appliquée au monde de la santé, et plus spécialement à l’optimisation des flux du patient. Notre IA (nom de code CALAI) est en activement utilisée et produit des résultats utiles, ce dont nous sommes très fiers. Bien entendu nous sommes tous les jours confrontés aux défis évoqués ci-dessus. Nous avons dû apprendre à les maîtriser et à gérer toutes les « exceptions » (pour rester poli) que nos sources ne manquent pas de générer, jour après jour. Ce qui a accru notre experience en la matière, ainsi que notre savoir-faire, et nous a appris une leçon : si la « data is the new oil », alors sa maîtrise est LA condition sine qua non pour faire de l’intelligence artificielle autre chose qu’un gadget sympathique.
 
CALAI est loin d’être un gadget. Avec cette IA, notre ambition n’est pas tant de changer le monde, mais plus humblement d’aider l’hôpital à devenir plus coordonné, plus fluide et plus efficient. Dans ce cadre, maîtriser la donnée n’est pas un luxe, bien au contraire : c’est une contrainte de survie à laquelle nous ne pouvons simplement pas déroger, surtout si nous voulons que CALAI puisse accomplir sa mission et nous aider à atteindre nos objectifs.
 
Si vous voulez en savoir plus ou simplement voir CALAI en action, venez nous rejoindre au DataTrends 2019 !
 
KABE

Vos données ont de la valeur !

La Data Intelligence est destinée aux gestionnaires, décideurs et dirigeants d’entreprise. Il s’agit de la mise en œuvre des moyens, outils et méthodes destinés à fournir l’information utile pour décider et agir en toute connaissance de cause. Mettez-toutes les chances de votre côté en vous appuyant sur des professionnels de la donnée.

Les experts CALYPS sont là pour vous aider