Projections vs réalité : les faits

 
Après plusieurs blogs sur le sujet, il est temps de vérifier si notre module de projections concernant l’évolution du COVID-19 en Suisse a produit des résultats concrets. Comme annoncé maintes fois, la qualité de nos projections dépend de la qualité de l’échantillon de données. Dans ce cadre, nous faisons au mieux avec ce que nous pouvons collecter dans l’état actuel des choses.
 
Avec cette crise du COVID-19, pouvoir anticiper l’évolution de l’infection est essentiel, non seulement pour éviter à la population de payer un tribut trop lourd, mais aussi pour éviter l’engorgement des structures de santé dont la sollication est particulièrement forte. Anticiper, c’est être capable de se projeter : il est donc temps de montrer si nos projections COVID-19 (et non nos prédictions, distinction importante) faisaient du sens et pourquoi de tels résultats.

COVID-19 : cas reportés vs cas projetés

Avant tout, voici ci-dessous toutes les données COVID-19 reportées « officiellement » par les autorités depuis le début de cette crise. Premier constat: certains cantons se distinguent des autres et semblent bien plus impactés. Pour vous aider dans votre appréhension, cliquez sur les items de la légendes et découvrez qui est qui.
 

Nombre de cas de COVID-19 en Suisse (situation au 04.04.2020)

 
Voici maintenant nos projections d’évolution pour les prochains jours, canton par canton. Il est assez aisé de constater qu’un fléchissement des courbes est en train de se produire et que la situation semble s’améliorer. Le pic de contamination semble dont atteint pour la Suisse, ce qui nous réjouit.
 

Tendance évolutive du COVID-19 en Suisse (jusqu’au 08.04.2020)

COVID-19 : zoom sur 4 cantons représentatifs

 

Type de données

Genève

Tessin

Vaud

Zürich

Projections du 27.03 pour le 30.03 2’309 1’897 3’794 1’876
Cas reportés au 30.03.2020 2’450 1’962 3’272 1’874
Taux de précision relative 94.24 % 96.69 % 84.05 % 99.89 %

 

Type de données

Genève

Tessin

Vaud

Zürich

Projections du 29.03 pour le 02.04 2’435 2’079 5’005 2’0516
Cas reportés au 02.04.2020 2’938 2’271 3’796 2’323
Taux de précision relative 82.88 % 91.55 % 68.15 % 88.29 %

 
Globalement nos projections COVID-19 sont plutôt très bonnes (>90% de précision pour l’entier de nos projections sur l’ensemble des cantons), mais nous avons voulu montrer avec ces quatre cantons que les données peuvent varier du tout au tout quand les données sont trop disparates. Le canton de Vaud est pour le coup assez caractéristique et montre bien qu’aucun modèle n’est capable de correctement performer quand les données en amont ne sont pas toutes disponibles. Par ailleurs, autre fait intéressant, la qualité des données varie dans le temps, comme le montrent les taux de précision : le 29 mars, sur la base des données à disposition, nos modèles avaient tendance à sous ou surestimer les projections du 02 avril, ce qui ne devrait pas être le cas si tous les cantons reportaient leurs données avec précision et sans décalage dans le temps. Ceci nous enseigne deux choses essentielles: (1) ne jamais prendre pour argent comptant les informations relayées et (2) savoir garder un esprit critique (comme nous le faisons là).

COVID-19 : nos modèles

Comme vous pourrez le constater plus bas, nous faisons des projections avec plusieurs modèles. Dans ce cadre, les approches basées sur le machine learning n’ont pas de sens ici dans la mesure où (1) nous n’avons qu’un seul cycle inachevé d’épidémie avec par conséquent une profondeur historique trop faible et (2) des modèles mathématiques simples et fiables sont à notre disposition pour ce type de phénomène. Il est bon cependant de confronter plusieurs modèles et de les classer par pertinence. Nous en testons ici systématiquement quatre: 
 

– le modèle SIR
– le modèle GOMPERTZ
– le modèle POLYNOMIAL
– le modèle EXPONENTIEL

 
Au vu des données disponibles, nous constatons que le modèle exponentiel n’est plus adapté désormais et c’est un très bon signe : cela signifie que la situation a évoluée et que le pic est très vraisemblablement atteint, et ce pour tous les cantons. Les modèle d’épidémiologie SIR ainsi que la fonction de Gompertz fonctionnent quant à eux parfaitement, ce qui nous conforte dans notre analyse de la situation. Quant au modèle polynomial, il est fourni à titre indicatif car il permet de décrire des situations intermédiaires incertaines entre les modèles précédemment cités.

COVID-19 : focus sur Genève

Pour commencer, double-cliquez sur l’item « Reported » dans la légende du graphique à droite. Vous affichez maintenant les données telles que reportées par les autorités. Vous remarquerez que, si elles ne sont pas des plus régulières, elles semblent suivre une certaine courbure. Pour vous en convaincre, cliquez sur l’item « Best Model » et voyez comment la courbe du modèle le plus optimal semble suivre les données reportées. Quel est ce modèle ? Cliquez sur l’item « Gompertz model » : il semble bien meilleur (pour le moment) que le modèle SIR que vous découvrirez en cliquant sur l’item « Sir Model ». Une tendance semble donc se dégager. Quant aux modèles restant, on constate que ces derniers sont largement dépassés, dont notamment le modèle exponentiel qui montre ici toutes ses limites.
 

Tendance évolutive du COVID-19 dans le canton de Genève (04.04.2020)

 
Ce graphique nous indique : que (a) d’abord que les données COVID-19 de Genève sont relativement correctes et que le score de confiance des projections est le plus haut des trois (99.82%) ; que (b) si le modèle SIR nous indique que la courbe a tendance à s’aplanir, le modèle de Gompertz relativise la chose ; mais que (c) c’est plutôt bon signe, car cela voudrait dire que le pic de l’épidémie est passé (NB: contrairement à ce que l’on pourrait croire, le pic est atteint non pas au sommet de la courbe, mais quand la courbe commence à voir sa pente se rabaisser, ce qui semble être le cas ici); et que (d) si la crise va durer encore un peu à Genève (comme le montre le modèle optimal avec les données à ce jour), les mesures de défense (confinement & Co.) semblent toutefois fonctionner.

COVID-19 : focus sur Vaud

Double-cliquez sur l’item « Reported » dans la légende du graphique à droite. Vous affichez maintenant les données telles que reportées par les autorités. Vous remarquerez qu’elles présentent plusieurs escaliers, signe qu’elles sont de qualité variable. Cliquez sur l’item « Best Model » et voyez comment la courbe du modèle le plus optimal semble suivre les données reportées. Quel est ce modèle ? Cliquez sur l’item « Gompertz model » et remarquez comment il suit bien les points ! Il se comporte bien mieux que le modèle SIR (que vous découvrirez en cliquant sur l’item correspondant). Les autres modèles (polynomial et exponentiel) sont désormais largement dépassés. Dans le cas du canton de Vaud, les données permettent maintenant de dégager une vraie tendance et elle va dans le bon sens.
 

Tendance évolutive du COVID-19 dans le canton de Vaud (04.04.2020)

 
Ce graphique nous enseigne : que (a) d’abord les données publiques disponibles du canton de Vaud concernant le COVID-19 ne sont pas de qualité égale et que le score de confiance des projections est le plus bas des trois (99.69%) ; que (b) si le modèle SIR nous indique que la courbe a tendance à s’aplanir, le modèle de Gompertz nous conforte dans notre perception mais relativise le temps; et que (c) avec la qualité des données disponibles, les projections montrent que le pic semble désormais dépassé, mais la crise va probablement durer encore un certain temps dans le canton de Vaud.

COVID-19 : focus sur Zürich

Là encore, double-cliquez sur l’item « Reported » dans la légende du graphique à droite. Vous affichez maintenant les données telles que reportées par les autorités. Vous remarquerez que si elles ne sont pas des plus régulières, pour autant elles semblent suivre une certaine courbure. Pour vous en convaincre, cliquez sur l’item « Best Model » et voyez comment la courbe du modèle le plus optimal semble suivre les données reportées. Quel est ce modèle ? Cliquez sur l’item « Gompertz model » ! Comme pour Genève, il semble bien meilleur (pour le moment) que le modèle SIR (que vous ferez apparaître en cliquant sur l’item idoine) et comme pour Genève une tendance se dégage. Quant aux modèles restant, on constate que ces derniers sont largement dépassés, ce qui est tout à fait normal en l’état.
 

Tendance évolutive du COVID-19 dans le canton de Zurich (04.04.2020)

 
Ce graphique nous montre : que (a) d’abord les données sont relativement fiables et que le score de confiance des projections est haut (99.72%); que (b) si le modèle SIR nous indique que la courbe a tendance à s’aplanir, le modèle de Gompertz nous dit que l’accalmie n’est pas encore pour tout de suite; mais que (c) le pic de l’épidémie semble être passé et que les mesures de défense (confinement & Co.) semblent aussi fonctionner outre Sarine.

COVID-19 : conclusions

Avant tout, la Suisse semble bel et bien avoir atteint le pic de contamination et si la tendance se poursuit comme le montrent les projections, alors nous pouvons nous montrer optimistes pour ces prochaines semaines. Toutefois, il faut relativiser et rester prudent, car les projections du nombre de décès, elles, restent assez pessimistes.
 
Par contre, cet exercice montre aussi toutes les limites des projections construites sur la base de données dont la qualité est toute relative. Ce qui est vrai maintenant ne le sera pas forcément demain si les données varient autant. Par ailleurs il permet aussi de se rendre compte que si bien des statistiques circulent, elles s’appuient quasi toutes sur le même data set, ce qui les rend au final très redondantes et donc assez peu utiles. D’autant plus que très (très) peu d’entre elles prennent le temps d’analyser leurs résultats et de se remettre en question, comme nous le faisons ici.
 
Enfin, de par notre implication auprès des hôpitaux, nous avons accès (via notre plateforme d’intelligence artificielle) à des données autrement plus fiables et nous voyons beaucoup de choses (comme les admissions effectives au quotidien, leurs impacts sur les lignes de défense, la tension réelle dans les services…). Aujourd’hui nous nous contentons de commenter nos projections publiques qui, si elles restent très acceptables, ne sont qu’un pâle reflet des prédictions (pour le coup) que nous produisons quotidiennement .
 
Team CALYPS

Vos données ont de la valeur !

La Data Intelligence est destinée aux gestionnaires, décideurs et dirigeants d’entreprise. Il s’agit de la mise en œuvre des moyens, outils et méthodes destinés à fournir l’information utile pour décider et agir en toute connaissance de cause. Mettez-toutes les chances de votre côté en vous appuyant sur des professionnels de la donnée.

Les experts CALYPS sont là pour vous aider