Faut-il faire vacciner son SI ?

Published by Manon de Oliveira on

Le destin est souvent le plus cruel, mais le plus doué des humoristes. Preuve en sont les dernières sorties médiatiques de Jean-Marie Bigard, nouvelle égérie du mouvement dit « antivax ». L’auteur et interprète d’un sketch devenu mythique, « La chauve-souris enragée », aurait-t-il oublié que le premier vaccin, mis au point par Pasteur en 1885, fût justement celui de la rage ? Et quel rapport entre ce sketch, le révérend Thomas Bayes et le calcul du risque cyber d’une entreprise ? C’est ce que cet article vous propose de découvrir, en deux doses et deux rappels, comme tout bon vaccin.

1ère dose : « Y’a un gars qu’a dit à la radio c’matin… »

Reprenons : le ressort principal du sketch est l’annonce faite à la radio d’une probabilité, estimée à une sur dix millions, du risque de se faire mordre par une chauve-souris enragée. Le postulat de Bigard, volontairement erroné, consiste à dire que ce nombre a été fourni par un scientifique, un spécialiste, « avec du matériel et tout ». 1 chance sur 10 millions représenterait alors une probabilité précise, issue d’un calcul détaillé, une probabilité estimée finement par quelqu’un ayant le goût de la chose exacte et de la rigueur mathématique, un chiffre aussi indiscutable que la dernière ligne d’un bilan comptable.

Il est cependant bien plus probable, selon la loi du rasoir d’Ockham, que ce chiffre ait été calculé en 30 secondes, sur un coin de table qui plus est, en prenant le nombre de cas de morsure dans l’année par une chauve-souris-enragée (Noté NCSE) puis en le divisant par la population mondiale. On peut même retrouver ce nombre de morsures par habitant, en posant NCSE/7-109= 10-7 . On obtient alors NCSE=700, soit 700 cas de morsures recensées cette année-là.

Le scientifique, consciencieux, a probablement vérifié qu’il obtenait le bon ordre de grandeur : « Une chauve-souris pour mille habitants, 1 sur 1000 qui a la rage et 10% des enragées qui mordent un humain, ça colle » (nous reviendrons sur ce genre de calcul). Le scientifique s’empresse d’appeler l’OMS, son message est relayé à la radio, et le malheureux Bigard s’inquiète.

L’erreur commise ici est aussi grave qu’elle est fréquente : confondre statistiques et probabilités. La bonne nouvelle, c’est que vous ne referez plus cette erreur après cet article ! La mauvaise nouvelle, c’est qu’une statistique n’est qu’une collection de mesures qui peuvent contribuer à réduire quantitativement l’incertitude d’une probabilité, mais sans jamais pouvoir l’annuler. Pour paraphraser Bigard Stéphane Rousseau, ce n’est pas parce que « c’est jamais arrivé que c’est pas arrivé » que ça arrivera forcément. Cette question est appelée par les épistémologues « le problème de l’induction »

(parfois « énigme de l’induction» ou « scandale de l’induction»), et vous la connaissez déjà sûrement à travers la théorie du cygne noir.

Pour mieux le comprendre, prenons un autre exemple. Imaginons que votre entreprise n’ait subi aucun piratage durant les 5 dernières années. N’imaginez surtout pas que votre chance de vous faire pirater cette année soit de 0% ! Afin de mieux calculer le risque que vous courrez, vous pouvez supposer que votre chance de vous faire pirater cette année suit une loi de probabilité conditionnée aux données préexistantes, par exemple une loi bêta β(1,6) . Vous pourrez alors dire : « Je suis à 95% sûr que mon risque de subir un piratage cette année est entre 0 et 30% ». Et rien de plus.

Bien sûr, il est difficile de parvenir à ces conclusions sans faire appel à un cabinet de conseil en cybersécurité et performance du SI compétent. Mais si vous le faites, et en supposant qu’un piratage vous coûte 1 million, alors vous pouvez estimer votre perte moyenne maximum, dans un intervalle de confiance de 95%, à 30% * 106 = 300 000 euros. Vous répondrez ainsi plus favorablement à votre DSI, qui vous demande d’appliquer des mesures de mitigation à 10000€, que si vous aviez considéré que votre risque était nul.

2ème dose : « Le Xème c’est plutôt tranquille niveau chauve-souris… »

Le sketch utilise également un autre ressort : Bigard est un citadin, il habite en milieu urbain (noté HMU pour Habitant en Milieu Urbain) et a donc beaucoup moins de chances d’interagir avec une chauve-souris que quelqu’un habitant en milieu rural (noté HMR). Ce postulat peut aussi s’écrire sous forme de probabilité conditionnelle : P(CSE\HMU) < P(CSE), qu’on lit « la probabilité de se faire mordre sachant qu’on habite en milieu urbain est inférieure à la probabilité de se faire mordre en général ». Cette notation, à la base de l’inférence bayésienne, permet de calculer postérieurement la probabilité d’un événement à la suite d’une observation.

Sachant que P(CSE) = 10-7, comment calculer P(CSE\HMU) ? En supposant que toute la population habite soit en milieu urbain, soit en milieu rural (soit P(HMU)+ P(CSE) =1, avec comme répartition sur la planète 40% de ruraux et 60% d’urbains), et si l’on estime enfin qu’un habitant de zone rurale a environ 10 fois plus de chance de croiser une chauve-souris (soit P(CSE\HMR) = 10 * P(CSE\HMU)), alors on peut écrire :

P(CSE)=10^-7 = P(CSE\HMU)*P(HMU) + P(CSE\HMR) * P(HMR)

Ce qui donne :

P(CSE) = P(CSE\HMU) * 0,6 + 10 * P(CSE\HMU) * 0,4

Soit P(CSE\HMU)= P(CSE)/4,6 ≈ 2.2*10-8.

Notre citadin a donc en réalité, non pas une chance sur 10 millions de se faire mordre, mais environ une chance sur cinquante millions. Voilà qui devrait suffire à rassurer notre chiroptophobe hypocondriaque (personne craignant à la fois les chauves-souris et des maladies).

Ces méthodes bayésiennes sont aussi utilisées pour les vaccins ! C’est en effet comme ça qu’on calcule la chance d’effets secondaires indésirables selon vos caractéristiques de risques (comme l’âge ou le surpoids). On s’assure ainsi que vous ne prenez aucun risque en vous vaccinant. On peut également les retrouver mises en application dans l’outil CoviRisque de CovidTracker. L’inférence bayésienne est donc un outil très pratique pour affiner vos connaissances préexistantes

1er rappel : « Bon, mais admettons… »

Dans le reste de son sketch, Bigard déroule ce qui semble être un cauchemar de probabiliste. Avant que la chauve-souris n’arrive jusqu’à lui, il lui faudrait trouver le code du digicode (noté DGC), pousser la porte (PLP), monter les étages (MLE) jusqu’au 5ème, frapper à sa porte (TOC), puis, en voyant sa pauvre victime, lui sauter dessus immédiatement (SDI). En d’autres termes, Bigard cherche à calculer P(CSE\DGC, PLP, MLE, TOC, SDI), soit la probabilité que la chauve-souris lui saute dessus sachant qu’elle a passé toutes ces étapes.

Ces événements ne sont pas indépendants mais participent d’une suite logique d’actions. En outre, chacun d’entre eux semblent diminuer la probabilité de morsure : comme le remarque Bigard, « la chauve-souris aura peut-être soif après avoir monté 5 étages ». En d’autres termes, on peut supposer que P(CSE\DGC, PLP, MLE, TOC, SDI) << P(CSE), voire que P(CSE\DGC, PLP, MLE, TOC, SDI)  ≈ 0. Et donc, conclue l’humoriste, pas de raison de s’en faire.

Le probabiliste zélé, habitué à travailler avec plusieurs variables, sait depuis l’enfance que :

(grâce à la formule des probabilités composées).

Se retroussant les manches, il s’engage dans un tunnel de périlleux calculs et de savantes estimations. Il y a quatre appartements sur le palier, donc P(TOC)=25%, le digicode a 12 boutons et contient 4 chiffres, donc P(DGC)=(1/12)4 les chauves-souris « quand elles sont enragées, elles cherchent » donc P(DGC\CSE)>P(DGC)…On le voit, son entreprise a peu de chances d’être utile, exacte ou même seulement d’aboutir.

Nous pouvons être tentés de tomber dans le même travers en calculant le risque cyber : « Avant de se faire pirater, il faut d’abord que l’assaillant fasse une tentative de phishing, puis qu’il passe notre firewall, ensuite qu’on ne détecte pas ses communications à un serveur distant, puis qu’il réussisse ses déplacements latéraux, qu’il arrive à installer un cryptolocker sur toutes nos machines, que les sauvegardes externes soient corrompues… ». Autrement dit, aucun risque !

Ce que Bigard oublie, c’est qu’il a peut-être laissé sa fenêtre ouverte. Alors, plus de digicode, plus de marches à monter : la chauve-souris vole droit dans la chambre, en ligne droite et la bave aux lèvres. De même, votre SI peut être renforcé par 6 antivirus les uns sur les autres, mais si le mot de passe de l’AD est « admin », le risque existe bel et bien. Pour en savoir plus sur l’importance de prévoir ces risques « out-of-scopes », n’hésitez pas à consulter notre précédent article.

Les outils bayésiens sont également utilisés pour estimer la solidité d’un mot de passe. Un mot de passe de 10 lettres (141 167 095 653 376 possibilités) a 50% de chances d’être craqué en une heure (P(MDP)=50%).Mais si vous informez l’ordinateur que le mot de passe contient un mot du dictionnaire (DCT), comme « azerty », « marseille » ou « doudou », le mot de passe sera craqué à coup sûr. En d’autres termes, P(MDP\DCT)=100%.

Vos assaillants utiliseront ces outils pour s’attaquer à vous. Ne leur laisser pas le monopole des probabilités bayésiennes ! Pour découvrir la solidité de vos mots de passe, utilisez howsecureismypassword.net, et suivez toujours les recommandations de l’ANSSI lorsque vous créez un nouveau mot de passe.

2ème rappel : Chiroptérologue, un métier, une passion

Dans le sketch de Bigard, le scientifique qui passe à la radio est un authentique chiroptérologue : un passionné des chauves-souris, qu’il connaît très bien et qui n’ont « aucun secret » pour lui. Dans quelle mesure cela rend-il notre scientifique (et son discours) plus crédible ?

Rappelez-vous : dans le premier chapitre, nous avons essayé de répondre à une question : combien d’accidents impliquant une chauve-souris enragée pouvait-on recenser chaque année ? Ce genre de questions (appelées estimations de Fermi) ne sont pas réservées au seul cadre de l’entretien d’embauche. Un DSI est amené tous les jours à estimer des quantités inconnues, comme l’impact financier d’une attaque, le temps de downtime d’un service ou l’efficacité d’une mesure de protection. Dans ce cas, quelle méthode utiliser ?

La pire méthode aurait été d’estimer cette quantité qualitativement : « Le nombre de chauve-souris dans le monde est élevée, la proportion d’enragées doit être faible, mais dans ce cas c’est plutôt probable qu’elles mordent. J’estime donc le nombre d’accidents à Elevé * Faible * Plutôt probable = Relativement rare. »

Vous trouvez ce discours fantaisiste ? Il l’est. Mais c’est pourtant ce qui se passe extrêmement fréquemment dans les discussions autour du risque cyber, notamment lorsqu’apparaissent les fameuses « matrices de risques ». Lorsque vous entendrez « Risque faible * Impact élevé = Moyennement grave (en orange sur votre écran) », souvenez-vous du calcul des chauve-souris.

Ainsi que l’a écrit Sam Savage dans son célèbre livre, The Flaw of Averages, les estimations faites sur des moyennes sont, en moyenne, complètement fausses. Comment éviter cet écueil des approximations grossières ? Il faut alors prendre des intervalles de confiance : « Je suis à 95% sûr que le nombre de

chauve-souris sur Terre est compris entre 10 000 et 100 millions » ou « Je suis à 95% sûr que nos équipes mettront entre 30 minutes et 4 jours à récupérer un serveur corrompu ».

Comment fixer ces bornes minimum et maximum, et s’assurer de donner des bons intervalles de confiance ? Comme toute compétence, celle-ci peut se travailler. Un expert donnera toujours un meilleur intervalle qu’un néophyte, comme l’a montré Daniel Kahneman. Quant à un expert formé et entraîné aux méthodes d’évaluation quantitatives, il sera très sensiblement meilleur qu’un analyste non calibré. Les meilleures méthodes d’évaluation des risques, comme le modèle Lens de Brunswik, sont fondées sur le recours à ce type d’expert pour produire leurs meilleurs résultats.

Conclusion

Grâce à la formule de Bayes et aux lois de probabilités à plusieurs variables, vous savez maintenant estimer la probabilité que vous avez de manger un pangolin qui tousse, ou d’être rançonné par Darkside. Vous vous êtes déjà fait pirater ? Avez-vous une vulnérabilité cachée ? Quels sont vos intervalles de confiance dans votre gestion du risque cyber ? Et comment ce que vous savez de votre entreprise affecte vos croyances ? C’est à la lumière de vos connaissances passées que vous devez comprendre l’actualité présente. N’oubliez pas que votre plus grand risque dans l’évaluation de votre risque cyber, c’est la méthode d’évaluation elle-même. Alors, tout comme pour les vaccins, n’hésitez pas à demander conseil à un professionnel 😉

Louis Emmanuel GIRES

Consultant EVA Group

Categories: EVATECH