Incertaines probabilités (2)

À la suite de certains billets (le problème des trois portes dans mon livre p. 101-103  le problème des quatre cartes sur ce blog, un problème de naissances sur ce blog,…), voici encore, dans la même veine des « incertaines probabilités », deux sujets contre-intuitifs (extraits de G. Bronner, L’Empire de l’erreur, Élements de sociologie cogintive, P.U.F. 2007).

Problème A . Une ville possède deux maternités, l’une grande avec 45 naissances quotidiennes en moyenne, l’autre plus petite avec 15 naissances quotidiennes en moyenne. Chaque jour où le seuil de 60% de naissances masculines est dépassé, la maternité fait une croix dans son carnet de bord. Au bout d’un an, quelle maternité aura vraisemblablement le plus de croix dans son carnet ? La petite maternité ? La grande ? ou les deux seront-elles à égalité ?

Problème B. Une maladie, qui touche une personne sur mille, peut être détectée par un test. Ce test a un taux d’erreurs positives de 5% (c’est à dire qu’il produit 5% de faux positifs – le test marque la présence de la maladie alors qu’en fait elle n’est pas présente). Un individu est soumis au test. Le résultat est positif. Quelle est la probabilité pour qu’il ait la maladie ?

13 comments for “Incertaines probabilités (2)

  1. ecjs
    17 mai 2011 at 02:18

    Je dirais la plus petite.

  2. Duchâtel Michel fançois
    18 mai 2011 at 09:52

    Le pourcentage des naissances masculines est indépendant lu lieu de naissance. Les deux maternités devraient se trouver à égalité.

  3. Olivier
    19 mai 2011 at 05:19

    Pour le premier problème, la petite maternité aura vraisemblablement plus de croix à la fin de l’année.

    Pour le second problème, la probabilité d’être effectivement malade sachant que le test est positif est de 2% environ.

  4. Ethaniel
    19 mai 2011 at 05:24

    L’écart-type étant en « racine de N » (1) avec N le nombre total de naissances, l’écart-type relatif (on divise par N) est donc en « 1 sur racine de N » : plus N est grand et plus l’écart-type
    relatif est petit, donc plus la répartition statistique est piquée (« rassemblée ») autour de la moyenne ; c’est d’ailleurs cela qui justifie la « loi des grands nombres ».

    La grande maternité restera donc plus proche des 50% de garçons que la petite maternité, laquelle dépassera donc plus souvent le seuil de 60% et aura ainsi plus de croix dans son carnet de bord.

    À noter que, de manière générale, si vous lisez quelque part une moyenne (par exemple dans les sondages qui commencent déjà à pulluler, et ça ne s’arrêtera pas avant mai prochain…), cette valeur,
    prise seule, *n’a absolument aucune valeur*, il faut au minimum soit le nombre total de cas soit l’écart-type (ou son carré, la variance) pour que le résultat ait une quelconque signification
    (non, je n’irai pas jusqu’à demander l’asymétrie et le kurtosis, même si ça n’est pas de refus ^^).

    (1) On a ici une loi binomiale, donc sigma=sqrt(N×p×(1-p)), soit sqrt(N)/2 si p=1/2… ce qui n’est pas exactement la probabilité observée de naissance d’un garçon 😉 (51.2% en France en 2005, cf.
    http://aix1.uottawa.ca/~vpest283/2779/c2.pdf).

    ————————

    Étudions une population de 20’000 individus : on aura donc *en moyenne* 20 malades et 19’980 bien-portants (avec un écart-type de 4.47, voir note (1) ci-dessus, donc si ça se trouve il y a en
    réalité moins de 15 malades dans cette population 😀 ; mais ça n’est pas le sujet, donc on pourrait raisonner avec 20 milliards d’individus pour diviser par 1000 l’écart-type relatif).

    En supposant (la valeur n’étant pas donnée) un taux de faux négatifs de 0% (donc une sensibilité de 100%, un peu illusoire, mais passons), ces 20 malades seront tous déclarés positifs au test.

    Par contre, à cause du taux de faux positifs de 5% (donc une spécificité de 95%), 999 bien-portants (5% des 19’980) seront déclarés positifs au test alors qu’ils ne sont pas malades !

    On a donc un total de 20+999=1019 résultats positifs pour seulement 20 vrais malades, lesquels représentent donc 20/1019=1.96% des déclarés positifs : l’individu déclaré positif au test n’a donc
    en réalité que 1.96% de risque d’être réellement malade !

    C’est le risque de surdiagnostic, d’autant plus marqué que la maladie est rare : http://fr.wikipedia.org/wiki/Faux_positif#Risque_de_surdiagnostic

  5. Ethaniel
    19 mai 2011 at 00:47

    Annexe calculatoire et inutilement pinailleuse sur le problème A (oui, ça m’amuse ^^) :

    Supposons que la probabilité de naissance d’un garçon soit de 51.2% pour l’année considérée, et ce dans les deux maternités (moyenne française 2005).

    Supposons en outre que la croix est ajoutée dans le carnet de bord lorsque le taux de garçons dépasse strictement le seuil de 60% (l’énoncé n’est pas précis sur ce point), choix qui a
    une incidence les jours où le nombre de naissances est un multiple de 5.

    Il est donné que chaque maternité voit en moyenne N naissances par jour, mais il y a évidemment des jours avec plus de naissances, et des jours avec moins : la loi de Poisson de
    paramètre N permet alors de calculer la probabilité d’avoir, un jour donné, exactement k naissances.

    Ensuite, la loi binomiale de paramètres k et p=.512 donne la probabilité d’avoir exactement i naissances de garçons sur le nombre total k de naissances de ce jour donné : il suffit alors de faire
    la somme des probabilités pour i>k*60% (dépassement strict du seuil) afin d’obtenir la probabilité totale d’inscrire une croix dans le carnet de bord lorsqu’il y a k naissances (cette
    correspondance entre k et la probabilité est bien sûr la même pour les deux maternités).

    On pondère alors ces probabilités d’inscrire une croix pour k naissances par la probabilité d’avoir effectivement k naissances un jour donné (cette pondération, donnée par la loi de Poisson,
    dépendant cette fois du nombre moyen N de naissances dans la maternité) pour obtenir la probabilité globale d’inscrire une croix dans le carnet de bord de la maternité (une sorte de « moyenne de
    la moyenne », si l’on peut dire).

    Le calcul précis (merci OOoCalc/Excel !) donne :

    • 11.49986% pour N=45 (grande maternité), soit pratiquement 42 (!) croix au bout d’un an ;

    • 23.72299% pour N=15 (petite maternité), soit presque 87 croix au bout d’un an.

    Le calcul prouve donc numériquement le résultat obtenu précédemment en raisonnant sur l’évolution des écarts types, la petite maternité gagnant largement avec, en moyenne, un peu plus du double
    de croix que dans la grande maternité (mais ça n’est qu’une moyenne : il y a une probabilité infime mais non nulle que la petite maternité ait moins de croix à son carnet de bord que la grande
    (non, rassurez-vous, je ne calculerai pas cette proba :p)).

    ————————

    Concernant le problème B, il faudrait en outre connaître le taux de faux négatifs (ou son complément, la sensibilité) pour calculer plus précisément la probabilité d’être effectivement malade
    quand le test est positif (mais, fondamentalement, ça ne s’éloignera pas beaucoup des 1.96% donnés plus haut) ainsi que celle d’être en fait malade malgré un test négatif.

    Comme vous avez pu le constater, les calculs impliqués sont triviaux, je vous laisse donc faire vous-mêmes les calculs avec, par exemple, une sensibilité de 97.5% (et toujours une spécificité de
    95%) ;)…

  6. 20 mai 2011 at 04:58
    Pour le problème B, je crois que  7% est atteint de la maladie.
  7. Ethaniel
    24 mai 2011 at 07:03

    > Vous travaillez dans les biostatistiques ou qqch comme çà ?

    Du tout, je suis juste un ex-pré-physicien des particules qui a donc baigné dans la physique statistique, les déviations à tant de sigma entre le signal attendu et le signal observé, et autres
    tests du khi-deux ;).

  8. H
    25 mai 2011 at 00:47

    AM : « selon Bronner, la majorité des médecins répond 95%, sans trop réfléchir sans doute »

     

    Les médecins français n’ont aucune formation en stats. J’enseigne (parfois très difficilement) les stats à des médecins qui se destinent à la recherche, on leur apprend ce genre
    de choses ; ils sont supposés savoir refaire les calcus d’Éthaniel, par exemple : mais par ailleurs on ne juge pas utile de former tous les autres médecins à traiter ce genre de questions…

  9. H
    25 mai 2011 at 04:44

    « Les deux mon capitaine ! »

     

    Certains suivent les cours en parallèle avec leur internat, parfois dans les années qui précèdent, d’autres enfin (en milieu hospitalier plutôt qu’en médecine de ville) suivent les cours en
    formation continue.

  10. Ethaniel
    25 mai 2011 at 06:37

    H > Bravo pour la capitale accentuée, il est tellement rare d’en voir que j’applaudis, mais… nul n’en était besoin ici, je n’ai pas d’accent à mon pseudonyme ;).

     

    Concernant le niveau mathématique (pas seulement les stats, mais les maths en général) en médecine, depuis que j’ai entendu parler du « modèle de Tai », plus rien ne me surprend… (Voir par
    exemple cet article
    en anglais
    .)

    À mon sens, le pire n’est même pas le fait que l’auteur ait réinventé la méthode des trapèzes sans se demander si un truc aussi simple n’existait pas déjà, mais que l’article d’origine de 1994
    soit actuellement cité 144
    fois
    (dont 6 fois rien que ces 5 premiers mois de 2011), ce qui suggère donc des centaines d’autres médecins suffisamment formés pour publier des articles médicaux mais ne connaissant pas non
    plus la méthode des trapèzes !

  11. H
    25 mai 2011 at 02:58

    Oui : cet article a fait le tour de tous les labos de science dure…  C’est également une des pièces maîtresses du dossier que j’ai monté pour demander la création d’un cours de
    mathématiques générales pour les étudiants de Santé publique 🙂

  12. Guy MEHEUT
    23 juin 2011 at 00:58

    Bonjour

    Mon commentaire ne porte que sur la forme de l’énoncé du problème B. Quand vous écrivez « Un individu est soumis au test… », on est en droit de
    penser qu’il s’agit d’une personne bien précise (par exemple M. Dupont) et, dans ce cas, cela n’a pas de sens de demander la probabilité qu’elle
    soit malade. En effet ceci ne doit rien au hasard, c’est un fait : M. Dupont est  malade ou bien ne l’est pas.

    Prenez le sujet de probabilité le plus célèbre de France aujourd’hui (bac S 2011). La question est rédigée ainsi : « …On fait passer le test à une personne choisie au hasard… » et alors le calcul d’une probabilité prend tout son sens.

    Cette confusion se retrouve souvent dans l’esprit des gens dans un autre domaine. Supposons qu’une enquête indique que 70% des bacheliers de la série X réussisent le concours d’entrée de
    médecine. Si vous prenez un candidat au hasard parmi les bacheliers X, vous avez une probabilité 0,7 de gagner en pariant qu’il réussira le concours. En revanche si votre pronostic concerne le
    major de la préparation, votre probabilité de gagner est très proche de 100%.

Comments are closed.