Les conséquences de la loi de Goodhart (2024)

Comme l’a énoncé Marilyn Strathern, la loi de Goodhart dit que «lorsqu’une mesure devient un objectif, elle cesse d’être une bonne mesure». Les applications économiques sont nombreuses, mais cette loi permet aussi de comprendre les dangers des décisions algorithmiques, ou d’expliquer la difficulté à utiliser les données disponibles depuis le début de la pandémie de SARS-CoV-2 COVID-19.

«Lorsqu’une mesure devient un objectif, elle cesse d’être une bonne mesure» est la formulation la plus simple de la loi de Goodhart. Certains parlent aussi de loi de Campbell[i], Donald Campbell ayant affirmé «the more any quantitative social indicator is used for social decision-making, the more subject it will be to corruption pressures and the more apt it will be to distort and corrupt the social processes it is intended to monitor». Cette corruption des métriques, ou des statistiques, a été observée dans de nombreux domaines, en particulier en santé, en matière de justice, ou en éducation.

Les budgets de certaines écoles étaient directement fonction des résultats obtenus à certains tests. On comprend que les enseignants sont fortement incités à commencer à préparer à l’examen au lieu d’enseigner de manière généraliste, voire à retirer discrètement certains enfants qui risqueraient d’échouer, comme le raconte Strauss (2015). En fixant le taux de réussite comme un objectif à maximiser, cette mesure ne signifie plus rien car elle a induit des comportements incitatifs qui ne reflètent plus la qualité de la formation. . Ce reproche peut également être fait à de nombreuses associations actuarielles à travers le monde, qui ont mis en place des ‘examens professionnels’, que peuvent passer les étudiants ayant eu une formation en actuariat. De nombreuses formations universitaires ont alors délaissé un enseignement généraliste pour offrir, à la place, des préparations à ces examens. Les examens ne sont plus une ‘mesure’ des connaissances des étudiants, ces derniers ayant de plus en plus de mal à sortir du cadre très scolaire des exercices très formatés.

Dans le domaine de la santé, aux États-Unis, Poku (2015) note qu’à partir de 2012, en vertu de la loi ‘Affordable Care Act’, Medicare a commencé à imposer des sanctions financières aux hôpitaux présentant des taux de réadmission de 30 jours «plus élevés que prévu». Dès lors, le taux moyen de réadmission à l’hôpital dans les 30 jours pour les bénéficiaires de l’assurance fee-for-service a diminué. Est-ce dû à une amélioration des efforts de transition et de coordination des soins menées par les hôpitaux, ou bien faut-il relier cette baisse à une hausse des séjours «en observation» pendant la même période? Car bien souvent, fixer un objectif sur la base d’une mesure précise (ici le taux de réadmission de 30 jours) rend cette grandeur totalement inutilisable pour quantifier le risque de retomber malade, mais a aussi une influence directe sur d’autres grandeurs (ici le nombre de séjours «en observation»), qu’il devient alors difficile de suivre sur la durée.

Sur internet, on demande de plus en plus à des algorithmes de trier du contenu, de juger le caractère diffamatoire ou raciste des tweets, de voir si une vidéo relève du deepfake, de mettre un score de fiabilité d’un compte Facebook, etc. Et nombreux sont ceux qui voudraient savoir comment ces scores sont créés. Malheureusem*nt, comme le notait Dwoskin (2018) «not knowing how [Facebook is] judging us is what makes us uncomfortable. But the irony is that they can’t tell us how they are judging us — because if they do, the algorithms that they built will be gamed»[ii], exactement comme le suppose la loi de Goodhart.

Au début des années 1970, Robert Lucas expliquait que les décideurs économiques devaient éviter de se baser «naïvement» sur des statistiques passées pour prédire le comportement futur des agents, «given that the structure of an econometric model consists of optimal decision rules of economic agents, and that optimal decision rules vary systematically with changes in the structure of series relevant to the decision maker, it follows that any change in policy will systematically alter the structure of econometric models»[iii]. L’idée sous-jacente était simplement que les agents s’adaptent aux signaux qu’ils reçoivent.

Comme le dira Charles Goodhart quelques années plus tard « as the statistical relationships derived from the past depended on the particular kind of policy aim pursued by the authorities over the period considered, there would be no guarantee of their exact continuation in the future, should that policy be altered». Ou formulé autrement, toute relation statistique observée (on pourra penser à une corrélation forte entre deux variables) aura tendance à disparaître une fois qu’une pression est exercée sur elle à des fins de contrôle. En fait, Charles Goodhart va plus loin que Robert Lucas dans Goodhart (1975), laissant entendre que dans de nombreux cas, les agents vont modifier leur comportement à leur avantage, même si cela se fait au détriment d’un éventuel bien-être collectif (on pourra repenser aux exemples de l’éducation, ou de la santé). Cette loi a été élaborée après avoir observé comment le gouvernement de Margaret Thatcher, dans les années 1980, a ciblé l’offre de monnaie pour contrôler l’inflation, mais a ensuite constaté que les agrégats monétaires avaient perdu leur relation précédemment forte avec l’inflation. L’inflation a échappé à tout contrôle, même lorsque le gouvernement exerçait une pression forte sur la masse monétaire.

Friedman (2003) avait utilisé l’analogie du thermostat pour expliquer le problème : la banque centrale est le thermostat de l’économie. Le décideur dispose d’une information (x) lui permettant d’agir sur une variable de contrôle (c), pour s’assurer qu’une variable (t) soit proche de la valeur cible (t^*). Et les erreurs de prévision (t-t^*) se doivent d’être décorrélées de l’information et du contrôle c, si les anticipations sont rationnelles, ce qui peut sembler paradoxal. Pour reprendre l’image de Farrell (2012), imaginons un conducteur qui circule en voiture sur une route très vallonnée, à vitesse constante. Avec des hauts et des bas, cela signifie que le conducteur dose parfaitement ses accélérations et ses freins pour contrôler la vitesse. Pourtant, vu de loin, on serait tenté de dire que le niveau d’accélération n’a aucun impact sur la vitesse, et que si on faisait une régression de la vitesse sur l’accélération de la voiture, la corrélation entre les deux serait nulle, autrement dit, ici, accélérer et décélérer n’a aucune influence sur la vitesse…

Le problème évoqué par la loi de Goodhart se retrouve aussi en modélisation statistique, et en apprentissage machine. Dans ce dernier cas, la fonction objectif que l’on optimise est en lien avec le problème que l’on cherche à résoudre : dans les algorithmes prédictifs de régression, on va comparer la prévision avec la réalisation, et pourra prendre la somme des carrés des erreurs ; pour un problème de classification ou de labellisation (fraude/pas fraude), on comptera le nombre d’erreur de classification (avec des fonctions de coût potentiellement différentes si les deux types d’erreurs ont des impacts différents). Mais bien souvent, on ne cherche pas un modèle parfait, sans erreur, on veut un modèle qui prédira bien sur des nouvelles données ! Aussi, on va éviter de juger des qualités prédictives d’un modèle sur les données qui ont été utilisées pour construire le modèle. On va alors utiliser une partie des données pour construire le modèle, et une autre pour juger de son pouvoir prédictif, et voir à partir de quel moment le modèle commence à modéliser du bruit, au lieu de chercher un lien fort entre les variables explicatives, et la variable d’intérêt. Cette approche, généralisée avec la notion de « validation croisée », permet de séparer l’objectif de la mesure.

En programmation dynamique, la loi de Goodhart est également bien connue (même si c’est parfois avec un autre nom). Dans les systèmes dynamiques, l’agent s’intéresse à une grandeur (x_t), par exemple un stock de biens qu’il vendra, et cherchera à maximiser une fonction de la forme f(x_1,x_2,\cdots,x_T), à partir d’une valeur initiale donnée, x_0, par exemple la somme (escomptée ou non) de tous les x_t, ou bien peut être uniquement la valeur terminale x_T. La dynamique de (x_t) dépend d’une variable de contrôle, (u_t), que l’agent peut choisir, en sachant que x_{t+1} dépendra directement de u_t, et éventuellement d’autres grandeurs, comme x_t. Bellman (1957) a posé les bases mathématiques de la résolution de ce genre de problème, que l’on retrouve généralisés que l’on retrouve dans l’apprentissage par renforcement[iv], où l’agent devra explorer, tenter différents contrôles, afin d’apprendre la manière dont u_t va influencer x_{t+1}. Un exemple récent pourrait être le contrôle d’une pandémie, où x_t serait le nombre de personne infectées, ou le nombre de décès, et u_t est un levier de contrôle, comme le nombre de tests proposés, ou le nombre de personnes autorisés à aller travailler. Naturellement, si x_t mesure le nombre de personnes testées positives à la date t, une variable de contrôle permettant de faire baisser facilement x_t est le nombre de tests effectués, mais cela ne va en rien ralentir la propagation de l’épidémie (ce qui semble l’objectif naturel). En réalité, comme le notait l’immunologue Anthony Fauci, directeur depuis 1984 de l’Institut National des Allergies et Maladies Infectieuses aux États-Unis, « if it looks like you’re overreacting, your’re probably doing the right thing » (cité dans Budryk (2020)), compte tenu des effets de rétroaction.

Avant de revenir sur la pandémie de 2020, notons que les métriques sont souvent introduites dans un souci de transparence, de semblant d’exigence démocratique, comme la traduction ou l’expression concrète d’un objectif collectif, mais aussi souvent individuel. Mais toute métrique, toute statistique, cache souvent une réalité bien plus complexe. L’exemple des statistiques du chômage a probablement été un des plus étudiés, comme le montre Desrosières (2008). La série statistique conjoncturelle du chômage, publiée par l’INSEE, était très attendue par les responsables politiques et par la presse, au point de devenir l’objectif affiché de plusieurs gouvernements: «faire baisser les chiffres du chômage», comme le rappelle Errard (2015) par exemple. En voulant donner l’illusion de contrôler (et de faire baisser) le chômage, la pression a été mise pour que les conseillers de Pôle Emploi pour augmenter les radiations, pour proposer des formules pour les jeunes, pour encourager à prendre deux mi-temps plutôt qu’un temps plein. Une fois compris comment la métrique cible était calculée, il était alors facile de la faire baisser artificiellement. Comme l’écrivait Desrosières (2000), «les indicateurs quantitatifs rétroagissent sur les acteurs quantifiés », comme on l’évoquait dans la formalisation mathématique du contrôle optimal dynamique. Mais plus que l’économiste (ou l’économètre) Charles Goodhart, c’est surtout Donald Campbell, qui a cherché à comprendre la manière dont les métriques faussent le comportement, et amènent les participants à les exploiter. Et récemment, Bruno & Didier (2013), ou Muller (2018) montrent comment éviter que la loi de Goodhart ne s’applique.

Car comme le notait déjà Charles Goodhart, il arrive que l’optimisation explicite d’un système utilisant une métrique rende finalement la métrique inutilisable, car au final plus du tout corrélée avec l’objectif. C’est le cas de bon nombre de système de punitions et de récompenses, qui visent à créer des incitations. On peut penser à l’assiduité en classe, par exemple, ou des absences sont punies afin d’inciter les élèves à travailler. En mettant en place de telles mesures, la fréquentation en classe augmente, mais les élèves ne travaillent pas pour autant. Et ceci même si une relation causale existe, entre la mesure et l’objectif, et pas une simple corrélation. Comme dans l’exemple de Facebook, garder une métrique secrète est une solution facile, une autre étant d’utiliser plusieurs métriques.

Un des objectifs, régulièrement martelé depuis mars 2020, est qu’il ne faut pas saturer les systèmes de santés, dans tous les pays, le fameux «flatten the curve», évoqué par Ferguson et al. (2020). Il semblait essentiel de garantir, à tout prix, que les hôpitaux ne soient pas débordés. Au printemps 2020, les chaînes télévisées d’information donnaient, en temps continu, le nombre de personnes en soin intensifs, et le nombre de morts dans les hôpitaux, mesures que l’on retrouvera ensuite sous forme de graphiques, mis à jour toutes les semaines, voire tous les soirs, sur des sites internet dédiés. En cette période de crise, au plus fort de la saturation des hôpitaux, le N.H.S. en Angleterre avait demandé à chaque hôpital d’estimer ses capacités de lits, afin de réallouer les ressources globalement. Annoncer que peu de lits étaient disponiblesétait la meilleure stratégie pour obtenir davantage de financement. On peut alors s’interroger sur le niveau de saturation réelle du système, chaque hôpital ayant compris la règle, et manipulant la mesure à sa guise. Et tout aussi préoccupant, alors que les gouvernements se concentraient sur les hôpitaux (fournissant les données officielles utilisées pour construire la plupart des indicateurs), les maisons de retraites ont connu des hécatombes désastreuses, qui ont mis beaucoup de temps à être quantifiées. Giles (2020) raconte qu’en Angleterre, certains médecins auraient demandé à leurs patients âgés de réfléchir sérieusem*nt à la question de savoir s’ils voulaient vraiment aller à l’hôpital, et utiliser les services d’urgence, au risque de passer plusieurs semaines isolés, coupés de leur famille.

Les statistiques sur le nombre de personnes (officiellement) positives n’ont cessé de dérouter les statisticiens, car aisément manipulables. On a tous en mémoire les déclarations de Donald Trump au début de l’été 2020, repris par exemple par Sheth (2020), qui affirmait que pour faire baisser le nombre de personnes ‘positives’ il suffisait de tester moins. Au début de la pandémie, un objectif clairement énoncé était de détecter les positifs asymptomatiques, et donc un ciblage des tests s’imposait. Le taux de positif était alors le signe que le ciblage des tests fonctionnait. En revanche, pour suivre l’évolution de la pandémie, il était indispensable d’effectuer les tests de manière aussi aléatoire que possible.

La crise engendrée par la pandémie SARS-CoV-2 COVID-19, avec sa quantification à outrance, avec ses statistiques mises à jour en temps réel, nous a rappelé les dangers de la loi de Goodhart. Comme le notait Laroussie (2021), le flot de statistiques a aussi permis à bon nombre d’entre nous de tenter l’exercice, d’essayer de prévoir l’évolution future des courbes, mais aussi de s’interroger sur la fiabilité des données, et de leur construction. Suivre le nombre de personnes supposées positives sans comprendre qui était testé, avec quel type de test, n’avait alors aucun sens. La dynamique des courbes était alors elle-même impactée par une boucle de rétroaction, découlant de décisions de décideurs politiques, qui avaient décidé de tester moins de personnes âgées lorsqu’il a fallu reprendre le chemin du travail, par exemple. Comment prendre des décisions avisées de matière de politique publique dans ces conditions ? C’est finalement la question profonde que pose la loi de Goodhart, nous rappelant aussi que les décideurs doivent apprendre à faire la différence entre l’esprit de la loi et la lettre de la loi – les routes de l’enfer étant pavées de bonnes intention – en gardant un esprit de mesure.

Références

Bellman, R. (1957). Dynamic Programming. Princeton University Press.

Bruno, I. & Didier, E. (2013). Benchmarking. L’État sous pression statistique. Paris, La Découverte.

Budryk, Z. (2020). ‘If it looks like you’re overreacting, you’re probably doing the right thing‘The Hill, 15 mars 2020.

Campbell, D. T. (1975) Assessing the impact of planned social change. In G. M. Lyons

(ed.), Social Research and Public Policies: The Dartmouth/OECD Conference (pp. 3–45). Hanover, NH: Public Affairs Center

Charpentier, A., Elie, R. & Remlinger, C. (2020). Reinforcement Learning in Economics and Finance. arXiv:2003.10014

Daston, L. (2010). Why statistics tend not only to describe the world but to change it. The London Review of Books, 22:8.

Desrosières, A. (2000). La Politique des grands nombres : Histoire de la raison statistique. La Découverte.

Desrosières, A. (2008). Gouverner par les nombres. Presses de l’École des Mines.

Dwoskin, E. (2018). Facebook is rating the trustworthiness of its users on a scale from zero to one. Washington Post, 21 aout 2018,

Errard, G. (2015). Le contrôle des chômeurs peut-il faire baisser le chômage ?. Le Figaro, 26 août 2015,

Farrell, H. (2012). Milton Friedman’s Thermostat. Monkey Cage, 31 juillet 2012.

Ferguson, N. et al. (2020). Impact of non-pharmaceutical interventions to reduce covid-19 mortality and healthcare demand. Imperial College COVID-19 Response Team 9.

Friedman, M. (2003). The Fed’s Thermostat. The Wall Street Journal, 19 août 2003.

Giles, C. (2020). Goodhart’s law comes back to haunt the UK’s Covid strategy. Financial Times, 14 mai 2020,

Goodhart, C.A.E. (1975) Problems of monetary management: The UK experience. Papers in Monetary Economics, Volume I. Sydney: Reserve Bank of Australia.

Laroussie, D. (2021). Covid-19 : ces modélisateurs qui anticipent la pandémie. Le Monde, 5 janvier 2021,

Muller, J. Z. (2018). The tyranny of metrics. Princeton University Press.

Rodamar, J. (2018) There ought to be a law! Campbell versus Goodhart. Significance, 15:6.

Sheth, S. (2020). Trump says that ‘if we stop testing right now, we’d have very few cases’ of the coronavirus. Business Insider, 15 juin 2020

Strauss, V. (2015). How and why convicted Atlanta teachers cheated on standardized tests. The Washington Post, 1 avril 2015,

[i] Rodamar (2018) revient sur la comparaison entre les deux publications, Goodhart (1975) et Campbell (1975), qui énoncent le même principe, dans des contextes très différents.

[ii] «ne pas savoir comment [Facebook] nous juge, c’est ce qui nous met mal à l’aise. Mais l’ironie est qu’ils ne peuvent pas nous dire comment ils nous jugent – parce que s’ils le font, les algorithmes qu’ils ont construits seront alors manipulés» (traduction de l’auteur)

[iii] «étant donné que la structure d’un modèle économétrique consiste en des règles de décision optimales des agents économiques, et que les règles de décision optimales varient systématiquement en fonction des changements dans la structure des séries pertinentes pour le décideur, il s’ensuit que tout changement de politique modifiera systématiquement la structure des modèles économétriques» (traduction de l’auteur).

[iv] Ou reinforcement learning, comme décrit dans Charpentier et al. (2020).

Cite this blog post
Arthur Charpentier (2021, January 7). Les conséquences de la loi de Goodhart. Freakonometrics. Retrieved June 29, 2024, from https://doi.org/10.58079/ovhl