模型 古德哈特定律(Goodhart’s law)
系列文章分享模型,了解更多👉 模型_思维模型目录。当指标成为目标,将失去反映真实情况的能力。
1 古德哈特定律的应用
1.1 “苏联钉钉子”:当产量指标成为唯一目标时,产量本身也失真了
1970 年代,苏联政府为了迅速提高电视机产量,把“工厂每月生产多少台电视机”作为考核与奖金的唯一指标。
-
工厂很快发现,与其花功夫改进工艺,不如把良品率降低、减少质检环节——这样装配速度更快,产量数字飙升。
-
为了继续冲高数字,一些厂甚至把尚未完全组装好的机壳也当成整机报产;年底突击赶工,把大量根本开不了机的“电视机”先堆进仓库。
-
1980 年官方统计显示产量已居世界前列,但莫斯科消费者买回家的电视机常常无法开机,仓库里积压的“成品”最终成了废铁。
-
当中央派人抽检时,工厂又把能亮的机器搬到展示车间,继续瞒报。结果:官方指标年年超额完成,实际可用电视机的社会保有量却远低于计划目标。
古德哈特定律体现:“每月电视机台数”一旦成为奖金与晋升的唯一目标,就不再是衡量“向居民提供可观看的电视机”的有效指标了。
怎么改规则解决问题:别只问“造了多少台”,还要随机抽 1% 去开箱通电测画质。产量高低和良品率一起打分,工厂就没动力粗制滥造了。
1.2 “戴口罩”的空气监测站:X市采样器造假案
真实经过
2016 年 2 月至 3 月,X市长安区为改善空气质量排名,用棉纱堵塞国控空气质量监测子站的采样头,人为过滤 PM2.5,使监测数据下降 30%–50%。
- 监测数据瞬间“变好”,该区在全市排名大幅上升,完成了当年的环保考核指标。
- 环保部远程质控系统发现异常后开展飞行检查,现场拆下“口罩”,数据立刻反弹。
- 2017 年 6 月,涉案 7 人因“干扰计算机信息系统”被判刑,成为全国首例空气质量监测造假入刑案。
- 事件曝光后,环保部扩大国控站点、加密质控,并推动“谁出数谁负责”终身追责制度,试图堵住指标被操纵的漏洞。
古德哈特定律的体现:当“PM2.5 监测浓度”成为干部考核与财政奖惩的唯一硬杠后,这个指标就不再真实反映空气质量,反而诱发堵塞采样器的荒诞行为。
怎么改规则解决问题:把国控、省控、民间微型站三路数据实时公开到网上。谁造假,旁边两个站点的曲线立刻“穿帮”;再加飞行检查和群众随手拍,造假成本高到不敢动手。
1.3 “论文工厂”:科研评价指标失灵的中国式样本
2009 年起,中国多所高校将“SCI 论文篇数 + 影响因子总和”直接与职称晋升、项目经费和个人奖金挂钩。
-
需求端:医生、教师发现只要多发 SCI 就能“破格”晋升,于是批量购买论文。
-
供给端:第三方“论文工厂”明码标价——1 篇 1–3 分 SCI 约 3–6 万元人民币,代写、代投、代回修一条龙服务。
-
结果:2017–2020 年,中国 SCI 发文量跃居世界第一;但同期因伪造同行评议、图片重复等问题被撤稿的论文中,中国作者占全球 44 %。
-
2020 年 2 月,教育部、科技部联合发文取消“SCI 至上”,改用多元评价,试图堵住指标被系统性操纵的漏洞。
古德哈特定律的体现:“SCI 篇数与影响因子”一旦成为职称与奖金的唯一阀门,就不再是衡量科研质量的有效指标,反而催生了规模化的学术造假产业。
怎么改规则解决问题:评职称不再看“发了几篇”,而是交 3 篇代表作,让匿名同行去审“到底解决了什么问题”。代写工厂一下没了市场,大家自然回去啃真问题。
1.4 “救护车拒接”:英国 NHS 4 小时急诊等待红线
2004 年起,英国 NHS(国家医疗服务体系)将“急诊科病人在 4 小时内被接诊、处置或收治入院的比例≥95 %”设为硬性绩效指标,并与医院预算及管理层奖金直接挂钩。
-
医院发现“4 小时”极易被“技术性”满足:急诊部在 3 小时 45 分钟时把病人推进走廊轮椅“虚拟住院”,4 小时计时即告结束,实际治疗仍未开始。
-
为避免“计时开始”,部分救护车被要求在院外绕行或停在门口,直到急诊室确认“有能力”接收,导致院外等待时间飙升。
-
2018 年官方数据显示,4 小时达标率回升至 90 % 以上,但同期救护车在院外滞留超过 1 小时的事件翻倍,患者死亡率随之上升。
-
2022 年 NHS 宣布取消单一“4 小时”红线,改为综合评估院外延迟、临床结果与患者体验,试图缓解指标扭曲带来的副作用。
古德哈特定律的体现:当“4 小时急诊等待率”成为医院唯一的生死线,它就不再反映“患者及时获得救治”的真实水平,反而催生了拒接、绕行等伤害患者的行为。
怎么改规则解决问题:把“救护车在门外等多久、病人 30 天死亡率”一起纳入考核。医院如果只赶 4 小时,却害得院外排队死人,分数照样扣光。于是急诊部优先疏通全流程,而不是“卡最后一分钟”。
1.5 “砍树刷绿”:G省独山县的荒山绿化考核
2018 年,G省独山县为完成“森林覆盖率每年增长 2 个百分点”的省级考核,将覆盖率与干部绩效奖金直接挂钩。
-
县里发现天然林增长太慢,于是把公路两侧原本成活的低矮马尾松成片砍掉,再种上 2–3 米高的阔叶树苗;航拍图片瞬间“绿量”大增。
-
为凑株数,部分乡镇把 30° 以上陡坡也强行挖穴植苗,雨季一来苗木大量被冲走,次年继续补栽,年年“完成任务”。
-
2020 年省级卫星遥感核查显示:独山县森林覆盖率两年提升 4.6 %,达到考核要求;但同期水土流失面积反增 12 %,林业资金超支 1.3 亿元。
-
2021 年G省修订考核办法,改为“成活率 + 生态效益”双指标,并引入无人机多光谱核查,试图堵住“刷绿”漏洞。
古德哈特定律的体现:“森林覆盖率”一旦被设为唯一且带奖金的硬指标,就不再真实反映生态改善,反而诱发“砍老树、种新苗”的数字游戏。
怎么改规则解决问题:卫星遥感年年查成活率,再派无人机抽查“是不是在陡坡上种树”。活下来的树才算数,种一棵死一棵的不再给分。干部自然老老实实在该种树的地方种,而不玩数字搬家。
2 模型 古德哈特定律
2.1 什么是古德哈特定律
古德哈特定律(Goodhart’s law) 由英国经济学家查尔斯·A. 古德哈特(Charles A. Goodhart)提出,其核心观点是:当一项经济指标或社会指标被设定为政策目标时,该指标将失去反映真实情况的能力,因为政策执行者会通过扭曲性操作实现目标 。
这一定律最初用于探讨货币政策和通货膨胀问题(如1975年古德哈特在研究货币政策时的发现),后被广泛应用于经济学、管理学等领域 。其经典表述为:“一旦出于控制的目的,向某个统计数据施加压力,所观测到的统计数据常态就会崩溃”或“当一个指标成为目标时,它就不再是一个好的指标” 。
古德哈特定律起源于20世纪70年代的英国,古德哈特作为前英格兰银行货币政策委员会成员和伦敦政治经济学院银行和金融学荣休教授,在研究货币政策时发现,当政府试图通过特定指标(如货币供应量)制定政策时,这些指标的有效性会因政策干预而降低(如中央银行控制货币供应量时,人们会通过其他方式创造货币,导致测量方法失效)。
2.2 对抗古德哈特定律,如何防“指标失灵”?
把它想成做菜:先定口味(目标),再选多种配料(指标),最后不停尝咸淡(制衡)。四步即可落地:
@1 目标澄清:从“数字”回到“人”
把政策目标写成一句“群众有感”的大白话,例如“让病人更快、更安全地看上病”,而不是“急诊 4 小时率≥95 %”。先共识,再量化。
@2 指标拼图:3-5 个互补指标,缺一不可
- 结果指标:最终想改善的核心现象
- 过程指标:关键环节的真实动作
- 负面指标:做假会恶化的副作用
例如:医院同时考核“院内 4 小时率 + 救护车门外等待时间 + 30 天再入院率”,造假任何一项都会拉低其他两项。
@3 多元数据源:让造假穿帮,多源交叉,异常曲线一眼识别
- 官方数据 + 第三方抽查 + 群众随手拍/开源传感器
- 数据实时公开,任何人都能下载或 API 调用
@4 动态迭代:规则像软件,定期打补丁
- 每 6–12 个月复核:指标是否被“玩坏”?
- 出现新漏洞 → 立刻增补丁(加指标、改权重、换数据源)
- 公布补丁日志,保持透明。
2.3 为什么会有古德哈特定律?
古德哈特定律之所以成立,可以从“激励-行为-信息”三个维度拆解。以下 6 条是最常被提及的深层原因,如下所示:
- 激励扭曲:指标变成“奖金开关”。只要把指标与奖惩绑定,执行者就会不择手段地提升它。例:医生按“住院天数”考核,结果把原本 3 天能出院的病人留到第 5 天,住院天数上去了,但医疗质量并未变好。
- 代理问题:委托人与代理人目标不一致。上层(委托人)只看报表,下层(代理人)清楚操作细节,于是“上有政策、下有对策”。例如:公司把“客服电话接通率”设为 KPI,客服中心于是把 20 秒内挂断的电话不计入统计,接通率 100%,但客户体验更差。
- 数据可操纵性:观测成本低于真实改进成本。如果改动数字比改进事实更便宜,理性人当然选前者。例如:某国把“空气质量指数”作为市长考核项,监测站附近就临时洒水、关停工厂,指数好看,但城区整体污染未变。
- 目标替代:数字成为“面子”,实质任务被边缘化。当数字变成唯一合法话语,组织文化会把“如何优化数字”当成真正工作。例如:大学把“SCI 论文数”当核心指标,教师把一篇研究拆成三篇发表,数量激增,但科学贡献并未同比例增加。
- 系统博弈:多主体互动产生不可预见的副作用。政策改变一个环节,其他环节会自发调整,最终抵消甚至逆转初衷。例如:网约车平台用“接单率”考核司机,司机发现拒短途会被扣分,于是集体在高峰期下线,反而导致打车更难。
- 信息失真:指标是现实的低维投影。任何单一指标都丢失了情境与长尾信息,一旦把它当成全部真相,就必然漏掉关键维度。例如:教育部门用“平均分”评估学校,学校砍掉美术、体育课程,全力刷题,平均分提高,学生创造力下降。
总之,只要“被测量的目标”与“真正的目标”存在缝隙,这条缝隙就会被理性人不断放大,直到指标失灵。