请输入您搜索的信息!

X
专著解读

《从章鱼保罗到回归均值:〈Standard Deviations〉揭示的数据陷阱与统计素养重构》

2025-08-12 11:21:53
来源:
  1. 系列介绍

经济统计著作系列推文将深入浅出地解读国际上具有影响力的经济统计著作。除出版社出版的经济统计著作以外,也包括国际组织(OECDUNWorld BankIMFEU 等)出版的部分经济统计方法论手册和专题论文集,经济统计学主题的博士论文,经济研究机构的部分 Working Paper(工作论文)。

  1. 著作信息

Smith, Gary. 2014. Standard Deviations:Flawed Assumptions, Tortured Data, and Other Ways to Lie with Statistics. First paperback edition. Vol. 52. New York: Abrams Press.

Standard Deviations:Flawed Assumptions, Tortured Data, and Other Ways to Lie with Statistics

英文原版封面

  1. 引言

本著作首先把我们带进一个“大数据被神化”的世界,作者列举了一连串看似出自严谨研究、实则荒诞不经的“科学发现”——从“章鱼保罗能预测世界杯”到“喝咖啡延长寿命”,再到“政府债务超过GDP90%就会引发衰退”。这些说法的共同点是拥有“海量数据”和“复杂模型”的加持,却在稍加推敲后显得漏洞百出。史密斯借此指出,我们正生活在一个“垃圾进、福音出”(garbage in, gospel out)的时代:计算机算得飞快,却从不质疑输入的假设;人类则因进化而来的“模式饥渴”,对任何带有数字和图表的结论产生本能敬畏,从而把统计结果当成真理,把相关性偏误当因果。

为了说明问题的严重性,著作进一步揭示了“模式幻觉”的深层心理根源:人类祖先靠识别“乌云与暴雨”“捕食者声响”等简单模式得以生存,这种本能延续到今天,却让我们在纷繁复杂的现代数据中过度联想。史密斯用“保罗八猜八中”的案例说明,若把足够多的动物拿来做预测,总有一只表现“神准”,而媒体只会报道成功者,忽略数百次失败——这就是“选择性报道”的欺骗性。最终,著作把矛头指向学术界的“发表或灭亡”压力,研究者为了发表,不惜数据挖掘、P值操纵、甚至造假。史密斯警告,如果我们不学会质疑数据、识别陷阱,“大数据”将不再是福音,而是一场系统性的认知灾难。

  1. 作品内容


数字的幻象:从轻信模式到图表戏法

史密斯带领读者拆解“数据崇拜”的心理地基。他先以“章鱼保罗八次猜中世界杯赛事”的故事开场,当几百只动物被用来预测比赛时,总会出现一只“全中”的幸运儿,而媒体只报道成功、隐匿失败,于是“神算章鱼”登上头条。作者借此说明“选择性报道”与“混杂变量”如何让无意义的随机结果被包装成惊人发现。随后,他检视大学排名、犯罪率对比、成功企业研究等日常例子,指出“垃圾进、福音出”的普遍现象。人们把计算机输出的任何数字都当成真理,却忘了追问数据来源是否干净、样本是否可比、定义是否被偷换。这一部分的核心警示是:我们天生擅长寻找并相信模式,却极度缺乏验证模式的工具。

后来著作把镜头转向“数字如何被进一步打扮成真理”。史密斯先列举触目惊心的案例:NASA因单位换算失误导致3亿美元的火星探测器焚毁;哈佛大学两位教授用一张漏洞百出的Excel表“证明”政府债务超过GDP90%就必然衰退,进而影响全球紧缩政策。接着,他剖析图表操纵的“化妆术”,纵轴截断让2%的营收下滑看似断崖式暴跌;时间轴尺度不一致让40年的平缓通胀呈现直线上升;双坐标轴使收入增长“跑赢”物价,调换坐标后又可得出完全相反的结论。最后,通过“蒙提霍尔悖论”和“阳性与阴性预测值”问题,作者揭示大众对概率的系统性误解。这一部分共同指出:在“数字会说话”的时代,真正需要警惕的是说出谎言的并非数字,而是操纵数字的人与工具。


因果迷雾与数据炼金术

著作把焦点移到“看起来有因果,实则只是迷雾”的经典难题。史密斯先讲述19世纪伦敦霍乱的故事,当时主流医学坚信“瘴气致病”,而约翰·斯诺通过对比两条水公司供水区的死亡率,发现饮用污染井水才是霍乱根源——这是利用“自然实验”排除混杂变量的范例。作者随即用现代篮球“热手效应”说明,即使球员连中三球,数据也显示其下一次命中率并未显著提高,所谓“手感火热”更多是随机波动与人类的模式错觉。为了彻底拆解“极端表现预示趋势”的迷思,史密斯引入“回归均值”概念:任何一次超常发挥都夹杂运气,后续表现必然向长期平均水平回落。企业利润、学生成绩、甚至身高遗传都逃不开这条统计铁律,却被误读为能力退化或竞争趋同。

著作揭露了“数据炼金术”——研究者在海量数字中淘金,把偶然当必然的全过程,并且破除了“平均律”迷信,投资人以为连跌必涨,赌徒相信轮盘“欠一次红”,实则每次事件独立。后来著作以德州神枪手比喻“癌症集群”恐慌:先随机扫射,再在弹孔最密处画靶心,于是发电厂、球场、水塔都成了“致癌元凶”。著作尖锐地剖析学术界如何“延迟死亡”研究——作者重检所谓“名人推迟去世到生日后”的数据,发现数据把生日当天死亡也算作“成功拖延”,且刻意挑选年龄、节日与族群,最终得到想看的“死亡低谷—高峰”。史密斯总结,只要样本够大、切割够细、假设够多,任何荒诞结论都能披上统计显著的外衣;唯有预先设定假设、公开全部数据、独立重复验证,才能避免把随机噪声当成重大发现。


当理论遇见剪刀:学术滤镜、数据修剪与认知闭合的共谋

本著作像是一把手术刀对准学术共同体内部的“数据修剪”与“理论护短”,以挑战者号航天飞机失事档案为切入点,工程师在发射前夜绘制O形环失效—温度散点图时,竟把17次“零失效”的航班剔除,只留下7次已失效样本,于是低温风险在图上凭空消失,次日火箭升空73秒后爆炸,7名宇航员罹难。史密斯借此提出“选择性遗漏”的致命性——当数据与既定日程、经费或政治期待冲突时,科学家也可能像政客一样“看不见”关键证据。通过进一步解剖棒球名人堂“早夭”研究,作者发现原论文把大量“死亡年份不详”的球员默认设为“仍健在”,从而把平均年龄抬高,制造出名人堂球员反而短命的荒诞结论,一旦补回缺失值,差异立即消弭。这些案例表明,学术滤镜比任何蓄意造假都隐蔽,却同样能扭曲真理。

最后作者把镜头拉远,揭露“认知闭合”如何让整个研究链条系统性地排斥反证。史密斯回顾通灵实验史,从J.B.莱茵的“超感官卡片”到远程治疗、再到“濒死体验”研究,研究者往往先锁定结论,再用无尽的子分组、事后解释和选择性发表来巩固信念。当结果不如预期,便以“受试者故意捣乱”“能量场干扰”等理由删除不利数据。作者指出,这种“别拿事实来烦我”的心态不仅存在于伪科学,也渗透到经济学、医学、公共政策的实证研究,最终导致集体自欺。史密斯给出的解药是三重透明:公开原始数据、预先注册假设、鼓励独立复现,只有让剪刀远离数据,科学才能摆脱“自我实现的预言”。


  1. 作者介绍

Gary Smith

Gary Smith本科阶段在哈维穆德学院(Harvey Mudd College)主修数学,随后进入耶鲁大学深造,于1971 年获经济学博士学位。博士毕业后,他先受聘于耶鲁大学经济系担任助理教授;1975 年转赴加州理工学院(Caltech),在人文社科部升任副教授并兼任统计学顾问。1980 年,史密斯加入波莫纳学院(Pomona College),此后四十年长期任教于此,历任经济学教授、统计学教授、Richard S. Margaret H. Hinckley 讲座教授,直至 2020 年以荣誉退休教授(Emeritus Professor)身份荣休。其间,他还多次受邀赴斯坦福大学和牛津大学担任访问学者,并在美国统计协会(ASA)和皇家统计学会(RSS)担任理事、期刊编委等职,形成了横跨学院、学会与国际学术网络的完整职业轨迹。

Gary Smith的研究集中于应用计量经济学、统计误判及行为实证分析三大领域。他率先将实验设计与大数据结合,提出“数据质量—模型稳健性”双检验框架,被收入《Handbook of Econometrics》。其著作《Standard Deviations:Flawed Assumptions, Tortured Data, and Other Ways to Lie with Statistics》被誉为“写给大众的统计防骗指南”,被哈佛、斯坦福等高校列为通识教材。在《Money Machine》中,他手把手教投资者分辨真金白银的财务建议与那些看似专业、实则荒诞的“财富神话”。随后,他在《The AI Delusion》里提醒世人,大数据时代最大的风险,并非机器真的比我们更聪明,而是我们误以为机器永远正确,从而把重大决策拱手让给算法。Gary SmithJay Cordes 合著的《9 Pitfalls of Data Science》荣获 了PROSE 科普与大众数学卓越奖,用一连串成功与惨败的故事,为数据科学家提供一份避坑指南;此外,Gary SmithJay Cordes 合著的《The Phantom Pattern Problem: The Mirage of Big Data》进一步指出,人类天生热衷寻找模式并本能地相信其意义——这种能力曾帮助我们的祖先生存,如今却让我们在铺天盖地的数据中把巧合当成真理,最终陷入海市蜃楼般的误导。他在《Nature》、《American Economic Review》等顶级期刊上发表的论文累计被引逾 15 000 次,并长期为《The New York Times》、《The Wall Street Journal》撰写专栏,使严谨的统计思维走出象牙塔,成为公众与政策制定者理解数据世界的重要工具。



图片来源:

https://zh.zz101.ru/book/2516053/4023cb/standard-deviations-flawed-assumptions-tortured-data-and-other-ways-to-lie-with-statistics.html

https://www.pomona.edu/sites/default/files/garyshortermid.jpg