2010年7月14日星期三

统计游戏

愧为学理工的,数学一直是我的痛脚。初中到高中的数学竞赛就没有拿过一次奖,大学里《偏微分方程》那门课还险些挂了。从学校出来这么多年,有些知识还在拣,剩下的早还给老师了:《高数/数分》基本用不着;《离散》只有优化编程算法时才有用;而《线代》也只能为一些形而上的思考提供一点牵强的概念,如维度、相关性、空间变换等。生活压力导致实用主义至上,不含贬义,所谓实用主义和理想主义相比不过是眼光短一点长一点的区别。事有轻重缓急,迫在眉睫的问题要抓紧,别的可以缓一缓。

在我看来,所有基础课程中《概率》这门课最实用,即便对我这种从不沾赌的人来说也重要得一塌糊涂。它简直不应被归入理工科范畴,因为这是常识,任何判断离不开常识。

案例一:
@qhgy: “天涯论坛”《毓婷:究竟还要造就多少宫外孕?》的帖子,楼主称,在三个月内接诊的30名宫外孕患者中有19位曾经服用过毓婷。

@jmhuang: 30位宫外孕患者人人都上开心,所以开心网是造成宫外孕的罪魁祸首!

@piginflying 文中提到一个试验 在这309人中,异位妊娠(俗称宫外孕)9例,约占3%,而在普通孕妇人群中,宫外孕比例也就是1%左右

@yimaobuba 这还是骗人的统计学,会吃紧急避孕药的人群特点,可能不洁性生活、滥交比一般群体比例要高。吃毓婷和宫外孕都是果

A 和 B 两件事之间的关系有四种可能,去年我在一篇从气候问题引发的讨论中列过一遍

1. A (直接或间接)导致了 B
2. B (直接或间接)导致了 A
3. A 和 B 同时由另一因素 C (直接或间接)导致
4. A 和 B 毫无关联,两者同时发生纯属偶然

此案中设 A = 吃毓婷; B = 宫外孕; C = 不洁性生活、滥交...

选项 2 直接排除,因为 B 在 A 发生之后。剩下 1、3、4 都有可能。取哪种可能要看概率了。假设统计数字可信,则:

P(A|B) = 19/30 = 63%
P(B|A) = 9/309 = 3%
P(B) = 1%

由于没有关于 C(不洁性生活、滥交...) 的统计数字,只能不考虑选项 3 ,虽然道德感强的人更倾向选这项。

P(A|B) 和 P(B|A) 都不能说明问题。判断 B 是否受 A 影响其实就是比较 B 的独立概率和它在 A 条件下的条件概率,即比较 P(B) 和 P(B|A)。如果两者相等,则说明 B 相对 A 是独立的,不受 A 影响。如果 P(B|A) 远大于 P(B) 则说明 B 受 A 的影响很大。现在这个数字是 3% 和 1% 差别不大,样本空间太小(仅三百余例),扣除统计误差几乎可以不计。

那个一开头就给出30宫外孕19吃毓婷数字的家伙明显是在误导,那个说30宫外孕30上开心网的老兄是在以子之矛攻子之盾,反击得漂亮。同样的伎俩屡见报端,如暴力犯罪者中有多少玩过电子游戏。拿这样的统计数字说事,还不如公布一下强奸犯里有 JJ 的人的比例。赞同这种逻辑的人为了表示预防犯罪的诚意,不妨自己先把 JJ 切了 —— 那肯定比抵制毓婷和电子游戏有效。

案例二:
九十年代,辛普森杀妻案轰动美国,各种证据都似乎证明凶手就是辛普森,而最后辛普森的“梦幻律师团”帮助他成功脱罪。林达曾用了半本书来讲这个故事,极生动,主要讲这个案子的审理程序,想说明当国家机器想给个体定罪是多么容易,个体是多么无助,所以这些必要的程序每一步都疏忽不得。

但是林达没有讲下面这个故事。

为了证明辛普森有罪并给陪审团留下他杀妻的印象,检方举证说辛普森之前有家庭暴力行为,而“扇耳光是谋杀的前奏”。但辛普森的辩护律师说,检方不过是在误导陪审团。辩护律师说:截至1992年,美国每年有400万女性被丈夫或男友打过,但是根据FBI的报告,其中只有1432人被丈夫或男友杀死,这概率大概2800分之一。怎么能用这么小的概率来推理呢?

这个辩护看起来很有说服力,但实际上完全与案件无关。问题根本不在于打过女人的男人有多大可能性杀死这女人(这概率,如上所述,是2800分之一),而在于被打过且被杀死的女人中,有多少死于打过她的人之手?这后者的概率,根据1993年的美国犯罪报告,是90%。在辛普森案中,检方从来没提起过90%这个数字,显然中了辩方的招。

兰小欢简评:我做过两学期初等概率论和统计学的助教,讲辅导课时,条件概率和贝叶斯定理很难教。我相信这些概念和推理是合乎逻辑的,但我也相信它们和人类直觉相悖,人通常不这么思考问题,人很容易被愚弄。

这个故事来自加州理工的教授Leonard Mlodinow的畅销书《The Drunkard’s Walk: How Randomness Rules Our Lives》。

设:A = 挨老公揍;B = 被杀;C = 被老公杀

P(C|A) = 1/2800
P(A∩C|A∩B) = 90%

文氏图表示,前者是红色部分在黄色蛋形里的比例,后者是红色部分在橙色枣核形里的比例。


本案中受害者已经被杀了,那些被老公修理但没有致死的案例与此案无关。硬把这些数字拉入统计分母就是为了让辛普森是凶手的概率看起来小一点 —— 辩方成功了。美国的陪审团制度挑选陪审员要求学历越普通越好。相信他们大多没有学过概率,就算学过也不一定记得起来,就算记得起来也未必有时间画出上面这张文氏图。

很遗憾,此案中陪审团的判断很可能错了。好在这是别人一条命,说得难听点,放跑了罪犯和陪审员本人关系不大。和前例一样,被媒体误导,跟着愤怒一下、谴责一下、冤枉一下好人,只要不是自己的事就对自己损失不大。下面一个案例是关于看大病,或许每个人自己或亲人迟早都会遇到,判断错误会让你损失很大!我最早是网上看来的,答案在维基百科“条件概率”词条中,把数字改改就能当面试题。三个多月前一个名校在读的计算机系研究生花了半个小时也没答出来,我就没再问下去。

案例三:

条件概率的谬论是假设 P(A|B) 大致等于 P(B|A) 。数学家 John Allen Paulos 在他的《数学盲》一书中指出医生、律师以及其他受过很好教育的非统计学家经常会犯这样的错误。这种错误可以通过用实数而不是概率来描述数据的方法来避免。

P(A|B) 与 P(B|A) 的关系如下所示:

P(B|A) = P(A|B)·P(B)/P(A)

下面是一个虚构但写实的例子,P(A|B) 和 P(B|A) 的差距可能令人惊讶,同时也相当明显。

若想分辨某些个体是否有重大疾病,以便早期治疗,我们可能会对一大群人进行检验。虽然其益处明显可见,但同时,检验行为有一个地方引起争议,就是有检出假阳性的结果的可能:若有个未得疾病的人,却在初检时被误检为得病,他可能会感到苦恼烦闷,一直持续到更详细的检测显示他并未得病为止。而且就算在告知他其实是健康的人后,也可能因此对他的人生有负面影响。

这个问题的重要性,最适合用条件概率的观点来解释。

假设人群中有1%的人罹患此疾病,而其他人是健康的。我们随机选出任一个体,并将患病以disease、健康以well表示:

P(disease) = 1% 且 P(well) = 99%

假设检验动作实施在未患病的人身上时,有1%的概率其结果为假阳性(阳性以positive表示)。意即:

P(positive|well) = 1% 且 P(negative|well) = 99%

最后,假设检验动作实施在患病的人身上时,有1%的概率其结果为假阴性(阴性以negative表示)。意即:

P(negative|disease) = 1% 且 P(positive|disease) = 99%

现在,由计算可知:

P(well ∩ negative) = P(well) × P(negative|well) = 99% × 99% = 98.01%
是整群人中健康、且测定为阴性者的比率。

P(disease ∩ positive) = P(disease) × P(positive|disease) = 1% × 99% = 0.99%
是整群人中得病、且测定为阳性者的比率。

P(well ∩ positive) = P(well) × P(positive|well) = 99% × 1% = 0.99%
是整群人中被测定为假阳性者的比率。

P(disease ∩ negative) = P(disease) × P(negative|disease) = 1% × 1% = 0.01%
是整群人中被测定为假阴性者的比率。

进一步得出:

P(positive) = P(well ∩ positive) + P(disease ∩ positive) = 0.99% + 0.99% = 1.98%
是整群人中被测出为阳性者的比率。

P(disease|positive) = P(disease ∩ positive)/P(positive) = 0.99%/1.98% = 50%
是某人被测出为阳性时,实际上真的得了病的概率。

这个例子里面,我们很轻易可以看出 P(positive|disease)=99% 与 P(disease|positive)=50% 的差距:前者是你得了病,而被检出为阳性的条件概率;后者是你被检出为阳性,而你实际上真得了病的条件概率。由我们在本例中所选的数字,最终结果可能令人难以接受:被测定为阳性者,其中的半数实际上是假阳性。

3 条评论:

Chengyi 说...

P(A|B) = 19/30 = 63%
这个等式中B=宫外孕患者,A=服用过毓婷
P(B|A) = 9/309 = 3%
这个等式中B=在一个实验中的宫外孕患者,A=一个实验中的总人数。
第二个等式不应该再复用A和B了,两个等式中所指代的意义完全不同啊。
P(B) = 1%
这个B又是所有的人口。
所以还是不能再用B了。

Chengyi 说...

随后那个wiki上的例子是抄浙大概率统计(第三版)的一个例子。wiki上解释用的符号有点麻烦,简单点的话直接有A和A否就可以了,至少教科书上是这么写的。

geoxia 说...

明白你的意思,天涯上的原文我也没看过,从实验角度来说,这种记录结果的方式当然不严密。两次结果的样本空间不一样,当然不能放在一起计算。硬要放在一起计算的话只能假设,63%, 3% 和 1% 在所有样本空间里都一样。

我的《概率论》课本不知道上哪里去鸟,凑合着上网学习吧,咱不坚持原教旨主义。不过你说得有理,简单就是美。