文档介绍:该【贝叶斯定理让你成为所谓的高手 】是由【游园会】上传分享,文档一共【9】页,该文档可以免费在线阅读,需要了解更多关于【贝叶斯定理让你成为所谓的高手 】的内容,可以使用淘豆网的站内搜索功能,选择自己适合的文档,以下文字是截取该文章内的部分文字,如需要获得完整电子版,请下载此文档到您的设备,方便您编辑和打印。贝叶斯定理让你成为所谓的高手
人生中最重要的问题,在绝大多数状况下,真的就只是概率问题。---皮埃尔-西蒙拉普拉斯(1749-1827)高手只所谓称为高手是由于他们总有一些跟常人不一样的地方或许就是走路的姿态更利于健身之类的,其实都是细节处成就的。
先讲一个真实的故事。
我的一个夫妻朋友有了二胎,由于太太年龄较大,所以医生警告说,你们的孩子有可能会得唐氏综合症。朋友很紧急,那怎么办?医生说,可以做羊水穿刺,以确诊是不是真的得了。朋友很快乐。不过呢,医生又说,羊水穿刺也有可能会失败,那样你们的孩子就没了。这下朋友纠结了,一边是唐氏综合症,一边是孩子没了,这可怎么做打算?
医生后来又说,高龄产妇得唐氏综合症的概率大约是2%,羊水穿刺检测失败的概率大约是1%。这下简洁了,坚决不做啊。
所以,我们发觉,一旦知道了某件事情发生的精确概率,我们的打算就瞬间简洁了起来。但问题是,我们怎么能知道这些概率呢?
许多人觉得所谓的概率,都是计算出来的。一枚硬币,正反面各50%,一个袋子里100个球,30个黑球,70个红球,摸出一个红球的概率是70%。
那假设一个黑盒子,你事先不知道里面多少黑球,多少红球,怎么办呢?其实,现实世界里,我们面临的绝大多数状况都没法计算,都是黑盒子却需要去推断概率的问题。
频率派和贝叶斯派
传统的方法叫频率派。关于频率和概率的区分,许多人不熟识。简洁的说,概率说的是事情将来发生的可能性,而频率说的是对某事情进展观看或者试验,发生的次数和总次数的比值。概率是事情本身的一个固有属性,是一个固定值,而频率是变化的,样本越大,频率越接近概率。依据大数定理,当样本无穷大时,频率等于概率。
你抛硬币10次,不见得会正面反面各5次,但是你抛1万次,那根本是正反各50%。比方那个黑盒子,你不断的从里面随机的拿球出来,统计黑球和红球的比例,次数“足够多”时,你得到的那个频率,就接近真实的概率。
这个方法用了上百年,现在仍旧被广泛使用,比方某某疾病的发病率,飞机和火车的出事概率等等,都是利用大样本的统计,靠近真实概率。
但是,我们略微深入的思索一下,就会发觉这个方法的两个局限:第一,你只有积存了肯定数量的样本,才能有一个对概率的初步推断,你只扔5次,只取10个球,基于小样本得出的概率很可能错的离谱。其次,假如这个黑盒子够黑,你连里面总共有多少个球都没概念,甚至里面的球的总数量都是变化的,这时你就没法推断什么叫“足够多”。
现实世界里,我们遇到的大量问题,根本找不到这么多现成的数据。还有许多新兴事物,压根没有先例,一种新发觉的疾病,一个新的产品,一种新的市场策略,那怎么推断概率呢?瞎蒙吗?
也对,也不对。
这就需要贝叶斯学派了。
贝叶斯学派的观点是,概率是个主观值,完全就是我们自己的推断,我可以先估量一个初始概率,然后每次依据消失的新状况,把握的新信息,对这个初始概率进展修正,随着信息的增多,我就会渐渐靠近真实的概率。这个方法完善的解决了频率派的两个问题,我不用等样本累积到肯定程度,先猜一个就行动起来了,由于我有修正***,而且我也不关怀是不是“足够多”,反正我始终在路上。
贝叶斯学派诞生两百多年来,始终倍受争议,甚至连co-founder拉普拉斯自己都放弃了,由于大家觉得这个摸着石头过河的方法太扯了,太不科学了。直到最近几十年,随着计算机技术的进步才大放异彩,现在的人工智能、图像识别、机器翻译等,背后无不采纳了贝叶斯方法。
那我们需要看看,贝叶斯方法毕竟是怎么摸着石头过河的。
贝叶斯定理(BayesTheorem)
这一局部涉及一些数学公式和计算,但说实话,只需要小学算术水平就可以了。
贝叶斯定理如下:
A是你要考察的目标大事,P(A)是这个目标大事的先验概率,又叫初始概率,或者根底概率。B是新消失的一个新大事。P(A|B)的意思是当B消失时A的概率,在这里就是我们需要的后验概率。P(B|A)是当A消失时B的概率。P(B)是B消失的概率,在这里详细计算略微简单一些,指当A消失时B的概率和当A不出时(用A_来表示)时B的概率的总和,用公式表达就是P(B)=P(B|A)*P(A)+P(B|A_)*P(A_)。P(B|A)/P(B)可以看作一个修正因子。
上述解释你可以忽视,简化的理解为:
后验概率=先验概率x修正因子
举个例子。
比方你新进入一家公司,你不确定这里MBA学历对员工升迁的作用,而这个对你的个人进展很重要,由于你要打算接下来是不是去读一个MBA学位。由于新来,压根没有样本,这时候你可以采纳贝叶斯定理。
P(A)是你依据过往阅历事先估量的,MBA对升迁有多大好处?比方你先预估一个30%。这时候,消失了一个新信息B,小王升迁了,而且小王是MBA。那么,P(B|A)是说当MBA管用时,小王升迁的概率,比方你现在的推断是80%。小王可能本身就有力量且业绩突出,就算没有MBA也可能会升迁啊,所以P(B|A_)=50%(发觉了吗,这个公式自动的帮忙我们避开走极端)。
套入贝叶斯公式,P(A|B)=30%*80%/(80%*30%+50%*70%)=41%。从30%提高到了41%。那么当小王升迁这个新状况消失以后,你对MBA作用的概率推断从30%提高到了41%。
但是,过了段时间,你发觉同样是MBA的小李,熬了许多年也没有升迁,最终辞职了。现在你对小李由于MBA有效而升迁的概率推断降为20%了。套入公式,新的P(A|B)=41%*20%/(20%*41%+50%*59%)=22%。从刚刚的41%跌了近一半。
这样几次下来,你就能对这个这家公司对MBA的看法有个相对靠谱的推断了。
或许你会说,搞这么简单干嘛,有了新状况,我原来的看法会转变,新状况和自己的预期全都就强化原来的看法,否则就弱化,这不就是常识吗,还用得着什么数学定理吗?
很好,确实一针见血。拉普拉斯说过,所谓的概率就是把人们的常识用数学表达出来。也有人说,人脑就是采纳贝叶斯方法来工作的。
但是我们人脑有偏差啊,有误区啊,会犯浑啊,这个公式让我们突然获得了一个上帝视角,来端详一下,我们自己毕竟是怎么做推断,做打算的,计算机又是怎么仿照并超越我们的,这岂不是很奇妙的一件事情。
让我们再来看一个简单一点的例子,这是一个经典的案例,网上随处都可以找到。
艾滋病毒(HIV)检测技术的精确度相当惊人。假如一个人真是HIV阳性,%的把握把他这个阳性给检查出来而不漏网。假如一个人不携带HIV,那么检测手段的精度更高,%%的可能性会冤枉他。%。现在假设我们任凭在街头找一个人给他做检查,发觉检测结果是HIV阳性,那么请问,这个人真的携带HIV的可能性是多大呢?
我们使用贝叶斯定理。A表示“这个人真的携带HIV”,B表示“检测出HIV”,那么依据现有条件,P(A)=%,P(B|A)=%,P(B|A-)=%,带入公式,计算得到P(A|B)=%*%*(%*%+%*%)=50%!
答案或许和你的直觉不全都,即使在这么惊人的检测精确度之下,哪怕这个人真的被检测到HIV阳性,他真有HIV的可能性也只有50%。
我们看到,假如是一种特别罕见的病毒,人群中只有万分之一的人感染,在这种状况下即使你的检测手段再高,也很有可能会冤枉人。甚至,%,%的话,也就是检测手段再差一档,这个结果就会瞬间从50%降到9%。但是,我们也可以反过来想,这么罕见的疾病,一旦被检测出来了,也有50%的概率真的会得,这个跃迁是从万分之一,一下子到了50%。而假如我们假设这个病毒的感染率不是万分之一,而是千分之一,那么在原来的检测精度下,可能性就从50%升到了90%。
这其实可以解释为什么我们说一叶知秋,为什么说当你家发觉了一只蟑螂,那么你家里肯定已经有许多蟑螂了。罕见大事,可以对初始概率做出数量级的转变。同时,这也解释了我们有时也不能反响过度,有人叛逃到国外了,我们莫非需要彻底关闭海关吗?真的需要在墨西哥修建长城吗?
贝叶斯定理,把我们的思索的方式给撕开了,揉碎了。
贝叶斯定理给我们的启发
塔勒布说过,数学不仅仅是计算,而是一种思索方式。
现实世界中,我们没法时时刻刻拿出电脑来演算一下公式,但是我们仍旧可以通过这个定理得到一些珍贵的启发:
1、先行动起来。
大胆假设,当心求证。不断调整,快速迭代。这就是贝叶斯方法。
当信息不完备时,对概率的推断没有把握时,固然可以选择以静制动,但是不行动也是有代价的,你可能会错过时机,你也没有时机进步。这个时候,贝叶斯方法给我们供应了一个很好的思路,先做一个预判,动起来,利用新的信息不断修正原来的预判。
2、听人劝、吃饱饭,但又不能听风就是雨。
当我们没有把握时,我们很简单依据新信息调整看法。更大的挑战是,我们已经形成了一个看法,甚至有了胜利阅历时,当新状况消失后,我们能不能也去调整自己看法。那个黑盒子,我们摸索了一段时间,估量出了里面红球、黑球的概率,但是我们有没有想过,这个黑盒子里的球的比例会变化呢?
有了新信息,我们要对原来的看法做多大程度的修正呢?
这些,不行能有标准答案,但是明白了这个道理,有助于我们准时又慎重的做出调整。
3、初始概率很重要。
初始概率越精确,我们就能越简单、越快速的得到真实的概率。疑邻盗斧,以貌取人,会让我们离真相越来越远。而如何获得相对靠谱的初始概率,是个硬功夫,它需要你的阅历、人脉、平常的深度思索,有时甚至和底层的价值观、思维方式都有关。
《思索,快与慢》里,就特地强调了初始概率对贝叶斯方法的重要性。
4、对消失的特别状况要引起足够的重视。
前面我们已经看到了,万分之一概率的事情,也有可能由于特别大事,一下子变成了50%。所以,每当消失特别的、罕见的状况时,我们要保持高度警觉,黑盒子里的球的比例是不是变化了?但同时我们也看到,假如检测精度不够高,即便消失了罕见大事,真实概率也可能不到10%。所以,详细要怎么实行行动,还需要进一步观看。
5、信息的收集,信息的质量,以及对信息的推断,是提高决策水平的最重要环节。
只要有新信息,就可以修正,哪怕初始推断错了,新信息足够多,也能修正过来。但是没有信息,就没有修正。所以,在做打算之前,尽可能多的收集信息是必需的。但是错误的信息、低质量的信息,会让你的修正偏离真相越来越远,你能不能区分信息来源的牢靠性、能不能进展穿插验证、规律推理,就显得至关重要。
要做到这些,甚至某一些,都并不简单,把握里面的平衡,就更加困难。
所谓高手,就是把自己活成了贝叶斯定理。