有想认识世界的欲望,有认识的能力,这是人与其他生物在生理上的最大区别,而这个欲望和能力也导致了科学和技术的产生,彻底改变了人类的生存面貌。如何认识这个世界呢?这就是认识论,认知论涵盖很多方面的内容,要回答最关键的问题,针对这些关键问题,偶试着给出粗略答案,供大家参考。
世界是不是可以被认识,世界的运行是因果性的,还是随机性的?
答案:世界的运行有很多方面,人类只能分别去认识,各种因素的组合无穷无尽,人类的认识也无穷无尽,科学研究没有终点,物理学的所谓圣杯解决后还会有下个圣杯。
世界的运行既有因果性的,也有随机性的,整体上是随机性的,多个具有因果性的因素组合在一起,经过多级演化,计算量几何增加,到一定程度就会超过计算能力,也就相当于随机性了。因果关系可以是100%的,也可以低于100%,又叫相关性,用概率描述
科学理论是反映了世界的本质,还是仅仅是个人类能理解的解释工具?
答案:现在的科学都是解释工具,至于未来能否找到世界本质,不知道。科学的进步就是把解释工具变得更适用些。为了适用范围更大,常常需要更抽象的概念,更统一的规则,理解难度会大大增加。
是世界导致心智的产生,还是心智产生世界?
答案:世界的一部分产生心智,心智的一部分生成世界,心智无法用科学解释,1000亿个神经细胞产生心智,1000亿个二极管只是机器。
人类发明的推理工具是否可靠?
答案:不一定可靠。推理有归纳和演绎两种。
归纳是从有限个命题总结出一般性命题,无法保证特例不出现。只有归谬和递推式归纳才可以保证结论正确。
演绎是从一般命题推导出特殊命题,但一般命题要么是直觉判断的,要么是归纳总结的,都不能保证一定正确。而且一般命题常常有严格的条件限制,尤其是社会科学,其假设的前提局限性都很强,现实中很少存在,所以其理论一般没多大实用价值,典型的如计量经济学。
虽然推理大多不可靠,但只要没有发现推理的特殊结论有错误的,大家就要认可。推理工具可以大大拓展大家的知识,人类的感官只能感受有限的信息,而且是杂乱的,矛盾的,而推理可以发现背后的规律,消除矛盾。利用规律就可以预测和把握无穷信息。人脑也无法记忆太多结论,把结论公理化,人脑就不需要记忆太多结论,只需记住最基本公理和定理即可,其他的需要时很容易就能推导出来。
推理方法及其重要,是人类认识世界的根本方法,下面做些详细介绍。
推理的两种方式:归纳和演绎
归纳推理:
因为常常不能穷尽该领域内的所有命题,所以无法证明该领域内所有命题正确。如:中国的天鹅是白色的,美国的天鹅是白色的,英国的天鹅是白色了,然后推导出所有天鹅是白色的。这个就没办法保证是正确的,人类不可能把地球上所有天鹅都抓来看下颜色。
另外一个归纳的问题是有隐含假设条件,而这个条件没办法保证正确。比如:太阳前天是从东方升起,昨天也是从东方升起,今天也是从东方升起,所以明天太阳也会从东方升起。这里就有个隐含条件:太阳不会变化。但这个隐含条件是无法保证正确的,所以这种归纳得出的新结论依然无法保证正确。
归纳本质上没法保证正确,但只要没有反例,大家只能假设正确。但如果可以通过归谬和递推证明,结论就可以保证正确,这种归纳只适用于极少数问题。归谬的本质是逻辑矛盾,逻辑是世界投射到心智上的基本秩序。递推归纳是初始命题正确,如果第n个命题也正确,下一个一定也正确,这样就推理出所有命题都正确。
演绎推理:
由大结论推导子结论,本质上没有产生新知识。大结论常常又称为假设或公理,它们的得出是通过归纳。
举例1:欧式几何学:所有结论都是10个公理的子结论,10个公理是头脑中归纳出来的,想象不出反例,如两点确定一条直线,想象不出确定2条的例子。
举例2:牛顿的万有引力定律: 是由开普勒3定律和牛顿三定律推理出来的子结论,但万有引力定律更简洁,因而才是更本质的结论。开普勒3定律是通过观察数据归纳出来的。
举例3:狭义相对论:所有结论是由两个大结论演绎出来的子结论,两个大结论:光速不变和相对性原理,光速不变是麦克斯韦方程推导出来的也是实验验证出来的结论,麦克斯韦方程是归纳出来的,相对性原理是总结经验得出的,并且是大结论(自然规律是统一的)的子结论(如果这个结论不成立,大自然就是杂乱的,无法认识和总结,人类的思考就无意义)。
从演绎的开始原点看,人类认识自然的更源头更本质的方法是归纳。归纳出几个大结论,然后演绎出所有子结论,形成一个理论体系,解释和预测所有该领域现象,只要大结论正确,所有子结论就正确,大家就可放心使用该理论。
大结论和演绎出来的子结论间是一种因果关系,这种因果关系有两种:100%因果关系和低于100%因果关系,通常的理论体系都是指100%因果关系的。
符合100%因果关系的占比极少,大多存在于完全抽象的数学世界中和简化的物理模型中。这个就不再详细讲解,
现实世界的因果关系绝大部分是低于100%的,又叫相关性。这就涉及到推导出的结论可靠度问题。贝叶斯定理就是研究这个问题:由已知的结论,推导出另外结论成立的概率。可以说生活工作中所有方面都能用到,但大多人并不掌握这个简单的数学工具。如:各种决策判断,炒股,找工作,疾病判断等,现在的热门应用有:语言翻译,图像识别,人工智能等。下面就重点讲下这个理论工具:贝叶斯定理。
贝叶斯定理详细讲解:
贝叶斯定理就是条件概率,假设有两类事件,A事件发生导致一定概率的B事件发生,类中事件间互斥,即A1,A2,A3,..互斥(概率之和等于1),B类事件相互间没有关联。A1发生可以导致产生B1,B2..;A2发生也可以导致产生B1,B2….。已知B1发生了,求A1发生的概率,首先要算出B1发生的总频次,然后在这里面找A1的频次,后一个频次除以前一个频次就得出 A1发生的概率。接着又发生B2,这时A1发生概率是多少,同样的方法,在刚才已算出B1发生A1概率的基础上再算。这个定律是英国神父贝叶斯在18世纪发现的。
网上有大量介绍资料,但很多都有错误和误导。
有关贝叶斯定理的常见错误和误导:
§ 认为贝叶斯定理是人类认识真实世界的逼近手段,可以先随便假设一个概率,称为先验概率或主观概率,然后根据拿到的真实样本,重新计算概率,称为后验概率或客观概率。正确看法:贝叶斯定理不是逼近手段,是真实的概率,先验概率是有可能对结果造成巨大偏差的,不可随便假设一个先验概率,必须通过大样本统计得出。
§ 使用名词:主观概率,客观概率,先验概率,后验概率。偶的看法:这种称呼和名词不适合,容易造成误导,主观概率或先验概率就是所有样本的统计概率,不是主观或先验的。
§ 认为贝叶斯定理的结论违反直觉。正确看法:不是违反直觉,是忽视了某个因素,只要语言不造成误解,关注所有数据,直觉和贝叶斯定理的结论是一致的。
§ 医学诊断,第一次发现问题,必须要再检测。正确做法:如果是失误造成的,二次检测意义重大,若不是就没有意义。如艾滋病人某蛋白为阳性,但正常人也有极少量为阳性,则二次检测没意义。
§ 算法:先算总概率,再算分概率,两个相除得出第一次发生概率,若又有新事实,在前一个算出的发生概率的基础上再同样算一次,这种算法太繁琐。简洁的算法:比值算法,直接分类算频次,然后相除得出比值,通过比值相加得出总频次,分类频次除以总频次即得出另一事件发生概率。如果发生的事件有多次,计算更为简洁。比值算法有个关键要求:分类算的频次相加等于总频次,或者各分类的概率之和等于1。
针对这些错误和误导,有必要在这里做个较详细的讲解,为了让所有人看懂,全部使用小学算术知识讲解,并用多个例子说明。
例子一:
邮件箱中收到大量邮件,有诈骗邮件,有正常邮件。根据统计,诈骗邮件中出现文字:“中奖”占30%,出现“www.”占40%;正常邮件出现“中奖”占1%,出现“www.”占2%。数据统计显示邮箱中诈骗邮件占比为20%,随机抽取一封邮件发现含有“中奖”和“www.”,这封邮件是诈骗邮件的概率是多少。
分析:
A类事件就是邮件类型:诈骗和正常,B类事件就是发现字段:“中奖”,“www.”
先介绍网上和教课书上的解法,再介绍一种非常简单的比值解法。
分两步求解:先算发现“中奖”后,诈骗邮件的概率,然后在这个基础上又发现“www.”概率又提升到多少。
例子中所用的“频次”是指发生的次数,在总次数是1时内涵完全和概率相同,只是有时样本有具体数量时用频次更好理解。
第一步:算发现“中奖”文字时判断是诈骗邮件的概率
有“中奖”文字的邮件的总频次:
正常邮件有“中奖”+ 诈骗邮件有“中奖”=
80% x 1% + 20% x 30% = 6.8%
诈骗邮件中有“中奖”文字的邮件频次:
20% x 30% = 6%
发现了“中奖”文字的邮件,这个邮件是诈骗邮件的概率:
6% / 6.8% = 88.23529%
第二步:又发现这个邮件还含有“www.”,这封邮件是诈骗邮件的概率是多少
这里的关键就是:这时通过发现“中奖”字样已确定诈骗邮件的可能是88.2%,不再是初始的20%,又发现“www.”要按88.23529%算新频次。
有“www.”文字的邮件的总频次:
正常邮件有“www.”+ 诈骗邮件有“www.”=
(1-88.23529%) x 2% + 88.23529% x 40% = 35.5294%
诈骗邮件中有“www.”文字的邮件频次:
88.23529% x 40% = 35.2941%
这个邮件是诈骗邮件的概率提高到:
35.2941% / 35.5294% = 99.3377%
上面就是通常所见的条件概率算法,网上和教科书上介绍的都是这种算法。其实有一个可以大大简化的方法:
把概率转化为比值:诈骗邮件的概率换成诈骗邮件和正常邮件的比值(两个比值的事件必须互斥,即概率和等于1),含义等效,但可以大大简化算法和理解:
诈骗邮件发现“中奖”和“www.”的频次:
20% x 30% x 40%
正常邮件中发现“中奖”和“www.”的频次:
80% x 1% x 2%
两者的比值:
20% x 30% x 40% /(80% x 1% x 2%) = 150:1
因为两者是相斥事件,概率之和等于1,所以比值可以转化为单独事件的概率: 150/(150+1) = 99.3377%
通过比值算法,可以很轻易看出初始概率值即垃圾邮件占比20%对结果有影响,所以那种说先验概率后验概率,甚至说先随意假设个先验概率,然后不断修正,这个说法有很大误导,除非后续的发生概率都很低,导致最终的概率接近100%,否则所谓先验概率,或者叫主观概率也好,对所谓后验概率影响巨大。
通过比值算法,也可以轻易看出先检查哪个文字,判断诈骗邮件的结果都一样,这个如果是增加很多文字检查,比值算法的优势更大。
垃圾邮件判断的例子用来解释贝叶斯定理网上很多,但其实这类例子不合适,因为有个暗含的条件导致第二次检测不能用贝叶斯定理,但大家都无视它,即字段“中奖”和“www.”一般不是无关的,含有“中奖”的邮件一般也会含有“www.”,所以不应该用全部样本的概率值:诈骗邮件40%和正常邮件2%。假如统计的结果是:含有“中奖”的邮件有50%含有“www.”。频值计算就应该是:
诈骗邮件频次:
20% x 30% x 50% (40%,50%取较大者)
正常邮件的频次:
80% x 1% x 50% (2%,50%取较大者)
两者的比值: 7.5 :1
可以看出,一旦第二类事件间有关联,除了第一次检测,后续增加文字检测失去意义。
例子二(网上常见的一个例子):
两个盒子,A装了30个红球70个白球;B装了30个红球70个白球,随意拿出一个盒子,从中拿出一个球看颜色,记下然后放回,再拿一个看颜色记下放回。如果拿了12次,8次红球,4次白球,问是盒子A的概率是多少。中间不换盒子(这一点常常不提醒)。
解法:
网上的解法都是一次次来验算,然后代入下一次,甚至用到python编程,用电脑算,非常繁琐,并且不能轻易看出先算红球或白球的顺序对结果的影响。用比值算法就简单很多。
假设拿盒子随机,都有50%概率拿到,从A盒子拿8次红球4次白球的频次:
50% x (70/100)^8 x (30/100)^4
从B盒子拿8次红球4次白球的频次:
50% x (30/100)^8 x (70/100)^4
上面的频次相除,得出频次比值:2401 :81
只在一个盒子中拿球,要么是在A盒拿球,要么是在B盒拿球,概率之和等于1,所以两个盒子的频次比值可以转化为盒子A的概率:
2401 / (2401+81) = 96.7 %
如果大家不是随机拿盒子,或者两个盒子的球数不同,例如初始拿A盒子的概率是20%:
比值就变成了:
20% x 2401 : 80% x 81
12次验证后A盒子概率为88%。
通过比值算法很容易理解:红球和白球,先验算哪个就是先乘哪个概率因子,结果都一样,同样得出所谓先验概率或主观概率或叫基础概率肯定是有影响的,如果两个盒子的球比差别不大,这个影响就是巨大的。
例子三(网上常见的例子):
艾滋病人某个蛋白检测为阳性的概率是99.99%
正常人某个蛋白检测为阳性的概率为0.1%
社会上患艾滋的人占比为0.01%
现检测出某人这个蛋白显示为阳性,问这个人患艾滋的概率多大?
解法:
社会中艾滋病人检测出该蛋白为阳性的频次:
0.01% x 99.99%
社会中正常人检测为阳性的频次:
99.99% x 0.1%
检测出阳性的艾滋病人频次和检测出阳性的正常人比值:
0.01% x 99.99% : 99.99% x 0.1%
= 1:10
检测为阳性的人得艾滋病的概率为1/(1+10) = 9.1%
这个例子常常用来说人的直觉是错的,其实不是直觉错,而是对数据不敏感,不能关注所有数据,稍微的数学训练,愿意简单计算的人直觉也不会错。
检查为阳性,医生一定会要求再检查一次,又检测为阳性时患病的概率是多少?
社会中艾滋病人两次检测该蛋白为阳性的频次:
0.01% x 99.99% x 99.99%
社会中正常人两次检测为阳性的频次:
99.99% x 0.1% x 0.1%
二次检测为阳性的艾滋病人与二次检测为阳性的正常人频次比值:
0.01% x 99.99% x 99.99% : 99.99% x 0.1% x 0.1%
= 99.99 : 1
二次检测为阳性患病的概率为: 99.99/(99.99 +1) = 99%
二次检测意义重大,但前提是正常人检测为阳全是检测失误所致,而不是正常人也有阳性的。若正常人也有阳性的,那么第一次检测为阳性的正常人,第二次也是阳性,则二次检测为阳性的患病人和正常人的比值:
0.01% x 99.99% x 100% : 99.99% x 0.1% x 100%
和第一次检测相同,第二次检测无意义。
总结:
通过上面3个例子,大家应该可以了解如何计算条件概率,以及容易出错和误解的地方。网上的介绍资料全部采取按次的算法,不但繁琐,而且难于理解,还喜欢用标记符号:P(Ai|Bi), i=1,2,3…。道理上并没错,但为什么不用简洁易懂的比值算法?这其实涉及到对数学工具的正确使用。数学本质上是形式推理系统,帮助降低大脑推理难度,符号代替数量,运算律代替推理逻辑,推理过程不再考虑实际意义,直接按运算律演算。数学工具最能发挥优势的地方:对象间的关系复杂,如:用微分方程组表达变化率方面的数量关系,通过积分运算就能得出对象解。如果对象间的关系简单,再用复杂数学工具反而添乱。
随着大数据时代的到来,各种统计数据会越来越多,条件概率的应用会更加频繁。大家每个人都应该掌握这个基本工具,这样才能对外界有更准确的判断和认识。
综合上述所讲,大家如何认识这个世界呢?首先,大家要知道几个关键的认识论问题,然后掌握推理的工具。推理工具有两个:归纳和演绎。它们是大家认识这个世界的根本方法,否则杂乱和矛盾的信息,大家的大脑无法把握。推理可以让大家只需掌握少量命题(信息),其他命题(信息)需要时推理得出。推理也让大家把握了命题间的关系,有少量是100%的因果关系,更多的是小于100%的相关关系。要把握相关性需要用到条件概率。条件概率应用很广,每个人都应该学会使用。