【一】声明
由于时间关系,这个系列主要推理内容可能大部分以手写笔记的形式展示,但是对于有大量公式形式及数学推导的科目来说,将更多的精力专注于对内容本身的理解中应该是更合理的。(之后会规范字体QAQ)
【二】贝叶斯学习
1.内容定位
本节是隶属于”对机器学习依照技巧进行分类“的部分,但是是遇到的第一个主要内容,所以以此开头,之后会将机器学习的介绍(分类等)作为00补充。
2.通俗讲解
这部分的内容看起来很繁琐,但我选择采用这样的形式——对话式学习,只要你耐下心来结合笔记去读,一定能进入状态、读得懂且有所收获。
贝叶斯定理大家都在概率论中学习过,依稀记得先验分布、公式形式?但可能不太了解它的用处,简单来说:
经典统计学认为,对于一个随机变量X,必须要有它的一些样本X1,X2,……Xn才能估计X所属的总体分布,估计方法比如说常见的极大似然估计。
是,他们想的很好,但是现实生活中哪有那么理想?很多情况就是不知道X的样本信息。咋办?贝叶斯学派可以做到:
利用参数的先验分布(这是根据经验观察到的分布)来实现,参数是什么?是X的概率密度函数中的未知参数,知道了它就明确了X的分布,甚至你可以说,它决定了X的分布。你说这是知道来的?假定的。好,那么现在只要知道参数的值就ok了,唉?不是已经知道的分布了,直接用不就好了。没错,在你真的不知道X样本信息的情况下大可以这样做,具体的做法就是笔记中预测的第一种情况,叫做——先验预测分布。
这莫简单?前面说了,这是你不知道X样本信息的情况,当你知道X样本信息的话就不能用贝叶斯只用经典统计了吗?不是,反而更应该用,就是笔记中的第二种情况,这要求你通过先验分布得到后验分布(过程在笔记第一页),什么叫后验?就是经过已知的X样本检验后的分布(综合了X样本信息),这就使的分布更准确了。得到后验分布后,这一定是一个条件分布的形式:Π(|X样本),取是概率值最大的点——一个值,代入情况二就ok,还是和情况一 一样的做法。至于情况三,和情况二如出一辙。这两个都叫做——后验预测分布。
总的来说,是不是贝叶斯比经典统计多利用上了的先验分布信息并且适用了更多的情况。