机器学习数学篇—概率论

人工智能
后台-插件-广告管理-内容页头部广告(手机)

机器学习数学篇—概率论

概率论

  1. 条件概率

  2. 联合概率

  3. 全概率

  4. 逆概率

  5. 贝叶斯公式

  6. 贝叶斯定理

  7. 先验概率

  8. 后验概率

  9. 似然概率

  10. 最大似然估计法

  11. 最大后验概率法

  12. 离散型随机变量

  13. 连续型随机变量

  14. 概率质量函数

  15. 概率密度函数

  16. 两点分布

  17. 二项分布

  18. 泊松分布

  19. 均匀分布

  20. 指数分布

  21. 正态分布

  22. 数字特征

  23. 数学期望

  24. 方差

  25. 协方差

看上面这个数量应该就能感觉概率论的重要性,事实也是如此,概率论已经是人工智能研究的主流工具,并且成为机器学习中的核心部分,实际应用中评估一个模型的好坏的主要指标有:精度,召回率,准确率,TPR(正例的覆盖率),FPR(负例的覆盖率),这些都是都是和概率论有关的。评估模型好坏是一个很重要的环节,比如一个预测模型准确率99%,但是样本只有100个,敢用吗?就算99%也不具代表性,再比如语音识别样本是足够大好几亿,准确80%,看起来也很高,但如果一句话里错一个字,如果是关键的那个词,那整句话的意思就变了,所以前一段看科大讯飞的演讲说,6年中它们语音识别技术准确率从60.2%提升到95%以上,才得到了广泛的应用。

概率论

关注的焦点是无处不在的可能性。对随机事件发生的可能性进行规范的数学描述就是概率论的公理化过程。

1.条件概率

抛硬币的概率,同学们都知道,正反面出现的概率是50%,但这是一个单个随机事件。如果是两个随机事件的关系,比如减肥吧,一个170cm,200斤的男人要减10斤,另一个170cm ,130斤的男人要减10斤,同样都是170cm要减10斤,但是很明显他们成功的概率不一样。这就需要引入条件概率的概念。

条件概率是根据已有信息对样本空间进行调整后得到的新的概率分布。条件概率就是指事件 A 在事件 B 已经发生的条件下发生的概率,公式如下:(注意一下,这里并不是贝叶斯公式)

$$P(A|B) = \frac{P(AB)}{P(B)}$$

2.联合概率

P(AB)称为联合概率,表示的是 A 和 B 两个事件共同发生的概率。

假如联合概率等于两个事件各自概率的乘积,即 P(AB)=P(A)⋅P(B),说明它们相互独立,条件概率就是自身的概率,即 P(A|B)=P(A)。

3.全概率公式

它的作用在于将复杂事件的概率求解转化为在不同情况下发生的简单事件的概率求和,就像一个人进医院了,说身体不舒服,这时候要判断是什么病,很难下手,但是通过拆分这个人的症状,比如流鼻涕,咳嗽,脸色苍白,再去验个血看下白细胞等等,这些指标得病的概率 ,汇总起来后,就可以得出一个可能性很大的概率。公式如下:

$$P(A) = \sum_{i=1}^{n}P(A|B_i)P(B_i)$$

4.逆概率

解决的是在事件结果已经确定的条件下P(A),推断各种假设发生的可能性$$P(B_i|A)$$。

5.贝叶斯公式

接下来就是大家熟悉的贝叶斯公式了,什么! 不熟悉! 那就去看一下之前的文章:https://xiaozhuanlan.com/topic/2849630571 公式如下:

$$P(B_i|A) = \frac{P(A|B_i)P(B_i)}{\sum_{j=1}^{n}P(A|B_j)P(B_j)}$$

现在大家明白了贝叶斯公式是求逆概率,

6.贝叶斯定理

而根据贝叶斯公式进一步推导可以得出更加熟悉的贝叶斯公式:

$$P(A|B)=\frac{P(B|A)P(A)}{P(B)}$$

7.先验概率

上面公式中的 P(A)被称为先验概率,即预先设定的假设成立的概率;

8.似然概率

P(B|A)被称为似然概率,是在假设成立的前提下观测到结果的概率;

9.后验概率

P(A|B)被称为后验概率,即在观测到结果的前提下假设成立的概率。

10.最大似然估计法

思想是使训练数据出现的概率最大化,依此确定概率分布中的未知参数,估计出的概率分布也就最符合训练数据的分布,在估计参数时,最大似然估计法只需要使用训练数据。

11.最大后验概率法

思想是根据训练数据和已知的其他条件,使未知参数出现的可能性最大化,并选取最可能的未知参数取值作为估计值。在估计参数时,最大后验概率法除了数据外还需要额外的信息,就是贝叶斯公式中的先验概率。

小总结:

看到了这里同学们可能会问“怎么和之前感觉不一样?”,没关系老铁,有这样的想法很正常,因为之前我们讲到的全是和机器学习紧密相关的,这里我们讲的是概率论,它们包含关系,概率论的范围当然更大,但是我们需要真正关心的是基于贝叶斯定理的各种方法,因为它与人类的认知相似度更高,在机器学习中扮演非常重要的角色。

12.离散型随机变量

离散变量的每个可能的取值都具有大于 0 的概率

13.连续型随机变量

其可能取值的数目为不可列无限个,当归一化的概率被分配到这无限个点上时,每个点的概率都是个无穷小量,取极限的话就等于零,而概率密度函数的作用就是对这些无穷小量加以区分。

14.概率质量函数

离散变量的取值和概率之间一一对应的关系就是离散型随机变量的分布律

15.概率密度函数

概率质量函数在连续型随机变量上的对应就是概率密度函数,体现不同取值可能性之间的相对关系,对概率密度函数进行积分,得到的才是连续型随机变量的取值落在某个区间内的概率。

16.两点分布

适用于二分类问题,事件发生的概率+不发生的概率=1。任何只有两个结果的随机试验都可以用两点分布描述,抛掷一次硬币的结果就可以视为等概率的两点分布。

17.二项分布

将满足参数为 a 的两点分布的随机试验独立重复 n 次,事件发生的次数即满足参数为 (n,a) 的二项分布。二项分布的表达式:

$$P(X=k)=C_k^nP^k(1-p)^{(n-k)}$$

18.泊松分布

放射性物质在规定时间内释放出的粒子数所满足的分布,参数为 λ 的泊松分布表达式为

$$P(X=k)=\frac{λ ^ke^{-λ }}{k!}$$

这个公式需要解释一下:

  • 分母中的感叹号表示 “阶乘”:一个正整数的阶乘(factorial)是所有小于及等于该数的正整数的积,用个公式表示:n!=1×2×3×...×n

  • e表示自然对数

  • λ是单位时间内随机事件的平均发生率.它是泊松分布的均值

  • k是单位时间内随机事件发生的次数

19.均匀分布

这个概念的理解需要结合上面提到的连续型随机变量和概率密度函数,在区间 (m, n) 上满足均匀分布的连续型随机变量,其概率密度函数为 1 / (n - m),这个变量落在区间 (m, n) 内任意等长度的子区间内的可能性是相同的。

20.指数分布

满足参数为 θ指数分布的随机变量只能取正值,其概率密度函数为

$$\frac{e^{-\frac{x}{θ}}}{θ}$$

指数分布的一个重要特征是无记忆性:即 P(X > s + t | X > s) = P(X > t)

21.正态分布

参数为正态分布的概率密度函数为

$$ f(x)=\frac{1}{\sqrt{2π}σ}e\frac{-(x-μ)^2}{2σ^2}$$

上式称为标准正态分布。正态分布是最常见最重要的一种分布,自然界中的很多现象都近似地服从正态分布。

公式分解:

  • μ表示均值,就是钟形曲线的对称轴

  • $$σ^2$$为方差

  • σ为标准差

  • μ决定正态曲线的中心位置

  • 标准差σ决定正态曲线的陡峭或扁平程度

  • σ越小,曲线越陡峭;σ越大,曲线越扁平

22.数字特征

用于刻画随机变量某些特性的常数,包括数学期望、方差和协方差。

23.数学期望

数学期望即均值,体现的是随机变量可能取值的加权平均,即根据每个取值出现的概率描述作为一个整体的随机变量的规律。

24.方差

方差表示的则是随机变量的取值与其数学期望的偏离程度。方差较小意味着随机变量的取值集中在数学期望附近,方差较大则意味着随机变量的取值比较分散。

25.协方差

描述两个随机变量之间的相互关系,就需要用到协方差和相关系数。协方差度量了两个随机变量之间的线性相关性,即变量 Y 能否表示成以另一个变量 X 为自变量的 aX+b的形式。根据协方差可以进一步求出相关系数,相关系数是一个绝对值不大于 1 的常数,它等于 1 意味着两个随机变量满足完全正相关,等于 -1 意味着两者满足完全负相关,等于 0 则意味着两者不相关。(注意描述的是线性相关的关系)

总结:

介绍了概率论中的基本概念,再之后的学习中遇到这些关键词要有印象,知道这些词代表是什么意思,这样学习起来会很流畅,否则的话,看一篇文章要google十几次,效率会很低,当然这种方法是对的,遇到不会的是要google去学习,但是为了提高学习效率可以提前准备起来,而且学习数学的好处是可预见性很高,因为已经有的数学知识种类基本确定了,而用于机器学习的数学相关知识也基本可以列出来,我们需要做的就是把这些准备工作给做好,后面学习起来的效率会更高,持续性会更强。

后台-插件-广告管理-内容页尾部广告(手机)
标签:

评论留言

我要留言

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。