专栏名称: 大数据文摘
普及数据思维,传播数据文化
目录
相关文章推荐
人工智能与大数据技术  ·  15亿美元AI独角兽崩塌,全是印度程序员冒充 ... ·  昨天  
大数据文摘  ·  5个月狂飙200%!Anthropic ... ·  2 天前  
数据派THU  ·  【ICML2025】MARGE:通过引导式探 ... ·  昨天  
51好读  ›  专栏  ›  大数据文摘

追剧学AI (6) | 概率论在机器学习中的迁移运用,手把手建一个垃圾邮件分类器

大数据文摘  · 公众号  · 大数据  · 2017-09-03 12:55

正文

请到「今天看啥」查看全文



生活中充满了不确定性,我们尝试一些自己觉得会成功的事情,但我们无法确定,比如今天是否会下雨,或者在众人注视下跳舞是否合适,亦或是我是否该在这段感情中投入更多。 概率论给我们搭建了一个大的框架来进行上述的决策,而通过这么做, 我们能做出更有效的决策。


数学的一些分支理论方法, 能够在我们有完整信息时帮助我们做出决定,但是概率论能够训练我们,在规律性与不确定性并存时做出决定。 就像我们真实的生活,它是用来衡量某事发生的可能性。


而分析服从一定概率分布的事件规律这一学科,叫做统计学。 一个简单的例子便是抛硬币,只会存在两种结果,即正或者反,我们可以对正面出现的概率进行建模,因为我们知道两个要素,即事情可能发生的方式以及总共能出现的结果,在这个例子中便是50%。

就像蓝牙的工作频率一样,这是一个随机的变量,它代表着一件我们无法确定的事,无法确定的事并无法像代数那样用变量进行表述。相反的,它有一组可能的取值,也称作样本空间,以及这组里的每一个取值可能发生的概率是通过这样表示的。它们既可以是离散的,只表示一定数量的值,也可以是连续的,能够取到一定范围内的任何值。

假设现在有两件可能发生的事情 A和B,比如,我们抛一枚硬币,以及掷一枚六面的骰子。我们可以用三种方式来衡量它们的可能性,即当硬币是正面时,骰子是4的概率,这便是条件概率。


我们也可以对两件事情同时发生的概率建模 ,比如说,硬币落在正面同时骰子落在4的概率是什么,这便是联合概率。而如果我们想要知道某种特定结果的概率,比如说,仅仅只是硬币或者仅仅只是骰子的投掷概率,这种便被称为边际概率。


贝叶斯统计


在机器学习中我们做了很多类似的假设,有些时候它们是错的(一家公司), 现在十分流行使用贝叶斯定理,它构建于条件概率的原理之上。


它之所以被称为定理,是因为 我们可以通过逻辑来证明它的真实性 。理论中说道,对于两个事件A和B,如果我们知道在A已知的条件下B发生的条件概率,以及A事件发生的概率,我们能计算得到已知B事件的条件下A发生的条件概率。


换句话来说,已知B的条件下,A发生的后验概率,能够通过下述方法计算得到,即将已知的可能性乘以先验概率,并将乘积除以已知的概率值,事件的先验概率 (the prior是英文中对先验概率的简称),它是利用已有的信息计算得出的概率。



某一天有雨的事前概率可以计算为0.6,在过去的100年里这个日期60%都有雨,我们从一个事前概率入手,现在我们得到了新的信息,从而更准确的重新估计此概率。


如贝叶斯统计学家Lindley所言,掏出枪,当你看到...(此处为2pac Hit'em Up歌词),等等...他说的是今天的事后概率就是明天的事前概率,我们可以利用这个定理,根据新的知识来更新概率。


如果木板断裂,这个小车而坠毁的概率是多少?木板断裂的概率为0.3,小车坠毁的概率为0.5。利用贝叶斯定理,坠毁几率为20%,事故避免啦,那么如何将此应用于机器学习中呢?







请到「今天看啥」查看全文