从贝叶斯定理到概率分布：综述概率论基本定义

数据与算法之美 · 公众号 · 算法 · 2017-11-01 17:50

正文

请到「今天看啥」查看全文

这一切都从一个允许我们基于先验知识来计算条件概率的简单的定理开始：

尽管贝叶斯定理很简单，但它具有巨大的价值，广泛的应用领域，甚至是贝叶斯统计学的特殊分支。有一个关于贝叶斯定理的非常棒的博客文章，如果你对贝叶斯的推导感兴趣---这并不难。

抽样与统计

假设我们正在研究人类的身高分布，并渴望发表一篇令人兴奋的科学论文。我们测量了街上一些陌生人的身高，因此我们的测量数据是独立的。我们从真实人群中随机选择数据子集的过程称为抽样。统计是用来总结采样值数据规律的函数。你可能见过的统计量是样本均值：

另一个例子是样本方差：

这个公式可以得出所有数据点偏离平均值的程度。

分布

什么是概率分布？这是一个定律，它以数学函数的形式告诉我们在一些实验中不同可能结果的概率。对于每个函数，分布可能有一些参数来调整其行为。

当我们计算硬币投掷事件的相对频率时，我们实际上计算了一个所谓经验概率分布。事实证明，世界上许多不确定的过程可以用概率分布来表述。例如，我们的硬币结果是一个伯努利分布，如果我们想计算一个 n 次试验后硬币正面向上的概率，我们可以使用二项式分布。

引入一个类似于概率环境中的变量的概念会方便很多--随机变量。每个随机变量都具有一定的分布。随机变量默认用大写字母表示，我们可以使用 ~ 符号指定一个分布赋给一个变量。

上式表示随机变量 X 服从成功率（正面向上）为 0.6 的伯努利分布。

连续和离散概率分布

概率分布可分为两种：离散分布用于处理具有有限值的随机变量，如投掷硬币和伯努利分布的情形。离散分布是由所谓的概率质量函数（PMF）定义的，连续分布用于处理连续的（理论上）有无限数量的值的随机变量。想想用声音传感器测量的速度和加速度。连续分布是由概率密度函数（PDF）定义的。

这两种分布类型在数学处理上有所不同：通常连续分布使用积分 ∫ 而离散分布使用求和Σ。以期望值为例：

下面我们将详细介绍各种常见的概率分布类型，正如上所说，概率分布可以分为离散型随机变量分布和连续性随机变量分布。离散型随机变量分布常见的有伯努利分布（Bernoulli Distribution）、二项分布（Binomial Distribution）、泊松分布（Poisson Distribution）等，而常见的连续型随机变量分布包括均匀分布（Uniform Distribution）、指数分布（Exponential Distribution）、正态分布等。

常见的数据类型

在解释各种分布之前，我们先看看常见的数据类型有哪些，数据类型可分为离散型和连续型。

离散型数据：数据只能取特定的值，比如，当你掷一个骰子的时候，可能的结果只有 1，2，3，4，5，6 而不会是 1.5 或者 2.45。

连续型数据：数据可以在给定的范围内取任何值，给定的范围可以是有限的或无限的，比如一个女孩的体重或者身高，或者道路的长度。一个女孩的体重可以是 54 kgs，54.5 kgs，或 54.5436kgs。

分布的类型

伯努利分布

最简单的离散型随机变量分布是伯努利分布，我们从这里开始讨论。

一个伯努利分布只有两个可能的结果，记作 1（成功）和 0（失败），只有单次伯努利试验。设定一个具有伯努利分布的随机变量 X，取值为 1 即成功的概率为 p，取值为 0 即失败的概率为 q 或者 1-p。

若随机变量 X 服从伯努利分布，则概率函数为：

成功和失败的概率不一定要相等。比如当我和一个运动员打架的时候，他的胜算应该更大，在这时候，我的成功概率是 0.15，而失败概率是 0.85。