1.1.3 概率与频率

1. 概率

概率(probability,P)是用于反映某一随机事件发生的可能性大小的一种量度。一般用大写的斜体P表示。例如,我们可以用学生的考试成绩,反映该门课程掌握的情况,而概率就像成绩,是一个度量尺度,用于反映某事件发生可能性的大小。

我们根据随机事件发生概率的大小,把事件分为三类:P = 1为必然事件,发生率为100%;P =0为不可能事件,发生率为0;0 < P < 1为偶然事件。某事件在未进行之前,该事件既可能发生,也可能不发生。其中,发生概率P ≤ 0.05或P ≤ 0.01的事件为小概率事件,其实际应用意义是在一次试验、抽样或研究过程中,该事件不可能发生。

小概率事件非常重要,它是统计推断的基础。举个例子,统计起源于赌博游戏,我们虚构一个游戏,假设在一个不透明的箱子中有100个乒乓球,其中5个是黄色的,95个是白色的,现在,在一个有100名学生的班级中,每人支付1元,然后随机抽取一个球。如果抽中黄球给10元,抽不中则“谢谢参与”,请问你抽呢,还是不抽呢?

基于统计的判断,你是不该抽的,为什么呢?因为黄球所占的比例为0.05,是小概率事件,而小概率事件的应用意义是在一次抽样过程中发生的概率近似为0。因此,你基本不可能抽中。

然而小概率事件在一次抽样过程中发生概率近似0,但在群体事件中仍然可以发生。在这个例子中,发生的概率为5%,班上100名同学,理论上有5名同学可以抽到。算一下,每人1元,总共可以收100元,减去5名抽中黄球的奖金50元,是不是还稳赚50元呢?

那为什么小概率事件的界值定在0.05呢?其实这是我们人类的一种常识,有人说我也是人类,怎么就没这个常识呢,其实你也有,只不过没有发现而已。下面我们一起做个试验,然后请你回答几个问题,问题如下。

(1)你能够把一枚硬币向上抛起后,落地正面朝上吗?

(2)你能够连续抛起2次,连续正面朝上吗?

(3)你能够连续抛起3次,连续正面朝上吗?

(4)你能够连续抛起4次,连续正面朝上吗?

(5)你能够连续抛起5次,连续正面朝上吗?

在200多年前,英国的一个会场进行了类似的试验,发现会场中连续4次说能够的人寥寥无几,问到是否能够连续5次正面朝上时,几乎没人说能够。

我们用统计学理论分析一下刚才的试验,连续1次正面朝上的概率为0.5;2次正面朝上的概率为0.25;3次正面朝上的概率为0.125;4次正面朝上的概率为0.0625;5次正面朝上的概率为0.03125。因此,近似取连续4次和5次正面朝上的中间值,即为0.05,也可以理解为二十分之一。

既然有了0.05的标准,那为什么还要0.01呢?这就相当于,我们普通老百姓吃的食品肯定要满足食品卫生要求,但是宇航员吃的食品,不仅要满足食品卫生要求,还要考虑更多的营养与安全因素。当我们采用P ≤ 0.01的标准时,统计推断错误的概率将会比P ≤ 0.05时更低,结果也更加准确。

2. 频率

频率(frequency,f)是指我们进行了N次试验,其中一个事件出现的次数m与总的试验次数N的比值。

统计是基于概率进行的,我们如何能够得到某一事件发生的概率呢?比如谁能够计算出一根半截粉笔从讲台上垂直落下摔断的概率P是多少呢?科学发展至今也没有办法通过公式去计算该值。那我们怎么做到呢?

“有些事情越想越烦,做起来却极其简单”,我们只需要拿两盒同样的粉笔进行重复摔试验就可以了。如果总共有100根粉笔,断了98根,那断的频率就是f = 98/100 = 0.98。而统计学证实,当某事件发生次数较多时,频率就会收敛于概率,即f ≈ P。因此,在现实研究中,我们就是通过频率去估计概率的。概率与频率类似于量子纠缠,当我们知道某事件的频率之后,就可以用频率去估计概率。

可以这样理解:频率是针对过去的,概率是针对未来的。频率是针对已经发生的样本的,概率是针对尚不知晓的总体的;频率就像样本统计量,概率更像总体参数,我们就是用频率去估计概率的。