位置: 主页 > 产品兴农 >机率空间(2)机率的意义(Probability space >
  • 机率空间(2)机率的意义(Probability space

    2020-07-17

    连结:机率空间(1)机率论的诞生

    摘要:本篇从一个生双胞胎的机率问题出发,说明机率一词的三种不同解释:古典机率、频度机率、主观机率,并提出许多例子,来釐清这些观点。

    着名的法国数学家及天文学家,有法国牛顿之称的拉普拉斯(Pierre Simon, Marquis de Laplace, 1749-1827)曾说『大部分生活中最重要的疑问,都只是机率的问题』。的确,处在此一随机世界,随机现象(random phenomenon)处处可见。很多观测事先并不能预知结果,因此事件的成立与否(或说发生与否,正确与否),往往并非只有是、否两种选择。还可以是“有可能是”(当然也就“有可能否”)。

    而随着科技日渐发达,对精确度的要求也随之提高,不能只含混地说“有可能”,而要更明确地表示其可能性之大小。今日机率一词可说到处出现,人们常想知道某事件发生的机率。虽人人对机率朗朗上口,但一般人是否真了解机率的意思呢?

    机率虽不像诸如美、道德那幺难定义,且大部分的人在中学时代,就学过机率,但要真掌握机率之涵义,却也非易事。有人认为机率论是比微积分更难学的。微积分里的微分及积分皆可藉图形来说明,也可用物理中的由距离函数得到速度函数来说明微分,及速度函数经由积分得到距离函数。但这些方式却无法用来解释机率。

    在奇摩的网页上有人提出下述问题:

    我想请问一下:我先生的爷爷本身是双胞胎,我外婆也生过双胞胎,但公婆及我父母都没有生下双胞胎,请问我们会不会生下双胞胎?如果会,那机率会是多少??

    有一热心人士给如下的答覆
    ———

    你的问题让我一看就很想回答,因为很像教授考试的题目,有一热心人士给如下的答覆:大部分教授考的题目, 在临床上都没什幺用途。

    一般而言,孕妇生双胞胎机率是 $$\frac{1}{89}$$。如果家族中有双胞胎,机率比 $$\frac{1}{89}$$ 一定还要大。
    你问我;你会不会生下双胞胎?答案是会,但是不保证,只是机率比较大,就好像你问我;走在路上会不会被广告看板砸下来,打到头?我的答案也是会,但是机率比较小。结论是:有问好像没问。

    机率是统计学上骗人的东西,许多事情要重複做 $$100$$ 次才有机率可言,怀孕不可能 $$100$$ 次,每次怀孕生双胞胎机率是 $$\frac{1}{89}$$,但单次怀孕生双胞胎机率若不是 $$0\%$$,就是 $$100\%$$,就好像问我,$$50$$ 元铜币丢到地上一次,是兰花机率有多少?事实上,$$50$$ 元铜币丢到地上,不是总统府,就是兰花,如果丢到地上 $$100$$ 次,那幺机率就会接近 $$50\%$$。如果丢到地上一次,兰花的机率若不是 $$0\%$$,就是 $$100\%$$

    ———

    回答者可能是个医学院的学生,他对机率的解释,虽然不正确,但可能是不少人的看法。附带一提,不少报导指出,生三胞胎之机率约为 $$\frac{1}{6,400}$$,而同卵双胞胎发生的机率约为 $$\frac{1}{250}$$。95年11月26日联合报A14版,还有一则美国一对双胞胎姐妹,又各自生下一对双胞胎的新闻。

    在“正统”的机率论里,对机率一词,有下述三种常见的解释。

    我们依序来说明此三种定义。 首先是古典的定义。

    先看一些常有的经验。两支球队比赛,常以投掷铜板决定那一队先发球。因铜板有两个面,所以认为两面出现的机率各为 $$\frac{1}{2}$$。玩扑克牌时,要多洗几次牌。最后相信排洗得很均匀了,每一种组合出现的机率皆相同。在新约圣经约翰福音第19章记载耶稣被钉在十字架死后,兵丁以拈阄来分他的裏衣,也是认为每一阄被抽中的机会相同。

    对一随机现象之观测,令 $$\Omega$$ 表所有可能的结果之集合,$$\Omega$$ 称为样本空间(sample space),假设为一有限集合。$$\Omega$$ 之任一子集合(subset,又称子集) 称为一事件。

    我们说一事件发生,即表观测的结果为 $$A$$ 中一元素。投掷一骰子一次,观测所得点数,则 $$\Omega=\{1,2,3,4,5,6\}$$。$$A=\{1,3,5\}$$为一事件,表奇数出现的事件。若出现的点数为 $$1,3$$ 或 $$5$$,则称 $$A$$ 发生。

    在古典的模式中,一事件的机率,为此事件中之元素个数除以 $$\Omega$$ 中之元素个数。 对一有限集合 $$B$$,我们常以 $$|B|$$ 表 $$B$$ 中元素之个数。又对一事件 $$A$$,以 $$P(A)$$ 表 $$A$$ 发生之机率。

    则对每一事件$$A$$,定义

    $$(1)~~~P(A)=\displaystyle\frac{|A|}{|\Omega|}$$

    当然对 $$\forall \omega\in \Omega$$

    $$(2)~~~P({\omega})=\displaystyle\frac{1}{|\Omega|}$$

    即所观测到之任一可能的结果,其发生之机率皆相同。

    $$(1)$$ 式定义出一以 $$\Omega$$ 之所有子集之集合为定义域之函数,$$P$$ 称为机率函数(probability function)。由 $$(1)$$ 式又得下述机率函数之性质:对 $$\forall A,B\subset \Omega$$

    $$(3)~~~0\le P(A)\le P(\Omega)=1$$

    $$(4)~~~P(A\cup B)=P(A)+P(B)$$,其中 $$A\cap B=\varnothing$$

    $$(5)~~~P(A^c)=1-P(A)$$

    在此 $$A\cup B$$ 表 $$A$$ 与 $$B$$ 之联集,$$A\cap B$$ 表 $$A$$ 与 $$B$$ 之交集,$$A^c$$ 表 $$A$$ 之余集,即事件 $$A$$ 不发生,又 $$\varnothing$$ 表空集合。$$(3)\mathrm{-}(5)$$ 式,直观上都是对的,并无太深的道理。

    人们由平常的经验,应也都能观察到此三性质。譬如说,因不是 $$A$$ 发生就是 $$A$$ 不发生(即 $$A^c$$ 发生),故此二者的机率和须为 $$1$$,即 $$(5)$$ 式要成立。我们再介绍符号

    $$(6)~~~\displaystyle\binom{n}{k}=\frac{n!}{k!(n-k)!}$$

    其中 $$k\ge 0,~n\ge 1$$,为两整数,且 $$n\ge k$$。又对每一正整数 $$n$$,令

    $$(7)~~~n{!}=n(n-1)\cdots 2\cdot 1$$

    至于 $$0{!}$$ 则定义为 $$1$$

    虽古典的模式已能普遍地用于日常生活及赌场等不少地方,但仍不够一般。例如,它无法描述一个有无限多个可能结果之实验。从区间 $$[0,1]$$ 中任取一点,想求取中的点落在 $$[0,0.5]$$ 间之机率,古典的定义在此便不灵了。又如果观测的各个结果,出现的可能性不同,此定义也用不上。例如,投掷一个非均匀的骰子 $$3$$ 次,求点数和会是 $$10$$ 的机率,就无法利用古典的定义来求了。

    其次我们来介绍频率对机率的解释。

    先看几个新闻的标题:

    有些观测是可以重複的。对于上述第 $$1$$ 则新闻,应就是反覆的开奖,譬如说开 $$n$$ 次,并计算 $$1$$ 号球出现的次数 $$k$$ ($$k$$ 与 $$n$$ 有关)。人们往往便以 $$1$$ 号球出现的相对频率 $$k/n$$,当作 $$1$$ 号球出现的机率。至于第 $$2$$ 则新闻,有可能是气象局依据该日之气象资料,过去相同的天气状况下,下雨日数之百分比。第 $$3$$ 则新闻则可能是依据医院新生儿的记录,算出来的同卵双胞胎的大约比率。

    以频率来解释机率,必须针对的是可以重複观测的事件。 譬如说一事件 $$A$$,重複观测 $$n$$ 次后,以下式来表示 $$A$$ 之机率:

    $$(8)~~~f_n(A)=\frac{n(A)}{n}$$

    其中 $$n(A)$$ 为 $$n$$ 次观测中,$$A$$ 发生的次数。由于可合理地假设与观测者是谁无关,因此才也称为客观的解释。这其中的假设是,每次观测的条件要相同,且各次观测间彼此不受影响。若每次梭哈赛局后,牌没有洗均匀,则欲藉玩多次后,以获知“一对”出现之机率,就不会太準确了。

    以频率来解释机率,是许多人常採用的一种方式。例如,若你相信前述第 $$3$$ 则新闻的报导,而且夫妻双方的家族也未显现特别会或特别不会生双胞胎的迹象,则可合理地假设会生下同卵双胞胎之机率约为 $$\frac{1}{250}$$。

    又如,95年8月20日联合报D8版报导,「老虎伍兹在PGA锦标赛中,虽没有取得领先的地位,却也发出了强烈夺冠信号。」夺冠信号是如何产生呢?因「伍兹职业生涯参加 $$40$$ 场大满贯赛,有过 $$7$$ 次在前两轮皆打出低于 $$70$$ 桿,其中 $$6$$ 次赢得冠军。」由于在类似的状况下,$$7$$ 次赢得 $$6$$ 次,高达 $$\frac{6}{7}$$ 的相对频率,遂「让总是相信数据的美国人,深信伍兹夺魁的希望较大」。

    不知是否数据会说话,伍兹由第 $$1$$ 回合不太理想的第 $$10$$ 名,第 $$2$$ 回合结束上升至第 $$5$$ 名。等第 $$3$$ 回合结束,伍兹就与英国新秀唐纳德并列领先。而 $$4$$ 回合比赛结束,伍兹果然以 $$5$$ 桿的差距,赢得他个人第 $$3$$ 座PGA锦标赛冠军。

    很多人直观上相信,$$n$$ 很大时,相对频率 $$f_n(A)$$ 会很接近事件 $$A$$ 之机率。只是 $$\{f_n(A), n\geq1\}$$ 为一随机数列,微积分中对数列收敛的定义在此并不适用,不能就认定此数列一定收敛。灵巧的读者可能也已想到了,即使收敛,会不会每次观测,收敛到不同的值?

    例如,投掷一铜板,以 $$A$$ 表出现正面的事件。

    若没有一次得到正面,则 $$f_n(A)=0,\forall n\geq1$$ 若每次皆得到正面,则 $$f_n(A)=1,\forall n\geq1$$。

    如此 $$n\rightarrow\infty$$ 时,前者 $$f_n(A)\rightarrow 0$$,后者 $$f_n(A)\rightarrow 1$$。

    事实上,不但 $$\{f_n(A), n\geq1\}$$ 不一定收敛,读者也不难举出无限多个 $$n\rightarrow\infty$$ 时,

    $$f_n(A)$$ 既不趋近至 $$0$$,亦不趋近至 $$1$$ 之数列。

    那这样一来,以频率来解释机率,不就出问题了?总不能对同一事件,其发生的机率,不同的人观测,得到相异的机率值,甚至得不到机率值。

    例1: 持续投掷一铜板,以$$A$$表出现正面的事件。假设依序得到正反反正正正正反反反反反反反反$$\cdots$$。即第 $$1$$ 次得到正面,接着 $$2^1$$ 次反面,再来 $$2^2$$ 次正面,再来 $$2^3$$ 次反面,余类推。

    试问 $$n\rightarrow\infty$$ 时,$$f_n(A)$$ 之极限是否存在。

    对 $$n\ge 1$$,可得下二式(留给读者自行验证):

    $$f_2^{2n-1}-1(A)=\displaystyle\frac{1+2^2+\cdots+2^{2n-2}}{2^{2n-1}-1}=\frac{2^{2n}-1}{3(2^{2n-1}-1)}$$

    $$f_2^{2n}-1(A)=\displaystyle\frac{1+2^2+\cdots+2^{2n-2}}{2^{2n1}-1}=\frac{2^{2n}-1}{3(2^{2n-1}-1)}=\frac{1}{3}$$

    即 $$f_1(A)=1$$、$$f_7=\frac{5}{7}$$、$$f_{31}=\frac{21}{31}$$、$$f_{127}=\frac{85}{127}$$、$$\cdots$$;

    $$f_{3}=\frac{1}{3}$$、$$f_{15}=\frac{1}{3}$$、$$f_{63}=\frac{1}{3}$$、$$\cdots$$。

    因 $$n\to\infty$$ 时,$$f_{2^{2n-1}-1}(A)\to \frac{2}{3}$$,且 $$f_{2^{2n}-1}(A)\to \frac{1}{3}$$

    故 $$n\to\infty$$ 时,$$f_n(A)$$ 之极限不存在。

    大数法则(law of large numbers)的产生是必然的。

    大数法则指出,在某种意义下,$$n\rightarrow\infty$$ 时,$$f_n(A)$$ 会趋近至事件 $$A$$ 之机率 $$P(A)$$。原来一般人习以为常的以机率来解释机率,并非只有方便的功能,而背后是真有理论来支持。 但只凭目前的架构,当然无法证明。要有更深一层的理论基础才行。

    我们再看对机率的主观解释。

    有些经验是无法重複观测的,底下为一些常见的叙述。

    上述这类事件,显然都无法重来。那其中的机率如何产生?或说如何让人相信你真认为某事件之机率为 $$p$$? 这可以公正赛局(fair game),即期望净所得为 $$0$$ 来解释。

    令 $$A$$ 表某一事件,考虑下述赌局:每赌一次要先付 $$p$$ 元,其中 $$0\leq p\leq 1$$。若 $$A$$ 发生,则得 $$1$$ 元,否则什幺都得不到。如果你接受这个赌法,且认为此赌局公正,则你便确实认为 $$P(A)=p$$。因有 $$p$$ 的机率净得 $$(1-p)$$ 元,有 $$(1-p)$$ 的机率净失 $$p$$ 元,故期望净所得为 $$0$$:

    $$p(1-p)+(1-p)p=0$$

    主观的解释机率,有时也会根据过去客观的事实来决定。只是即使依据相同的的资料,不同的人对同一事件,有时也会给出不同的主观机率。

    不论是以频率或主观对机率解释,如同古典的模式里,都要弄清楚样本空间为何,那些是有兴趣的事件,并决定机率函数。机率函数不见得要满足 $$(1)$$ 式,但 $$(3)$$、$$(4)$$、$$(5)$$ 三式,不论以那种方式解释机率,依照一般对机率的认知,或处理机率的经验,都是该满足的。

    以上我们介绍对机率的几种不同解释方式,我们也不排除仍有其他解释。古典的定义虽然以古典名之,今日仍常採用。尤其乐透彩风行的今日,于求其中各种事件之机率,都是以相同的可能性来定义机率。甚至如果没有其他资讯,往往也是採此定义。如有三家厂商同时竞争某案,若三家条件都各有优劣,难分轩轾,则各家会雀屏中选之机率,就不妨假设皆为 $$\frac{1}{3}$$。

    又这三种对机率的解释,有时会交错着使用,或彼此相验证。如对于乐透彩,虽一开始假设每种号码之组合,出现之机率皆相同,但若长期观测后,发现某些组合,出现之相对频率过高或过低,可能会对乐透彩开奖之公正性产生怀疑。另外,若有人认为 $$12$$ 是他的幸运号码,签 $$12$$ 号中的机率较大。虽以主观来解释机率,但若历经多次开奖,签 $$12$$ 号并未有较易中的迹象(频率的观点),这时大约无法再坚信 $$12$$ 号较易出现了。

    可以这幺说,频率对机率的解释,可用来「验证」各种对机率的解释之「正确性」。 至于怎样才是通过检验?这就是统计里假设检定(hypothesis testing)的问题了。无论如何,机率绝非「统计学上骗人的东西」。就算事先对怀孕生双胞胎的机率可以认为是 $$\frac{1}{89}$$,一旦生出后,当然只有是双胞胎,或不是双胞胎,此时「机率」一词已无意义。但单次怀孕生双胞胎之机率, 「若不是 $$0\%$$ 就是 $$100\%$$」的讲法,百分之百是错的,绝对没有丝毫正确的可能性。

    至于「(铜板)如果丢到地上 $$100$$ 次,那幺机率就会接近 $$50\%$$」,也是错误的讲法。 是「相对频率」很可能会接近 $$50\%$$。至于「事情要重覆作 $$100$$ 次才有机率可言」,「如果丢到地上 $$100$$ 次,兰花的机率若不是 $$0\%$$,就是 $$100\%$$」,也都是错误的讲法。

    连结:机率空间(3)机率空间

    参考资料:



    上一篇: 下一篇: