引言
自然科學(xué)的知識(shí)大廈,為我們建立起對(duì)世界“確定性”的信念。比如,“力是物體運(yùn)動(dòng)狀態(tài)改變的原因”及萬有引力定律,讓我們發(fā)現(xiàn)一切地星生命都在“坐地日行八萬里,巡天遙看一千河”;再比如,“化學(xué)反應(yīng)的實(shí)質(zhì)是化學(xué)鍵的斷裂與重新形成”及元素周期表,讓點(diǎn)石成金、發(fā)酵發(fā)霉等物質(zhì)變化有跡可循。
但是,走出科學(xué)知識(shí)的大廈,生活中又有如此多的現(xiàn)象給我們以“不確定”的感受:天氣預(yù)報(bào)明天不下雨,是陰天,但不帶傘會(huì)不會(huì)被淋?市場(chǎng)房?jī)r(jià)起起落落,現(xiàn)在買入/出手房子,能賺還是會(huì)賠?這些問題都有兩種以上的可能結(jié)果,并非“確定性”情境下那么簡(jiǎn)單。怎么處理這類問題?

圖1:天氣預(yù)報(bào)
統(tǒng)計(jì)工作者說,我們需要【概率】。那什么是“概率”?概率存在嗎?為什么概率能解決這些問題?
一、概率是“理想化模型”
在19世紀(jì)巴黎天文臺(tái)的穹頂之下,熱力學(xué)家、數(shù)學(xué)家貝特朗(Joseph Louis Bertrand, 1822-1900)向世界拋出了他的問題:在單位圓內(nèi)隨機(jī)取弦,其長(zhǎng)度超過√3的概率是多少?這個(gè)看似簡(jiǎn)單的概率問題,卻因?qū)ο业牟煌?隨機(jī)"取法導(dǎo)出了1/2、1/3、1/4這三個(gè)“正確答案”,貝特朗“悖論”由此誕生——
解法一:在圓上隨機(jī)取兩個(gè)點(diǎn)為弦的端點(diǎn),使弦對(duì)應(yīng)的圓心角大于120°。其概率為1/3。
解法二:在任意一條半徑上隨機(jī)取一點(diǎn)為弦的中點(diǎn),使弦長(zhǎng)大于√3。其概率為1/2。
解法三:在圓內(nèi)隨機(jī)取點(diǎn)為弦的中點(diǎn),使弦長(zhǎng)大于√3。其概率為1/4。

圖2:貝特朗問題示意圖
這一“悖論”像一把鋒利的手術(shù)刀,剖開了古典概率論直覺上的合理性,讓人們開始以更嚴(yán)格的眼光重新審視概率:什么是“隨機(jī)”?什么是“等可能”?同時(shí),也讓更深刻的哲學(xué)命題得以展現(xiàn)——概率究竟是世界的本真屬性,還是人類認(rèn)知構(gòu)建的數(shù)學(xué)模型?
貝特朗悖論到底“?!痹诤翁帲坎浑y發(fā)現(xiàn),悖論的產(chǎn)生本質(zhì)上源于對(duì)"隨機(jī)性"這一基礎(chǔ)概念的不同詮釋。這恰恰印證了概率是一個(gè)理想化的模型,與剛體、電子云、點(diǎn)、線、面、實(shí)數(shù)系等類似。
無獨(dú)有偶,樣本空間、隨機(jī)變量的概念出現(xiàn),尤其是“零概率事件不意味著不發(fā)生”的結(jié)論,使概率的模型化特征更加清晰。
概率本是人類為處理不確定現(xiàn)象、定量刻畫各種結(jié)果的可能性而形成的概念,其大小表示結(jié)果發(fā)生的可能性。在理想情況下,概率為0代表該結(jié)果沒有可能,為1代表必然,從0到1表示可能性逐漸增大。
然而,在現(xiàn)代概率論中,概率為1并非必然事件,概率為0也并非不可能發(fā)生。例如:對(duì)于擲一枚質(zhì)地均勻硬幣的試驗(yàn),可設(shè)

這是經(jīng)典的二項(xiàng)分布,也符合我們擲硬幣的常識(shí)。但應(yīng)注意到,在該分布下,硬幣擲出后立起來的概率為0——而這在現(xiàn)實(shí)中可能發(fā)生。實(shí)際上,擲硬幣的結(jié)果既與硬幣的材質(zhì)相關(guān),也與拋擲時(shí)的環(huán)境、地面、擲法等等相關(guān)。
圖3:不確定的硬幣
在這里,我們?cè)俅位氐搅嗽鯓訑S硬幣才是“隨機(jī)”的問題;同時(shí)發(fā)現(xiàn),在數(shù)學(xué)化(概率論化)擲硬幣試驗(yàn)的過程中,忽略了大量因素,甚至忽略了一些具有微小可能性的結(jié)果;顯然,這就在建立模型。
所謂模型,就是為突出現(xiàn)實(shí)事物的一定(或本質(zhì))特征而對(duì)其進(jìn)行的簡(jiǎn)化表示,是認(rèn)知目的與簡(jiǎn)潔性、代表性的辯證統(tǒng)一,是人類認(rèn)識(shí)世界不可或缺的工具。由于忽略了次要因素以求簡(jiǎn)潔,模型既在某個(gè)方面簡(jiǎn)明地代表了事物,又必然與現(xiàn)實(shí)事物有偏差,即具有簡(jiǎn)明度和失真度,這是衡量模型優(yōu)劣的核心指標(biāo)。
若進(jìn)一步考察“獨(dú)立試驗(yàn)”、“均勻分布(等可能事件)”等概念,會(huì)發(fā)現(xiàn)這些也都建立在忽略次要因素、控制“無關(guān)”變量的基礎(chǔ)上。
因此,在概率是模型這一科學(xué)哲學(xué)的視角下,概率是“不存在”的,是人為建構(gòu)的認(rèn)識(shí),正如點(diǎn)、直線、平面并不實(shí)際存在一樣。那么,為什么概率還能解決大量不確定性的問題?為什么概率這么有用?
這一問題的答案,蘊(yùn)含在“概率”概念的發(fā)展歷程中。
二、概率的“前世今生”
14-17世紀(jì)的歐洲,瘟疫肆虐。在“牛頓奇跡年”的倫敦鼠疫大暴發(fā)前夕,商人、統(tǒng)計(jì)學(xué)家格蘭特(John Graunt,1620-1674)為探究瘟疫、戰(zhàn)爭(zhēng)、饑荒等導(dǎo)致居民死亡的原因及其與人口變動(dòng)的關(guān)系,在倫敦開展人口調(diào)查分析,并于1662年發(fā)表《關(guān)于死亡公報(bào)的自然觀察和政治觀察》(Natural and Political Observations Made upon the Bills of Mortality)。

在書中,他開創(chuàng)性地編制了世界上第一張統(tǒng)計(jì)壽命表,從中發(fā)現(xiàn)了諸多人口統(tǒng)計(jì)學(xué)規(guī)律。
比如,根據(jù)倫敦教會(huì)資料,在1629-1661年間,倫敦受洗(出生)人數(shù)中有139782名男性和130866名女性,他基于歷年數(shù)據(jù),推算出倫敦男女性別之比約為14:13。這是歷史上首次通過具體的人口學(xué)統(tǒng)計(jì)資料證明得出男嬰出生率高于女嬰的結(jié)論(你沒有看錯(cuò),男女出生的概率統(tǒng)計(jì)不是1:1)。同時(shí),他發(fā)現(xiàn)男孩的夭折率高于女孩,結(jié)果適婚年齡段的男、女比例差不多剛好是一比一[1]。
值得注意的是,在那時(shí),近代自然科學(xué)還在萌芽中。當(dāng)時(shí),鼠疫的暴發(fā)被廣泛認(rèn)為是由一組特定的行星排列散發(fā)出的某種惡臭氣體導(dǎo)致病人吸入后,經(jīng)人與人之間接觸而傳播,因此大多數(shù)醫(yī)生習(xí)慣在治療時(shí)把填滿干花和有香味植物的長(zhǎng)皮喙放在鼠疫患者鼻下。

圖4:“引發(fā)鼠疫的行星排列”
格朗特對(duì)此很不贊同。通過對(duì)壽命表的細(xì)致分析,他發(fā)現(xiàn)在眾多死因中慢性病、事故和自殺經(jīng)常占有穩(wěn)定的比率,而鼠疫等急性傳染病和惡性疾病所導(dǎo)致的死亡率波動(dòng)卻很大。因此,對(duì)比鼠疫死亡率的不規(guī)律性同慢性病死亡率的規(guī)律性,表明鼠疫極可能與環(huán)境因素有關(guān)。正是這一結(jié)論,推翻了當(dāng)時(shí)對(duì)鼠疫公認(rèn)已久的看法[2]。
更為重要的是,書中以鼠疫病因推斷為代表的諸多案例分析,體現(xiàn)出明顯的統(tǒng)計(jì)推斷思想和“大數(shù)”思想。正是這些,奠定了格蘭特“人口統(tǒng)計(jì)學(xué)之父”的歷史地位。
他在書中寫到,“我相信,幾個(gè)全年人口公報(bào)是確定人口數(shù)最簡(jiǎn)便的辦法”,“為了提出一個(gè)要在許多年中形成的規(guī)律,需要進(jìn)行多次地觀察”。在那個(gè)瘟疫、戰(zhàn)亂伴隨著文藝復(fù)興的時(shí)代,他繼承了培根(Francis Bacon, 1561—1626)科學(xué)歸納-假設(shè)檢驗(yàn)的經(jīng)驗(yàn)主義思想,形成“數(shù)據(jù)歸約”思想,強(qiáng)調(diào)要把龐大、雜亂無章的數(shù)據(jù)逐一分類并整理成簡(jiǎn)明清晰的表格,從而突顯出有價(jià)值的信息,從自然現(xiàn)象和社會(huì)現(xiàn)象中探索一系列統(tǒng)計(jì)規(guī)律。之后,這一系列思想萌芽演變?yōu)榱私y(tǒng)計(jì)學(xué)的基本原理和方法,如大數(shù)定律。
幽默地說,格蘭特“不相信牧師們的解釋,只相信數(shù)字和事實(shí)”。這本著作不僅標(biāo)志著人口統(tǒng)計(jì)學(xué)的開端,也是生物統(tǒng)計(jì)學(xué)思想的萌芽,是歐洲封建時(shí)代從“占卜觀星”治病走向以數(shù)據(jù)分析、假設(shè)檢驗(yàn)的科學(xué)方法確定病因的節(jié)點(diǎn)之一,是人類文明從上帝世界走向科學(xué)宇宙的歷史進(jìn)程中的重要一環(huán)。
在這一進(jìn)程中,“大數(shù)法則”揭示的統(tǒng)計(jì)規(guī)律性——頻率具有“穩(wěn)定性”——直接與笛卡爾“自然法則恒定”的機(jī)械論世界觀相呼應(yīng),統(tǒng)計(jì)推斷思想(尤其是貝葉斯定理)蘊(yùn)含的歸納-演繹法,也與實(shí)踐認(rèn)識(shí)論揭示的人對(duì)自然現(xiàn)象及其規(guī)律的認(rèn)識(shí)發(fā)展過程相呼應(yīng)。
為什么頻率會(huì)具有穩(wěn)定性?如何定量刻畫頻率的穩(wěn)定性?這個(gè)問題,困擾了科學(xué)家?guī)装倌?。?duì)它的哲學(xué)和數(shù)學(xué)探尋,導(dǎo)致了“概率”概念產(chǎn)生。
縱覽對(duì)賭博的早期研究和古典概率論的創(chuàng)立[3],最早是意大利醫(yī)生、占星學(xué)家(和資深賭徒)卡爾達(dá)諾(Girolamo Cardano, 1501-1576)撰寫《游戲機(jī)遇的學(xué)說》,研究如何在擲骰子賭博中不輸。一個(gè)世紀(jì)后,法國(guó)貴族公子哥德·梅爾(Chevalier de Méré)向帕斯卡(Blaise Pascal, 1623-1662)提出一系列賭博問題(比如他發(fā)現(xiàn),將一枚骰子連擲四次至少出現(xiàn)一個(gè)六點(diǎn)的機(jī)會(huì)比同時(shí)將兩枚骰子擲24次至少出現(xiàn)一次雙六的機(jī)會(huì)多,但給不出合理解釋),使得帕斯卡與費(fèi)馬多次通信討論“賭本分配問題”,與惠更斯同時(shí)期形成“期望”概念。
五十多年后,伯努利的《猜度術(shù)》發(fā)表,大數(shù)定律第一次被嚴(yán)格論述。又過了五十年,貝葉斯的《論機(jī)會(huì)學(xué)說問題的求解》發(fā)表,系統(tǒng)闡述了貝葉斯公式及貝葉斯定理。十九世紀(jì)初,拉普拉斯《概率的分析理論》發(fā)表,古典概率論走向成熟[4]。

圖5:《關(guān)于概率的哲學(xué)隨筆》封面
容易看出,古典概率的概念,正是一個(gè)個(gè)“資深賭徒”先以大量經(jīng)驗(yàn)為基礎(chǔ)提出了問題,經(jīng)過數(shù)學(xué)家把問題數(shù)學(xué)化并運(yùn)用組合數(shù)學(xué)來分析解決的過程中誕生的。促使卡爾達(dá)諾、德·梅爾思考賭博游戲的“機(jī)遇”及其規(guī)律的動(dòng)因,是他們?cè)诖罅抠€博游戲中發(fā)現(xiàn)骰子不同點(diǎn)數(shù)組合的頻率趨于了不同的穩(wěn)定值。這個(gè)穩(wěn)定值,即后來數(shù)學(xué)家所定義的“概率”。
十九到二十世紀(jì),俄國(guó)和蘇聯(lián)數(shù)學(xué)家切比雪夫、柯爾莫哥洛夫提出隨機(jī)變量等概念及概率的公理化定義,為大數(shù)法則和概率論提供了嚴(yán)格的邏輯基礎(chǔ)。至此,現(xiàn)代概率論走向成熟,并在今天AI時(shí)代作為理論基石而大放異彩??梢灶A(yù)見,邁向AGI時(shí)代,概率論還將進(jìn)一步展現(xiàn)其價(jià)值。
需指出的是,在高度抽象的公理化定義下, 概率似 乎成了一種先驗(yàn)的、脫離現(xiàn)實(shí)事物及其模型化的純主觀構(gòu)造。但這實(shí)質(zhì)上是主觀抽象帶來的失真。概率之所以被認(rèn)識(shí)和定義、之所以這么有用,正因?yàn)樗菍?duì)統(tǒng)計(jì)規(guī)律性的定量描述,是人們?cè)谡J(rèn)識(shí)和改造自然的過程中對(duì)不確定性現(xiàn)象中的確定性的發(fā)掘。倘若不顧客觀事實(shí)和統(tǒng)計(jì)結(jié)果,任意構(gòu)造概率,如把拋擲均勻硬幣的概率測(cè)度定義為非均勻分布,而且信以為真,只會(huì)在主觀臆測(cè)中與實(shí)際漸行漸遠(yuǎn)。
三、總結(jié)
迄今為止的概率概念都是理想化模型,是人們?yōu)榱烁玫卣J(rèn)識(shí)世界、描述世界而進(jìn)行主觀抽象的產(chǎn)物。因此,概率并非實(shí)際的客觀存在。
追溯概率的歷史能發(fā)現(xiàn),雖然骰子游戲在數(shù)千年前已存在,但概率概念的形成、現(xiàn)代概率論的發(fā)展和完備化,發(fā)生于近代科學(xué)和自然哲學(xué)思想普及的年代,伴隨著歐洲國(guó)家在人口、經(jīng)濟(jì)、航海、軍工等社會(huì)領(lǐng)域統(tǒng)計(jì)學(xué)需要的大量增加(事實(shí)上,伯努利大數(shù)定律建立后,18到20世紀(jì)的概率統(tǒng)計(jì)研究與天文學(xué)、氣象學(xué)、物理學(xué)、生物學(xué)、射擊學(xué)、彈道論等密切相關(guān)[5])。因此,盡管作為模型的概率并不實(shí)際存在,但它作為人類思維的產(chǎn)物,反映著一定的客觀實(shí)在——統(tǒng)計(jì)規(guī)律性。
有趣的問題在于,若不確定性現(xiàn)象中的統(tǒng)計(jì)規(guī)律性客觀存在,那么是否有某種定義方式,能讓概率概念能脫離模型范疇而直達(dá)不確定性現(xiàn)象中的確定性本質(zhì)?進(jìn)一步追問,不確定性與確定性,究竟何者是世界的本質(zhì)?
另外,即使通過統(tǒng)計(jì)知道了某些現(xiàn)象頻率的穩(wěn)定性,如何根據(jù)統(tǒng)計(jì)結(jié)果得到符合實(shí)際的概率分布,從而分析其機(jī)理? 比如,格蘭特發(fā)現(xiàn)的倫敦男嬰:女嬰出生率為14:13、男嬰夭折率高于女嬰、老年男性死亡率高于女性,是否是客觀事實(shí)(可參考?xì)v年人口統(tǒng)計(jì)年鑒作對(duì)比)?其中蘊(yùn)含著怎樣的規(guī)律?
參考資料:
1.吳嘉桐. 格朗特統(tǒng)計(jì)思想研究——以《關(guān)于死亡公報(bào)的自然和政治觀察》為例[D]. 上海:上海師范大學(xué),2020.
2.吳倩,葉冬青,潘海峰. 人口統(tǒng)計(jì)學(xué)之父:約翰·格朗特[J].中華疾病控制雜志,2020,24(5):617-620
3.梁旭. 古典概率的歷史研究——走出賭博[D]. 天津:天津財(cái)經(jīng)大學(xué),2010.
4.華中科技大學(xué). 概率發(fā)展史. https://maths.hust.edu.cn/info/1187/3353.htm
5.華中科技大學(xué). 統(tǒng)計(jì)學(xué)的歷史.https://maths.hust.edu.cn/info/1187/3354.htm
來源:數(shù)學(xué)經(jīng)緯網(wǎng)
編輯:Decoherence
轉(zhuǎn)載內(nèi)容僅代表作者觀點(diǎn)
不代表中科院物理所立場(chǎng)
如需轉(zhuǎn)載請(qǐng)聯(lián)系原公眾號(hào)
熱門跟貼