淺談貝葉斯統計

一個神經元能夠催生多少故事?香港中文大學信息工程系助理教授周博磊近日撰文介紹了他自 2015 年開始至今對神經元的研究經歷。最近,他與 David Bau、朱儁彥等人合作的神經元研究論文發表在了 PNAS 雜誌上。

淺談貝葉斯統計

貝葉斯統計是英國學者托馬斯 · 貝葉斯在《論有關機遇問題的求解》中提出一種歸納推理的理論,後被一些統計學者發展爲一種系統的統計推斷方法,稱爲貝葉斯方法。本文旨在通過實際的簡單例子使大家對貝葉斯統計方法有更直觀的認識並對其理念有更深刻的理解。

案例一

通過貝葉斯推理來辨別 “買東西的人” 和“隨便逛逛的人”

商店裏的售貨員最關心的問題莫過於 “這位顧客究竟是來買東西的,還是隨便逛逛而已”。所以對於店員來說,通過顧客的行爲來揣測他們的真實想法,是一項重要的本領。下文將具體介紹“將店員的判斷方法數值化” 的方法,該方法恰巧適用貝葉斯統計學。進而言之,通過該事例,我們也可以弄懂貝葉斯統計學的概念。

第一步:

通過經驗設定 “先驗概率”

假設一個場景:面前有一位顧客,此時你需要做的是,推測該顧客究竟是 “來買東西的人”,還是 “隨便逛逛的人”。只有做出正確的判斷,才能採取正確的接待方法。

推算的第一步:將兩種顧客(來買東西的顧客、隨便逛逛的顧客)的比例進行數值分配。這句話的意思是:假設面前的這位顧客一定屬於兩種中的一種,以此爲前提,該顧客爲第一種或第二種的可能性分別爲多少?將這個可能性用數值表示出來。

在貝葉斯統計學中,這種 “某種類別的概率(比例)” 有一個專有名詞,叫作 “先驗概率”。“事前” 的含義是:在獲得某項信息之前。

此處的 “信息” 是指附加的狀況,比如顧客忽然過來詢問。通過 “過來詢問” 這一信息,可以對顧客類別的推算進行修改,而 “先驗概率” 是指,在 “過來詢問” 或“不過來詢問”的情況發生之前進行的概率判斷。

根據自己的經驗,每 5 位顧客中就有 1 位是 “來買東西的”,也就是說,這一部分顧客佔全體的 20%(0.2),那麼剩下“隨便逛逛” 部分的比例便爲 80%(0.8)。這兩個數字,便是兩類顧客的“先驗概率”。

在這個事例中,在觀察面前顧客的行爲之前,判斷 “該顧客是屬於概率 0.2 的買東西的人,還是概率 0.8 的隨便逛逛的人”,這個過程被稱爲 “某一類別的先驗分佈”,如圖 1 所示。

圖片

圖表中的大長方形被分割爲兩部分,兩部分的面積所佔比例分別爲 0.2 和 0.8,這正是分割時的訣竅。本文將在後面逐漸闡明:“面積” 的概念在貝葉斯概率的計算中,起着重要的作用。

該圖可以理解爲:將整體分爲兩種不同的情況。這意味着,自己所處的環境爲 A 或 B 中的一個,A 情況下的顧客爲 “來買東西的人”,B 情況下的顧客爲“隨便逛逛的人”,但不知道究竟是 A 還是 B。只是先在頭腦中構築一個大致的印象。哲學上將這種見解稱爲“可能世界”,在進行邏輯推算或概率推算時,採用這種“劃分互不相同的可能性” 的思維方法,有利於整理思路。

在這裏將長方形的面積設定爲 0.1 和 0.4,兩部分的比例依然爲 1∶4,這與設定爲 0.2 和 0.8 時的比例相同。那麼,爲何要將面積設置爲 0.2 和 0.8 呢?這是因爲,用數值來計算概率的情況下,需要在多種可能性中,選取 “將各部分概率相加,總和爲 1” 的那一種,這種情況被稱爲“標準化條件”。

第二步:

設置發生 “向店員詢問” 事件的條件概率

在這一步,我們要做的是:爲 “來買東西的人” 和“隨便逛逛的人”這兩類顧客分別設定 “向店員詢問” 的概率。如果沒有相關經驗和數據作爲支撐,這項工作是無法完成的。上一節講到,即使沒有相關經驗,也可以設定先驗概率。但此處的“各個分類的行動概率”,必須是基於一定的經驗、實證、實驗的數值。

圖表中的數值,是爲了計算簡便而設定的,並非真實數據。

圖片

從圖表中可以看出,“來買東西的”顧客向店員詢問的概率是 0.9,而 “隨便逛逛的” 顧客向店員詢問的概率只有 0.3。

需要注意的是:圖表從橫向來看,0.9+0.1=1,0.3+0.7=1,兩行都滿足標準化條件;而縱向來看,0.9+0.3≠1,也就是說並不滿足標準化條件。具體分析一下:橫向的一行,表示某一類別的顧客可能採取的兩種行動。比如第一行數字,表示 “來買東西的人” 向店員 “詢問” 或“不詢問”這兩種行爲,顧客有可能詢問,也有可能不詢問,最終採取的行動一定是其中之一,沒有第三種可能性。而縱向來看,第一列數字表示,“來買東西的人”向店員詢問的概率爲 0.9,“隨便逛逛的人”向店員詢問的概率爲 0.3,兩個數字相加之和並不等於 1。這是因爲,對象範圍包含了兩個不同類別的顧客,並且也沒有涵蓋所有的行動。

圖表中的數字,表示 “某一特定類別採取各種行動的概率”,這在統計學中被稱爲“條件概率”。用“原因” 的概念來解釋,即“在原因明確的情況下,某一類別採取各項行動的結果概率”。

將兩個類別的顧客,進一步按照 “詢問” 和“不詢問”的條件來分類,那麼前文所述的兩個大類別又可以細分爲四個小類別,分別是:“來買東西的人詢問店員”“隨便逛逛的人詢問店員”“來買東西的人不詢問店員”“隨便逛逛的人不詢問店員”,如圖表所示。

圖片

一共存在四種可能性:來買東西的人詢問店員(左上區域)、來買東西的人不詢問店員(左下區域)、隨便逛逛的人詢問店員(右上區域)、隨便逛逛的人不詢問店員(右下區域)。0 各個區域所表示的概率與每個長方形的面積相等。長方形的面積可以用乘法求得,如圖表所示。

圖片

第三步:

通過觀察到的行爲,排除 “不可能的情況”

下面,讓我們進一步進行推測。

作爲一名店員,現在你面臨的情況是:顧客上前來打招呼。這也意味着,你觀察到了顧客的某一種行爲。這爲 “可能世界” 又增添了一條信息。

這條信息的內容是:“不詢問店員”的可能性消失了。上一節中提到,在顧客類別包括 “來買東西的人” 和“隨便逛逛的人”兩類,顧客的行爲包括 “詢問” 和“不詢問”兩類的情況下,“可能世界”共分爲 4 種。在現實世界中,因爲已經觀察到了 “詢問” 這一行爲,因此 “不詢問” 這一行爲覆蓋的世界就不復存在了。這意味着,“可能世界”受到了限制。下面我們藉助圖形來理解這一問題。

圖片

因爲 “可能世界” 變成了 2 個,從而我們可以推測獲得新的數值。

在一部分可能性不復存在,而一部分可能性又在現實中受到了限制的情況下,會發生些什麼呢?這正是所謂的——在推測中 “概率發生變化”。

第四步:

尋求 “來買東西的人” 的“貝葉斯逆概率”

上一步,由於觀察到 “詢問” 這一行動,使得 “可能世界” 被限定在兩個以內。也就是說,面前的顧客所屬的世界,要麼是“來買東西的人詢問店員”,要麼是“隨便逛逛的人詢問店員”,只有這兩種可能性。顯示其可能性的數值(概率),如圖表所示。

圖表 “不詢問” 的可能性消失。

圖片

根據觀察到的行爲,可能性被限定爲兩種,此時,所有情況的概率(長方形面積)之和已經不爲 1。因此,要保持比例關係,恢復標準化條件,從而使概率發生變化。

圖表表示恢復標準化條件,計算後驗概率

圖片

從上表中我們可以看出,上前詢問的顧客爲購買者的概率,可以推定爲 3/7。這個概率,被稱爲 “貝葉斯逆概率” 或“後驗概率”。

在此,對 “逆概率” 一詞中的 “逆” 的含義,進行簡要說明。所謂的 “逆” 是指:用與之前相反的方法,來解析表示幾個互不相同的 “世界” 的圖形。截至上一節的觀點是:顧客共分兩種類別,每一種類別都會隨機做出 “詢問” 或“不詢問”的行爲,這一觀點的前提是對圖表進行縱向觀察。這正是從 “類別” 這一原因,得到 “行動” 這一結果的處理方法。但是,現在讓我們來橫向觀察圖表。也就是說,“上前詢問”的顧客可分爲 “來買東西的人” 和“隨便逛逛的人”兩種類別,從中隨機選擇一種。從 “詢問” 這一行動的結果追溯到 “類別” 這一原因。【結果→原因】這一過程,就是 “逆概率” 這一概念中 “逆” 的含義。

貝葉斯推理過程的總結

用圖表對於之前提到的後驗概率的計算方法進行總結,如圖表所示。

圖片

那麼,通過求後驗概率,我們能夠了解到什麼呢?其實,只要抽出圖表的開頭、中間和結尾部分,並填入數值,結果就很明確了。

圖片

看這個圖表便可瞭解到,在沒有觀察到任何行爲時,面前的顧客是 “來買東西的人” 的概率爲 0.2(先驗概率),但觀察到 “上前詢問” 這一行爲之後,數值便更新爲約 0.43(後驗概率)。也就是說,雖然並不能斷定這位顧客就是“來買東西的人”,但這一結果的可能性提高到了以前的兩倍,這便是“貝葉斯更新”。

案例二

推測送巧克力的女同事的心意

本文之前所闡述的貝葉斯推理的順序爲:

先驗概率 → 條件概率 → 通過觀察獲取信息 → 後驗概率

前例在設定最初的先驗概率時,是以客觀數據作爲參考的。然而,貝葉斯推理的魅力正在於:即使沒有事前的客觀數據,也能進行推算。也就是說,可以主觀設定先驗概率,進行推算。這可以更進一步解釋爲:學會這個方法,才能更深刻地理解 “貝葉斯推理的思想”,全面瞭解它的神奇之處。

下面,進行如下問題設定:

假設你是一名男性,有這樣一位特殊的女同事,你很在意她是否對自己有好感。情人節那天,你收到了她送的巧克力。那麼,你將如何推算 “她喜歡自己” 這一事件的概率呢?

此處的設問——“認爲你是真命天子的概率”中的 “概率” 這一概念,讓人越想越不明白。因此,本次的問題設定與通常情況下的統計、概率常識是有所不同的。不過,貝葉斯推理可以幫助我們解決這樣的問題。這也正是貝葉斯推理的優勢所在。本講通過解釋這一類問題,幫助您理解貝葉斯推理帶有主觀性的一個側面。

第一步:

主觀上設定你是否是 “真命天子” 的“先驗概率”

按上節所述,這一事例的特殊性在於,通過客觀統計數據無法獲得先驗概率。先驗概率的概念在第一例中曾涉及,是指:事前能夠判斷的各個類別的相應概率。在這個案例中,有兩種類別:一種是 “把你視爲最喜歡的人”,另一種是“沒有把你列入考慮範圍之內”。以下,簡稱爲“真命天子” 和“無關路人”。

此例中,並沒有選取大量的統計學現象來處理,而是對某個特定的女同事的心情進行推測。因此,沒有數據可用於先驗概率的判斷。

在這種情況下,一般會採用 “理由不充分原理” 的方法。通過這一原理我們可以進行如下思考:因爲沒有證據證明女同事把你視爲“真命天子”,然而也沒有證據認爲她把你視爲“無關路人”,因此暫且把這兩種情況的概率視爲相等。即把兩種情況的先驗概率分別設爲 0.5 和 0.5,如圖表所示。

圖片

那麼,你究竟屬於這兩個類中的哪一個呢?總之,答案在她的心中,你無法斷定,只能推測罷了。既然統計方法無法使用,也沒有證據證明哪一種更有優勢,因此,兩種情況的可能性理應對等劃分,各爲 0.5。當然,也可以劃分爲其他比例,這個問題將在本例的最後進行說明。

第二步:

設法找到數據,設定 “條件概率”

下一步是針對能夠觀察到的行動,設定不同類別的條件概率,而這需要在一定程度上的客觀概率。也就是說,必須要獲得統計性的數據,才能進行下一步工作。

對於統計結果進行分析的結果顯示,存在如下關係:

圖片

整理得如下表格 3-3:

圖片

第三步:

收到巧克力,排除掉 “不可能的情況”

如今,你幸運地收到了來自心儀女同事的巧克力。在現實世界中,因爲已經發生了她給你 “送巧克力” 的行爲,“不送”的可能性就被排除在外,恢復標準化條件。從結果來看,如果你收到了女同事的巧克力,那麼,你成爲她的 “真命天子” 的事後準確率便爲 2/3,約等於 66%。

在本文中,上述過程稱爲 “貝葉斯推理”。貝葉斯推理可以總結爲:通過觀察行動(信息),將先驗概率通過貝葉斯更新,轉換爲後驗概率。對不同事件進行的推算稱爲 “貝葉斯推理”,而將這些事件中的推算方法整合起來,便是 “貝葉斯統計學”。

在本文的最後,對於 “概率” 的定義進行簡要說明。

我們在初中、高中階段學習的概率,是一個客觀的概念。也就是說,對於 “某現象的概率是多少” 的問題來說,答案是唯一的,無論是誰回答,都會給出一個唯一、客觀的數值。在 “擲骰子出現 1 的概率爲六分之一” 的情況下,概率表示的是:丟出這個骰子後,出現的結果爲 1 的可能性的程度。這個答案對於所有人來說,都是相同的。

然而,本文中提到的 “概率”,並非上述的客觀性概率。“女同事認爲你是她真命天子的概率” 這一情況下的“概率”,並不能像上述擲骰子事件的概率那樣進行解釋。這是因爲:骰子可以丟很多次,但這位女同事是獨一無二的。她認爲你是真命天子還是無關路人,並不是從現在纔開始發生的概率性事件,而是早已有了結論,只是你不知道罷了。

因此,“女性同事認爲你是她的真命天子的概率”中的 “概率”,應當解釋爲:你內心描繪的類似“信念程度” 這樣的概念。也就是說,並非 “概率是多少” 的問題,而應該理解爲“你認爲概率是多少”。

像這樣,可以解釋爲 “人的內心描繪的數值” 的概率稱爲 “主觀概率”。也許很多人會認爲主觀概率是不可信的,但在統計學和經濟學中,“主觀概率” 始終佔有一席之地。

轉自:京師統計團總支學生會

本文由 Readfog 進行 AMP 轉碼,版權歸原作者所有。
來源https://mp.weixin.qq.com/s/CXYPvt1Ajs_DTrLDXWGiMQ