【專欄】數學之美番外篇:平凡而又神奇的貝葉斯方法(5)
所謂的推理,分為兩個過程,第一步是對觀測數據建立一個模型。第二步則是使用這個模型來推測未知現象發生的概率。
最小描述長度原則
貝葉斯模型比較理論與信息論有一個有趣的關聯:
P(h | D) ∝ P(h) * P(D | h)
兩邊求對數,將右式的乘積變成相加:
ln P(h | D) ∝ ln P(h) + ln P(D | h)
顯然,最大化P(h | D) 也就是最大化 ln P(h | D)。而ln P(h) + ln P(D | h)則可以解釋為模型(或者稱“假設”、“猜測”)h的編碼長度加上在該模型下數據D的編碼長度。使這個和最小的模型就是最佳模型。
而究竟如何定義一個模型的編碼長度,以及數據在模型下的編碼長度則是一個問題。(更多可參考Mitchell的《Machine Learning》[1]的6.6節,或Mackay的28.3節)
作者:劉未鵬 出版:電子工業出版社
最優貝葉斯推理
所謂的推理,分為兩個過程,第一步是對觀測數據建立一個模型。第二步則是使用這個模型來推測未知現象發生的概率。我們前面都是講的對于觀測數據給出最靠譜的那個模型。然而很多時候,雖然某個模型是所有模型里面最靠譜的,但是別的模型也并不是一點機會都沒有。譬如第一個模型在觀測數據下的概率是0.5。第二個模型是0.4,第三個是0.1。如果我們只想知道對于觀測數據哪個模型最可能,那么只要取第一個就行了,故事到此結束。然而很多時候我們建立模型是為了推測未知的事情的發生概率,這個時候,三個模型對未知的事情發生的概率都會有自己的預測,僅僅因為某一個模型概率稍大一點就只聽他一個人的就太不民主了。所謂的最優貝葉斯推理就是將三個模型對于未知數據的預測結論加權平均起來(權值就是模型相應的概率)。顯然,這個推理是理論上的制高點,無法再優了,因為它已經把所有可能性都考慮進去了。
只不過實際上我們是基本不會使用這個框架的,因為計算模型可能非常費時間,二來模型空間可能是連續的,即有無窮多個模型(這個時候需要計算模型的概率分布)。結果還是非常費時間。所以這個被看作是一個理論基準。
注釋:
[1]中譯名《機器學習》。
(待續;此文的修訂版已收錄《暗時間》一書,由電子工業出版社2011年8月出版。作者于2009年7月獲得南京大學計算機系碩士學位,現在微軟亞洲研究院創新工程中心從事軟件研發工程師工作。)
網絡編輯:謝小跳