【專欄】數學之美番外篇:平凡而又神奇的貝葉斯方法(9)
假設直線對于坐標Xi給出的預測f(Xi)是最靠譜的預測,所有縱坐標偏離f(Xi)的那些數據點都含有噪音,是噪音使得它們偏離了完美的一條直線,一個合理的假設就是偏離路線越遠的概率越小,具體小多少,可以用一個正態分布曲線來模擬,這個分布曲線以直線對Xi給出的預測f(Xi)為中心,實際縱坐標為Yi的點(Xi,Yi)發生的概率就正比于EXP[-(ΔYi)^2]。
最大似然與最小二乘
學過線性代數的大概都知道經典的最小二乘方法來做線性回歸。問題描述是:給定平面上N個點,(這里不妨假設我們想用一條直線來擬合這些點——回歸可以看作是擬合的特例,即允許誤差的擬合),找出一條最佳描述了這些點的直線。
一個接踵而來的問題就是,我們如何定義最佳?我們設每個點的坐標為(Xi, Yi)。如果直線為y = f(x)。那么(Xi, Yi)跟直線對這個點的“預測”:(Xi, f(Xi))就相差了一個ΔYi = |Yi – f(Xi)|。最小二乘就是說尋找直線使得(ΔY1)^2 + (ΔY2)^2 + ..(即誤差的平方和)最小,至于為什么是誤差的平方和而不是誤差的絕對值和,統計學上也沒有什么好的解釋。然而貝葉斯方法卻能對此提供一個完美的解釋。
我們假設直線對于坐標Xi給出的預測f(Xi)是最靠譜的預測,所有縱坐標偏離f(Xi)的那些數據點都含有噪音,是噪音使得它們偏離了完美的一條直線,一個合理的假設就是偏離路線越遠的概率越小,具體小多少,可以用一個正態分布曲線來模擬,這個分布曲線以直線對Xi給出的預測f(Xi)為中心,實際縱坐標為Yi的點(Xi,Yi)發生的概率就正比于EXP[-(ΔYi)^2]。(EXP(..)代表以常數e為底的多少次方)。
作者:劉未鵬 出版:電子工業出版社
現在我們回到問題的貝葉斯方面,我們要想最大化的后驗概率是:
P(h|D) ∝ P(h) * P(D|h)
又見貝葉斯!這里h就是指一條特定的直線,D就是指這N個數據點。我們需要尋找一條直線h使得P(h) * P(D|h)最大。很顯然,P(h)這個先驗概率是均勻的,因為哪條直線也不比另一條更優越。所以我們只需要看P(D|h)這一項,這一項是指這條直線生成這些數據點的概率,剛才說過了,生成數據點(Xi, Yi)的概率為EXP[-(ΔYi)^2]乘以一個常數。而 P(D|h) = P(d1|h) * P(d2|h) * .. 即假設各個數據點是獨立生成的,所以可以把每個概率乘起來。于是生成N個數據點的概率為EXP[-(ΔY1)^2] * EXP[-(ΔY2)^2] * EXP[-(ΔY3)^2] * .. = EXP{-[(ΔY1)^2 + (ΔY2)^2 + (ΔY3)^2 + ..]}最大化這個概率就是要最小化(ΔY1)^2 + (ΔY2)^2 + (ΔY3)^2 + .. 。熟悉這個式子嗎?
(待續;此文的修訂版已收錄《暗時間》一書,由電子工業出版社2011年8月出版。作者于2009年7月獲得南京大學計算機系碩士學位,現在微軟亞洲研究院創新工程中心從事軟件研發工程師工作。)
網絡編輯:謝小跳