打開網(wǎng)易新聞 查看精彩圖片

在統(tǒng)計(jì)分析和建模處理中,經(jīng)常用到最小二乘的相關(guān)方法進(jìn)行誤差分析處理。該方法的核心是所有估計(jì)值與被估計(jì)值之差的平方和達(dá)到最小。兩百年來,最小二乘思想的應(yīng)用例子浩如繁星;到了最近十年,在新興的大數(shù)據(jù)科學(xué)以及人工智能疆場,到處都響著最小二乘的戰(zhàn)鼓。但會(huì)用相關(guān)的方法流程和計(jì)算工具,不一定就清楚背后的數(shù)學(xué)原理。厘清讀者朋友們“知其然而不知其所以然”的困惑,正是筆者寫作本文的一個(gè)初衷。

撰文 | 朱慧堅(jiān)(玉林師范學(xué)院數(shù)學(xué)與統(tǒng)計(jì)學(xué)院副教授)、丁玖(美國南密西西比大學(xué)數(shù)學(xué)系教授)

打開網(wǎng)易新聞 查看精彩圖片

我們發(fā)現(xiàn),無論怎樣作一條直線,都不可能同時(shí)經(jīng)過所有這五個(gè)點(diǎn)。見下圖:

打開網(wǎng)易新聞 查看精彩圖片

讀者或許會(huì)說,兩個(gè)點(diǎn)決定一條直線,即給定平面上兩個(gè)不同的點(diǎn),有且僅有一條直線經(jīng)過它們。現(xiàn)在給了五個(gè)點(diǎn),哪能有一根直線通過所有這些點(diǎn)?除非它們恰好位于一條直線上。你說對(duì)了,事實(shí)勝于雄辯。然而在現(xiàn)實(shí)世界里,我們常常遇到這樣的問題:這些點(diǎn)是科學(xué)家或工程師為了尋求某種現(xiàn)象之客觀規(guī)律而獲得的實(shí)驗(yàn)數(shù)據(jù),數(shù)據(jù)依賴于測量,而測量就逃脫不了誤差。如果這個(gè)設(shè)想或期待的規(guī)律可表達(dá)為最簡單的線性函數(shù)(當(dāng)然一般是復(fù)雜得多的函數(shù),如攜帶了眾多參變量的有理函數(shù)、無理函數(shù)、三角函數(shù)、指數(shù)函數(shù)等,但本文旨在解釋思想,而非追逐細(xì)節(jié)),那么這五組自變量和因變量的試驗(yàn)值一般不可能都能精確滿足這個(gè)線性函數(shù),從而產(chǎn)生了另一種誤差。

既然任何直線都不能由這些點(diǎn)精確表達(dá),能否找到一根直線,使得它盡可能地“擬合”這些數(shù)據(jù)?自然,最佳的擬合就是插值,但這里行不通,因?yàn)橹本€插值通常只能“插進(jìn)”兩點(diǎn),另三點(diǎn)只好落在線外。這樣,我們需要尋找另一種“最佳擬合方案”。這個(gè)最佳逼近所遵循的途徑就是本文主題“最小二乘”。

打開網(wǎng)易新聞 查看精彩圖片
打開網(wǎng)易新聞 查看精彩圖片

頭疼。對(duì)這類在某些點(diǎn)缺乏偏導(dǎo)數(shù)的多元函數(shù),要得到其值為最小的最優(yōu)點(diǎn),不僅無一般解析公式可用,而且計(jì)算起來也很麻煩,因?yàn)榛谖⒎指拍畹臄?shù)值最優(yōu)化方法(如最有名的牛頓法),這時(shí)沒有多少用武之地。

導(dǎo)數(shù)方法

上述二元函數(shù)的非光滑性來源于高中生都知道的事實(shí):絕對(duì)值函數(shù)y=|x|在x=0時(shí)導(dǎo)數(shù)不存在。這個(gè)函數(shù)的圖像是直角坐標(biāo)平面第一和第二象限的對(duì)角射線之并,形狀像“身寬體胖”的大寫英文字母“V”,坐標(biāo)原點(diǎn)是它的一個(gè)尖點(diǎn),在那里曲線(折線)沒有切線。

打開網(wǎng)易新聞 查看精彩圖片

y=|x|的圖像

那么,怎么解決上述不可微誤差函數(shù)最小值難以計(jì)算的困難呢?解決方案其實(shí)相當(dāng)簡單,

打開網(wǎng)易新聞 查看精彩圖片

范數(shù)在線性代數(shù)中極為有用,享有與長度一模一樣的幾個(gè)基本性質(zhì):

(i)范數(shù)總是非負(fù)數(shù);

(ii)范數(shù)為0當(dāng)且僅當(dāng)向量為0;

(iii)標(biāo)量與向量之積的范數(shù)等于標(biāo)量絕對(duì)值乘以向量的范數(shù);

(iv)兩向量之和的范數(shù)不大于各向量范數(shù)之和,稱為三角形不等式。

在泛函分析中,這四個(gè)性質(zhì)成了在抽象線性空間上定義范數(shù)使其成為賦范線性空間的范數(shù)公理。

“內(nèi)積”是歐幾里得空間里十分重要的二元向量運(yùn)算,結(jié)果為數(shù),與幾何術(shù)語“正交投影”關(guān)系

打開網(wǎng)易新聞 查看精彩圖片
打開網(wǎng)易新聞 查看精彩圖片
打開網(wǎng)易新聞 查看精彩圖片
打開網(wǎng)易新聞 查看精彩圖片

矩陣方法

剛才求出最佳逼近用的是“導(dǎo)數(shù)法”,學(xué)過初等微積分的人都能理解,然而引進(jìn)最小二乘的最常見手段卻是借助于矩陣,和線性方程組有不解之緣,學(xué)過矩陣初等理論的讀者應(yīng)該不會(huì)

打開網(wǎng)易新聞 查看精彩圖片
打開網(wǎng)易新聞 查看精彩圖片

但如果不像之前對(duì)五點(diǎn)線性擬合那樣耍弄微積分大刀,怎樣用線性代數(shù)的戰(zhàn)斧劈開它呢?現(xiàn)在我們搬出這把戰(zhàn)斧,它的木柄上刻著“正交投影”四個(gè)大字。

筆者在課上講解正交投影時(shí),常用自己的身體做道具:微微向前傾斜身體,和地面成約80度的角(當(dāng)然不能過度傾斜,否則會(huì)有倒地的危險(xiǎn)),然后眼光垂直射向地面,從腳到眼光射到地面處的向量就是身體向量對(duì)著地面的正交投影。正交投影的一個(gè)基本性質(zhì)是眾所周知的,即向量被正交投影后長度不能變大,用平面幾何的語言說就是:直角三角形的直角邊總不會(huì)比斜邊更長。斜投影沒有正交投影用途廣,就是因?yàn)樗狈@個(gè)好特色。這也說明為啥人們都用直角坐標(biāo)系而幾乎不用斜角坐標(biāo)系,因?yàn)楹笳叩膬牲c(diǎn)距離公式只能靠復(fù)雜的余弦定律,而簡單漂亮的勾股定理愛莫能助!

在可見的二維和三維空間,正交投影與兩條直線段垂直幾乎就是同義詞。在解析幾何中,兩個(gè)非零向量相互垂直當(dāng)且僅當(dāng)它們的點(diǎn)積為零。到了線性代數(shù)里的高維歐幾里得空間,

打開網(wǎng)易新聞 查看精彩圖片
打開網(wǎng)易新聞 查看精彩圖片

基于對(duì)日常距離概念的直觀理解,我們可以把min{||x-v||: v∈V}稱為x到V的歐幾里得距離,簡稱距離。人人熟知,在連接直線外一點(diǎn)與直線上各點(diǎn)的線段中,垂線段最短。而上述引理將這個(gè)平面幾何的基本事實(shí)推廣到了高維歐幾里得空間,這將直接用于求解我們的最小二乘問題(3)。

打開網(wǎng)易新聞 查看精彩圖片

歷史上,先是美國數(shù)學(xué)家穆爾(Eliakim Hastings Moore,1862-1932)于1920年定義了它,1955年,英國小伙子、2020年的諾貝爾物理學(xué)獎(jiǎng)得主彭羅斯(Roger Penrose,1931-)又獨(dú)立地發(fā)明了它。

其次,這里使用多項(xiàng)式函數(shù)進(jìn)行最小二乘的問題,引出的A是個(gè)特殊矩陣。由于假設(shè)了這m

打開網(wǎng)易新聞 查看精彩圖片

這實(shí)在是個(gè)簡潔漂亮的解公式!之前在《從線性算子的角度看廣義逆矩陣》中引進(jìn)的穆爾-彭羅斯廣義逆在最小二乘誤差分析中大放異彩!自然,本文對(duì)五點(diǎn)問題用到的求導(dǎo)法,對(duì)此更一般情形也能得到同樣的結(jié)果,我們就暫時(shí)離開代數(shù)學(xué),再次品嘗一下分析學(xué)的滋味。

最小二乘問題和極小范數(shù)解

打開網(wǎng)易新聞 查看精彩圖片
打開網(wǎng)易新聞 查看精彩圖片
打開網(wǎng)易新聞 查看精彩圖片
打開網(wǎng)易新聞 查看精彩圖片

下面的圖示展現(xiàn)了極小范數(shù)最小二乘解的幾何意義:

打開網(wǎng)易新聞 查看精彩圖片

我們舉一個(gè)數(shù)值例子幫助讀者消化概念。給出一個(gè)三階方陣A和三維向量b:

打開網(wǎng)易新聞 查看精彩圖片

因?yàn)锳的第三行等于第二行的兩倍減去第一行,所以這三行線性相關(guān),故A是一個(gè)奇異矩陣,并且由于b的第三行不等于第二行的兩倍減去第一行,想精確求解線性方程組Ax=b是徒勞的,所以其右端向量b不落在A的值空間內(nèi)。我們退而求其次,找到此方程組在最小二乘意義下的一個(gè)近似解,即求解對(duì)應(yīng)的最小二乘問題(LSP)。

為了使用廣義逆矩陣來完成任務(wù),我們需要零空間N(A)和值空間R(A)的具體信息。零空間N(A)可由求解兩個(gè)聯(lián)立齊次線性方程

打開網(wǎng)易新聞 查看精彩圖片
打開網(wǎng)易新聞 查看精彩圖片
打開網(wǎng)易新聞 查看精彩圖片
打開網(wǎng)易新聞 查看精彩圖片

法方程

從本例可見,即便對(duì)于小尺寸矩陣,通過定義求出廣義逆矩陣以獲得最小二乘解是頗費(fèi)工夫的,我們能不能無需先計(jì)算廣義逆矩陣,而一步到位地求解(LSP)?在本文最后我們論證:求解最小二乘問題(LSP)等價(jià)于求解“法方程(normal equation)”

打開網(wǎng)易新聞 查看精彩圖片

這個(gè)等價(jià)關(guān)系是最小二乘法理論的核心要素之一,它無需廣義逆矩陣的符號(hào),值得以定理的形式當(dāng)作本文壓軸戲上演。

定理.向量x是最小二乘問題(LSP)的解,當(dāng)且僅當(dāng)它滿足對(duì)應(yīng)的法方程(NE)。

證明.設(shè)x是(LSP)的一個(gè)解,則根據(jù)最小二乘解的意義和正交投影的性質(zhì),向量Ax是向量b

打開網(wǎng)易新聞 查看精彩圖片

歷經(jīng)了本文幾個(gè)數(shù)學(xué)結(jié)論的推理過程,相信不少讀者想放松一下大腦了。我們就以最小二乘的誕生簡史來陪讀者朋友輕松一下。無論怎樣追溯最小二乘法的歷史源頭,兩個(gè)人的名字總是要提到的,一位是法國數(shù)學(xué)家勒讓德(Adrien-Marie Legendre,1752-1833),他于1805年清楚簡潔地用線性方程擬合數(shù)據(jù)的方法來確定彗星的軌道;另一位則是德國數(shù)學(xué)家高斯(Carl Friedrich Gauss,1777-1855),他曾聲稱早在22歲時(shí)就已知曉最小二乘的奧秘。確實(shí),他24歲時(shí)用最小二乘原則進(jìn)行了預(yù)測,幫助一位匈牙利天文學(xué)家找到了谷神星的位置。

兩百年來,最小二乘思想的應(yīng)用例子浩如繁星,到了最近十年,在新興的大數(shù)據(jù)科學(xué)以及人工智能疆場,到處都響著最小二乘的戰(zhàn)鼓。但會(huì)用與它關(guān)聯(lián)的方法流程和計(jì)算工具,不一定就清楚背后的數(shù)學(xué)原理。厘清讀者朋友們“知其然而不知其所以然”的困惑,正是筆者寫作本文的一個(gè)初衷。

封面來自Google Doodle

打開網(wǎng)易新聞 查看精彩圖片

特 別 提 示

1. 進(jìn)入『返樸』微信公眾號(hào)底部菜單“精品專欄“,可查閱不同主題系列科普文章。

2. 『返樸』提供按月檢索文章功能。關(guān)注公眾號(hào),回復(fù)四位數(shù)組成的年份+月份,如“1903”,可獲取2019年3月的文章索引,以此類推。

版權(quán)說明:歡迎個(gè)人轉(zhuǎn)發(fā),任何形式的媒體或機(jī)構(gòu)未經(jīng)授權(quán),不得轉(zhuǎn)載和摘編。轉(zhuǎn)載授權(quán)請(qǐng)?jiān)凇阜禈恪刮⑿殴娞?hào)內(nèi)聯(lián)系后臺(tái)。