打開網(wǎng)易新聞 查看精彩圖片

在統(tǒng)計分析和建模處理中,經(jīng)常用到最小二乘的相關(guān)方法進(jìn)行誤差分析處理。該方法的核心是所有估計值與被估計值之差的平方和達(dá)到最小。兩百年來,最小二乘思想的應(yīng)用例子浩如繁星;到了最近十年,在新興的大數(shù)據(jù)科學(xué)以及人工智能疆場,到處都響著最小二乘的戰(zhàn)鼓。但會用相關(guān)的方法流程和計算工具,不一定就清楚背后的數(shù)學(xué)原理。厘清讀者朋友們“知其然而不知其所以然”的困惑,正是筆者寫作本文的一個初衷。

撰文 | 朱慧堅(玉林師范學(xué)院數(shù)學(xué)與統(tǒng)計學(xué)院副教授)、丁玖(美國南密西西比大學(xué)數(shù)學(xué)系教授)

打開網(wǎng)易新聞 查看精彩圖片

我們發(fā)現(xiàn),無論怎樣作一條直線,都不可能同時經(jīng)過所有這五個點。見下圖:

打開網(wǎng)易新聞 查看精彩圖片

讀者或許會說,兩個點決定一條直線,即給定平面上兩個不同的點,有且僅有一條直線經(jīng)過它們?,F(xiàn)在給了五個點,哪能有一根直線通過所有這些點?除非它們恰好位于一條直線上。你說對了,事實勝于雄辯。然而在現(xiàn)實世界里,我們常常遇到這樣的問題:這些點是科學(xué)家或工程師為了尋求某種現(xiàn)象之客觀規(guī)律而獲得的實驗數(shù)據(jù),數(shù)據(jù)依賴于測量,而測量就逃脫不了誤差。如果這個設(shè)想或期待的規(guī)律可表達(dá)為最簡單的線性函數(shù)(當(dāng)然一般是復(fù)雜得多的函數(shù),如攜帶了眾多參變量的有理函數(shù)、無理函數(shù)、三角函數(shù)、指數(shù)函數(shù)等,但本文旨在解釋思想,而非追逐細(xì)節(jié)),那么這五組自變量和因變量的試驗值一般不可能都能精確滿足這個線性函數(shù),從而產(chǎn)生了另一種誤差。

既然任何直線都不能由這些點精確表達(dá),能否找到一根直線,使得它盡可能地“擬合”這些數(shù)據(jù)?自然,最佳的擬合就是插值,但這里行不通,因為直線插值通常只能“插進(jìn)”兩點,另三點只好落在線外。這樣,我們需要尋找另一種“最佳擬合方案”。這個最佳逼近所遵循的途徑就是本文主題“最小二乘”。

打開網(wǎng)易新聞 查看精彩圖片
打開網(wǎng)易新聞 查看精彩圖片

頭疼。對這類在某些點缺乏偏導(dǎo)數(shù)的多元函數(shù),要得到其值為最小的最優(yōu)點,不僅無一般解析公式可用,而且計算起來也很麻煩,因為基于微分概念的數(shù)值最優(yōu)化方法(如最有名的牛頓法),這時沒有多少用武之地。

導(dǎo)數(shù)方法

上述二元函數(shù)的非光滑性來源于高中生都知道的事實:絕對值函數(shù)y=|x|在x=0時導(dǎo)數(shù)不存在。這個函數(shù)的圖像是直角坐標(biāo)平面第一和第二象限的對角射線之并,形狀像“身寬體胖”的大寫英文字母“V”,坐標(biāo)原點是它的一個尖點,在那里曲線(折線)沒有切線。

打開網(wǎng)易新聞 查看精彩圖片

y=|x|的圖像

那么,怎么解決上述不可微誤差函數(shù)最小值難以計算的困難呢?解決方案其實相當(dāng)簡單,

打開網(wǎng)易新聞 查看精彩圖片

范數(shù)在線性代數(shù)中極為有用,享有與長度一模一樣的幾個基本性質(zhì):

(i)范數(shù)總是非負(fù)數(shù);

(ii)范數(shù)為0當(dāng)且僅當(dāng)向量為0;

(iii)標(biāo)量與向量之積的范數(shù)等于標(biāo)量絕對值乘以向量的范數(shù);

(iv)兩向量之和的范數(shù)不大于各向量范數(shù)之和,稱為三角形不等式。

在泛函分析中,這四個性質(zhì)成了在抽象線性空間上定義范數(shù)使其成為賦范線性空間的范數(shù)公理。

“內(nèi)積”是歐幾里得空間里十分重要的二元向量運算,結(jié)果為數(shù),與幾何術(shù)語“正交投影”關(guān)系

打開網(wǎng)易新聞 查看精彩圖片
打開網(wǎng)易新聞 查看精彩圖片
打開網(wǎng)易新聞 查看精彩圖片
打開網(wǎng)易新聞 查看精彩圖片

矩陣方法

剛才求出最佳逼近用的是“導(dǎo)數(shù)法”,學(xué)過初等微積分的人都能理解,然而引進(jìn)最小二乘的最常見手段卻是借助于矩陣,和線性方程組有不解之緣,學(xué)過矩陣初等理論的讀者應(yīng)該不會

打開網(wǎng)易新聞 查看精彩圖片
打開網(wǎng)易新聞 查看精彩圖片

但如果不像之前對五點線性擬合那樣耍弄微積分大刀,怎樣用線性代數(shù)的戰(zhàn)斧劈開它呢?現(xiàn)在我們搬出這把戰(zhàn)斧,它的木柄上刻著“正交投影”四個大字。

筆者在課上講解正交投影時,常用自己的身體做道具:微微向前傾斜身體,和地面成約80度的角(當(dāng)然不能過度傾斜,否則會有倒地的危險),然后眼光垂直射向地面,從腳到眼光射到地面處的向量就是身體向量對著地面的正交投影。正交投影的一個基本性質(zhì)是眾所周知的,即向量被正交投影后長度不能變大,用平面幾何的語言說就是:直角三角形的直角邊總不會比斜邊更長。斜投影沒有正交投影用途廣,就是因為它缺乏這個好特色。這也說明為啥人們都用直角坐標(biāo)系而幾乎不用斜角坐標(biāo)系,因為后者的兩點距離公式只能靠復(fù)雜的余弦定律,而簡單漂亮的勾股定理愛莫能助!

在可見的二維和三維空間,正交投影與兩條直線段垂直幾乎就是同義詞。在解析幾何中,兩個非零向量相互垂直當(dāng)且僅當(dāng)它們的點積為零。到了線性代數(shù)里的高維歐幾里得空間,

打開網(wǎng)易新聞 查看精彩圖片
打開網(wǎng)易新聞 查看精彩圖片

基于對日常距離概念的直觀理解,我們可以把min{||x-v||: v∈V}稱為x到V的歐幾里得距離,簡稱距離。人人熟知,在連接直線外一點與直線上各點的線段中,垂線段最短。而上述引理將這個平面幾何的基本事實推廣到了高維歐幾里得空間,這將直接用于求解我們的最小二乘問題(3)。

打開網(wǎng)易新聞 查看精彩圖片

歷史上,先是美國數(shù)學(xué)家穆爾(Eliakim Hastings Moore,1862-1932)于1920年定義了它,1955年,英國小伙子、2020年的諾貝爾物理學(xué)獎得主彭羅斯(Roger Penrose,1931-)又獨立地發(fā)明了它。

其次,這里使用多項式函數(shù)進(jìn)行最小二乘的問題,引出的A是個特殊矩陣。由于假設(shè)了這m

打開網(wǎng)易新聞 查看精彩圖片

這實在是個簡潔漂亮的解公式!之前在《從線性算子的角度看廣義逆矩陣》中引進(jìn)的穆爾-彭羅斯廣義逆在最小二乘誤差分析中大放異彩!自然,本文對五點問題用到的求導(dǎo)法,對此更一般情形也能得到同樣的結(jié)果,我們就暫時離開代數(shù)學(xué),再次品嘗一下分析學(xué)的滋味。

最小二乘問題和極小范數(shù)解

打開網(wǎng)易新聞 查看精彩圖片
打開網(wǎng)易新聞 查看精彩圖片
打開網(wǎng)易新聞 查看精彩圖片
打開網(wǎng)易新聞 查看精彩圖片

下面的圖示展現(xiàn)了極小范數(shù)最小二乘解的幾何意義:

打開網(wǎng)易新聞 查看精彩圖片

我們舉一個數(shù)值例子幫助讀者消化概念。給出一個三階方陣A和三維向量b:

打開網(wǎng)易新聞 查看精彩圖片

因為A的第三行等于第二行的兩倍減去第一行,所以這三行線性相關(guān),故A是一個奇異矩陣,并且由于b的第三行不等于第二行的兩倍減去第一行,想精確求解線性方程組Ax=b是徒勞的,所以其右端向量b不落在A的值空間內(nèi)。我們退而求其次,找到此方程組在最小二乘意義下的一個近似解,即求解對應(yīng)的最小二乘問題(LSP)。

為了使用廣義逆矩陣來完成任務(wù),我們需要零空間N(A)和值空間R(A)的具體信息。零空間N(A)可由求解兩個聯(lián)立齊次線性方程

打開網(wǎng)易新聞 查看精彩圖片
打開網(wǎng)易新聞 查看精彩圖片
打開網(wǎng)易新聞 查看精彩圖片
打開網(wǎng)易新聞 查看精彩圖片

法方程

從本例可見,即便對于小尺寸矩陣,通過定義求出廣義逆矩陣以獲得最小二乘解是頗費工夫的,我們能不能無需先計算廣義逆矩陣,而一步到位地求解(LSP)?在本文最后我們論證:求解最小二乘問題(LSP)等價于求解“法方程(normal equation)”

打開網(wǎng)易新聞 查看精彩圖片

這個等價關(guān)系是最小二乘法理論的核心要素之一,它無需廣義逆矩陣的符號,值得以定理的形式當(dāng)作本文壓軸戲上演。

定理.向量x是最小二乘問題(LSP)的解,當(dāng)且僅當(dāng)它滿足對應(yīng)的法方程(NE)。

證明.設(shè)x是(LSP)的一個解,則根據(jù)最小二乘解的意義和正交投影的性質(zhì),向量Ax是向量b

打開網(wǎng)易新聞 查看精彩圖片

歷經(jīng)了本文幾個數(shù)學(xué)結(jié)論的推理過程,相信不少讀者想放松一下大腦了。我們就以最小二乘的誕生簡史來陪讀者朋友輕松一下。無論怎樣追溯最小二乘法的歷史源頭,兩個人的名字總是要提到的,一位是法國數(shù)學(xué)家勒讓德(Adrien-Marie Legendre,1752-1833),他于1805年清楚簡潔地用線性方程擬合數(shù)據(jù)的方法來確定彗星的軌道;另一位則是德國數(shù)學(xué)家高斯(Carl Friedrich Gauss,1777-1855),他曾聲稱早在22歲時就已知曉最小二乘的奧秘。確實,他24歲時用最小二乘原則進(jìn)行了預(yù)測,幫助一位匈牙利天文學(xué)家找到了谷神星的位置。

兩百年來,最小二乘思想的應(yīng)用例子浩如繁星,到了最近十年,在新興的大數(shù)據(jù)科學(xué)以及人工智能疆場,到處都響著最小二乘的戰(zhàn)鼓。但會用與它關(guān)聯(lián)的方法流程和計算工具,不一定就清楚背后的數(shù)學(xué)原理。厘清讀者朋友們“知其然而不知其所以然”的困惑,正是筆者寫作本文的一個初衷。

封面來自Google Doodle

打開網(wǎng)易新聞 查看精彩圖片

特 別 提 示

1. 進(jìn)入『返樸』微信公眾號底部菜單“精品專欄“,可查閱不同主題系列科普文章。

2. 『返樸』提供按月檢索文章功能。關(guān)注公眾號,回復(fù)四位數(shù)組成的年份+月份,如“1903”,可獲取2019年3月的文章索引,以此類推。

版權(quán)說明:歡迎個人轉(zhuǎn)發(fā),任何形式的媒體或機(jī)構(gòu)未經(jīng)授權(quán),不得轉(zhuǎn)載和摘編。轉(zhuǎn)載授權(quán)請在「返樸」微信公眾號內(nèi)聯(lián)系后臺。