熟女人妻av中文字幕,日本a v视频免费观看,国产老熟女免费一区二区,亚洲另类av在线,琪琪中文久久字幕

一種簡單而廣泛使用的數(shù)學(xué)技術(shù)最終可以應(yīng)用于無限復(fù)雜的問題。

圖源：Michele Sclafani|Quanta Magazine

點(diǎn)擊zzllrr小樂公眾號主頁右上角設(shè)為星標(biāo)★數(shù)學(xué)科普不迷路！

作者：Kevin Hartnett（量子雜志特約撰稿人）2025-3-24

譯者：zzllrr小樂（數(shù)學(xué)科普公眾號）2025-3-25

研究人員每天都在尋找最優(yōu)解。他們可能想知道在哪里建立一個(gè)主要航空樞紐?；蛘叽_定如何在投資組合中最大化回報(bào)同時(shí)最小化風(fēng)險(xiǎn)?；蛘唛_發(fā)能夠區(qū)分交通信號燈和停車標(biāo)志的自動(dòng)駕駛汽車。

從數(shù)學(xué)上講，這些問題可以轉(zhuǎn)化為尋找函數(shù)的最小值。但在所有這些情況下，函數(shù)都過于復(fù)雜，無法直接評估。取而代之的是，研究人員必須得到近似的最小值。

事實(shí)證明，實(shí)現(xiàn)這一目標(biāo)的最佳方法之一是使用艾薩克·牛頓（Isaac Newton，1643 - 1727）300多年前開發(fā)的一種算法。該算法相當(dāng)簡單。有點(diǎn)像蒙著眼睛在陌生的地形中尋找最低點(diǎn)。當(dāng)你邁開雙腳時(shí)，你唯一需要的信息就是你是在上坡還是下坡，以及坡度是上升還是下降。利用這些信息，你可以相對快速地得到最小值的近似值。

盡管牛頓法非常強(qiáng)大——幾個(gè)世紀(jì)后，它仍然是解決當(dāng)今物流、金融、計(jì)算機(jī)視覺甚至純數(shù)學(xué)問題的關(guān)鍵——但它也有一個(gè)明顯的缺點(diǎn)。它并不適用于所有函數(shù)。因此，數(shù)學(xué)家們一直在研究這項(xiàng)技術(shù)，想出不同的方法來擴(kuò)大其應(yīng)用范圍，同時(shí)又不犧牲效率。

去年夏天，三位研究人員公布了牛頓法的最新改進(jìn) https://arxiv.org/abs/2311.06374 。普林斯頓大學(xué)的Amir Ali Ahmadi和他的前學(xué)生Abraar Chaudhry（現(xiàn)就職于佐治亞理工學(xué)院）和Jeffrey Zhang（現(xiàn)就職于耶魯大學(xué)）擴(kuò)展了牛頓法，使其能夠有效地處理迄今為止最廣泛的函數(shù)類。

“牛頓法在最優(yōu)化中有1000種不同的應(yīng)用，”Ahmadi說道?！拔覀兊乃惴ㄓ锌赡苋〈?。”

1680年代，艾薩克·牛頓發(fā)明了一種尋找最優(yōu)解的算法。三個(gè)世紀(jì)后，數(shù)學(xué)家們?nèi)栽谑褂煤屯晟扑姆椒ā?/p>

圖源：Godfrey Kneller/公共領(lǐng)域

百年歷史的技術(shù)

數(shù)學(xué)函數(shù)將輸入轉(zhuǎn)換為輸出。通常，一個(gè)函數(shù)最重要的特征是其最小（輸入）值——產(chǎn)生最小可能輸出的輸入組合。

但找到最小值很難。函數(shù)可能有幾十個(gè)變量的高次冪，無法進(jìn)行公式分析；它們的解的圖像形成高維景觀，無法從鳥瞰視角探索。牛津大學(xué)的Coralia Cartis說，在這些高維景觀中，“我們想找到一個(gè)山谷。有些是局部山谷；有些是最低點(diǎn)。你試圖找到這些東西，問題是：有什么信息可以指導(dǎo)你找到它們？”

1680年代，牛頓認(rèn)識到，即使你處理的是非常復(fù)雜的函數(shù)，你仍然總能獲得至少兩條信息來幫助你找到它的最深谷。首先，你可以計(jì)算函數(shù)所謂的一階導(dǎo)數(shù)，即斜率：函數(shù)在給定點(diǎn)的陡度（坡度）。其次，你可以計(jì)算斜率本身的變化率（函數(shù)的二階導(dǎo)數(shù)）。

Amir Ali Ahmadi（阿米爾·阿里·艾哈邁迪）發(fā)現(xiàn)，無論何時(shí)何地，最優(yōu)化問題都隨處可見。

圖源：Mathematisches Forschungsinstitut Oberwolfach奧伯沃爾法赫數(shù)學(xué)研究所檔案

假設(shè)你正在嘗試尋找某個(gè)復(fù)雜函數(shù)的最小值點(diǎn)。首先，選擇函數(shù)上你認(rèn)為可能接近真實(shí)最小值的一點(diǎn)。計(jì)算該點(diǎn)處函數(shù)的一階和二階導(dǎo)數(shù)。這些導(dǎo)數(shù)可用于構(gòu)造一個(gè)特殊的二次方程——如果你的函數(shù)位于二維平面中，則為拋物線（parabola）；如果你的函數(shù)是高維的，則是稱為拋物面（paraboloid）的杯狀形狀。這個(gè)二次方程稱為泰勒逼近（Taylor approximation，也稱泰勒近似），與你選擇的點(diǎn)處的函數(shù)大致相似。

現(xiàn)在計(jì)算二次方程的最小值點(diǎn)，而不是原始方程的最小值點(diǎn)——使用眾所周知的公式，你可以輕松地做到這一點(diǎn)。（這是因?yàn)槎畏匠毯芎唵?；?dāng)方程變得更復(fù)雜時(shí)，計(jì)算最小值就變得困難了。）你會得到一個(gè)點(diǎn)。然后把這個(gè)點(diǎn)的坐標(biāo)插回到你的原始函數(shù)中，你會得到一個(gè)函數(shù)上的新點(diǎn)，希望這個(gè)新點(diǎn)更接近它的真實(shí)最小值。然后重新開始整個(gè)過程。

牛頓證明，如果你不斷重復(fù)這個(gè)過程，你最終會找到原始更復(fù)雜函數(shù)的最小值。這種方法并不總是有效，特別是當(dāng)你從離真實(shí)最小值太遠(yuǎn)的點(diǎn)開始的時(shí)候。但在大多數(shù)情況下，它是有效的。而且它有一些理想的性質(zhì)。

尋找最優(yōu)解

在1680年代，艾薩克·牛頓發(fā)明了一種求函數(shù)最小值的方法它的最優(yōu)解。幾個(gè)世紀(jì)后，數(shù)學(xué)家們?nèi)匀辉谑褂盟乃惴ā?/p>

猜一猜
在曲線上選擇一個(gè)起點(diǎn)，靠近你認(rèn)為最小值可能所在的位置。

打開網(wǎng)易新聞查看精彩圖片
繪制曲線模型
生成一個(gè)大致類似于該點(diǎn)曲線的拋物線。

打開網(wǎng)易新聞查看精彩圖片
找到下一個(gè)點(diǎn)
計(jì)算拋物線的最小值，并使用它來移動(dòng)到曲線上的新點(diǎn)。

打開網(wǎng)易新聞查看精彩圖片
重復(fù)
使用這個(gè)新起點(diǎn)，重復(fù)步驟2-3。

打開網(wǎng)易新聞查看精彩圖片
繼續(xù)前進(jìn)
隨著你重復(fù)這些步驟，你會很快收斂到最小值。

圖源：Mark Belan/Quanta Magazine

原始來源：https://arxiv.org/abs/2305.07512

其他迭代方法，如梯度下降（gradient descent，當(dāng)今機(jī)器學(xué)習(xí)模型中使用的算法）以線性速率收斂到真實(shí)最小值。牛頓法收斂速度要快得多：以“二次”速率。換句話說，它可以在比梯度下降更少的迭代次數(shù)中識別最小值。

牛頓法的每次迭代比梯度下降的迭代更耗費(fèi)計(jì)算資源，這就是為什么研究人員在某些應(yīng)用中更喜歡使用梯度下降，比如訓(xùn)練神經(jīng)網(wǎng)絡(luò)。但牛頓法仍然非常高效，使其在各種情況下都很有用。

如果牛頓不只是在每個(gè)點(diǎn)取一階和二階導(dǎo)數(shù)，而是取三階和四階導(dǎo)數(shù)，他本可以更快地編寫出收斂到真實(shí)最小值的方法。這將使他得到更復(fù)雜的泰勒近似值，指數(shù)大于2。

但他的策略的關(guān)鍵是將一個(gè)復(fù)雜的函數(shù)轉(zhuǎn)換成一個(gè)更簡單的函數(shù)。這些更復(fù)雜的泰勒方程超出了牛頓的數(shù)學(xué)處理能力。

?Jeffrey Zhang和他的合著者以正確的方式調(diào)整函數(shù)，從而拓寬了強(qiáng)大優(yōu)化技術(shù)的范圍。?

圖源：Jeffrey Zhang

“牛頓對二次多項(xiàng)式進(jìn)行了求解。他這樣做是因?yàn)闆]有人知道如何最小化高階多項(xiàng)式，”Ahmadi說。

在此后的幾個(gè)世紀(jì)里，數(shù)學(xué)家們一直致力于擴(kuò)展他的方法，探索從更復(fù)雜的函數(shù)泰勒近似中能榨出多少信息。

例如，在19世紀(jì)，俄羅斯數(shù)學(xué)家帕夫努蒂·切比雪夫（Pafnuty Chebyshev，1821 - 1894）提出了牛頓法的一個(gè)版本，用三次方程（指數(shù)為3）來逼近函數(shù)。但是當(dāng)原始函數(shù)涉及多個(gè)變量時(shí)，他的算法不起作用。

更近的一次是在2021年，尤里·涅斯捷羅夫（Yurii Nesterov，現(xiàn)就職于布達(dá)佩斯考文紐斯大學(xué)）展示了如何用三次方程有效地近似任意數(shù)量變量的函數(shù) https://link.springer.com/article/10.1007/s10107-019-01449-1 。

但他的方法無法擴(kuò)展到使用四次方程、五次方程等來近似函數(shù)，否則會降低其效率。盡管如此，這一證明仍然是該領(lǐng)域的一個(gè)重大突破。

現(xiàn)在，Ahmadi、Chaudhry和Zhang將Nesterov的結(jié)果又推進(jìn)了一步。他們的算法適用于任意數(shù)量的變量和任意數(shù)量的導(dǎo)數(shù)。此外，它在所有這些情況下仍然有效——這是迄今不可能實(shí)現(xiàn)的。

但首先，他們必須找到一種方法來讓難題變得更容易。

尋找回旋余地

目前還沒有一種快速、通用的方法來尋找高次函數(shù)的最小值點(diǎn)。這一直是牛頓法的主要限制。但有些類型的函數(shù)具有易于最小化的特征。在這項(xiàng)新研究中，Ahmadi、Chaudhry和Zhang證明總是可以找到具有這些特征的近似方程。然后他們展示了如何調(diào)整這些方程高效運(yùn)用牛頓法。

什么性質(zhì)使得方程式易于最小化？有兩點(diǎn)：

首先，方程式應(yīng)該是碗狀的，或“凸的”（convex）。它只有一個(gè)谷值，而不是許多谷值——這意味著當(dāng)你試圖最小化它時(shí)，你不必?fù)?dān)心將任意谷值誤認(rèn)為最低谷值。

Abraar Chaudhry和兩位同事最近找到了一種方法來改進(jìn)已有數(shù)百年歷史的尋找函數(shù)最小值點(diǎn)的方法。

圖源：Camille Carpenter Henriquez

第二個(gè)性質(zhì)是方程可以寫成平方和。例如，5x2+16x+13 可以寫成 (x+2)2+(2x+3)2。近年來，數(shù)學(xué)家已經(jīng)開發(fā)出最小化具有任意大指數(shù)的方程的技術(shù)，只要它們既是凸函數(shù)又是平方和。

然而，這些技術(shù)在牛頓法中用處不大。大多數(shù)情況下，你使用的泰勒近似不會具有這些良好的性質(zhì)。

但是Ahmadi、Chaudhry和Zhang想出了如何使用一種名為半定規(guī)劃（semidefinite programming）的技術(shù)來對泰勒近似進(jìn)行足夠的調(diào)整，使其既成為平方和又成為凸函數(shù)，但又不至于使其脫離它應(yīng)該近似的原始函數(shù)。

他們實(shí)際上是在泰勒展開式中添加了一個(gè)修正因子，將其變成了具有兩種所需性質(zhì)的方程?！拔覀兛梢陨晕⒏淖兲├?a class="keyword-search" >展開式，使其更容易最小化?？紤]泰勒展開式，但稍作修改，”艾Ahmadi說。

他和他的同事隨后證明，使用這個(gè)修改版的泰勒展開式——涉及任意多個(gè)導(dǎo)數(shù)——他們的算法仍然會收斂到原始函數(shù)的真實(shí)最小值。

此外，收斂速度會隨著所用導(dǎo)數(shù)的數(shù)量而變化：正如使用兩個(gè)導(dǎo)數(shù)允許牛頓法以二次速率接近真實(shí)最小值一樣，使用三個(gè)導(dǎo)數(shù)使研究人員能夠以立方速率接近它，依此類推。

Ahmadi、Chaudhry和Zhang創(chuàng)建了一個(gè)更強(qiáng)大的牛頓法版本，與以前的技術(shù)相比，它可以用更少的迭代次數(shù)達(dá)到函數(shù)的真實(shí)最小值。

與牛頓法的原始版本一樣，這種新算法的每次迭代在計(jì)算上仍然比梯度下降等方法更昂貴。因此，目前，這項(xiàng)新工作不會改變自動(dòng)駕駛汽車、機(jī)器學(xué)習(xí)算法或空中交通管制系統(tǒng)的運(yùn)作方式。在這些情況下，最好的選擇仍然是梯度下降。

賓夕法尼亞大學(xué)的Jason Altschuler表示：“最優(yōu)化領(lǐng)域的許多想法需要花費(fèi)數(shù)年時(shí)間才能完全付諸實(shí)踐。但這似乎是一個(gè)全新的視角?！?/p>

如果隨著時(shí)間的推移，運(yùn)行牛頓法所需的底層計(jì)算技術(shù)變得更加高效——使得每次迭代的計(jì)算成本更低——那么Ahmadi、Chaudhry和Zhang開發(fā)的算法最終可以在包括機(jī)器學(xué)習(xí)在內(nèi)的各種應(yīng)用中超越梯度下降。

“從理論上講，我們目前的算法確實(shí)更快，”Ahmadi說。他補(bǔ)充說，他希望10到20年后，該算法在實(shí)踐中也能保持更快。

參考資料

https://www.quantamagazine.org/three-hundred-years-later-a-tool-from-isaac-newton-gets-an-update-20250324/

https://arxiv.org/abs/2311.06374

https://arxiv.org/abs/2305.07512

https://link.springer.com/article/10.1007/s10107-019-01449-1

科普薦書

【更多讀者好評數(shù)學(xué)書單推薦、數(shù)學(xué)科普作家自薦、出版社書單推薦通道已陸續(xù)打開，敬請期待】

·開放 · 友好 · 多元 · 普適 · 守拙·