A new deep neural network for forecasting: Deep dendriticartificial neural network
一種用于預(yù)測的新型深度神經(jīng)網(wǎng)絡(luò):深度樹突人工神經(jīng)網(wǎng)絡(luò) 2024
https://link.springer.com/content/pdf/10.1007/s10462-024-10790-7.pdf




摘要
深度人工神經(jīng)網(wǎng)絡(luò)已成為解決預(yù)測問題的經(jīng)典預(yù)測方法的一種良好替代方案。流行的深度神經(jīng)網(wǎng)絡(luò)通常在其單元結(jié)構(gòu)中使用加性聚合函數(shù)。文獻(xiàn)表明,在淺層人工神經(jīng)網(wǎng)絡(luò)中使用乘性聚合函數(shù)可以為預(yù)測問題產(chǎn)生成功的結(jié)果。一種使用乘性聚合函數(shù)的高階淺層人工神經(jīng)網(wǎng)絡(luò)是樹突神經(jīng)模型人工神經(jīng)網(wǎng)絡(luò),它在預(yù)測性能方面表現(xiàn)出色。在本研究中,樹突神經(jīng)模型被轉(zhuǎn)化為多輸出架構(gòu)。提出了一種基于多輸出樹突神經(jīng)模型的新型樹突單元以及一種新的深度人工神經(jīng)網(wǎng)絡(luò)。該新型深度樹突人工神經(jīng)網(wǎng)絡(luò)的訓(xùn)練通過差分進(jìn)化算法完成。將深度樹突人工神經(jīng)網(wǎng)絡(luò)的預(yù)測性能與基本經(jīng)典預(yù)測方法以及一些近期的淺層和深度人工神經(jīng)網(wǎng)絡(luò)在股票市場時間序列上的表現(xiàn)進(jìn)行了比較。結(jié)果表明,深度樹突人工神經(jīng)網(wǎng)絡(luò)在預(yù)測問題上產(chǎn)生了非常成功的預(yù)測結(jié)果。
關(guān)鍵詞: 預(yù)測 · 深度人工神經(jīng)網(wǎng)絡(luò) · 差分進(jìn)化算法 · 樹突神經(jīng)模型
1 引言
在時間序列預(yù)測問題的解決中,通常會考慮時間序列過去的運(yùn)動和實現(xiàn),并嘗試通過統(tǒng)計模型對其進(jìn)行解釋。經(jīng)典預(yù)測方法通?;跁r間序列滯后變量的線性模型。人工神經(jīng)網(wǎng)絡(luò)可以通過結(jié)合靈活的非線性函數(shù)并使用滯后變量作為輸入,成功解決預(yù)測問題。由 Rumelhart 等(1986)提出的多層感知器(MLP)人工神經(jīng)網(wǎng)絡(luò)是文獻(xiàn)中用于解決預(yù)測和分類問題最常用的淺層人工神經(jīng)網(wǎng)絡(luò)類型。在近期研究中,Borhani 和 Wong(2023)使用 MLP 人工神經(jīng)網(wǎng)絡(luò)預(yù)測學(xué)生的學(xué)習(xí)成績。Shams 等(2023)利用 MLP 人工神經(jīng)網(wǎng)絡(luò)估計空氣質(zhì)量指數(shù)。Park 等(2023)使用 MLP 預(yù)測砷酸鹽毒性。Arumugam 等(2024)使用交叉氣味代理算法訓(xùn)練 MLP 人工神經(jīng)網(wǎng)絡(luò),并將其與卷積神經(jīng)網(wǎng)絡(luò)結(jié)合用于腦腫瘤檢測。Kumar 等(2024)在媒介傳播疾病的檢測中使用了 MLP。Shafq 等(2024)使用 MLP 模型預(yù)測 Darcy–Forchheimer 切線雙曲流動參數(shù)。Chen 等(2024b)提出了一種基于 MLP 的灰體氣體發(fā)射率和吸收率模型。Chen 等(2024a)將 MLP 作為乳腺癌診斷的機(jī)器學(xué)習(xí)方法之一。Mariia(2024)使用三層 MLP 進(jìn)行產(chǎn)量預(yù)測和微氣候參數(shù)控制。Jiang 等(2024)提出了一種結(jié)合 MLP 和基于 CNN 構(gòu)建的深度神經(jīng)網(wǎng)絡(luò)生成區(qū)間預(yù)測的方法。
雖然 MLP 僅基于加性聚合函數(shù),但文獻(xiàn)中也提出了基于乘性聚合函數(shù)的人工神經(jīng)網(wǎng)絡(luò)。Yadav 等(2007)提出的單乘性神經(jīng)元人工神經(jīng)網(wǎng)絡(luò)方法可以用單個神經(jīng)元成功解決預(yù)測問題,其效果與 MLP 相當(dāng)。這促使了對基于乘性聚合函數(shù)的人工神經(jīng)網(wǎng)絡(luò)的研究,并且文獻(xiàn)中提出了許多使用乘性聚合函數(shù)的人工神經(jīng)網(wǎng)絡(luò)。Zhao 和 Yang(2009)使用粒子群優(yōu)化算法;Burse 等(2011)使用改進(jìn)的反向傳播算法;Worasucheep(2012)使用和諧搜索算法;Chatterjee 等(2013)使用標(biāo)準(zhǔn)反向傳播算法;Wu 等(2013b)使用在線訓(xùn)練算法;Cui 等(2015)使用改進(jìn)的螢火蟲群優(yōu)化算法;Gundogdu 等(2016)使用 PSO,Bas(2016)使用差分進(jìn)化算法;Nigam(2019)使用標(biāo)準(zhǔn)反向傳播學(xué)習(xí)算法;Kolay(2019)使用正弦余弦算法;Yu 等(2020)使用球面搜索算法;Bas 等(2020)使用基于人工蝙蝠和反向傳播算法的混合算法;Egrioglu 等(2023c)在 SMNM-ANN 的訓(xùn)練中使用了一種基于統(tǒng)計替換的新遺傳算法方法。Aladag(2013)使用乘性神經(jīng)元模型建立模糊邏輯關(guān)系。Wu 等(2013a)提出了基于 SMN 模型和迭代非線性濾波在線訓(xùn)練算法的新型技術(shù),用于發(fā)動機(jī)系統(tǒng)可靠性預(yù)測。Velásquez 等(2013)提出了一種基于 SARIMA 和乘性神經(jīng)元模型的混合模型,用于電力需求預(yù)測。Wu 等(2015)使用帶有非線性濾波器的單乘性神經(jīng)元模型進(jìn)行逐小時風(fēng)速預(yù)測。Basiouny 等(2017)提出了一種利用單乘性神經(jīng)元的 Wi-Fi 指紋室內(nèi)定位系統(tǒng)。Yildirim 等(2021)提出了一種基于 PSO 和和諧搜索算法的閾值單乘性神經(jīng)元人工神經(jīng)網(wǎng)絡(luò)。Wu 等(2021)使用基于 SMN 模型的在線非線性狀態(tài)空間預(yù)測模型。Pan 等(2021)使用改進(jìn)的雙乘性神經(jīng)元網(wǎng)絡(luò)進(jìn)行時間序列區(qū)間預(yù)測。Nigam 和 Bhatt(2023)提出了一種用于預(yù)測原油價格和分析滯后效應(yīng)的單乘性神經(jīng)元模型。Egrioglu 和 Bas(2023a)提出了一種基于簡單指數(shù)平滑和單乘性神經(jīng)元模型組合的混合神經(jīng)網(wǎng)絡(luò)。Egrioglu 等(2023a)提出了一種基于單乘性神經(jīng)元模型人工神經(jīng)網(wǎng)絡(luò)的新型非線性因果檢驗方法。Kolay 和 Tun?(2023)提出了一種基于自適應(yīng)神經(jīng)元和乘性神經(jīng)元的新型混合神經(jīng)網(wǎng)絡(luò)分類器。
Shin 和 Ghosh(1991)提出了一種名為 Pi-Sigma 人工神經(jīng)網(wǎng)絡(luò)的人工神經(jīng)網(wǎng)絡(luò),它類似于 MLP,但不同于 MLP 的是,其輸出層使用了乘性聚合函數(shù)。在 Pi-Sigma 神經(jīng)網(wǎng)絡(luò)中,隱藏層和輸出層的權(quán)重被視為固定值,而在 Egrioglu 和 Bas(2023b)的研究中,這些權(quán)重被設(shè)為變量,結(jié)果表明與 Pi-Sigma ANN 相比,該方法在解決預(yù)測問題時提供了改進(jìn)。另一種使用乘性聚合函數(shù)的人工神經(jīng)網(wǎng)絡(luò)是 Sigma-Pi 人工神經(jīng)網(wǎng)絡(luò),它由 Rumelhart 和 McClelland(1988)以及 Gurney(1989)開發(fā)。Sar?kaya 等(2023)提出了使用灰狼優(yōu)化算法訓(xùn)練 Sigma-Pi 人工神經(jīng)網(wǎng)絡(luò),并將其應(yīng)用于預(yù)測問題。Nie 和 Deng(2008)提出了一種混合遺傳學(xué)習(xí)算法用于 Pi-Sigma 神經(jīng)網(wǎng)絡(luò)。Hussain 等(2008)提出了一種遞歸 Pi-Sigma 神經(jīng)網(wǎng)絡(luò)用于物理時間序列預(yù)測。Ghazali 和 Al-Jumeily(2009)將 Pi-Sigma 神經(jīng)網(wǎng)絡(luò)應(yīng)用于金融時間序列預(yù)測。Husaini 等(2011)在 Batu Pahat 的歷史溫度數(shù)據(jù)上使用了反向傳播算法。Husaini 等(2012)研究了參數(shù)對 Pi-Sigma 神經(jīng)網(wǎng)絡(luò)溫度預(yù)測的影響。Panigrahi 等(2013)在模式分類任務(wù)中使用改進(jìn)的差分進(jìn)化算法訓(xùn)練 Pi-Sigma 神經(jīng)網(wǎng)絡(luò)。Nayak 等(2014)使用基于 PSO 和 GA 的混合訓(xùn)練算法訓(xùn)練 Pi-Sigma 神經(jīng)網(wǎng)絡(luò)。Nayak 等(2015)在 Pi-Sigma 人工神經(jīng)網(wǎng)絡(luò)的訓(xùn)練中使用了梯度下降和遺傳算法。Akdeniz 等(2018)提出了一種新的遞歸 Pi-Sigma 人工神經(jīng)網(wǎng)絡(luò)架構(gòu)。Egrioglu 等(2019)提出了一種基于人工蜂群訓(xùn)練的 Pi-Sigma 人工神經(jīng)網(wǎng)絡(luò)的直覺模糊時間序列方法。Nayak(2020)在 PS-ANN 的訓(xùn)練中使用了煙花算法。Panda 和 Majhi(2020)在 Pi-Sigma 神經(jīng)網(wǎng)絡(luò)的訓(xùn)練中使用了改進(jìn)的斑點鬣狗優(yōu)化算法。Pattanayak 等(2020)在 Pi-Sigma 神經(jīng)網(wǎng)絡(luò)的訓(xùn)練中使用了混合化學(xué)反應(yīng)優(yōu)化算法。Panda 和 Majhi(2021)在 Pi-Sigma 神經(jīng)網(wǎng)絡(luò)的訓(xùn)練中使用了 Salp 群算法。Bas 等(2021)在 Pi-Sigma 人工神經(jīng)網(wǎng)絡(luò)的訓(xùn)練中使用了正弦余弦優(yōu)化算法。Y?lmaz 等(2021)在預(yù)測任務(wù)中使用差分進(jìn)化算法訓(xùn)練 Pi-Sigma 人工神經(jīng)網(wǎng)絡(luò)。Kumar(2022)提出了一種基于 Lyapunov 穩(wěn)定性的上下文層遞歸 Pi-Sigma 神經(jīng)網(wǎng)絡(luò),用于非線性系統(tǒng)的識別。Dash 等(2023)在 PS-ANN 的訓(xùn)練中使用了混洗差分進(jìn)化算法。Fan 等(2023)提出了一種基于 L_0 正則化的熵誤差函數(shù)的 Pi-Sigma 神經(jīng)網(wǎng)絡(luò)新算法。Arslan 和 Cagcag Yolcu(2022)提出了一種基于混合 Sigma-Pi 神經(jīng)網(wǎng)絡(luò)的直覺模糊時間序列預(yù)測模型。Bas 等(2023)在預(yù)測問題中提出了基于 PSO 的魯棒算法,用于訓(xùn)練 Pi-Sigma 人工神經(jīng)網(wǎng)絡(luò)。Bas 和 Egrioglu(2023)提出了一種受指數(shù)平滑反饋機(jī)制啟發(fā)的新型遞歸 Pi-Sigma 人工神經(jīng)網(wǎng)絡(luò),用于預(yù)測。
另一種使用乘性神經(jīng)元模型的人工神經(jīng)網(wǎng)絡(luò)是由 Todo 等(2014)提出的樹突神經(jīng)元模型人工神經(jīng)網(wǎng)絡(luò)(DNM-ANN),它對所有原始輸入進(jìn)行不同的非線性變換,并在變換后的輸入上運(yùn)行,從而在過程中包含了數(shù)據(jù)增強(qiáng)過程。樹突神經(jīng)元模型人工神經(jīng)網(wǎng)絡(luò)在許多文獻(xiàn)研究中被用于時間序列預(yù)測。Yu 等(2016)使用樹突神經(jīng)元模型預(yù)測中國房價指數(shù)。Zhou 等(2016)使用樹突神經(jīng)元模型進(jìn)行時間序列預(yù)測。Chen 等(2017)提出了一種新型樹突神經(jīng)元模型,用于旅游需求預(yù)測。Gao 等(2018)在 DNM-ANN 中使用了一些流行的智能優(yōu)化算法進(jìn)行分類、逼近和預(yù)測。Song 等(2020)使用樹突神經(jīng)元模型進(jìn)行風(fēng)速時間序列預(yù)測。Jia 等(2018)提出了一種結(jié)合樹突神經(jīng)元模型和統(tǒng)計檢驗的靈活方法用于預(yù)測。Qian 等(2019)提出了一種基于互信息的新型樹突神經(jīng)元模型用于分類。Song 等(2019)在樹突神經(jīng)元模型的訓(xùn)練中使用了社會學(xué)習(xí)粒子群優(yōu)化算法。Jia 等(2020)在 DNM-ANN 的訓(xùn)練中使用了反向傳播、生物地理學(xué)優(yōu)化和競爭群體優(yōu)化算法進(jìn)行分類。Han 等(2020)在樹突神經(jīng)元模型的訓(xùn)練中使用了鯨魚優(yōu)化算法進(jìn)行分類。Wang 等(2020b)提出了一種具有自適應(yīng)突觸的樹突神經(jīng)元模型,通過差分進(jìn)化算法進(jìn)行訓(xùn)練。Wang 等(2020a)在其中提出的中位數(shù)樹突神經(jīng)元模型中使用了物質(zhì)狀態(tài)搜索算法進(jìn)行預(yù)測。Yu 等(2021)在 DNM-ANN 的訓(xùn)練中使用了基于動態(tài)無標(biāo)度網(wǎng)絡(luò)的差分進(jìn)化算法。Luo 等(2021)提出了一種基于決策樹初始化的樹突神經(jīng)元模型用于分類。Xu 等(2021)在樹突神經(jīng)元模型的訓(xùn)練中使用了信息反饋增強(qiáng)的差分進(jìn)化算法。在 He 等(2021)的研究中,時間序列通過季節(jié)趨勢分解方法分解,并優(yōu)選了使用 DNM-ANN 對分解序列進(jìn)行預(yù)測的方法。Tang 等(2021)在 DNM-ANN 的訓(xùn)練中使用了人工免疫系統(tǒng)算法。Nayak 等(2022a)在 DNM-ANN 的訓(xùn)練中使用了化學(xué)反應(yīng)優(yōu)化算法進(jìn)行預(yù)測。Al-Qaness 等(2022b)在 DNM-ANN 的訓(xùn)練中使用了海鷗優(yōu)化算法進(jìn)行預(yù)測。Yilmaz 和 Yolcu(2022)在 DNM-ANN 的訓(xùn)練中使用了改進(jìn)的粒子群優(yōu)化算法進(jìn)行預(yù)測。He 等(2022)在 DNM-ANN 的訓(xùn)練中使用了土狼優(yōu)化算法。Wang 等(2022)提出了一種新型樹突卷積神經(jīng)網(wǎng)絡(luò),考慮了單個神經(jīng)元中樹突的非線性信息處理功能。在 Al-Qaness 等(2022a)的研究中,DNM-ANN 被用于原油生產(chǎn)預(yù)測。在 Nayak 等(2022b)的研究中,提出了一種基于改進(jìn)化學(xué)反應(yīng)優(yōu)化算法的樹突神經(jīng)元模型用于金融時間序列預(yù)測。在 Egrioglu 等(2022)的研究中,首次提出了一種遞歸樹突神經(jīng)元模型人工神經(jīng)網(wǎng)絡(luò)。Egrioglu 等(2022)提出的神經(jīng)網(wǎng)絡(luò)具有一種結(jié)構(gòu),其中網(wǎng)絡(luò)的誤差被反饋。盡管 Egrioglu 等(2022)產(chǎn)生了成功的預(yù)測結(jié)果,但它并不是深度神經(jīng)網(wǎng)絡(luò),也沒有增加隱藏層數(shù)量以實現(xiàn)更成功建模的優(yōu)勢。深度人工神經(jīng)網(wǎng)絡(luò),尤其是在圖像處理領(lǐng)域取得了非常有用的結(jié)果,近年來開始被用于解決預(yù)測問題。Wang 等(2023)在 DNM-ANN 的訓(xùn)練中使用了帶誤差選擇的 Levenberg–Marquardt 算法。Y?lmaz 和 Yolcu(2023)在樹突神經(jīng)元模型人工神經(jīng)網(wǎng)絡(luò)的訓(xùn)練中提出了一種基于 Huber 損失函數(shù)的魯棒算法用于預(yù)測問題。Egrioglu 等(2023b)在 Winsorized 樹突神經(jīng)元模型人工神經(jīng)網(wǎng)絡(luò)的訓(xùn)練中提出了一種基于 Tukey 權(quán)重?fù)p失函數(shù)的魯棒算法,結(jié)合粒子群優(yōu)化(PSO)用于預(yù)測問題。Olmez 等(2023)提出了一種基于 PSO 的自助樹突神經(jīng)元模型人工神經(jīng)網(wǎng)絡(luò)用于預(yù)測問題。Gul 等(2023)提出了一些基于樹突神經(jīng)元模型人工神經(jīng)網(wǎng)絡(luò)的統(tǒng)計學(xué)習(xí)算法用于預(yù)測。Zhang 等(2023)提出了一種通過元啟發(fā)式優(yōu)化的樹突神經(jīng)元模型用于金融時間序列預(yù)測。Yuan 等(2023)提出了一種通過改進(jìn)的狀態(tài)物質(zhì)啟發(fā)算法訓(xùn)練的樹突神經(jīng)元模型用于預(yù)測。Cao 等(2023)使用改進(jìn)的 Adam 優(yōu)化器訓(xùn)練樹突神經(jīng)元模型用于水質(zhì)預(yù)測。Bas 等(2024)提出了用于時間序列預(yù)測的中位數(shù)樹突人工神經(jīng)網(wǎng)絡(luò)的魯棒訓(xùn)練方法。
循環(huán)深度神經(jīng)網(wǎng)絡(luò)(如長短期記憶網(wǎng)絡(luò)(LSTM)和門控循環(huán)單元(GRU))由于其使用時間步的結(jié)構(gòu),已成為預(yù)測領(lǐng)域中最常用的深度神經(jīng)網(wǎng)絡(luò)。以下是關(guān)于深度神經(jīng)網(wǎng)絡(luò)文獻(xiàn)的總結(jié)。Jiang 和 Hu(2018)使用 LSTM 模型進(jìn)行電力市場日前價格預(yù)測。Chung 和 Shin(2018)基于遺傳算法使用 LSTM 進(jìn)行股票市場預(yù)測。Tian 等(2018)使用 LSTM 和卷積神經(jīng)網(wǎng)絡(luò)(CNN)方法進(jìn)行負(fù)荷預(yù)測。在 Bendali 等(2020)的研究中,提出了 GRU-GA 模型用于光伏發(fā)電量的估算。Veeramsetty 等(2021)還利用因子分析和 LSTM 進(jìn)行了一項負(fù)荷預(yù)測研究。Liu 等(2021)將 LSTM 模型與在線社交網(wǎng)絡(luò)結(jié)合用于股票價格預(yù)測。在 Guo 和 Mao(2020)的研究中,提出了 GRU-GA 模型用于電動汽車充電量的估算。Gundu 和 Simon(2021)基于 PSO 使用 LSTM 進(jìn)行異質(zhì)時間序列電價的短期預(yù)測。Inteha(2021)使用 GRU-GA 模型進(jìn)行了日前短期負(fù)荷預(yù)測。Ning 等(2022)比較了 ARIMA、LSTM 和 Prophet 方法在石油生產(chǎn)預(yù)測中的性能。Karasu 和 Altan(2022)使用 LSTM 方法進(jìn)行石油時間序列預(yù)測。Bilgili 等(2022)利用 LSTM 進(jìn)行電力能耗預(yù)測。Liu 等(2022)通過開發(fā) GRU 人工神經(jīng)網(wǎng)絡(luò),提出了一種新的深度學(xué)習(xí)預(yù)測方法,用于衛(wèi)星網(wǎng)絡(luò)流量預(yù)測。Du 等(2022)基于粒子群優(yōu)化使用 LSTM 進(jìn)行城市用水需求預(yù)測。Gong 等(2022)提出了一種改進(jìn)的 LSTM 用于鋰離子電池健康狀態(tài)估算。Huang 等(2022)使用 LSTM 模型進(jìn)行油井性能預(yù)測。在 Liu 等(2022)的研究中,使用 GRU-PSO 進(jìn)行了衛(wèi)星網(wǎng)絡(luò)流量預(yù)測。在 Song 等(2022)的研究中,GRU-PSO 被用于終端冷負(fù)荷估算。Li 等(2022)提出了一種基于雙向 GRU 和麻雀搜索算法的新集成方法用于生產(chǎn)預(yù)測。Lin 等(2022)使用門控循環(huán)單元深度神經(jīng)網(wǎng)絡(luò)進(jìn)行基于時間序列的地下水位預(yù)測。
當(dāng)考察有關(guān)人工神經(jīng)網(wǎng)絡(luò)預(yù)測的文獻(xiàn)時,可以看到淺層和深度人工神經(jīng)網(wǎng)絡(luò)在解決預(yù)測問題上的應(yīng)用和發(fā)展仍在繼續(xù)。可以看出,這些深度 ANN 能夠找到更多的應(yīng)用領(lǐng)域,特別是因為 CNN、LSTM 和 GRU 等網(wǎng)絡(luò)的模塊化結(jié)構(gòu)在現(xiàn)成的軟件包和庫中提供了便利,使從業(yè)者更容易使用。然而,近年來可以看到,基于不同神經(jīng)元模型和不同架構(gòu)的淺層人工神經(jīng)網(wǎng)絡(luò)能夠產(chǎn)生比深度神經(jīng)網(wǎng)絡(luò)更成功的預(yù)測結(jié)果。因此,未來研究人員可能會關(guān)注能夠用不同神經(jīng)元模型構(gòu)建的深度人工神經(jīng)網(wǎng)絡(luò)的研究。
本研究的動機(jī)是通過提出一種基于樹突神經(jīng)元模型的深度遞歸人工神經(jīng)網(wǎng)絡(luò)來為預(yù)測問題的解決方案做出貢獻(xiàn)。本研究的貢獻(xiàn)如下。在本研究中,提出了一種使用樹突神經(jīng)元模型的深度遞歸人工神經(jīng)網(wǎng)絡(luò),該網(wǎng)絡(luò)近年來已開始取得成功的預(yù)測結(jié)果。這種新提出的深度遞歸人工神經(jīng)網(wǎng)絡(luò)被命名為深度樹突人工神經(jīng)網(wǎng)絡(luò)(DeepDenT)。為了創(chuàng)建 DeepDenT 深度人工神經(jīng)網(wǎng)絡(luò),設(shè)計了一種新的“樹突細(xì)胞”結(jié)構(gòu)。樹突細(xì)胞類似于 LSTM 和 GRU 細(xì)胞,可以像一個接收多輸入并生成多輸出的小型神經(jīng)網(wǎng)絡(luò)一樣工作。為了生成樹突細(xì)胞,Todo 等(2014)提出的 DNM-ANN 被修改為多變量樹突神經(jīng)元模型(MDNM)。DeepDenT 被設(shè)計為包含由樹突細(xì)胞分層排列組成的新架構(gòu)。提出了一種基于 Storn 和 Price(1997)提出的差分進(jìn)化優(yōu)化方法的訓(xùn)練算法,用于訓(xùn)練 DeepDenT 神經(jīng)網(wǎng)絡(luò)。所提出的訓(xùn)練算法由于包含重啟策略,可以更容易地擺脫局部最優(yōu)陷阱,并且由于早期停止條件的存在,能夠解決過擬合問題。由于所提出的訓(xùn)練算法不需要目標(biāo)函數(shù)的導(dǎo)數(shù),因此不會涉及 LSTM 中的梯度爆炸或消失問題。
本文的其余部分組織如下。在研究的第二部分,將介紹新提出的 MDNM 人工神經(jīng)網(wǎng)絡(luò)。在第三部分,將介紹“樹突細(xì)胞”。在第四部分,將介紹 DeepDenT 人工神經(jīng)網(wǎng)絡(luò)及其訓(xùn)練算法。在第五部分,將展示股票市場時間序列的應(yīng)用以及與其他文獻(xiàn)方法的比較結(jié)果。在最后一部分,將結(jié)合應(yīng)用中獲得的結(jié)果,討論 DeepDenT 人工神經(jīng)網(wǎng)絡(luò)的優(yōu)勢、改進(jìn)和局限性。
2 MDNM 人工神經(jīng)網(wǎng)絡(luò)
DNM-ANN 由 Todo 等(2014)提出,具有多輸入單輸出結(jié)構(gòu),可用于單時間序列的預(yù)測。在本節(jié)中,DNM-ANN 的結(jié)構(gòu)被擴(kuò)展為多輸出,以便其能夠在深度神經(jīng)網(wǎng)絡(luò)中形成細(xì)胞結(jié)構(gòu),并介紹了計算網(wǎng)絡(luò)輸出的公式和 MDNM 的架構(gòu)。MDNM 人工神經(jīng)網(wǎng)絡(luò)的架構(gòu)如圖 1 所示。從圖中可以看出,由于在網(wǎng)絡(luò)的輸出層使用了多個神經(jīng)元,參數(shù)的數(shù)量必須隨著額外輸出數(shù)量的增加而翻倍。此外,對于這種網(wǎng)絡(luò)的訓(xùn)練,必須考慮所有輸出的總誤差。該網(wǎng)絡(luò)的訓(xùn)練問題不在本研究范圍內(nèi),因為我們提出該網(wǎng)絡(luò)的原因是它用于構(gòu)建“樹突細(xì)胞”結(jié)構(gòu)。

對于本研究而言,重要的是如何為給定的輸入集生成 MDNM 神經(jīng)網(wǎng)絡(luò)的輸出。MDNM 的輸出由以下方程給出。對于具有 p 輸入、m 樹突和 k 輸出的 MDDNM,其突觸函數(shù)如公式 (1) 所示進(jìn)行計算。

樹突函數(shù)通過將突觸函數(shù)相乘來計算,如公式 (2) 所示。樹突函數(shù)的值是輸入的不同非線性變換的乘積。

在公式 (4) 中,分別表示斜率和集中化參數(shù)。
膜函數(shù)的值對于所有輸出來說是相同的輸入信號,但由于每個輸出的激活函數(shù)使用了不同的參數(shù)值,因此得到了不同的輸出值。在這里,激活函數(shù)參數(shù)對于網(wǎng)絡(luò)生成不同的輸出變得更加重要。MDNM 人工神經(jīng)網(wǎng)絡(luò)中的參數(shù)總數(shù)為 2pm + 2n + 1 ,網(wǎng)絡(luò)的參數(shù)及其包含的元素數(shù)量在表 1 中給出。

3 樹突細(xì)胞
為了構(gòu)建 DeepDenT 深度人工神經(jīng)網(wǎng)絡(luò),設(shè)計了一種新的“樹突細(xì)胞(DnC)”結(jié)構(gòu)。DnC 類似于 LSTM 和 GRU 細(xì)胞,可以像一個能夠接收多個輸入并生成多個輸出的小型神經(jīng)網(wǎng)絡(luò)一樣工作。DnC 的架構(gòu)結(jié)構(gòu)如圖 2 所示。

在一個 DnC 中,給定特征數(shù)量 p 、隱藏層單元數(shù)量 h 和樹突數(shù)量 m ,DnC 的輸出通過以下公式計算。




4 DeepDenT 人工神經(jīng)網(wǎng)絡(luò)及其訓(xùn)練算法
DeepDenT 人工神經(jīng)網(wǎng)絡(luò)是一種結(jié)合了樹突細(xì)胞(DnC)的深度遞歸人工神經(jīng)網(wǎng)絡(luò)。在 DeepDenT 的輸出層中,有一個基于加性聚合函數(shù)的經(jīng)典全連接(FC)層。DeepDenT 是一種部分連接的人工神經(jīng)網(wǎng)絡(luò),其樹突細(xì)胞(DnC)以順序和分層結(jié)構(gòu)排列。DeepDenT 的架構(gòu)結(jié)構(gòu)如圖 3 所示。

圖中用深色細(xì)胞壁表示的 DnC 是在輸出之前計算的最后一個細(xì)胞。在 DeepDenT 中,一個 DnC 的輸入是根據(jù)圖 3 中隱藏層節(jié)點數(shù)量的 的滯后變量。圖 3 左下角的 DeepDenT 細(xì)胞的輸入為 。DeepDenT 深度遞歸人工神經(jīng)網(wǎng)絡(luò)的輸出是對時間序列的一步預(yù)測。圖 3 中的架構(gòu)包含 $ h $ 個時間步長、 q 個隱藏層、 m 個樹突和 p 個輸入或特征。所有隱藏層中的神經(jīng)元數(shù)量等于 h 。同一隱藏層中所有 DeepDenT 細(xì)胞的權(quán)重和偏置值相等。這種參數(shù)共享減少了參數(shù)數(shù)量,并使一個通用的 DeepDenT 細(xì)胞能夠在所有時間步長中呈現(xiàn)相同的數(shù)學(xué)模型。這些權(quán)重和偏置值在不同的隱藏層中變化,也就是說,增加隱藏層的數(shù)量會增加網(wǎng)絡(luò)的參數(shù)數(shù)量,而時間步長的數(shù)量對參數(shù)數(shù)量沒有影響,這與 LSTM 和 GRU 不同。DeepDenT 的輸出通過以下公式計算。為了便于說明,將 DeepDenT 隱藏層的參數(shù)組合成公式 (17) 中給出的單個參數(shù)集。從 (17) 中可以看出,參數(shù)在不同隱藏層之間變化,但在同一隱藏層單元(即時間步長)中保持不變,并且參數(shù)是共享的。

DeepDenT 第一隱藏層的輸出通過公式 (18) 計算。在這里,函數(shù) f 是一個代表性函數(shù)表示,計算是通過 DnC 部分給出的公式進(jìn)行的。

在公式(18)中,表示在時間 t 時,第 k 個時間步長在第一隱藏層獲得的輸出。從第二隱藏層開始,計算按照公式(19)進(jìn)行,直到獲得 DeepDenT 的最終輸出。
在 DeepDenT 中,DnCs 的計算是按照隱藏層的順序進(jìn)行的,并且在同一隱藏層內(nèi)從左到右進(jìn)行。圖 3 中以深色顯示的 DnC 的輸出為 。DeepDenT 的最終輸出可以通過公式(21)作為全連接層(FC)的輸出來計算。

在給出 DeepDenT 的計算公式之后,最重要的問題就是為該網(wǎng)絡(luò)提出訓(xùn)練算法?;诓罘诌M(jìn)化優(yōu)化(DEO)方法的 DeepDenT 訓(xùn)練算法在以下步驟中以算法的形式給出。
算法:基于差分進(jìn)化優(yōu)化方法的 DeepDenT 訓(xùn)練算法。

所提出方法的算法用 Matlab 編寫,并在 Github 上公開分享,網(wǎng)址為 https://github.com/erole1977/DeepDenT。這些代碼可用于重新計算所得結(jié)果。由于初始隨機(jī)權(quán)重是根據(jù)運(yùn)行代碼時計算機(jī)的系統(tǒng)時鐘生成的,因此在結(jié)果的重新計算中可能會出現(xiàn)數(shù)值差異。然而,這些差異不會影響方法的排名。
對于具有 250 個觀測值的時間序列,單個架構(gòu)的計算時間在 2.07 秒到 5.02 秒之間變化。計算時間可能會受到隨機(jī)初始值的影響。如果結(jié)合超參數(shù)優(yōu)化一起考慮,具有 250 個觀測值的時間序列的總計算時間在 20 到 22 分鐘之間。計算使用了一臺個人計算機(jī)(第 12 代 Intel(R) Core(TM) i5-12500H 2.50 GHz 處理器,配備 16 GB RAM)。
5 應(yīng)用
在應(yīng)用中,所提出方法的性能針對土耳其和美國股市的兩個股票市場指數(shù)的總共 20 個時間序列進(jìn)行了研究。分析的第一個時間序列是標(biāo)準(zhǔn)普爾 500 指數(shù)(S&P 500 (GSPC),SNP—SNP 實時價格,貨幣單位為美元)的時間序列。表 4 中給出的時間序列數(shù)據(jù)是從 2014 年至 2018 年之間的開盤值中隨機(jī)選取的,用于應(yīng)用中。在應(yīng)用中,時間序列的長度分別取為 250 和 500,以覆蓋大約 1 年和 2 年的時間跨度。通過隨機(jī)選擇,可以使用一年中不同時期的開盤值作為測試數(shù)據(jù)進(jìn)行比較。
所提出方法的性能與一些流行的和近期的人工神經(jīng)網(wǎng)絡(luò)(ANN)方法以及一些經(jīng)典的預(yù)測方法進(jìn)行了比較。比較中使用了 Hochreiter 和 Schmidhuber(1991)提出的長短期記憶網(wǎng)絡(luò)(LSTM)、Shin 和 Ghosh(1991)提出的 π-σ 神經(jīng)網(wǎng)絡(luò)(PSGM),以及 Egrioglu 和 Fildes(2022)提出的自助混合神經(jīng)網(wǎng)絡(luò)(B-HANN)。作為經(jīng)典預(yù)測方法,使用了隨機(jī)游走模型和 Holt 的線性趨勢指數(shù)平滑法。
對于應(yīng)用中使用的所有時間序列,數(shù)據(jù)集被劃分為三部分:訓(xùn)練數(shù)據(jù)、驗證數(shù)據(jù)和測試數(shù)據(jù),采用塊狀結(jié)構(gòu)。在對應(yīng)用于訓(xùn)練數(shù)據(jù)的方法進(jìn)行參數(shù)估計的同時,在驗證數(shù)據(jù)和測試數(shù)據(jù)上計算了預(yù)測性能。在所有方法的應(yīng)用中,超參數(shù)的可能值被選擇為相似,并在驗證集上選擇最佳的超參數(shù)值。根據(jù)最佳超參數(shù)值,通過對除測試集以外的數(shù)據(jù)進(jìn)行 30 次不同的隨機(jī)初始化訓(xùn)練方法,獲得了 30 組不同的測試集性能。測試集性能的均方根誤差(RMSE)統(tǒng)計結(jié)果在表格中展示。

以下方向準(zhǔn)確率(DA)標(biāo)準(zhǔn)被用于評估方法的方向準(zhǔn)確性。DA 標(biāo)準(zhǔn)是針對表格中的最佳架構(gòu)計算的,并與 RMSE 統(tǒng)計數(shù)據(jù)一起提供。

表 5 中給出的時間序列的測試數(shù)據(jù)預(yù)測性能的 RMSE 統(tǒng)計數(shù)據(jù)見表 6,所有方法的最佳超參數(shù)值見表 7。



表 5 表明,DeepDenT 在 10 個時間序列中的 8 個(即 80%)具有較低的平均 RMSE 值,因此相較于所有其他方法表現(xiàn)出優(yōu)越的預(yù)測性能。特別是,與最流行的深度 ANN 方法 LSTM 相比,DeepDenT 能夠為測試集生成均值和標(biāo)準(zhǔn)差都更低的 RMSE 結(jié)果。可以得出結(jié)論,對于 S&P500 時間序列,DeepDenT 比所有其他方法更成功,應(yīng)該被優(yōu)先選擇。
當(dāng)根據(jù) DA 標(biāo)準(zhǔn)比較 LSTM、PSGM、BHANN 和 DeepDenT 方法時,可以看到這些方法總體上沒有明顯優(yōu)于彼此,其方向準(zhǔn)確率通常在 50% 到 65% 之間。DeepDenT 在 30% 的 S&P500 系列中具有最高的方向準(zhǔn)確率,并且在方向準(zhǔn)確率方面是僅次于 LSTM 的第二佳方法。盡管如此,需要注意的是,DA 標(biāo)準(zhǔn)本身并無太大意義,它僅衡量預(yù)測的方向。
第二次應(yīng)用是在 2014 年 2 月 1 日至 2018 年 2 月 9 日之間伊斯坦布爾證券交易所 100 指數(shù)(BIST100)的開盤值上進(jìn)行的。為 BIST100 獲得的隨機(jī)序列見表 7。
表 7 中給出的時間序列的測試數(shù)據(jù)預(yù)測性能的 RMSE 統(tǒng)計數(shù)據(jù)見表 8,所有方法的最佳超參數(shù)值見表 9。


表 8 表明,DeepDenT 在 10 個時間序列中的 5 個(即 50%)具有較低的平均 RMSE 值,因此相較于所有其他方法表現(xiàn)出優(yōu)越的預(yù)測性能。特別是,與最流行的深度 ANN 方法 LSTM 相比,DeepDenT 能夠為測試集生成均值和標(biāo)準(zhǔn)差都更低的 RMSE 結(jié)果。可以得出結(jié)論,對于 BIST100 時間序列,DeepDenT 比所有其他方法更成功,應(yīng)該被優(yōu)先選擇。
當(dāng)根據(jù) DA 標(biāo)準(zhǔn)比較 LSTM、PSGM、BHANN 和 DeepDenT 方法時,可以看到這些方法總體上沒有明顯優(yōu)于彼此,其方向準(zhǔn)確率通常在 50% 到 65% 之間。DeepDenT 在 40% 的 BIST100 系列中具有最高的方向準(zhǔn)確率,并且在方向準(zhǔn)確率方面與 LSTM 并列為最佳方法。
在圖 4 中,針對兩種股票市場數(shù)據(jù)的測試集計算的 RMSE 值的箱線圖分別展示了所有方法的結(jié)果。可以看出,盡管這些方法的結(jié)果并非正態(tài)分布,但可以理解的是,DeepDenT 的中位數(shù)最低。

6 結(jié)論與討論
在本研究中,提出了一種新的深度人工神經(jīng)網(wǎng)絡(luò) DeepDenT 來解決預(yù)測問題。此外,還為 DeepDenT 提出了一種基于差分進(jìn)化算法的訓(xùn)練算法。由于所提出的訓(xùn)練算法包含重啟策略和提前停止條件,因此能夠為 DeepDenT 生成成功的訓(xùn)練結(jié)果。DeepDenT 的性能通過從兩個證券交易所獲得的 20 個時間序列進(jìn)行了研究。應(yīng)用結(jié)果表明,與流行的和現(xiàn)有的人工神經(jīng)網(wǎng)絡(luò)以及經(jīng)典預(yù)測方法相比,所提出的方法產(chǎn)生了成功的結(jié)果。未來的研究方向之一是基于不同人工智能優(yōu)化方法的訓(xùn)練算法對所提出的新人工神經(jīng)網(wǎng)絡(luò)的性能進(jìn)行研究。另一項未來研究是將所提出的新神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)化為全自動化的預(yù)測方法。為此,計劃使用輸入顯著性檢驗和不同的統(tǒng)計工具來改進(jìn)所提出的 ANN。
原文鏈接: https://link.springer.com/content/pdf/10.1007/s10462-024-10790-7.pdf
熱門跟貼