
導(dǎo)語(yǔ)
在Transformer主導(dǎo)的大模型時(shí)代,二次復(fù)雜度與長(zhǎng)上下文成本問題日益凸顯。而RWKV-7作為新一代RNN架構(gòu),以“內(nèi)世界持續(xù)擬合外世界”的第一性原理,實(shí)現(xiàn)了訓(xùn)練高效、推理低耗且表達(dá)力超越Transformer的突破。本文旨在解析其核心思想、性能優(yōu)勢(shì)及對(duì)智能體時(shí)代的潛在影響,探討它如何為高效、強(qiáng)大的序列建模提供全新可能。
研究領(lǐng)域:大模型架構(gòu)、全注意力架構(gòu)、線性復(fù)雜度、序列建模、預(yù)訓(xùn)練、RWKV
吳天毅 | 作者
RWKV-7 是精確的構(gòu)造,來自于第一性原理:模型的內(nèi)部世界必須持續(xù)擬合外部世界。 從這個(gè)第一性原理就可以直接寫出 RWKV-7 的精確公式。
——RWKV架構(gòu)提出者,彭博,RWKV-7 as a meta-in-context learner:從第一性原理真正理解
論文標(biāo)題:RWKV-7 "Goose" with Expressive Dynamic State Evolution 論文地址:https://arxiv.org/abs/2503.14456 代碼地址:https://github.com/BlinkDL/RWKV-LM
模型內(nèi)世界持續(xù)擬合外世界的想法并不罕見,實(shí)際上LSTM模型提出者于爾根·施密德胡伯(Juergen Schmidhuber)在很多年前就提出過,他稱為 fast weights。學(xué)者們基于該思想做出了諸多腦科學(xué)、人工智能領(lǐng)域優(yōu)秀研究。那么,能否基于該想法,構(gòu)建一個(gè)性能超群的序列建模基礎(chǔ)架構(gòu)呢?這就是RWKV-7,從第一性原理出發(fā)的序列建模架構(gòu)。
有了Transformer,
為什么還需要新的序列建模架構(gòu)?
首先明確,由于同一架構(gòu)不同參數(shù)、超參數(shù)、訓(xùn)練方式、數(shù)據(jù)進(jìn)行訓(xùn)練,最終成效可能大不相同,如DeepSeek-V2、DeepSeek-V3、DeepSeek-R1架構(gòu)均為DeepSeek提出的多頭隱注意力(Multi-head Latent Attention,MLA),但模型效果不同。本文探討的主題并非具體模型,而是架構(gòu)。可能會(huì)涉及關(guān)于具體模型的討論,但這些討論的目的還是為討論架構(gòu)。
很多任務(wù)均可以被視為序列建模,雖然目前純解碼式Transformer架構(gòu)(本文中,Transformer即一般意義上的全注意力full attention架構(gòu))在序列建模任務(wù)上占據(jù)了統(tǒng)治地位,但其自回歸推理時(shí),單個(gè)符元(token)所需的內(nèi)存和計(jì)算時(shí)間隨序列長(zhǎng)度增加而增加,序列越長(zhǎng),Transformer計(jì)算越昂貴。
架構(gòu)不變的情況下計(jì)算本身是絕對(duì)的,可以做的是工程優(yōu)化,因此在筆者看來,架構(gòu)決定成本,一定程度上影響表現(xiàn)。
人們?cè)谌绾胃纳七@種所謂的“二次復(fù)雜度”問題上,進(jìn)行了諸多研究。某種意義上說,這些研究的目的就是壓縮狀態(tài)(Transformer中的kv緩存),壓縮到極致,就是恒定大小的狀態(tài),這自然是一種一般意義上的RNN,或稱線性注意力(Linear Attention)模型。傳統(tǒng)的RNN模型問題有二:無(wú)法并行訓(xùn)練、難以捕捉長(zhǎng)距離依賴。經(jīng)過一系列發(fā)展,現(xiàn)代的RNN模型這兩個(gè)問題可以說均已解決,但在RWKV-7提出前,人們一直對(duì)RNN模型能力表示懷疑,雖然在諸多指標(biāo)上RNN模型有不錯(cuò)表現(xiàn),但在同數(shù)據(jù)訓(xùn)練的情況下,MMLU (Massive Multitask Language Understanding)這個(gè)重要指標(biāo)上,RNN模型表現(xiàn)依然不好。雖然有人指出MMLU范式更接近Bert等掩碼模型,對(duì)自回歸模型而言可能本身題目設(shè)置不合理,更多考驗(yàn)的是模型記憶選項(xiàng)的能力而非本身能力,但在這個(gè)重要指標(biāo)上RNN模型不如Transformer,無(wú)疑讓很多人對(duì)RNN模型能力心存疑慮,懷疑在很大投入后能力會(huì)“撞墻”,無(wú)法達(dá)到現(xiàn)有頂尖模型水平。
另外,William Merrill等人的一系列研究表明,固定深度的Transformer在不依賴思維鏈的情況下只能解決復(fù)雜性類TC0中的問題,這是一組可以被等深度、多項(xiàng)式大小的閾值電路族識(shí)別的問題。實(shí)際上很多我們直觀上覺得并不復(fù)雜的問題都在此之外,例如簡(jiǎn)單的狀態(tài)追蹤(State Tracking)問題(給出諸如x=[1,0,0,0];x[2],x[3]=x[3],x[2]這樣的序列,要求給出最終x的狀態(tài),在此僅進(jìn)行了一次交換,實(shí)際可以任意多次),確定性有限自動(dòng)機(jī)(Deterministic Finite Automata, DFA)模擬等。這表明固定深度的Transformer在不依賴思維鏈情況下的表達(dá)能力十分有限,但若用思維鏈,考慮二次復(fù)雜度問題,又會(huì)導(dǎo)致上下文更長(zhǎng),成本會(huì)大幅上升。
以上是理論上Transformer模型存在的問題,而在目前最火熱的大語(yǔ)言模型實(shí)踐中,也確實(shí)發(fā)現(xiàn)這些問題越來越難以忽視。主要問題有二:第一、被Grok3和GPT-4.5驗(yàn)證的“預(yù)訓(xùn)練撞墻”說,及與之對(duì)應(yīng)的測(cè)試時(shí)規(guī)模法則(Test Time Scaling Law)。第二,智能體(Agent)應(yīng)用與推理模型的巨量上下文使用問題;
自2024年中開始,就有消息稱GPT-5訓(xùn)練不順利,OpenAI靈魂人物Ilya也稱由于數(shù)據(jù)已到上限,僅靠預(yù)訓(xùn)練已無(wú)法讓模型能力進(jìn)一步提升,未來需要合成數(shù)據(jù)、后訓(xùn)練。單純模型、數(shù)據(jù)規(guī)模的規(guī)模法則(Scaling Law)已失效,未來是測(cè)試時(shí)規(guī)模法則,當(dāng)時(shí)對(duì)此還有些爭(zhēng)議,后來o1發(fā)布,驗(yàn)證了這個(gè)說法的一半,也就是通過增加在使用時(shí)的符元數(shù)確實(shí)能提高模型性能,但對(duì)預(yù)訓(xùn)練是否撞墻,依然存在爭(zhēng)議。直到Grok3和GPT-4.5推出,在姍姍來遲,使用了超多計(jì)算資源的情況下并沒有達(dá)到如GPT-3.5到GPT-4的提升,“預(yù)訓(xùn)練撞墻”這一說法終于被大家所認(rèn)可。這可能與Transformer本身表達(dá)能力限制有關(guān)。
既然確實(shí)“預(yù)訓(xùn)練撞墻”了,那么解決方案有二:第一、更高效架構(gòu),在使用同等數(shù)據(jù)情況下性能更高;第二、在推理時(shí)更多計(jì)算,使用更多符元提高模型效果,典型代表就是o1。這要求模型具更高訓(xùn)練數(shù)據(jù)效率,且能以較低的成本使用長(zhǎng)上下文。
自2024年10月22日以來,隨Claude Sonnet 3.5新版本發(fā)布,大語(yǔ)言模型能力達(dá)到了新臺(tái)階,如Windsurf、Cline等諸多基于其能力的智能體應(yīng)用如雨后春筍般涌現(xiàn)。智能體應(yīng)用的特點(diǎn)就是上下文使用量巨大。與問答、聊天應(yīng)用使用上下文長(zhǎng)度較少不同,這種可以感知并操作外部世界(瀏覽器、用戶工作目錄及文件也是外部世界)的智能體由于需要大量上下文輸入外部世界情況,輸出模型本身思考、動(dòng)作,并在需要時(shí)存在反饋過程,很容易使用巨量上下文。典型例子就是復(fù)雜程序調(diào)試,智能體完成程序-運(yùn)行-報(bào)錯(cuò)-修改-運(yùn)行-報(bào)錯(cuò)...可能要經(jīng)過多輪上述循環(huán)才能完成調(diào)試,過程中可能還需查閱文檔,整個(gè)過程需要超多上下文才能完成。
綜上,現(xiàn)在我們確實(shí)需要一個(gè)使用訓(xùn)練數(shù)據(jù)效率更高,且能以較低成本使用長(zhǎng)上下文的模型。
RWKV-7能達(dá)到什么效果?
總體上,RWKV-7訓(xùn)練數(shù)據(jù)、計(jì)算效率高于現(xiàn)有頂尖模型(如Qwen2.5),由于其線性模型性質(zhì),推理時(shí)內(nèi)存占用恒定,單符元所需計(jì)算恒定,上下文越長(zhǎng),成本優(yōu)勢(shì)越高,且表達(dá)力嚴(yán)格強(qiáng)于標(biāo)準(zhǔn)Transformer模型。
具體來說,RWKV-7目前推出了約1.9億、4億、15億、29億參數(shù)模型,在訓(xùn)練數(shù)據(jù)、計(jì)算量遠(yuǎn)少于其他頂級(jí)模型(如Qwen-2.5,Llama-3.2)的情況下,達(dá)到了多語(yǔ)言性能達(dá)到同規(guī)模世界最強(qiáng)、英語(yǔ)性能與同規(guī)模最頂級(jí)模型相當(dāng)?shù)谋憩F(xiàn)。并且可以在固定深度下完成經(jīng)典Transformer在定深情況下無(wú)法完成的狀態(tài)追蹤與確定性有限自動(dòng)機(jī)模擬任務(wù),能解決超出復(fù)雜性類TC0的任務(wù),也就是說表達(dá)能力超過經(jīng)典Transformer。

圖1 RWKV-7與典型頂尖模型多語(yǔ)言性能比較,左圖:訓(xùn)練FLOPs vs 平均精度;右圖:推理激活參數(shù) vs 平均精度

圖2 RWKV-7與典型頂尖模型英語(yǔ)性能比較,左圖:訓(xùn)練FLOPs vs 平均精度;右圖:推理激活參數(shù) vs 平均精度

圖3 RWKV-7與SmollM2、Qwen2.5、Llama3.2等模型在英語(yǔ)評(píng)測(cè)上的表現(xiàn)
從圖1、圖2和圖3可以明顯看出,RWKV-7在多語(yǔ)言性能上同規(guī)模表現(xiàn)最好,在英語(yǔ)性能上與同規(guī)模頂尖模型表現(xiàn)相當(dāng),同時(shí)訓(xùn)練所需算力和數(shù)據(jù)要少得多。圖中,RWKV7-World3是使用RWKV的World3數(shù)據(jù)集訓(xùn)練出的模型,而RWKV7-Pile則是使用Pile數(shù)據(jù)集訓(xùn)練出的。值得注意的是,圖3中除RWKV系列模型,其他均為全注意力模型,可以看到,在MMLU這一指標(biāo)上,RWKV-7并不遜于SmolLM2、Llama3.2這兩個(gè)非常優(yōu)秀的模型。考慮到訓(xùn)練RWKV-7使用的數(shù)據(jù)量遠(yuǎn)少于其他模型,可以認(rèn)為RWKV-7這一RNN模型在MMLU這一之前RNN一直劣于Transformer的指標(biāo)上不再有劣勢(shì),根據(jù)圖中不同模型訓(xùn)練符元量與mmlu指標(biāo)表現(xiàn)的對(duì)比,合理推測(cè)在同等數(shù)據(jù)下,同規(guī)模RWKV-7的MMLU會(huì)優(yōu)于Transformer模型。

圖4 不同參數(shù)量RWKV-7的“大海撈針”測(cè)試結(jié)果,圖(a)(b)模型分別為RWKV7-World3-1.5B和RWKV7-World3-3B,均是在4096上下文長(zhǎng)度下訓(xùn)練的,而圖(c)(d)中則是在128K上下文數(shù)據(jù)集微調(diào)后模型測(cè)試的結(jié)果
線性模型的長(zhǎng)文本能力經(jīng)常被人懷疑,其中一個(gè)經(jīng)典測(cè)試就是所謂的“大海撈針”,僅在4096上下文長(zhǎng)度訓(xùn)練過的RWKV7-World3-1.5B模型在19600符元長(zhǎng)度的大海撈針實(shí)驗(yàn)中實(shí)現(xiàn)了完美檢索,在超過20600符元時(shí)性能出現(xiàn)大規(guī)模下降,而RWKV7-World3-2.9B模型則完美通過了約35000符元的大海撈針實(shí)驗(yàn),但在超過之后性能就開始下降。對(duì)RWKV7-World3-1.5B和RWKV7-World3-2.9B在長(zhǎng)度為128k符元的訓(xùn)練數(shù)據(jù)上進(jìn)行了微調(diào),發(fā)現(xiàn)RWKV-7-1.5B可以可靠檢索多達(dá)約兩萬(wàn)九千個(gè)符元,僅在約四萬(wàn)左右符元長(zhǎng)度下觀察到性能出現(xiàn)較大退化。而微調(diào)后的RWKV-7-2.9B則能可靠檢索三萬(wàn)個(gè)符元,在五萬(wàn)符元長(zhǎng)度處性能出現(xiàn)較大退化,見圖4。

圖5 不同架構(gòu)在不同群狀態(tài)追蹤問題在驗(yàn)證集上達(dá)到95%正確率所需要的最小層數(shù)
圖5的實(shí)驗(yàn)結(jié)果表明,兩層的RWKV-7即可完成A5群的狀態(tài)追蹤任務(wù),這驗(yàn)證了RWKV-7附錄中的證明。另外,論文中還證明了四層的RWKV-7可以模擬任何確定性有限自動(dòng)機(jī)。而這兩個(gè)任務(wù)(狀態(tài)追蹤,模擬確定性有限自動(dòng)機(jī))均無(wú)法通過固定深度的Transformer完成。以上結(jié)果表明,RWKV-7確實(shí)在保持可以并行訓(xùn)練推理的前提下,表達(dá)力超過了經(jīng)典的Transformer模型。

圖6 推理時(shí)間隨序列長(zhǎng)度增長(zhǎng)變化圖
從圖6可以看出,在序列長(zhǎng)度超過約4000時(shí),RWKV-7的推理效率要超過目前最快的Flash Attention v3,而序列越長(zhǎng),推理速度優(yōu)勢(shì)越大。同時(shí),RWKV系列還具有推理所需內(nèi)存不隨序列長(zhǎng)度增加而增加的性質(zhì)。
RWKV-7如何做到的?
(本部分參考了RWKV-7架構(gòu)提出者彭博的知乎文章https://zhuanlan.zhihu.com/p/9397296254,按我的理解提高了可讀性)
RWKV-7能做到這些的核心正是前文所說的第一性原理:模型的內(nèi)部世界持續(xù)擬合外部世界。
首先回顧經(jīng)典的Transformer所使用的QKV-softmax-attention,其數(shù)學(xué)形式如下,在本文中,如無(wú)特殊說明,向量默認(rèn)為行向量:
對(duì)維度為D的輸入向量分別為,其中,為D×D矩陣。將 排列得到矩陣Q,K,V,即Q,K,V矩陣中第i行分別為,則輸出為。
這個(gè)式子實(shí)際上的目的是,對(duì)許多組(k1, v1), (k2, v2), …,給出一個(gè)q,使若q≈ki,則輸出≈vi,若q≈(ki+kj)/2,則輸出≈(vi+vj)/2(當(dāng)然,attention機(jī)制并不追求精確尋找用k的線性組合表示q,在此僅為方便理解)。
一個(gè)很自然的想法是,如果學(xué)到了ki到vi的變換,就能在給出q的情況下,通過這一變換得到輸出了,這也滿足QKV-softmax-attention中若q≈ki,則輸出≈vi,若q≈(ki+kj)/2,則輸出≈(vi+vj)/2的性質(zhì)。這一變換可根據(jù)(k1, v1), (k2, v2), …,動(dòng)態(tài)進(jìn)行學(xué)習(xí)。在這一視角下,這個(gè)變換就可以認(rèn)為是模型的內(nèi)部模型,持續(xù)擬合外部世界。
形式化的說,就是給定兩組向量{kt}和{vt},RWKV-7會(huì)使用內(nèi)模型S (一個(gè)線性變換,以矩陣形式表示)進(jìn)行學(xué)習(xí),目標(biāo)是使,此時(shí),對(duì)給定輸入向量r(起QKV-softmax-attention中q的作用),輸出為rST,在此使用v與kST間差值的平方,即L2損失作為目標(biāo),也就是,為最小化該損失,使用梯度下降更新內(nèi)模型。計(jì)算梯度為
則狀態(tài)(內(nèi)模型S)的更新公式為:
加入每維度權(quán)重衰減率wt及學(xué)習(xí)率ηt(均為向量),完整的內(nèi)模型更新公式為:
通過上式這種梯度下降的方式,內(nèi)模型S可以持續(xù)減小v與kST間的誤差,即可理解為持續(xù)擬合并適應(yīng)外部世界的變化。
以上是RWKV-7的核心思想,也就是從模型的內(nèi)部世界必須持續(xù)擬合外部世界這一想法出發(fā)得到的模型,當(dāng)然還有許多重要的額外處理和周邊組件,對(duì)此感興趣的讀者可以閱讀論文,在此不再贅述。
總結(jié)與展望
RWKV-7這種"7代"架構(gòu)還包括DeltaNet、Titans、TTT等等。彭博介紹,與這些架構(gòu)相比,RWKV-7的優(yōu)勢(shì)是細(xì)節(jié)權(quán)衡更優(yōu),因此性能更好。后續(xù)還會(huì)有RWKV-8等性能更強(qiáng)的新架構(gòu)。
本文簡(jiǎn)短介紹了RWKV-7架構(gòu)的基本思想和達(dá)到的效果,若讀者對(duì)此感興趣,可閱讀論文,其中的論述、結(jié)果要遠(yuǎn)比本文詳細(xì)、豐富和深入。
在如今視角下回顧C(jī)hatGPT出現(xiàn)后大語(yǔ)言模型的發(fā)展,我認(rèn)為,架構(gòu)決定成本,一定程度上影響模型表現(xiàn),而如何訓(xùn)練決定模型表現(xiàn)。
在2023年,大語(yǔ)言模型競(jìng)爭(zhēng)剛剛拉開序幕時(shí),有人認(rèn)為架構(gòu)已經(jīng)確定,接下來就是拼算力和數(shù)據(jù)就行了。但事實(shí)證明,到如今,經(jīng)典的全注意力架構(gòu)遠(yuǎn)遠(yuǎn)不能滿足大語(yǔ)言模型發(fā)展的需要。
從公開信息看,DeepSeek探索出了MLA、NSA架構(gòu),MiniMax-01使用的線性混合架構(gòu),谷歌Gamma3使用的滑動(dòng)窗口注意力+全注意力混合架構(gòu),騰訊混元Turbo S使用的是Hybrid-Mamba-Transformer架構(gòu)。可以看到,最近公開的新模型都不是純粹的經(jīng)典全注意力架構(gòu)。
谷歌、OpenAI的閉源模型并未透露相關(guān)信息,但谷歌對(duì)新架構(gòu)探索非常積極,提出了Titans等全新架構(gòu),不排除其Gemini的新模型是采用混合架構(gòu)的可能;而OpenAI的GPT-4o有報(bào)道稱其響應(yīng)延遲是亞二次的,很可能是一種混合模型。
當(dāng)然這里值得注意的是,與RWKV-7在諸如狀態(tài)追蹤等方面表達(dá)力高于全注意力架構(gòu)不同,MLA、NSA等架構(gòu),雖然確有諸多優(yōu)勢(shì),但其表達(dá)力是嚴(yán)格低于全注意力架構(gòu)的。
實(shí)際上全注意力架構(gòu)存在一個(gè)悖論:目前看,全注意力強(qiáng)在長(zhǎng)上下文表現(xiàn),但全注意力長(zhǎng)上下文推理成本又過高,導(dǎo)致難以實(shí)際使用。目前業(yè)界對(duì)此的解決方案是使用混合架構(gòu),即線性注意力與全注意力混合,以降低長(zhǎng)上下文推理成本。
我個(gè)人認(rèn)為,這種混合模型還是一種過渡,最終還是會(huì)往以RWKV為代表的純RNN/線性注意力架構(gòu)進(jìn)一步演進(jìn)。因?yàn)殡S智能體應(yīng)用的普及,模型更多不只是依賴自身能力完成任務(wù),而是在可以調(diào)用外界資源、與外界進(jìn)行交互的情況下完成任務(wù)。很多長(zhǎng)上下文能力測(cè)試,如果允許模型編寫程序解決,無(wú)疑是過于簡(jiǎn)單的,例如大海撈針任務(wù)。人也不能看一遍就記下幾萬(wàn)字、幾十萬(wàn)字的長(zhǎng)文,但人可以通過記筆記、調(diào)用工具的方式完成許多遠(yuǎn)比這復(fù)雜的任務(wù)。人能寫程序解決的問題,也算人能解決,模型也一樣。
如果給模型一個(gè)虛擬環(huán)境,任務(wù)所需信息以文件形式存儲(chǔ),讓模型可以在其中編寫并調(diào)用程序,寫入新的文件記錄自身想法,也可隨時(shí)查看記錄的文件內(nèi)容,這種環(huán)境中模型可以完成的任務(wù)是比單純靠模型自己要多得多的。在這種情況下,記憶可以通過外部文件外置,即使過于久遠(yuǎn)的記憶不準(zhǔn)確也可以接受,因?yàn)榭梢哉{(diào)用外部文件的記錄來重溫。但若模型推理成本越來越高,那即使在這種環(huán)境中,發(fā)揮也會(huì)很受限制,因?yàn)椴荒懿皇芟拗频膶懭牒烷喿x外部文件。因此純RNN/線性模型在此時(shí)是更占優(yōu)勢(shì)的。
實(shí)際上目前Aider、Cursor、Windsurf、Cline、auto-coder等AI編程工具的Agent(智能體)模式已經(jīng)很接近這種形態(tài)了,但模型訓(xùn)練還沒充分加強(qiáng)這方面能力。隨智能體形態(tài)應(yīng)用的進(jìn)一步普及,顯然業(yè)界在訓(xùn)練上會(huì)更加重視模型調(diào)用外界資源的能力,也會(huì)使得純RNN/線性模型更能充分發(fā)揮其優(yōu)勢(shì)。
最后,以彭博的一句話結(jié)尾:
我們需要實(shí)現(xiàn)的,不是【人腦】,而是【人腦+外部工具】的整體效果。這是問題的關(guān)鍵。
致謝:感謝彭博、張銳翀、王婷對(duì)本文提出的寶貴意見。
作者簡(jiǎn)介:


AI+Science 讀書會(huì)
AI+Science 是近年興起的將人工智能和科學(xué)相結(jié)合的一種趨勢(shì)。 一方面是 AI for Science,機(jī)器學(xué)習(xí)和其他 AI 技術(shù)可以用來解決科學(xué)研究中的問題,從預(yù)測(cè)天氣和蛋白質(zhì)結(jié)構(gòu),到模擬星系碰撞、設(shè)計(jì)優(yōu)化核聚變反應(yīng)堆,甚至像科學(xué)家一樣進(jìn)行科學(xué)發(fā)現(xiàn),被稱為科學(xué)發(fā)現(xiàn)的“第五范式”。 另一方面是 Science for AI,科學(xué)尤其是物理學(xué)中的規(guī)律和思想啟發(fā)機(jī)器學(xué)習(xí)理論,為人工智能的發(fā)展提供全新的視角和方法。
集智俱樂部聯(lián)合斯坦福大學(xué)計(jì)算機(jī)科學(xué)系博士后研究員吳泰霖(Jure Leskovec 教授指導(dǎo))、哈佛量子計(jì)劃研究員扈鴻業(yè)、麻省理工學(xué)院物理系博士生劉子鳴(Max Tegmark 教授指導(dǎo)),共同發(fā)起以”為主題的讀書會(huì),探討該領(lǐng)域的重要問題,共學(xué)共研相關(guān)文獻(xiàn)。 讀書會(huì)已完結(jié),現(xiàn)在報(bào)名可加入社群并解鎖回放視頻權(quán)限。
詳情請(qǐng)見:
1.
2.
3.
4.
5.
6.
熱門跟貼