打開網(wǎng)易新聞 查看精彩圖片

在人工智能領(lǐng)域,推理能力的進(jìn)化已成為通向通用智能的核心挑戰(zhàn)。近期,Reinforcement Learning with Verifiable Rewards(RLVR)范式下涌現(xiàn)出一批「Zero」類推理模型,擺脫了對人類顯式推理示范的依賴,通過強(qiáng)化學(xué)習(xí)過程自我學(xué)習(xí)推理軌跡,顯著減少了監(jiān)督訓(xùn)練所需的人力成本。然而,這些方法的學(xué)習(xí)任務(wù)分布仍由人類預(yù)先設(shè)計(jì),所依賴的數(shù)據(jù)依舊高度依賴專家精心策劃與大量人工標(biāo)注,面臨著難以擴(kuò)展與持續(xù)演化的瓶頸。

更重要的是,如果智能系統(tǒng)始終受限于人類設(shè)定的任務(wù)邊界,其自主學(xué)習(xí)與持續(xù)進(jìn)化的潛力將受到根本性限制,這一現(xiàn)實(shí)呼喚一種全新的推理范式,邁向超越人類設(shè)計(jì)約束的未來。

為應(yīng)對這一挑戰(zhàn),清華大學(xué) LeapLab 團(tuán)隊(duì)聯(lián)合北京通用人工智能研究院 NLCo 實(shí)驗(yàn)室和賓夕法尼亞州立大學(xué)的研究者們提出了一種全新的推理訓(xùn)練范式 ——Absolute Zero,使大模型無需依賴人類或 AI 生成的數(shù)據(jù)任務(wù),即可通過自我提出任務(wù)并自主解決,實(shí)現(xiàn)「自我進(jìn)化式學(xué)習(xí)」。在該范式中,模型不僅學(xué)習(xí)如何生成最具可學(xué)習(xí)性的任務(wù)(maximize learnability),還通過解決這些自主生成的任務(wù)持續(xù)增強(qiáng)自身的推理能力。Absolute Zero 范式不僅在性能上表現(xiàn)卓越,其核心理念更在于推動推理模型從依賴人類監(jiān)督向依賴環(huán)境監(jiān)督的范式轉(zhuǎn)變,使模型通過與真實(shí)環(huán)境的交互生成可驗(yàn)證的任務(wù)并獲得可靠反饋,從而不斷提升自身的推理能力。

在這一范式下,研究團(tuán)隊(duì)訓(xùn)練了新的模型 Absolute Zero Reasoner(AZR),以代碼執(zhí)行器作為真實(shí)環(huán)境,自動生成并解決三類代碼推理任務(wù),涵蓋歸納、演繹與溯因推理,依賴環(huán)境可驗(yàn)證的反饋實(shí)現(xiàn)穩(wěn)定訓(xùn)練。實(shí)驗(yàn)表明,雖然未見過目標(biāo)任務(wù),AZR 在代碼生成與數(shù)學(xué)推理這兩個(gè)跨領(lǐng)域基準(zhǔn)任務(wù)中表現(xiàn)出色,并且超越已有的方法達(dá)到 SOTA。這一成果不僅顯著緩解了當(dāng)前大模型訓(xùn)練對高質(zhì)量人工數(shù)據(jù)的依賴難題,也預(yù)示著推理模型正邁入一個(gè)具備「自主進(jìn)化」的智能新時(shí)代。

打開網(wǎng)易新聞 查看精彩圖片

  • 論文標(biāo)題:Absolute Zero: Reinforced Self-play Reasoning with Zero Data
  • 論文鏈接:https://www.arxiv.org/abs/2505.03335
  • 展示頁面:https://andrewzh112.github.io/absolute-zero-reasoner/

打開網(wǎng)易新聞 查看精彩圖片

Absolute Zero Reasoner 在零數(shù)據(jù)的條件下實(shí)現(xiàn)了數(shù)學(xué)和代碼推理 benchmark 上的 SOTA 性能。該模型完全不依賴人工標(biāo)注或人類預(yù)定義的任務(wù),通過研究團(tuán)隊(duì)提出的 self-play 訓(xùn)練方法,展現(xiàn)出出色的分布外推理能力,甚至超越了那些在數(shù)萬個(gè)專家標(biāo)注樣本上訓(xùn)練而成的 reasoning 模型。

推理新范式:Absolute Zero,讓模型真正擺脫人類數(shù)據(jù)依賴

在當(dāng)前的大模型訓(xùn)練中,監(jiān)督微調(diào)(SFT)是常見的推理能力對齊方法,依賴人類專家提供的問題、推理過程(即 Chain-of-Thought)以及標(biāo)準(zhǔn)答案。模型通過逐詞模仿這些示范,學(xué)習(xí)如何完成復(fù)雜的推理任務(wù)。然而,這種方法對人工標(biāo)注的依賴極高,不僅耗時(shí)耗力,也限制了規(guī)模擴(kuò)展。為緩解對人類標(biāo)注的推理軌跡的依賴,近年來出現(xiàn)了基于可驗(yàn)證獎勵(lì)的強(qiáng)化學(xué)習(xí)方法(RLVR),只需專家提供標(biāo)注好的問題與標(biāo)準(zhǔn)答案,不要求中間過程。模型自行推理并生成答案,并通過和匹配標(biāo)準(zhǔn)答案匹配獲得獎勵(lì),從而優(yōu)化自身策略。這類方法雖然減少了部分監(jiān)督需求,但其訓(xùn)練所需的問題和答案仍由專家精心設(shè)計(jì),依然無法擺脫對人類標(biāo)注數(shù)據(jù)的依賴。

為解決這一根本性瓶頸,研究團(tuán)隊(duì)提出了全新的推理訓(xùn)練范式:Absolute Zero。該范式中,模型具備雙重能力:一是自主提出最具可學(xué)習(xí)性(learnability)的任務(wù),二是通過解決這些任務(wù)不斷提升推理能力。整個(gè)過程在與環(huán)境的互動中完成,環(huán)境負(fù)責(zé)驗(yàn)證任務(wù)的合理性和解答的正確性,并為模型提供獎勵(lì)反饋。這一機(jī)制構(gòu)成了「自博弈閉環(huán)」:模型不斷提出任務(wù)、求解任務(wù)、從反饋中改進(jìn)策略,完全不依賴任何人工構(gòu)建的數(shù)據(jù)集。Absolute Zero 實(shí)現(xiàn)了真正意義上的「零人工數(shù)據(jù)推理模型」,不僅打破了現(xiàn)有范式對人類標(biāo)注的依賴,也為構(gòu)建具備持續(xù)自我進(jìn)化能力的智能體開辟了新路徑。這一范式的提出,標(biāo)志著推理模型訓(xùn)練從「模仿人類」邁向「自主成長」的關(guān)鍵一步。

打開網(wǎng)易新聞 查看精彩圖片

監(jiān)督學(xué)習(xí)依賴人類精心設(shè)計(jì)的推理軌跡進(jìn)行行為克??;基于可驗(yàn)證獎勵(lì)的強(qiáng)化學(xué)習(xí)雖能讓智能體自我學(xué)習(xí)推理過程,但仍依賴專家定義的問答對數(shù)據(jù)集,這些都需要大量領(lǐng)域知識與人工投入。相比之下,研究團(tuán)隊(duì)提出了一種全新的推理模型訓(xùn)練范式 ——Absolute Zero,實(shí)現(xiàn)了在完全不依賴人工數(shù)據(jù)的前提下進(jìn)行訓(xùn)練。該范式設(shè)想智能體應(yīng)具備自主構(gòu)造任務(wù)的能力,并通過統(tǒng)一的模型架構(gòu)學(xué)習(xí)如何解決這些任務(wù)。智能體通過與提供可驗(yàn)證反饋的環(huán)境進(jìn)行交互完成學(xué)習(xí),實(shí)現(xiàn)全流程無需人類干預(yù)的可靠、持續(xù)自我進(jìn)化。

Absolute Zero Reasoner:實(shí)現(xiàn)零監(jiān)督推理的開端

為驗(yàn)證并實(shí)現(xiàn) Absolute Zero 這一全新推理訓(xùn)練范式的可行性,研究團(tuán)隊(duì)提出了首個(gè)具體實(shí)現(xiàn)系統(tǒng):Absolute Zero Reasoner(AZR)。作為該范式的初步探索,AZR 是一種統(tǒng)一的大語言模型系統(tǒng),在訓(xùn)練過程中同時(shí)擔(dān)任任務(wù)提出者與求解者兩個(gè)角色。它能夠不斷自我構(gòu)建學(xué)習(xí)任務(wù)、自我嘗試解答,并在與代碼執(zhí)行器環(huán)境交互中獲得可驗(yàn)證反饋,從而實(shí)現(xiàn)無需人工數(shù)據(jù)的自我進(jìn)化學(xué)習(xí)。

打開網(wǎng)易新聞 查看精彩圖片

Absolute Zero Reasoner 訓(xùn)練流程概覽。每輪訓(xùn)練中,基于歷史生成的三元組和指定任務(wù)類型(溯因、演繹或歸納)模型會首先提出一批新任務(wù);隨后使用 Python 代碼執(zhí)行器對新任務(wù)進(jìn)行過濾與構(gòu)造,生成可驗(yàn)證的代碼推理問題,并為每個(gè)任務(wù)計(jì)算可學(xué)習(xí)性獎勵(lì)。接著,模型嘗試解答這些問題,并根據(jù)輸出結(jié)果的正確性獲得準(zhǔn)確性獎勵(lì)。最后,模型結(jié)合兩種獎勵(lì)信號,統(tǒng)一更新參數(shù),以此實(shí)現(xiàn)多任務(wù)下的自我進(jìn)化學(xué)習(xí)。

雙重角色:同時(shí)擔(dān)任任務(wù)設(shè)計(jì)者與問題求解者

在 Absolute Zero 框架中,大模型一體扮演「提出者」(Proposer)和「解答者」(Solver)兩個(gè)角色。模型首先提出一個(gè)新任務(wù),由環(huán)境驗(yàn)證其可解性與學(xué)習(xí)價(jià)值;隨后模型嘗試解決該任務(wù),并根據(jù)答案的正確性獲得獎勵(lì)。兩階段均通過強(qiáng)化學(xué)習(xí)訓(xùn)練,并共享同一套模型參數(shù),確保推理能力與任務(wù)設(shè)計(jì)能力同步提升。

提出的任務(wù)會獲得一個(gè)「可學(xué)習(xí)性獎勵(lì)」,其定義為:對當(dāng)前模型進(jìn)行多次采樣解答該任務(wù)后,計(jì)算平均準(zhǔn)確率,并將獎勵(lì)設(shè)為 1 - 平均準(zhǔn)確率(當(dāng)準(zhǔn)確率為 0 或 1 時(shí)獎勵(lì)為 0)。這一設(shè)計(jì)鼓勵(lì)模型提出具有中等難度的任務(wù),即那些當(dāng)前模型偶爾能夠解出的任務(wù),因?yàn)檫@類任務(wù)最有助于提升模型能力。解答環(huán)節(jié)的「解答獎勵(lì)」則更為直接:若模型給出的答案與標(biāo)準(zhǔn)答案完全一致,獎勵(lì)為 1,否則為 0,用于衡量推理是否正確。

三大推理方式:歸納、演繹與溯因

Absolute Zero Reasoner(AZR)通過對代碼任務(wù)的構(gòu)建與求解,支持三種基本推理模式:演繹(Deduction)、溯因(Abduction)和歸納(Induction)。這些任務(wù)都圍繞程序、輸入和輸出三元組展開:

  • 演繹推理:模型接收程序和輸入,預(yù)測輸出,主要考察邏輯演算能力;
  • 溯因推理:模型接收程序和輸出,反推輸入,類似于「反向搜索」;
  • 歸納推理:模型接收多組輸入輸出和代碼描述,完成一個(gè)能通過驗(yàn)證的程序,考察泛化能力。

模型提出任務(wù)后,Python 環(huán)境會驗(yàn)證其可執(zhí)行性、輸出是否正確、是否具有確定性,確保任務(wù)是有效且可用的。驗(yàn)證通過后,模型嘗試求解,并通過環(huán)境反饋進(jìn)行強(qiáng)化學(xué)習(xí)優(yōu)化。

自我學(xué)習(xí)算法:從零起步的完整訓(xùn)練流程

整個(gè)訓(xùn)練過程以一個(gè)簡單的三元組作為種子任務(wù)啟動,自此進(jìn)入 self-play 循環(huán)。訓(xùn)練包括三個(gè)階段:任務(wù)提出、任務(wù)求解和策略更新。每一輪迭代,模型會先提出多個(gè)新任務(wù)(包括三種推理類型),再嘗試解答,最后根據(jù)兩個(gè)角色的表現(xiàn)共同更新模型參數(shù)。

為了提升訓(xùn)練穩(wěn)定性,AZR 采用了任務(wù)相對強(qiáng)化學(xué)習(xí)(Task-Relative REINFORCE++,TRR++)算法。它分別為六種「任務(wù) - 角色」組合計(jì)算歸一化優(yōu)勢值,避免任務(wù)間差異造成訓(xùn)練干擾。這一策略使 AZR 在多任務(wù)強(qiáng)化學(xué)習(xí)設(shè)置下仍能有效優(yōu)化,并實(shí)現(xiàn)真正跨任務(wù)泛化的推理能力。

最終,AZR 無需任何人工構(gòu)建的數(shù)據(jù),通過與環(huán)境的互動,在復(fù)雜任務(wù)空間中自我構(gòu)建、自我評估、自我進(jìn)化,展現(xiàn)出通用推理智能的新形態(tài)。Absolute Zero 范式為構(gòu)建具備類人「經(jīng)驗(yàn)」與「成長力」的 AI 系統(tǒng)提供了嶄新的思路。

實(shí)驗(yàn)結(jié)果

在本項(xiàng)研究中,研究團(tuán)隊(duì)全面評估了 Absolute Zero Reasoner(AZR)在多項(xiàng)推理任務(wù)中的表現(xiàn),涵蓋代碼生成與數(shù)學(xué)推理兩個(gè)關(guān)鍵領(lǐng)域,并與多個(gè)基于專家數(shù)據(jù)訓(xùn)練的推理模型進(jìn)行了對比。從結(jié)果來看,AZR 在完全不依賴任何人工構(gòu)建數(shù)據(jù)的前提下,取得了超越現(xiàn)有主流模型的表現(xiàn),充分展現(xiàn)了「零數(shù)據(jù)自我進(jìn)化」范式的巨大潛力。

打開網(wǎng)易新聞 查看精彩圖片

基于 Qwen2.5-7B 模型的強(qiáng)化學(xué)習(xí)推理器在推理基準(zhǔn)任務(wù)中的表現(xiàn)。團(tuán)隊(duì)對各類模型在三個(gè)標(biāo)準(zhǔn)代碼任務(wù)(HumanEval+、MBPP+、LCB v5)和六個(gè)數(shù)學(xué)推理任務(wù)(AIME’24、AIME’25、AMC’23、MATH500、Minerva、OlympiadBench)上的表現(xiàn)進(jìn)行了評估。代碼任務(wù)與數(shù)學(xué)任務(wù)的平均分分別記為 CAvg 和 MAvg,總體表現(xiàn)為兩者的平均值(AVG = CAvg 與 MAvg 的平均)。表格中的綠色加號(+)表示相較于基準(zhǔn)模型的絕對百分比提升。所有模型均基于不同版本的 Qwen2.5-7B 進(jìn)行訓(xùn)練。

在最核心的比較中,AZR-Coder-7B 在多個(gè)代碼與數(shù)學(xué)推理基準(zhǔn)上取得了當(dāng)前同規(guī)模模型中的最優(yōu)結(jié)果,不僅在總體平均分上領(lǐng)先,更在代碼任務(wù)平均得分上超越了多個(gè)依賴人工任務(wù)訓(xùn)練的模型。在數(shù)學(xué)推理方面,即便 AZR 從未直接見過任何相關(guān)任務(wù)或數(shù)據(jù),其跨領(lǐng)域泛化能力依舊顯著:AZR-Base-7B 和 AZR-Coder-7B 在數(shù)學(xué)任務(wù)上的平均準(zhǔn)確率分別提升了 10.9 和 15.2 個(gè)百分點(diǎn),而多數(shù)對比的代碼模型在跨域測試中幾乎無提升。

進(jìn)一步的分析顯示,AZR 的性能受初始模型能力影響顯著。盡管 Coder 版本在初始數(shù)學(xué)推理能力上略低于 Base 版本,但在 AZR 框架訓(xùn)練后,其最終表現(xiàn)反而全面領(lǐng)先,說明代碼能力的強(qiáng)化訓(xùn)練可以促進(jìn)廣義推理能力的發(fā)展。這一現(xiàn)象突出了代碼環(huán)境在構(gòu)建可驗(yàn)證任務(wù)和推進(jìn)推理能力提升中的獨(dú)特優(yōu)勢。

在模型規(guī)模擴(kuò)展實(shí)驗(yàn)中,研究團(tuán)隊(duì)分別對 3B、7B 與 14B 的模型版本進(jìn)行 AZR 訓(xùn)練。結(jié)果顯示,模型規(guī)模越大,AZR 訓(xùn)練所帶來的提升越明顯。在 OOD 任務(wù)上的總體表現(xiàn)提升分別為 +5.7(3B)、+10.2(7B)與 +13.2(14B),說明 AZR 在更大、更強(qiáng)的模型上具備更強(qiáng)的訓(xùn)練潛力和泛化能力,也為未來探索 AZR 的「擴(kuò)展法則」提供了初步證據(jù)。

打開網(wǎng)易新聞 查看精彩圖片

(a) 同分布任務(wù)表現(xiàn)與 (b) 異分布任務(wù)表現(xiàn)。(a) 展示了 AZR 在訓(xùn)練過程中的同分布推理能力,評估任務(wù)包括 CruxEval-I、CruxEval-O 和 LiveCodeBench-Execution,分別對應(yīng)溯因、演繹和演繹任務(wù)類型,涵蓋不同模型規(guī)模與類型。(b) 展示了 AZR 在異分布任務(wù)上的泛化推理表現(xiàn),評估指標(biāo)為代碼類任務(wù)平均分、數(shù)學(xué)類任務(wù)平均分以及兩者的總體平均分,涵蓋不同模型規(guī)模與結(jié)構(gòu)。

打開網(wǎng)易新聞 查看精彩圖片

「uh-oh」moment。在 LLama-8B 的訓(xùn)練過程中,模型的思考帶有偏激情緒,希望設(shè)計(jì)一個(gè)「荒唐且復(fù)雜」的任務(wù)來迷惑人類和模型。

在 AZR 的訓(xùn)練過程中,研究團(tuán)隊(duì)觀察到一系列與推理模式相關(guān)的有趣行為。模型能夠自動提出多樣化的程序任務(wù),如字符串處理、動態(tài)規(guī)劃及實(shí)用函數(shù)問題,并展現(xiàn)出顯著的認(rèn)知差異性:在溯因任務(wù)中,模型傾向于反復(fù)試探輸入并自我修正;在演繹任務(wù)中,會逐步推演代碼并記錄中間狀態(tài);在歸納任務(wù)中,則能歸納程序邏輯并逐一驗(yàn)證樣例正確性。此外,模型在歸納任務(wù)中常出現(xiàn)帶注釋的「推理計(jì)劃」,表現(xiàn)出類似 ReAct 風(fēng)格的中間思考路徑,這種現(xiàn)象也在近期 DeepSeek Prover V2(規(guī)模達(dá) 671B)中被觀察到,表明中間規(guī)劃行為可能是強(qiáng)推理模型自然涌現(xiàn)的能力之一。同時(shí),在 Llama 模型中還出現(xiàn)了顯著的狀態(tài)跟蹤行為,模型能在多輪推理中保持變量引用的一致性,展現(xiàn)出較強(qiáng)的上下文連貫性與推理連貫?zāi)芰Α?/p>

另一個(gè)顯著現(xiàn)象是模型響應(yīng)長度(token length)的任務(wù)依賴性差異:在溯因任務(wù)中,模型為了解決目標(biāo)輸出,生成了更長的、包含試錯(cuò)和反思的回答;而演繹與歸納任務(wù)中則相對更緊湊,表明其信息結(jié)構(gòu)策略各不相同。訓(xùn)練過程中還出現(xiàn)了個(gè)別值得注意的輸出,如 Llama 模型在某些場景下生成帶有偏激情緒的「uh-oh moment」,提示未來仍需關(guān)注自我進(jìn)化系統(tǒng)的安全控制與行為治理問題。這些現(xiàn)象共同體現(xiàn)了 AZR 在不同推理任務(wù)中的認(rèn)知特征演化,也為后續(xù)深入研究提供了寶貴線索。

結(jié)語:邁向「經(jīng)驗(yàn)智能」的新時(shí)代:Absolute Zero 的啟示

在本項(xiàng)研究中,研究團(tuán)隊(duì)首次提出了Absolute Zero推理范式,為大模型的自我進(jìn)化提供了一條全新的路徑。該范式打破了現(xiàn)有 RLVR 方法對人類標(biāo)注任務(wù)分布的依賴,轉(zhuǎn)而讓模型在環(huán)境反饋的引導(dǎo)下,自主生成、解決和優(yōu)化任務(wù)分布,從而實(shí)現(xiàn)從零開始的學(xué)習(xí)。團(tuán)隊(duì)進(jìn)一步構(gòu)建并驗(yàn)證了這一理念的具體實(shí)現(xiàn) ——Absolute Zero Reasoner(AZR),通過代碼環(huán)境支撐任務(wù)驗(yàn)證與獎勵(lì)反饋,完成自我提出與解答推理任務(wù)的閉環(huán)式訓(xùn)練流程。

實(shí)驗(yàn)結(jié)果顯示,AZR 在多個(gè)代碼生成與數(shù)學(xué)推理的異分布基準(zhǔn)測試中,均展現(xiàn)出卓越的通用推理能力,甚至超越了依賴人工高質(zhì)量數(shù)據(jù)訓(xùn)練的最先進(jìn)模型。這一表現(xiàn)令人驚訝,特別是在沒有使用任何人工構(gòu)建的任務(wù)數(shù)據(jù)的前提下,AZR 依靠完全自提出的任務(wù),實(shí)現(xiàn)了強(qiáng)大的推理泛化能力。更重要的是,研究團(tuán)隊(duì)發(fā)現(xiàn) AZR 在不同模型規(guī)模和架構(gòu)上均具備良好的可擴(kuò)展性,為將來進(jìn)一步放大模型能力提供了可行性依據(jù)。

當(dāng)然,Absolute Zero 仍處于早期階段,其自提出任務(wù)與自我學(xué)習(xí)過程的治理、安全性與穩(wěn)定性仍有待進(jìn)一步研究。例如,在某些模型(如 Llama3.1)中,研究團(tuán)隊(duì)觀察到潛在的安全風(fēng)險(xiǎn)表達(dá),「uh-oh moment」,提示我們需要更審慎地設(shè)計(jì)任務(wù)空間的約束與獎勵(lì)機(jī)制。

這一工作啟示我們:未來的推理智能體,不僅應(yīng)能解決任務(wù),更應(yīng)具備提出任務(wù)、發(fā)現(xiàn)知識空白、并自主調(diào)整學(xué)習(xí)路徑的能力。這意味著,探索的重點(diǎn)應(yīng)逐步從「如何解答」轉(zhuǎn)向「學(xué)什么、如何去學(xué)」。這一視角的轉(zhuǎn)變,可能成為構(gòu)建具備經(jīng)驗(yàn)與成長能力智能體的關(guān)鍵起點(diǎn)。而這一點(diǎn),正是當(dāng)前大多數(shù)推理研究尚未觸及的邊界。從這一意義上說,AZR 所開啟的不只是一個(gè)新算法,而是一個(gè)新的時(shí)代 ——一個(gè)屬于「自主智能」的時(shí)代

本論文一作是清華大學(xué)自動化系四年級博士生 Andrew Zhao(趙啟晨),他專注于強(qiáng)化學(xué)習(xí)、大語言模型、Agents 和推理模型的研究。

打開網(wǎng)易新聞 查看精彩圖片

他的導(dǎo)師是黃高教授。他是大語言模型 Agents 經(jīng)驗(yàn)學(xué)習(xí)開創(chuàng)性工作《ExpeL: LLM Agents Are Experiential Learners》的第一作者,也是《DiveR-CT: Diversity-enhanced Red Teaming Large Language Model Assistants with Relaxing Constraints》第一作者。

本論文二作是賓夕法尼亞州立大學(xué)信息系三年級博士生 Yiran Wu(吳一然),他專注于大語言模型 Agents,強(qiáng)化學(xué)習(xí)和推理模型的研究。

打開網(wǎng)易新聞 查看精彩圖片

他的導(dǎo)師是吳清云教授。他是著名開源 agent 框架 AutoGen 的作者和核心維護(hù)者,也是《StateFlow: Enhancing LLM Task-Solving through State-Driven Workflows》第一作者。