打開網(wǎng)易新聞 查看精彩圖片

圖片來源:網(wǎng)絡(luò)

通用大模型性能的飛速提升疊加推理算力成本的快速縮減,讓垂直領(lǐng)域大模型迎來了真正的爆發(fā)期。在諸多垂直領(lǐng)域的模型之中,代碼大模型,尤其得到了市場和資本的高度關(guān)注。

Gartner在《2024年全球IT支出預(yù)測》中指出,全球軟件開發(fā)人力成本的年均增幅約為7-9%,2024年全球軟件相關(guān)支出(含開發(fā)、運(yùn)維)將達(dá)1.2萬億美元,其中約50%用于人力成本,即6000億美元。而中國互聯(lián)網(wǎng)巨頭們在軟件開發(fā)方面的人力成本壓力更為明顯,部分公司薪酬及相關(guān)支出年增幅接近15%。

與高起的軟件開發(fā)訴求相比,全球軟件工程師缺口持卻在續(xù)擴(kuò)大,有數(shù)據(jù)顯示,未來十年缺口可能達(dá)數(shù)千萬,成為制約各行各業(yè)數(shù)字化轉(zhuǎn)型的核心挑戰(zhàn)。

在日益增長的軟件開發(fā)訴求、同步增長的人力成本和巨大的人才缺口一齊作用下,代碼大模型成了少數(shù)具備明確商業(yè)化條件和付費(fèi)意愿的垂直行業(yè)大模型之一。

Cursor僅用21個月便達(dá)到了1億美元ARR,成為歷史上增長最快的SaaS產(chǎn)品,估值100億美元。Gartner還預(yù)測,到2026年,AI將自動化全球30%的編碼任務(wù),這意味著代碼大模型是一個可以“看得見”的千億美元級蛋糕。

除了目前海外爆火的AI編程產(chǎn)品如:GitHub Copilot、Cursor、Codeium等外,國內(nèi)的通用大模型廠商也紛紛殺入該領(lǐng)域,如阿里的通義靈碼,騰訊的騰訊云AI代碼助手,華為的Code Arts,字節(jié)跳動的豆包Mars Code,百度的文心快碼等,包括京東、訊飛、昆侖萬維、DeepSeek、智譜等多家通用大模型廠商均有布局。

而在眾多玩家里,孵化于北大軟件工程研究所的aiXcoder更以其深厚的積淀和卓越的模型性能獨(dú)樹一幟。

憑借北大軟件工程研究所60余年的深厚積累,aiXcoder團(tuán)隊從多篇全球頂會的論文奠基,到全球首個十億級和百億級參數(shù)的國產(chǎn)代碼大模型aiXcoder的發(fā)布,再到國內(nèi)諸多大廠頭部客戶實(shí)踐落地,實(shí)現(xiàn)了從實(shí)驗室理論到產(chǎn)業(yè)價值的閉環(huán)突破。

其2024年4月發(fā)布并開源的aiXcoder-7B模型更是在多個評測集的評測結(jié)果中超越了同級別參數(shù)規(guī)模的眾多開源模型。例如,與晚于其發(fā)布近半年的 Qwen2.5-Coder-7B,以及 DeepSeekCoder-7B、CodeLlama-7B 等模型相比,aiXcoder-7B 在代碼生成與補(bǔ)全效果上均達(dá)到了SOTA評價(State Of The Art,即當(dāng)前最佳)。

今年年初,aiXcoder(北京硅心科技有限公司)剛剛完成A++輪融資,由中關(guān)村發(fā)展集團(tuán)旗下中關(guān)村資本和中關(guān)村協(xié)同創(chuàng)新基金共同參投。

公開資料顯示,該公司目前共獲得4輪融資,吸引了伽利略資本、高瓴創(chuàng)投、彬復(fù)資本、清流資本、三七互娛等多家頂級風(fēng)險投資機(jī)構(gòu)的持續(xù)注資。

近日,aiXcoder的商業(yè)合伙人兼總裁劉德欣接受了鈦媒體創(chuàng)投家的獨(dú)家訪談。在訪談中,他深入探討了當(dāng)前代碼大模型行業(yè)面臨的技術(shù)瓶頸和未來趨勢,展現(xiàn)了在這一前沿領(lǐng)域的獨(dú)到見解與實(shí)踐路徑。

以下為鈦媒體創(chuàng)投家與劉德欣對話全文,略有刪減:

鈦媒體創(chuàng)投家:通用大模型為何取代不了代碼大模型?

劉德欣:通用大模型的構(gòu)建和訓(xùn)練方式基于自然語言,而非編程語言(代碼)。

代碼相比自然語言具有幾個獨(dú)特的特性:首先,代碼對上下文的依賴性更強(qiáng),許多代碼成分的語義嚴(yán)重依賴于其所在的上下文;其次,代碼具有更強(qiáng)的結(jié)構(gòu)性。所有程序語言都可以映射為抽象或具體的語法樹(AST)結(jié)構(gòu),而不像自然語言那樣單一地采用線性表達(dá)方式。

如果模型按照理解自然語言的習(xí)慣來學(xué)習(xí)程序語言,就會將代碼當(dāng)作普通文本進(jìn)行建模,從而喪失代碼本身的結(jié)構(gòu)化特性,忽略代碼各部分之間的內(nèi)在關(guān)聯(lián)和嚴(yán)格約束。這不僅會降低代碼補(bǔ)全和代碼生成的準(zhǔn)確性,還容易引發(fā)因語義理解錯誤而產(chǎn)生的“幻覺”。

另一個原因在于訓(xùn)練數(shù)據(jù)。通用大模型主要利用互聯(lián)網(wǎng)上公開的數(shù)據(jù)進(jìn)行訓(xùn)練,這就無法涵蓋特殊行業(yè)或企業(yè)的私有數(shù)據(jù)。依靠公開數(shù)據(jù)訓(xùn)練的模型,支持通用領(lǐng)域的軟件開發(fā)任務(wù)尚可,但是企業(yè)內(nèi)的軟件開發(fā)需求來自該企業(yè)所屬的特定行業(yè)和領(lǐng)域,這些任務(wù)有其獨(dú)有的內(nèi)部命名方法和特定的業(yè)務(wù)邏輯,這就需要企業(yè)或行業(yè)提供私域數(shù)據(jù)進(jìn)行專門的個性化訓(xùn)練。

例如,讓大模型生成一些通用代碼(如讓大模型幫我們寫一個基于HTML的4×4版的華容道游戲,或者貪吃蛇游戲)問題不大;但如果用它來開發(fā)一個銀行的業(yè)務(wù)程序,則很可能出現(xiàn)諸多錯誤和遺漏。其根本原因在于,這些通用大模型沒有接觸過銀行的私有數(shù)據(jù)和業(yè)務(wù)知識,而各家銀行也不會將這些數(shù)據(jù)公開在互聯(lián)網(wǎng)上。

這就是通用大模型無法滿足企業(yè)和特定行業(yè)代碼需求的根本原因。

鈦媒體創(chuàng)投家:aiXcoder-7B有什么獨(dú)特的技術(shù)優(yōu)勢?

劉德欣:我們團(tuán)隊近期在ICSE 2025(國際軟件工程大會)最新論文《CodeGen-7B: A Pragmatic Approach to Industrial-Strength Code Generation》中提出了對行業(yè)的三大貢獻(xiàn),這正好能說明aiXcoder-7B的獨(dú)特優(yōu)勢。

首先,我們采用結(jié)構(gòu)化Span的形式構(gòu)建模型,并創(chuàng)新性地提出了“結(jié)構(gòu)化填充中間目標(biāo)(SFIM)”的訓(xùn)練方法。

程序語言比自然語言更具結(jié)構(gòu)性,我們將所有代碼映射為抽象或具體的語法樹(AST)結(jié)構(gòu),類似于多重小葉片疊加,我們稱之為“結(jié)構(gòu)化Span”。采用這種方式構(gòu)建的模型能夠更精準(zhǔn)地理解程序語言,從而確保后續(xù)的訓(xùn)練更加準(zhǔn)確、完整。

而傳統(tǒng)的Fill-In-the-Middle(FIM)方法是隨機(jī)選擇代碼片段,在片段中隨機(jī)“挖空”進(jìn)行補(bǔ)全訓(xùn)練。但這種方法存在的問題在于,隨機(jī)選擇的片段往往不完整,缺乏必要的上下文支持,與真實(shí)程序員的開發(fā)習(xí)慣不符,訓(xùn)練出的結(jié)果也很難保證準(zhǔn)確性。

針對這一問題,我們創(chuàng)新性地結(jié)合代碼語法樹(AST)結(jié)構(gòu),設(shè)計出結(jié)構(gòu)化填充中間目標(biāo)(SFIM)的訓(xùn)練模式。通過解析代碼語法樹節(jié)點(diǎn),選取完整的代碼邏輯單元作為訓(xùn)練跨度,有效避免了隨機(jī)選段造成的不完整情況,從而大幅提升了模型訓(xùn)練效果。

實(shí)驗表明,SFIM顯著提升了生成代碼的簡潔性(生成代碼長度與人類代碼的比值從DeepSeekCoder-7B的1.65降至0.87)以及結(jié)構(gòu)合理性(在FIM-Eval評測中CodeBLEU得分提高了5.3%)。

其次,aiXcoder-7B提供了跨文件上下文理解的系統(tǒng)性優(yōu)化方案。針對企業(yè)級代碼庫中跨文件依賴的復(fù)雜性,我們提出了多樣化的數(shù)據(jù)采樣算法,包含以下四種策略:

  • 基于文件內(nèi)容相似性采樣(模擬相似代碼補(bǔ)全場景)

  • 基于文件路徑相似性采樣(模擬API調(diào)用場景)

  • 基于文件依賴關(guān)系采樣(模擬模塊間調(diào)用鏈場景)

  • 隨機(jī)采樣(覆蓋長尾場景)

最后,aiXcoder-7B還創(chuàng)新性地發(fā)布了FIM-Eval評測集,基于16000多條來自真實(shí)開發(fā)場景的數(shù)據(jù)進(jìn)行測評,顯示aiXcoder 7B不僅在代碼生成與補(bǔ)全方面效果最好,且生成的代碼更加簡潔。有效解決了真實(shí)開發(fā)場景的覆蓋問題,該評測集現(xiàn)已成為軟件工程領(lǐng)域驗證代碼生成模型實(shí)用性的關(guān)鍵工具。

鈦媒體創(chuàng)投家:除了模型性能,企業(yè)在私域大模型落地過程中還關(guān)注哪些要素?

劉德欣:我們總結(jié)了企業(yè)領(lǐng)域大模型落地的四大原則,這也是我們給所有客戶的建議。

第一,企業(yè)要掌握模型自治權(quán)。

我們知道有些企業(yè)在建設(shè)項目的時候,需要廠商提供源代碼,但在大模型時代擁有大模型的源代碼并不等同于擁有模型自治權(quán),只有掌握了一整套企業(yè)內(nèi)部業(yè)務(wù)數(shù)據(jù)梳理和再訓(xùn)練的框架,能夠靈活地匹配適合企業(yè)業(yè)務(wù)屬性的大模型并對其進(jìn)行自治管理,才能稱得上是擁有了模型自治權(quán)。以aiXcoder為例,在進(jìn)行個性化訓(xùn)練時,我們不會觸碰客戶的代碼。客戶的私域敏感數(shù)據(jù)我們不接觸,而是教會客戶如何進(jìn)行訓(xùn)練,待訓(xùn)練完成后,再對模型進(jìn)行評測和校驗。

第二,要實(shí)現(xiàn)模型層的高解耦。

我們自2022年開始就在給企業(yè)提供這一原則:不要綁定任何單一的大模型廠商,也不要依賴于某個特定的開源或閉源模型。隨著2023年大模型爆發(fā),我們會看到總有更好的模型出現(xiàn)。這一原則的關(guān)鍵在于保證接口標(biāo)準(zhǔn)化、底層算力與模型的適配性,以及大模型廠商是否能提供即插即用的適配方案,從而隨時實(shí)現(xiàn)將業(yè)界最SOTA的大模型集成到企業(yè)內(nèi)部的業(yè)務(wù)體系。

第三,要建立可復(fù)用的數(shù)據(jù)框架。

企業(yè)需要基于業(yè)務(wù)需求做好數(shù)據(jù)治理,我們所提出的大模型數(shù)據(jù)治理是一套企業(yè)內(nèi)數(shù)據(jù)治理框架。該框架確保了我們的業(yè)務(wù)數(shù)據(jù)被經(jīng)過系統(tǒng)的整理后,可以方便企業(yè)日后以高復(fù)用的方式,用于任何模型的微調(diào)和后訓(xùn)練。做到數(shù)據(jù)治理的體系化、標(biāo)準(zhǔn)化和高復(fù)用。提升企業(yè)落地大模型的敏捷效率和低成本。。

第四,要始終關(guān)注業(yè)務(wù)。

很多客戶熱衷于追逐大模型技術(shù),企業(yè)自身的投入也越來越大。但業(yè)界不斷有更新的、更強(qiáng)的模型出現(xiàn),這很容易讓之前的投入被顛覆。我們建議客戶將財力和精力更多地投入到企業(yè)業(yè)務(wù)的集成上,通過高解耦的方式,持續(xù)整合最強(qiáng)大模型,以保障企業(yè)自身產(chǎn)品和技術(shù)的競爭優(yōu)勢。

鈦媒體創(chuàng)投家:大廠在代碼大模型領(lǐng)域的布局非常多,aiXcoder如何應(yīng)對大廠競爭?

劉德欣:大廠的確具備明顯優(yōu)勢,尤其在獲客方面。然而,我們應(yīng)對大廠競爭的策略主要體現(xiàn)在以下幾點(diǎn):

第一,垂直領(lǐng)域深耕。我們團(tuán)隊來自北大軟工所,是國際上最早將深度學(xué)習(xí)技術(shù)用于程序代碼生成和代碼理解的團(tuán)隊,憑借在軟件工程領(lǐng)域十余年的工具和方法積累,形成了一定的技術(shù)和產(chǎn)品壁壘。我們也會在軟件工程和智能化這兩個垂直領(lǐng)域做更深的技術(shù)融合,并保持技術(shù)層面持續(xù)領(lǐng)跑。

第二,與客戶建立合作伙伴關(guān)系。與很多大廠交付的標(biāo)準(zhǔn)化產(chǎn)品不同,我們更注重深入了解客戶的復(fù)雜及私域需求,提供定制化和個性化的解決方案。過去曾有客戶在與大廠合作后,因交付產(chǎn)品和后續(xù)服務(wù)出現(xiàn)斷層,而最終選擇回歸與我們合作。

第三,積極開展與大廠的合作。我們也在與大廠積極開展合作。當(dāng)大廠在解決企業(yè)私域落地問題時,他們往往會尋求外部專業(yè)團(tuán)隊的服務(wù),而這正是我們的優(yōu)勢所在。

鈦媒體創(chuàng)投家:代碼大模型的終極形態(tài)是什么?會完全取代人類程序員嗎?

劉德欣:終極形態(tài)一定是實(shí)現(xiàn)完全的智能化、自動化的軟件開發(fā)過程。

在這個終極形態(tài)下,AI 系統(tǒng)將能夠從用戶需求描述、業(yè)務(wù)場景以及相關(guān)的非結(jié)構(gòu)化信息中,自動理解并生成完整、高質(zhì)量的軟件系統(tǒng),涵蓋代碼編寫、測試、部署到維護(hù)等整個生命周期的自動化管理。這樣的終極形態(tài)將大幅提高軟件開發(fā)效率和質(zhì)量,降低開發(fā)成本與門檻,使軟件開發(fā)更廣泛地應(yīng)用于各個領(lǐng)域。

同時我們認(rèn)為,無論是短期還是長期,人類程序員都具有不可替代性。

短期來看,人類程序員擁有深厚的業(yè)務(wù)知識和豐富的實(shí)踐經(jīng)驗,能夠從整體上把握項目需求和方向,進(jìn)行復(fù)雜的系統(tǒng)架構(gòu)設(shè)計與業(yè)務(wù)流程優(yōu)化;同時,他們具備創(chuàng)新思維和創(chuàng)造力,能夠根據(jù)實(shí)際需求提出新穎的解決方案和技術(shù)架構(gòu);此外,在處理特殊情況和復(fù)雜問題時,人類程序員的應(yīng)變能力和決策能力更為突出,這些都是當(dāng)前AI 難以企及的。

長期來看,人類程序員可能不再需要手動編寫大量代碼,但他們?nèi)孕鑼⒏嗑ν度氲叫枨蠓治?、算法和系統(tǒng)架構(gòu)設(shè)計,以及對AI 生成結(jié)果的審核和業(yè)務(wù)創(chuàng)新上。這些高價值點(diǎn)更具創(chuàng)造性和戰(zhàn)略性,也是 AI 無法替代的。

鈦媒體創(chuàng)投家:aiXcoder近期有什么好消息公布嗎?

劉德欣:aiXcoder目前已完成產(chǎn)品升級,創(chuàng)新推出內(nèi)置MCP功能的軟件開發(fā)Agent,我們正在內(nèi)測中。對于企業(yè)和開發(fā)者來說,不論是操作體驗還是開發(fā)價值都比之前更好,表現(xiàn)在:

私有化部署安全可靠:及時響應(yīng)業(yè)務(wù)需求,支持企業(yè)私有化部署,并針對性適配企業(yè)已有的開源大模型,確保企業(yè)在安全可控的生產(chǎn)環(huán)境下,擁有自主可控的Agent能力。

大幅縮短研發(fā)周期:無論是從零構(gòu)建全新應(yīng)用,還是基于復(fù)雜代碼庫迭代功能,通過聊天對話就能推動Agent自動執(zhí)行任務(wù),極大提高研發(fā)效率,大幅縮短研發(fā)周期,助力企業(yè)數(shù)字化轉(zhuǎn)型。

企業(yè)私有化工具無縫集成:MCP的開放式架構(gòu)展現(xiàn)出強(qiáng)大的環(huán)境適配能力,支持企業(yè)在不影響現(xiàn)有代碼架構(gòu)的前提下,快速接入企業(yè)私有化工具鏈(如內(nèi)部SVN系統(tǒng)、定制化CI/CD平臺),同時兼容常用本地開發(fā)工具的無縫集成。由此,既保障了企業(yè)核心資產(chǎn)的安全性,又為開發(fā)者保留了靈活的工具選擇空間。

成本精細(xì)化控制:相比Cursor每月20-40美元費(fèi)用,aiXcoder Agent功能計劃在插件端免費(fèi)開放,使用Agent無門檻,推動AI Coding行業(yè)發(fā)展。

不僅是Copilot,更是資深Partner。aiXcoder Agent產(chǎn)品這也是繼去年4月初開源的自研7B大模型后,又一次為軟件開發(fā)者獻(xiàn)上的一份厚禮。(本文首發(fā)于鈦媒體App,作者|郭虹妘,編輯|陶天宇)