亚洲电影av在线观看,国产精品成人中文在线,可以在线观看的国产精品,一区二区产好的精华液,www.青青草原.

圖片來源：網(wǎng)絡(luò)

通用大模型性能的飛速提升疊加推理算力成本的快速縮減，讓垂直領(lǐng)域大模型迎來了真正的爆發(fā)期。在諸多垂直領(lǐng)域的模型之中，代碼大模型，尤其得到了市場和資本的高度關(guān)注。

Gartner在《2024年全球IT支出預(yù)測》中指出，全球軟件開發(fā)人力成本的年均增幅約為7-9%，2024年全球軟件相關(guān)支出（含開發(fā)、運(yùn)維）將達(dá)1.2萬億美元，其中約50%用于人力成本，即6000億美元。而中國互聯(lián)網(wǎng)巨頭們在軟件開發(fā)方面的人力成本壓力更為明顯，部分公司薪酬及相關(guān)支出年增幅接近15%。

與高起的軟件開發(fā)訴求相比，全球軟件工程師缺口持卻在續(xù)擴(kuò)大，有數(shù)據(jù)顯示，未來十年缺口可能達(dá)數(shù)千萬，成為制約各行各業(yè)數(shù)字化轉(zhuǎn)型的核心挑戰(zhàn)。

在日益增長的軟件開發(fā)訴求、同步增長的人力成本和巨大的人才缺口一齊作用下，代碼大模型成了少數(shù)具備明確商業(yè)化條件和付費(fèi)意愿的垂直行業(yè)大模型之一。

Cursor僅用21個月便達(dá)到了1億美元ARR，成為歷史上增長最快的SaaS產(chǎn)品，估值100億美元。Gartner還預(yù)測，到2026年，AI將自動化全球30%的編碼任務(wù)，這意味著代碼大模型是一個可以“看得見”的千億美元級蛋糕。

除了目前海外爆火的AI編程產(chǎn)品如：GitHub Copilot、Cursor、Codeium等外，國內(nèi)的通用大模型廠商也紛紛殺入該領(lǐng)域，如阿里的通義靈碼，騰訊的騰訊云AI代碼助手，華為的Code Arts，字節(jié)跳動的豆包Mars Code，百度的文心快碼等，包括京東、訊飛、昆侖萬維、DeepSeek、智譜等多家通用大模型廠商均有布局。

而在眾多玩家里，孵化于北大軟件工程研究所的aiXcoder更以其深厚的積淀和卓越的模型性能獨(dú)樹一幟。

憑借北大軟件工程研究所60余年的深厚積累，aiXcoder團(tuán)隊從多篇全球頂會的論文奠基，到全球首個十億級和百億級參數(shù)的國產(chǎn)代碼大模型aiXcoder的發(fā)布，再到國內(nèi)諸多大廠頭部客戶實(shí)踐落地，實(shí)現(xiàn)了從實(shí)驗室理論到產(chǎn)業(yè)價值的閉環(huán)突破。

其2024年4月發(fā)布并開源的aiXcoder-7B模型更是在多個評測集的評測結(jié)果中超越了同級別參數(shù)規(guī)模的眾多開源模型。例如，與晚于其發(fā)布近半年的 Qwen2.5-Coder-7B，以及 DeepSeekCoder-7B、CodeLlama-7B 等模型相比，aiXcoder-7B 在代碼生成與補(bǔ)全效果上均達(dá)到了SOTA評價（State Of The Art，即當(dāng)前最佳）。

今年年初，aiXcoder（北京硅心科技有限公司）剛剛完成A++輪融資，由中關(guān)村發(fā)展集團(tuán)旗下中關(guān)村資本和中關(guān)村協(xié)同創(chuàng)新基金共同參投。

公開資料顯示，該公司目前共獲得4輪融資，吸引了伽利略資本、高瓴創(chuàng)投、彬復(fù)資本、清流資本、三七互娛等多家頂級風(fēng)險投資機(jī)構(gòu)的持續(xù)注資。

近日，aiXcoder的商業(yè)合伙人兼總裁劉德欣接受了鈦媒體創(chuàng)投家的獨(dú)家訪談。在訪談中，他深入探討了當(dāng)前代碼大模型行業(yè)面臨的技術(shù)瓶頸和未來趨勢，展現(xiàn)了在這一前沿領(lǐng)域的獨(dú)到見解與實(shí)踐路徑。

以下為鈦媒體創(chuàng)投家與劉德欣對話全文，略有刪減：

鈦媒體創(chuàng)投家：通用大模型為何取代不了代碼大模型？

劉德欣：通用大模型的構(gòu)建和訓(xùn)練方式基于自然語言，而非編程語言（代碼）。

代碼相比自然語言具有幾個獨(dú)特的特性：首先，代碼對上下文的依賴性更強(qiáng)，許多代碼成分的語義嚴(yán)重依賴于其所在的上下文；其次，代碼具有更強(qiáng)的結(jié)構(gòu)性。所有程序語言都可以映射為抽象或具體的語法樹（AST）結(jié)構(gòu)，而不像自然語言那樣單一地采用線性表達(dá)方式。

如果模型按照理解自然語言的習(xí)慣來學(xué)習(xí)程序語言，就會將代碼當(dāng)作普通文本進(jìn)行建模，從而喪失代碼本身的結(jié)構(gòu)化特性，忽略代碼各部分之間的內(nèi)在關(guān)聯(lián)和嚴(yán)格約束。這不僅會降低代碼補(bǔ)全和代碼生成的準(zhǔn)確性，還容易引發(fā)因語義理解錯誤而產(chǎn)生的“幻覺”。

另一個原因在于訓(xùn)練數(shù)據(jù)。通用大模型主要利用互聯(lián)網(wǎng)上公開的數(shù)據(jù)進(jìn)行訓(xùn)練，這就無法涵蓋特殊行業(yè)或企業(yè)的私有數(shù)據(jù)。依靠公開數(shù)據(jù)訓(xùn)練的模型，支持通用領(lǐng)域的軟件開發(fā)任務(wù)尚可，但是企業(yè)內(nèi)的軟件開發(fā)需求來自該企業(yè)所屬的特定行業(yè)和領(lǐng)域，這些任務(wù)有其獨(dú)有的內(nèi)部命名方法和特定的業(yè)務(wù)邏輯，這就需要企業(yè)或行業(yè)提供私域數(shù)據(jù)進(jìn)行專門的個性化訓(xùn)練。

例如，讓大模型生成一些通用代碼（如讓大模型幫我們寫一個基于HTML的4×4版的華容道游戲，或者貪吃蛇游戲）問題不大；但如果用它來開發(fā)一個銀行的業(yè)務(wù)程序，則很可能出現(xiàn)諸多錯誤和遺漏。其根本原因在于，這些通用大模型沒有接觸過銀行的私有數(shù)據(jù)和業(yè)務(wù)知識，而各家銀行也不會將這些數(shù)據(jù)公開在互聯(lián)網(wǎng)上。

這就是通用大模型無法滿足企業(yè)和特定行業(yè)代碼需求的根本原因。

鈦媒體創(chuàng)投家：aiXcoder-7B有什么獨(dú)特的技術(shù)優(yōu)勢？

劉德欣：我們團(tuán)隊近期在ICSE 2025（國際軟件工程大會）最新論文《CodeGen-7B: A Pragmatic Approach to Industrial-Strength Code Generation》中提出了對行業(yè)的三大貢獻(xiàn)，這正好能說明aiXcoder-7B的獨(dú)特優(yōu)勢。

首先，我們采用結(jié)構(gòu)化Span的形式構(gòu)建模型，并創(chuàng)新性地提出了“結(jié)構(gòu)化填充中間目標(biāo)（SFIM）”的訓(xùn)練方法。

程序語言比自然語言更具結(jié)構(gòu)性，我們將所有代碼映射為抽象或具體的語法樹（AST）結(jié)構(gòu)，類似于多重小葉片疊加，我們稱之為“結(jié)構(gòu)化Span”。采用這種方式構(gòu)建的模型能夠更精準(zhǔn)地理解程序語言，從而確保后續(xù)的訓(xùn)練更加準(zhǔn)確、完整。

而傳統(tǒng)的Fill-In-the-Middle（FIM）方法是隨機(jī)選擇代碼片段，在片段中隨機(jī)“挖空”進(jìn)行補(bǔ)全訓(xùn)練。但這種方法存在的問題在于，隨機(jī)選擇的片段往往不完整，缺乏必要的上下文支持，與真實(shí)程序員的開發(fā)習(xí)慣不符，訓(xùn)練出的結(jié)果也很難保證準(zhǔn)確性。

針對這一問題，我們創(chuàng)新性地結(jié)合代碼語法樹（AST）結(jié)構(gòu)，設(shè)計出結(jié)構(gòu)化填充中間目標(biāo)（SFIM）的訓(xùn)練模式。通過解析代碼語法樹節(jié)點(diǎn)，選取完整的代碼邏輯單元作為訓(xùn)練跨度，有效避免了隨機(jī)選段造成的不完整情況，從而大幅提升了模型訓(xùn)練效果。

實(shí)驗表明，SFIM顯著提升了生成代碼的簡潔性（生成代碼長度與人類代碼的比值從DeepSeekCoder-7B的1.65降至0.87）以及結(jié)構(gòu)合理性（在FIM-Eval評測中CodeBLEU得分提高了5.3%）。

其次，aiXcoder-7B提供了跨文件上下文理解的系統(tǒng)性優(yōu)化方案。針對企業(yè)級代碼庫中跨文件依賴的復(fù)雜性，我們提出了多樣化的數(shù)據(jù)采樣算法，包含以下四種策略：

基于文件內(nèi)容相似性采樣（模擬相似代碼補(bǔ)全場景）
基于文件路徑相似性采樣（模擬API調(diào)用場景）
基于文件依賴關(guān)系采樣（模擬模塊間調(diào)用鏈場景）
隨機(jī)采樣（覆蓋長尾場景）

最后，aiXcoder-7B還創(chuàng)新性地發(fā)布了FIM-Eval評測集，基于16000多條來自真實(shí)開發(fā)場景的數(shù)據(jù)進(jìn)行測評，顯示aiXcoder 7B不僅在代碼生成與補(bǔ)全方面效果最好，且生成的代碼更加簡潔。有效解決了真實(shí)開發(fā)場景的覆蓋問題，該評測集現(xiàn)已成為軟件工程領(lǐng)域驗證代碼生成模型實(shí)用性的關(guān)鍵工具。

鈦媒體創(chuàng)投家：除了模型性能，企業(yè)在私域大模型落地過程中還關(guān)注哪些要素？

劉德欣：我們總結(jié)了企業(yè)領(lǐng)域大模型落地的四大原則，這也是我們給所有客戶的建議。

第一，企業(yè)要掌握模型自治權(quán)。

我們知道有些企業(yè)在建設(shè)項目的時候，需要廠商提供源代碼，但在大模型時代擁有大模型的源代碼并不等同于擁有模型自治權(quán)，只有掌握了一整套企業(yè)內(nèi)部業(yè)務(wù)數(shù)據(jù)梳理和再訓(xùn)練的框架，能夠靈活地匹配適合企業(yè)業(yè)務(wù)屬性的大模型并對其進(jìn)行自治管理，才能稱得上是擁有了模型自治權(quán)。以aiXcoder為例，在進(jìn)行個性化訓(xùn)練時，我們不會觸碰客戶的代碼。客戶的私域敏感數(shù)據(jù)我們不接觸，而是教會客戶如何進(jìn)行訓(xùn)練，待訓(xùn)練完成后，再對模型進(jìn)行評測和校驗。

第二，要實(shí)現(xiàn)模型層的高解耦。

我們自2022年開始就在給企業(yè)提供這一原則：不要綁定任何單一的大模型廠商，也不要依賴于某個特定的開源或閉源模型。隨著2023年大模型爆發(fā)，我們會看到總有更好的模型出現(xiàn)。這一原則的關(guān)鍵在于保證接口標(biāo)準(zhǔn)化、底層算力與模型的適配性，以及大模型廠商是否能提供即插即用的適配方案，從而隨時實(shí)現(xiàn)將業(yè)界最SOTA的大模型集成到企業(yè)內(nèi)部的業(yè)務(wù)體系。

第三，要建立可復(fù)用的數(shù)據(jù)框架。

企業(yè)需要基于業(yè)務(wù)需求做好數(shù)據(jù)治理，我們所提出的大模型數(shù)據(jù)治理是一套企業(yè)內(nèi)數(shù)據(jù)治理框架。該框架確保了我們的業(yè)務(wù)數(shù)據(jù)被經(jīng)過系統(tǒng)的整理后，可以方便企業(yè)日后以高復(fù)用的方式，用于任何模型的微調(diào)和后訓(xùn)練。做到數(shù)據(jù)治理的體系化、標(biāo)準(zhǔn)化和高復(fù)用。提升企業(yè)落地大模型的敏捷效率和低成本。。

第四，要始終關(guān)注業(yè)務(wù)。

很多客戶熱衷于追逐大模型技術(shù)，企業(yè)自身的投入也越來越大。但業(yè)界不斷有更新的、更強(qiáng)的模型出現(xiàn)，這很容易讓之前的投入被顛覆。我們建議客戶將財力和精力更多地投入到企業(yè)業(yè)務(wù)的集成上，通過高解耦的方式，持續(xù)整合最強(qiáng)大模型，以保障企業(yè)自身產(chǎn)品和技術(shù)的競爭優(yōu)勢。

鈦媒體創(chuàng)投家：大廠在代碼大模型領(lǐng)域的布局非常多，aiXcoder如何應(yīng)對大廠競爭？

劉德欣：大廠的確具備明顯優(yōu)勢，尤其在獲客方面。然而，我們應(yīng)對大廠競爭的策略主要體現(xiàn)在以下幾點(diǎn)：

第一，垂直領(lǐng)域深耕。我們團(tuán)隊來自北大軟工所，是國際上最早將深度學(xué)習(xí)技術(shù)用于程序代碼生成和代碼理解的團(tuán)隊，憑借在軟件工程領(lǐng)域十余年的工具和方法積累，形成了一定的技術(shù)和產(chǎn)品壁壘。我們也會在軟件工程和智能化這兩個垂直領(lǐng)域做更深的技術(shù)融合，并保持技術(shù)層面持續(xù)領(lǐng)跑。

第二，與客戶建立合作伙伴關(guān)系。與很多大廠交付的標(biāo)準(zhǔn)化產(chǎn)品不同，我們更注重深入了解客戶的復(fù)雜及私域需求，提供定制化和個性化的解決方案。過去曾有客戶在與大廠合作后，因交付產(chǎn)品和后續(xù)服務(wù)出現(xiàn)斷層，而最終選擇回歸與我們合作。

第三，積極開展與大廠的合作。我們也在與大廠積極開展合作。當(dāng)大廠在解決企業(yè)私域落地問題時，他們往往會尋求外部專業(yè)團(tuán)隊的服務(wù)，而這正是我們的優(yōu)勢所在。

鈦媒體創(chuàng)投家：代碼大模型的終極形態(tài)是什么？會完全取代人類程序員嗎？

劉德欣：終極形態(tài)一定是實(shí)現(xiàn)完全的智能化、自動化的軟件開發(fā)過程。

在這個終極形態(tài)下，AI 系統(tǒng)將能夠從用戶需求描述、業(yè)務(wù)場景以及相關(guān)的非結(jié)構(gòu)化信息中，自動理解并生成完整、高質(zhì)量的軟件系統(tǒng)，涵蓋代碼編寫、測試、部署到維護(hù)等整個生命周期的自動化管理。這樣的終極形態(tài)將大幅提高軟件開發(fā)效率和質(zhì)量，降低開發(fā)成本與門檻，使軟件開發(fā)更廣泛地應(yīng)用于各個領(lǐng)域。

同時我們認(rèn)為，無論是短期還是長期，人類程序員都具有不可替代性。

短期來看，人類程序員擁有深厚的業(yè)務(wù)知識和豐富的實(shí)踐經(jīng)驗，能夠從整體上把握項目需求和方向，進(jìn)行復(fù)雜的系統(tǒng)架構(gòu)設(shè)計與業(yè)務(wù)流程優(yōu)化；同時，他們具備創(chuàng)新思維和創(chuàng)造力，能夠根據(jù)實(shí)際需求提出新穎的解決方案和技術(shù)架構(gòu)；此外，在處理特殊情況和復(fù)雜問題時，人類程序員的應(yīng)變能力和決策能力更為突出，這些都是當(dāng)前AI 難以企及的。

長期來看，人類程序員可能不再需要手動編寫大量代碼，但他們?nèi)孕鑼⒏嗑ν度氲叫枨蠓治?、算法和系統(tǒng)架構(gòu)設(shè)計，以及對AI 生成結(jié)果的審核和業(yè)務(wù)創(chuàng)新上。這些高價值點(diǎn)更具創(chuàng)造性和戰(zhàn)略性，也是 AI 無法替代的。

鈦媒體創(chuàng)投家：aiXcoder近期有什么好消息公布嗎？

劉德欣：aiXcoder目前已完成產(chǎn)品升級，創(chuàng)新推出內(nèi)置MCP功能的軟件開發(fā)Agent，我們正在內(nèi)測中。對于企業(yè)和開發(fā)者來說，不論是操作體驗還是開發(fā)價值都比之前更好，表現(xiàn)在：

私有化部署安全可靠：及時響應(yīng)業(yè)務(wù)需求，支持企業(yè)私有化部署，并針對性適配企業(yè)已有的開源大模型，確保企業(yè)在安全可控的生產(chǎn)環(huán)境下，擁有自主可控的Agent能力。

大幅縮短研發(fā)周期：無論是從零構(gòu)建全新應(yīng)用，還是基于復(fù)雜代碼庫迭代功能，通過聊天對話就能推動Agent自動執(zhí)行任務(wù)，極大提高研發(fā)效率，大幅縮短研發(fā)周期，助力企業(yè)數(shù)字化轉(zhuǎn)型。

企業(yè)私有化工具無縫集成：MCP的開放式架構(gòu)展現(xiàn)出強(qiáng)大的環(huán)境適配能力，支持企業(yè)在不影響現(xiàn)有代碼架構(gòu)的前提下，快速接入企業(yè)私有化工具鏈（如內(nèi)部SVN系統(tǒng)、定制化CI/CD平臺），同時兼容常用本地開發(fā)工具的無縫集成。由此，既保障了企業(yè)核心資產(chǎn)的安全性，又為開發(fā)者保留了靈活的工具選擇空間。

成本精細(xì)化控制：相比Cursor每月20-40美元費(fèi)用，aiXcoder Agent功能計劃在插件端免費(fèi)開放，使用Agent無門檻，推動AI Coding行業(yè)發(fā)展。

不僅是Copilot，更是資深Partner。aiXcoder Agent產(chǎn)品這也是繼去年4月初開源的自研7B大模型后，又一次為軟件開發(fā)者獻(xiàn)上的一份厚禮。（本文首發(fā)于鈦媒體App，作者｜郭虹妘，編輯｜陶天宇）