打開網(wǎng)易新聞 查看精彩圖片

作者 | QCon 全球軟件開發(fā)大會

策劃 | Kitty

編輯 | 宇琪

大數(shù)據(jù)技術的飛速發(fā)展,揭開了基于海量數(shù)據(jù)實現(xiàn)深度分析與科學決策的新篇章,而以大語言模型為代表的人工智能技術的崛起,正以前所未有的速度推動大數(shù)據(jù)分析變得更具洞察力。那么,大模型訓練中數(shù)據(jù)存儲 IO 的瓶頸問題應該如何突破?數(shù)據(jù)智能新范式又是什么樣的呢?

近日 InfoQ《極客有約》X QCon 直播欄目特別邀請了大數(shù)據(jù)技術領域的資深專家趙健博擔任主持人,和北銀金科大數(shù)據(jù)開發(fā)部總經(jīng)理助理李俊焱融科技 CTO張文濤、數(shù)勢科技 AI 負責人李飛一起Qcon 全球軟件開發(fā)大會2025 北京站即將召開之際,共同探討 AI 算力瓶頸如何破局。

部分精彩觀點如下:

  • 大模型的出現(xiàn),讓人和機器之間的交互界面逐漸消失,并使得 AI 應用呈現(xiàn)井噴式增長。

  • 固定的計算任務適合下沉到存儲層,而對于更復雜通用的計算任務,下沉可能會帶來復雜性和穩(wěn)定性問題。

  • AI 訓練中的存儲需求需要實現(xiàn)的目標是,高吞吐和低延遲的數(shù)據(jù)訪問,同時確保 GPU 的算力得到充分利用。

  • 分布式存儲在架構設計上更靈活,而集中存儲在不同知識庫之間數(shù)據(jù)共享更便捷。

  • AI 的到來是為了提升我們的工作效率,而不是取代人。

在 4 月 10-12 日將于北京舉辦的 Qcon 全球軟件開發(fā)大會 上,我們特別設置了【AI 引領數(shù)據(jù)分析進化】專題。該專題將探討 AI 賦能大數(shù)據(jù)分析與決策的核心技術,以及各行業(yè)領先企業(yè)的創(chuàng)新實踐。期待聽眾能夠洞悉 AI 在數(shù)據(jù)分析領域的前沿動態(tài),并將這些新技術化為推動自身企業(yè)發(fā)展的強大助力。
查看大會日程解鎖更多精彩內(nèi)容:https://qcon.infoq.cn/2025/beijing/track

以下內(nèi)容基于直播速記整理,經(jīng) InfoQ 刪減。

趙健博:AI 賦能的數(shù)據(jù)分析在多個領域不斷取得突破。那么,AI 給哪些具體場景下帶來了變化,以及 AI 究竟是如何實現(xiàn)這些變革的呢?它又為我們帶來了哪些新的機遇和挑戰(zhàn)?

李?。?/strong>隨著人工智能,尤其是今年以來 DeepSeek 技術的發(fā)展,銀行從業(yè)者的工作效率和能力得到了顯著提升。首先是信貸審批,利用大模型撰寫盡調(diào)報告,節(jié)省了至少 30% 的人工時間。其次是智能客服,通過大模型生成對話話術并結合情感分析,優(yōu)化客戶體驗。第三是在合同審查,AI 自動識別合同條款,結合外部數(shù)據(jù)防范信貸風險,提升了 20% 以上的預警響應速度。最后是數(shù)據(jù)分析,我們推出了水晶球 Chat BI 工具,與指標引擎結合,降低了數(shù)據(jù)分析門檻,讓每個人都能輕松使用。

然而,我們也面臨一些挑戰(zhàn)。首先是數(shù)據(jù)安全,大模型可能繞過權限,訪問敏感數(shù)據(jù)。其次是大模型的“幻覺”問題,生成虛假信息可能導致用戶信任危機。最后是人才轉型的壓力,需要培養(yǎng)既懂業(yè)務又懂 AI 的復合型人才,同時幫助傳統(tǒng)員工適應新技術。

張文濤:第一個是自動駕駛,尤其是在 2022 年,自動駕駛技術蓬勃發(fā)展,AI 在其中的應用逐漸成熟。到了 2023 年和 2024 年,許多自動駕駛車型已經(jīng)變得相對成熟,效果也越來越好。另一個是私募量化,這個行業(yè)對 AI 的應用非常廣泛,特別是通過 AI 根據(jù)特定算法進行訓練和模擬交易。其效果已逐漸顯現(xiàn),許多股民在這個過程中被“割了韭菜”,這正是 AI 在小型量化投資領域的體現(xiàn)。

從存儲的角度來看,這兩個行業(yè)的挑戰(zhàn)在于對算法和數(shù)據(jù)的高要求,特別是數(shù)據(jù)質量。在私募量化領域,歷史數(shù)據(jù)至關重要,只有通過高質量的歷史數(shù)據(jù),才能進行模擬分析并預測未來市場趨勢。因此,如何處理原始數(shù)據(jù)并從中提取有效因子,成為關鍵。最終,AI 模型的訓練對存儲提出了更高要求。

李飛:前段時間,谷歌剛開源了 AlexNet 的代碼,我相信大部分人其實都挺有感慨的,因為 AlexNex 對深度學習的發(fā)展具有里程碑意義。其實,深度學習很早就被提出來了,但直到 2006 年,通過反向傳播算法的提出,才逐漸讓落地成為可能性。在大模型出現(xiàn)之前,AI 雖然發(fā)展迅速,但多聚焦于小場景應用,如自然語言處理使用 RNN、LSTM,圖像識別用 CNN 等。然而,AI 的泛化能力一直未得到充分保障,也缺乏與人類最自然的交互方式。

大模型的出現(xiàn),讓人和機器之間的交互障礙逐漸消失,變得更加自然和流暢,并使得 AI 應用呈現(xiàn)井噴式增長。交互界面的簡化降低了理解和使用成本,極大擴展了應用場景。近兩年,AI 在編程和分析等領域的應用廣泛,尤其是 AI 編程,它降低了用戶寫代碼的門檻,可以通過自然語言生成代碼,減少了人與機器之間的復雜交互。智能分析作為一個高門檻的應用,過去我們需要用 Excel 或專業(yè)軟件進行數(shù)據(jù)分析,技術要求較高,但現(xiàn)在,借助 AI,只需簡單的指令就能完成復雜的任務。這將大大降低分析的門檻,使得更多人能夠輕松完成高階分析任務。

趙健博:傳統(tǒng)的數(shù)據(jù)預處理通常在計算層完成,但隨著分布式存儲技術的發(fā)展,越來越多的聲音開始探討將數(shù)據(jù)預處理下沉到存儲層的可能性。那么,這種做法究竟是性能提升的捷徑,還是架構復雜性的陷阱呢?

李飛:將數(shù)據(jù)預處理和計算下放到存儲層,實際上是實現(xiàn)存算一體化或者說存算協(xié)同。傳統(tǒng)模式下,數(shù)據(jù)需要從存儲層傳輸?shù)接嬎銓?,然后進行處理,這會涉及大量的網(wǎng)絡 I/O、序列化和反序列化操作。如果計算下放到存儲層,數(shù)據(jù)移動的開銷將大大減少。存儲層本身具備分布式特性,能夠增強并行處理能力,例如通過分片策略實現(xiàn)并行預處理,從而提升性能。此外,新型存儲系統(tǒng)和硬件,如全閃存分布式存儲,能夠提供較高帶寬,進一步加速計算過程。

但也有弊端,首先,存儲層同時承擔存取和計算任務,可能導致資源競爭,如何設計有效的路由和調(diào)度策略是一個挑戰(zhàn)。其次,數(shù)據(jù)一致性問題。存儲層缺乏像傳統(tǒng)計算層中的容錯機制,可能導致數(shù)據(jù)丟失或重復,這對分布式事務處理構成挑戰(zhàn)。此外,將計算和存儲能力下放到同一層,可能會增加開發(fā)和運維的復雜度和成本。

所以,必須根據(jù)場景進行權衡。例如,在 AI 高頻場景中,像 KB 緩存管理等,存儲層能夠直接過濾無效數(shù)據(jù),減輕計算層負擔。此外,對于實時性要求較高的場景,比如銀行的交易數(shù)據(jù)預處理,存算一體化也是一種有效的解決方案。對于結果一致性要求極高的場景,或是涉及復雜計算任務的場景,如多表關聯(lián)和 ETL 等,存儲層的計算能力可能無法滿足需求。這類場景下,我們應根據(jù)具體需求謹慎選擇是否下放計算到存儲層。

李?。?/strong>將數(shù)據(jù)預處理下放到存儲層,可以提高性能,但也會帶來架構上的復雜性挑戰(zhàn)。首先,這種方式可以在數(shù)據(jù)讀取時直接獲取預處理后的數(shù)據(jù),減少傳輸?shù)綉脤踊蛴嬎銓拥难舆t,是一種“以空間換時間”的方法。例如,在進行多維分析時,可能采用這種技術。

然而,這也增加了系統(tǒng)設計的復雜性,尤其是在硬件和數(shù)據(jù)鏈路設計方面。數(shù)據(jù)預處理下沉到存儲層要求系統(tǒng)具備強大的計算能力,并支持預處理操作。同時,數(shù)據(jù)鏈路需要加入處理調(diào)度、校驗、備份和恢復機制,這對系統(tǒng)設計提出了更高要求。

適合下沉存儲層的數(shù)據(jù)預處理的場景需要靈活處理和優(yōu)化的數(shù)據(jù)分析,尤其是多維分析和熱點數(shù)據(jù)訪問。例如,使用維度減少技術處理頻繁訪問的熱點數(shù)據(jù)。在這些場景下,存儲層處理可以有效提高效率。

張文濤:將存儲分為專有存儲和通用存儲兩類,對于專有存儲,卸載計算任務到存儲層是可行的,在提升性能的同時還不會增加架構復雜度。在專有存儲中,我們可以構建極簡架構,專注于 AI 訓練和推理的存儲功能。DeepSeek 開源的 3FS 就是一個典型的專有存儲案例。

然而,如果是面向通用存儲的廠商,比如我們這樣的第三方存儲公司,情況就不同了。我們服務的用戶涉及多種業(yè)務,不僅限于某一特定業(yè)務。此時將計算下沉到存儲層會增加架構復雜度,因為存儲協(xié)議通常是通用的,我們需要在專有協(xié)議和通用協(xié)議之間找到平衡。

此外,存儲中的計算資源原本是為了應對峰值負載而預留的。如果將計算任務卸載到存儲層,可能會影響存儲性能。不過,解決方案也是存在的。比如,存儲設備可以將計算任務轉移到硬件中處理,如通過讀卡或專用的計算單元(DPU)來加速計算。盡管如此,如果存儲廠商不做這些工作,其他廠商就會先行一步,可能會形成行業(yè)壁壘。

因此,我們在設計架構時,必須謹慎考慮如何解耦專有計算能力。雖然不可能一個存儲架構解決所有問題,但我們必須在架構設計上做出選擇,這些選擇通常是為了實現(xiàn)戰(zhàn)略目標而做出的妥協(xié)。因此,是否進行計算下沉,如何選擇架構設計,最終取決于用戶的戰(zhàn)略方向。

趙健博:技術設計的最終決定往往依賴于業(yè)務需求發(fā)展的方向。關于計算下沉的技術已經(jīng)提出一段時間了,并非特別新的概念。在大數(shù)據(jù)實時處理業(yè)務中,通常是從 Kafka 中獲取數(shù)據(jù)進行處理,然而受限于 kafka 的行存儲模式,在某些場景中不得不在客戶端進行過濾,這不僅浪費計資源還帶來了延遲的代價,所以針對這樣的場景,計算(過濾)下沉到 kafka 通常是比較好的選擇。

從通用方面看,我認為一些固定的計算任務,如壓縮、加密、過濾等,適合下沉到存儲層處理。而對于更復雜、更通用的計算,通常還是保持在計算層比較合適。此外,計算下沉到存儲層,但還可能會帶來穩(wěn)定性問題。例如,大規(guī)模的數(shù)據(jù)掃描如果下沉到存儲層,可能會導致存儲服務節(jié)點過載;而同樣的作業(yè)在計算層,可以做到隔離,且隨時可以取消任務,這樣可以更靈活地進行控制。

趙健博:在深度學習領域中,數(shù)據(jù)是基礎,算力是引擎。訓練一個模型需要大量的數(shù)據(jù)和算力,并且需要反復迭代和驗證才能得到想要的模型。為了提升訓練效率,縮短訓練時間,所有組件之間都需要快速響應,這其中就包括了計算和存儲之間的交互。對于一個 AI 系統(tǒng)而言,模型的能力隨著模型尺寸和訓練數(shù)據(jù)的增加而顯著提升,但隨著數(shù)據(jù)集和模型規(guī)模不斷增加,訓練任務加載訓練數(shù)據(jù)所消耗的時間越來越長,進而影響了訓練效率,緩慢的 IO 嚴重拖累了 GPU 的強大算力。那么,在這樣的背景下,大模型訓練場景對分布式存儲提出了哪些新的性能挑戰(zhàn)?

張文濤:在多模態(tài)場景下,文件的數(shù)量急劇增加,面臨的挑戰(zhàn)主要是存儲系統(tǒng)能否容納如此大量的文件。因此,存儲的訪問性能也是一個挑戰(zhàn),尤其是當文件較小時,數(shù)據(jù)訪問的開銷會顯著增加。第二種挑戰(zhàn)是數(shù)據(jù)集的隨機訪問。數(shù)據(jù)集的訪問通常是隨機的,且需要讀取整個數(shù)據(jù)集,這種訪問方式打破了緩存,導致緩存效率低下。

第三個挑戰(zhàn)是 checkpoint 操作。每隔一段時間,訓練模型會進行 checkpoint 保存,這個過程涉及同步寫操作,GPU 會暫停,直到寫入完成。這會增加存儲的開銷,并導致 GPU 空閑時間過長,降低計算效率。盡管異步寫操作能在一定程度上解決這個問題,但依然是存儲的挑戰(zhàn)。

還有計算節(jié)點方面,數(shù)據(jù)通常從 GPU 顯存?zhèn)鬏數(shù)?CPU 內(nèi)存,再到存儲,這個數(shù)據(jù)鏈路在數(shù)據(jù)量較小的情況下,內(nèi)存拷貝問題不會凸顯,但數(shù)據(jù)量較大時,內(nèi)存拷貝的開銷非常明顯,成為性能瓶頸。當單節(jié)點的數(shù)據(jù)需求很大時,例如每秒傳輸 80GB 或 150GB 數(shù)據(jù),內(nèi)存帶寬的限制會非常明顯。此外,大數(shù)據(jù)集的訪問容易導致緩存擊穿,緩存失效時,延遲會急劇增加,影響性能。

最后是網(wǎng)絡層面。傳統(tǒng)以太網(wǎng)的延遲較高,相比于 RDMA 網(wǎng)絡,延遲可能大兩到三倍。由于計算集群的規(guī)模通常大于存儲集群,計算節(jié)點可能同時向多個存儲節(jié)點請求數(shù)據(jù),這種情況可能會導致網(wǎng)絡擁塞,尤其是在高速無損網(wǎng)絡環(huán)境下,這個問題更加明顯。

李?。?/strong>金融行業(yè),在構建知識庫時面臨類似的取舍問題。分布式存儲雖然在架構設計上更靈活,但確實也面臨性能上的挑戰(zhàn)。而集中存儲的優(yōu)勢在于不同知識庫之間數(shù)據(jù)共享更便捷。如何在這兩者之間找到平衡,是我們面臨的一個難題。

零售數(shù)據(jù)訓練時,我們會處理 PB 級別的數(shù)據(jù)集。數(shù)據(jù)讀取的吞吐量要求非常高,因此分布式存儲系統(tǒng)必須進行橫向擴展,通過多節(jié)點來提升帶寬。在大規(guī)模的分布式訓練中,數(shù)百甚至數(shù)千個計算節(jié)點可能同時訪問存儲系統(tǒng),這會極大增加源數(shù)據(jù)服務的壓力。面對高并發(fā),我們需要將源數(shù)據(jù)服務進行分布式化,避免單點瓶頸。

此外,訓練數(shù)據(jù)通常包含大量的小文件,如文本、圖片等樣本數(shù)據(jù)。傳統(tǒng)的分布式文件系統(tǒng)在處理小文件的讀寫時效率較低,因此我們需要對這些小文件進行合并處理,將其轉化為較大的對象。這一過程帶來了額外的工作負擔,進一步增加了性能挑戰(zhàn)。

李飛:大模型訓練的特性對訓練數(shù)據(jù),尤其是海量數(shù)據(jù),有著高要求?,F(xiàn)在的大模型多采用自回歸的網(wǎng)絡結構,這對海量數(shù)據(jù)集有頻繁的順序讀取需求。盡管單次讀取的數(shù)據(jù)量較大,但在千卡或萬卡集群規(guī)模下,集群擴大將增加對 IOPS(每秒輸入輸出操作)的需求。

在大模型訓練中,checkpoint 保存是必須的,它可以在訓練出錯時進行回滾,確保模型的持續(xù)訓練。這一過程需要顯存到存儲系統(tǒng)的高帶寬寫入。特別是現(xiàn)在模型的參數(shù)量越來越大,甚至達到萬億級別,對存儲系統(tǒng)的寫緩存容量和吞吐量提出了更高要求。如果存儲系統(tǒng)無法提供足夠的提升,可能會導致訓練時間延長,從而增加訓練中斷的時間。

在推理階段,我們需要高效地將模型分發(fā)到 GPU 資源池。這要求存儲系統(tǒng)具有較強的高讀取緩存能力,并且網(wǎng)絡帶寬的性能要求也相對較高。為了優(yōu)化這一過程,可以采用顯存、內(nèi)存和存儲的分層緩存策略,減少數(shù)據(jù)訪問延遲,提高推理效率。

趙健博:針對 AI 訓練中的存儲需求,我認為需要實現(xiàn)的目標是高吞吐和低延遲的數(shù)據(jù)訪問,同時確保 GPU 的算力得到充分利用。GPU 算力停頓的幾個問題點如下:首先,在模型訓練中,checkpoint 的保存過程會導致計算停頓,直接影響 GPU 算力的釋放時間。其次,訓練過程中涉及大量小文件的加載,頻繁且大規(guī)模小文件訪問會導致 IO 路徑上出現(xiàn)瓶頸,導致計算停頓。第三,訓練過程中還會有大量的網(wǎng)絡交互,特別是在訓練作業(yè)進行參數(shù)同步時,網(wǎng)絡的 IO 瓶頸也會導致計算停頓。因此,如何從這些問題入手,解決瓶頸,優(yōu)化存儲系統(tǒng)的整體性能,是我們面臨的核心挑戰(zhàn)。

趙健博:大模型訓練需要大量的數(shù)據(jù)和強大的算力,而存儲系統(tǒng)在其中扮演著至關重要的角色。隨著數(shù)據(jù)集和模型規(guī)模的不斷增加,訓練任務加載訓練數(shù)據(jù)所消耗的時間越來越長,進而影響了訓練效率。那么,如何優(yōu)化計算和存儲之間的交互,以提升訓練效率和縮短訓練時間呢?

李?。?/strong>第一,利用分布式存儲系統(tǒng)。通過將數(shù)據(jù)分布在多個節(jié)點上,這種系統(tǒng)能夠提供高并發(fā)、高存儲量的訪問,同時具備數(shù)據(jù)冗余和容錯能力,從而增強系統(tǒng)的可靠性。第二,采用數(shù)據(jù)預取技術。這基于大模型訓練的數(shù)據(jù)訪問模式,通過智能預測算法,提前加載數(shù)據(jù),減少 IO 等待時間。第三,采用數(shù)據(jù)并行和模型并行。在大模型訓練中,我們將訓練數(shù)據(jù)和模型分布到不同的計算節(jié)點,實現(xiàn)數(shù)據(jù)和模型的并行。這不僅提升計算效率,還優(yōu)化存儲交互,從而減輕單個節(jié)點的存儲壓力。

李飛:對于 AI,特別是算法來說,訓練數(shù)據(jù)的預處理非常關鍵。例如,將訓練數(shù)據(jù)轉換為像 TF record 這樣的格式,是為了將多個小文件聚合成一個大的順序文件。這樣做的目的是優(yōu)化數(shù)據(jù)的讀取方式,將隨機讀取轉化為順序讀取,從而減輕存儲系統(tǒng)的壓力。

另外,通過多節(jié)點并行寫入大模型文件,如 checkpoint 數(shù)據(jù)。清華大學和華為合作開發(fā)的高性能存儲系統(tǒng)大大降低了 checkpoint 的寫入時間,從小時級縮短到了分鐘級。這一優(yōu)化在大模型訓練過程中,對存儲與計算之間的交互起到了重要作用,有助于提高訓練效率。

張文濤:計算和存儲之間的交互本質上是從 A 到 B 的數(shù)據(jù)傳輸,關鍵在于數(shù)據(jù)傳輸?shù)乃俣仁欠褡銐蚩?。從存儲角度看,網(wǎng)絡必須是高速網(wǎng)絡。如果網(wǎng)絡本身存在瓶頸,那么無論如何優(yōu)化效果也會受限。目前一般采用 200G 或 400G 的 InfiniBand 網(wǎng)絡,或 RoCE 網(wǎng)絡,確保網(wǎng)絡層面的高速傳輸。

此外,還需要提升存儲集群的整體性能,可以通過兩種方式實現(xiàn):第一是橫向擴展(scale-out),通過擴大集群規(guī)模,提供更多的性能。第二是提升單節(jié)點的吞吐量和 IOPS(每秒操作數(shù))。例如,使用高速磁盤(如 NVMe)代替 SATA 或 HDD,以提供更高帶寬,減少性能瓶頸。節(jié)點帶寬也非常關鍵,使用多網(wǎng)卡配置(如兩張 400G 網(wǎng)卡)可以大幅提升帶寬,從而提升數(shù)據(jù)傳輸效率。此外,避免跨 NUMA(非統(tǒng)一內(nèi)存訪問)訪問內(nèi)存,優(yōu)化內(nèi)存和存儲之間的數(shù)據(jù)傳輸,也是提升性能的重要措施。軟件層面,我們需要優(yōu)化路由策略,采用并行方式減少串行寫入時間。此外,異步隊列和協(xié)程的應用也能有效減少存儲系統(tǒng)的負載。

從業(yè)務角度來看,主要是元數(shù)據(jù)的壓力。訪問小文件時,需要先查詢元數(shù)據(jù),再打開文件,且訪問完后還需關閉。這些操作消耗了大量時間,因此小文件聚合(如 TFRecord)可以減少元數(shù)據(jù)訪問,提高效率。英偉達推出的 GPU Direct Storage(GDS)技術,通過繞過 CPU 內(nèi)存來減少內(nèi)存拷貝,提高數(shù)據(jù)訪問的穩(wěn)定性和效率。業(yè)務上,還可以通過批量發(fā)送 IO 請求減少網(wǎng)絡連接的負擔,提高存儲系統(tǒng)處理能力。

對于 Checkpoint 的優(yōu)化,異步是一個重要方向。例如,先將數(shù)據(jù)寫入 CPU 內(nèi)存,再異步寫入后端存儲,減少 GPU 的阻塞時間。最后,數(shù)據(jù)預讀技術也能有效優(yōu)化 IO 性能。通過預測訪問數(shù)據(jù)并提前加載,后續(xù)訪問轉化為內(nèi)存訪問,從而顯著提升整體性能。

趙健博:AI 時代的到來對數(shù)據(jù)工程師提出了更高的要求。傳統(tǒng)的數(shù)據(jù)處理和分析技能已經(jīng)不足以應對當前的復雜需求。那么,AI 時代的數(shù)據(jù)工程師需要哪些新技能?

李飛:我們常說“AI for data”和“data for AI”。前者是通過 AI 來生產(chǎn)或者清洗數(shù)據(jù),后者則是將數(shù)據(jù)與 AI 結合,推動數(shù)據(jù)分析的發(fā)展。從 AI 開發(fā)者的角度來看,“AI for data”可以為數(shù)據(jù)工程師提供技能支持。例如,傳統(tǒng)的數(shù)據(jù)工程師經(jīng)常進行數(shù)據(jù)清洗、ETL(數(shù)據(jù)提取、轉換和加載)和數(shù)據(jù)建模等工作。過去,數(shù)據(jù)開發(fā)者可能需要通過統(tǒng)計模型來實現(xiàn)這些工作,而現(xiàn)在,大模型可以大大提升在代碼能力和數(shù)學能力方面的表現(xiàn),幫助快速發(fā)現(xiàn)數(shù)據(jù)中的問題,數(shù)據(jù)工程師可以利用大模型來提高數(shù)據(jù)清洗的效率。

此外,大模型也能幫助數(shù)據(jù)建模,特別是在表與表之間的關聯(lián)建模上。傳統(tǒng)上,數(shù)據(jù)工程師需要通過深入了解企業(yè)業(yè)務場景來建立這些關系,而大模型可以通過技術手段識別潛在的表關聯(lián),并初步推薦建模思路。這種方式能大大提升工作效率,讓數(shù)據(jù)工程師能夠集中精力處理更復雜的建模和數(shù)據(jù)治理任務。隨著大模型在數(shù)學和編碼能力上的增強,我們的數(shù)據(jù)開發(fā)者也需要具備相關的思維和技能,更好地將大模型應用于日常工作,從而實現(xiàn)降本增效。

張文濤:對于我們從事 IT 行業(yè)的程序員來說,每個人都應該擁抱 AI,擁抱 AI 意味著充分利用其能力來輔助編程。如果我們不擁抱 AI、不借助 AI 進行輔助編程,那么我們的效率提升將會有限,團隊可能會落后。因此,我們要求團隊成員都應當使用 AI 來提升工作效率。當我們簡化了工作流程后,我們可以將更多時間投入到業(yè)務學習和理解上。

我認為大模型未來將成為像操作系統(tǒng)一樣的基礎設施,每個人都應了解大模型的基本原理,因為我們將基于這一基礎設施進行業(yè)務開發(fā)。我們不僅要知道如何使用它,還需要了解其背后的原理,這是我對未來發(fā)展的看法。

李?。?/strong>AI 時代的到來,使得數(shù)據(jù)的使用更加方便,特別是對于業(yè)務人員。比如我們公司得 Chat BI,它通過對話方式讓用戶直接提取數(shù)據(jù)并通過圖表展示趨勢和占比。傳統(tǒng)的數(shù)據(jù)工程師需要寫 SQL、調(diào)度任務和使用 BI 工具來配報表,而 AI 時代的到來讓這一切都簡化了。

AI 的到來是為了提升我們的工作效率,而不是取代人。雖然 AI 簡化了許多工作,數(shù)據(jù)工程師并不會被取代,但他們需要轉型。首先,數(shù)據(jù)工程師必須在數(shù)據(jù)和業(yè)務之間架起橋梁,既要懂數(shù)據(jù),也要懂業(yè)務。其次,數(shù)據(jù)建模能力依然重要,特別是在業(yè)務需求的基礎上進行模型設計,AI 短期內(nèi)仍難以取代這一部分。

其次,隨著 AI 的普及,數(shù)據(jù)標注的需求大幅增加。尤其是在非結構化或半結構化數(shù)據(jù)的處理上,像風險分析中的客戶畫像數(shù)據(jù),經(jīng)常是 PDF 或 Excel 文件,需要數(shù)據(jù)標注師從中提取標簽。數(shù)據(jù)工程師需要使用專業(yè)工具,標準化流程,確保標注的一致性和質量,這也是數(shù)據(jù)治理的一部分。

第三,數(shù)據(jù)工程師需要理解算法并與算法團隊緊密協(xié)作,數(shù)據(jù)工程師與算法工程師需要充分理解對方的工作,并共同推動項目進展。AI 時代要求數(shù)據(jù)工程師不僅僅具備數(shù)據(jù)處理能力,還要能理解和支持算法的實施。第四,AI 時代的到來帶來了數(shù)據(jù)權限和安全管理的新挑戰(zhàn),數(shù)據(jù)訪問需要嚴格的權限隔離,確保不同層級用戶只能訪問相關數(shù)據(jù)。因此,數(shù)據(jù)權限管理和安全問題需要我們在 AI 應用中進一步解決。

最后,未來會使用 AI 的人將會勝過那些不使用 AI 的人。因此,數(shù)據(jù)工程師需要更多地利用低代碼或無代碼工具,以更高效地滿足業(yè)務需求,快速實現(xiàn)業(yè)務目標。

趙健博:AI 時代的到來確實給每個工程師帶來了很大的變化,無論是數(shù)據(jù)工程師還是其他工程師,都必須懂 AI,會用 AI,并將 AI 技術應用到工作中。雖然 AI 提高了工作效率,人的產(chǎn)出能力將得到提升,但要創(chuàng)造更高的價值,仍然需要對業(yè)務有深刻的理解。只有理解業(yè)務,具備業(yè)務洞察力和決策能力,才能真正做出有價值的工作。

從數(shù)據(jù)工程師或數(shù)據(jù)分析師的角度來看,工作重點也會發(fā)生變化。過去,我們更多關注解釋發(fā)生了什么、進行歸因分析,而未來,數(shù)據(jù)工程師與數(shù)據(jù)分析師將需要通過預測未來的趨勢,輔助業(yè)務做出決策,形成完整的業(yè)務決策閉環(huán)。這個轉變是數(shù)據(jù)工程師與數(shù)據(jù)分析師未來需要適應和發(fā)展的方向。

趙健博:在大數(shù)據(jù)分析中,非結構化數(shù)據(jù)如評論、日志等占據(jù)了數(shù)據(jù)的絕大部分。這些數(shù)據(jù)蘊含著豐富的信息,但傳統(tǒng)的分析方法往往難以高效挖掘其價值。那么,大模型技術如何幫助我們提升非結構化數(shù)據(jù)的挖掘與分析效率?

李飛:AI 大模型給我們帶來的是一種信息分發(fā)的新范式,這個信息包括結構化、非結構化的數(shù)據(jù),以及從歷史數(shù)據(jù)中提取的“know-how”知識,大模型的作用在于能夠將這些知識進行有效分發(fā)。與過去的搜索引擎和推薦系統(tǒng)不同,大模型通過主動推送信息和工具,幫助我們更高效地獲取所需的內(nèi)容。因此,信息和知識的分發(fā)已成為 AI 的核心價值之一。

在提升非結構化信息處理效率方面,已有許多技術應用,如 RAG 和視頻推薦等。然而,RAG 的實際應用盡管初步落地比較簡單,但要做好卻非常困難。RAG 的核心技術包括召回、增強生成、排序等技巧,但當處理企業(yè)內(nèi)部復雜的、碎片化的信息時,會導致技術難度大大增加。企業(yè)內(nèi)部的文檔可能包含多種形式的數(shù)據(jù),如 PDF 文件中的圖像和表格。

此外,如何高效地索引文檔、去除冗余信息,并確保大模型在生成回答時不受到過多冗余信息的干擾,也是技術上的難題。即使使用現(xiàn)有的組件平臺或開源工具,也不能簡單地完成企業(yè)內(nèi)部所有非結構化信息的挖掘工作。此外,語音、文本和圖像的處理單獨進行相對簡單,但如何將不同模態(tài)的數(shù)據(jù)進行有效串聯(lián)并進行聯(lián)動分析,以滿足用戶的需求,這是非常復雜的。做得好并不容易,尤其是在將 80 分提升到 95 分時,技術細節(jié)和優(yōu)化過程是非常復雜的。

會議推薦

在 AI 大模型重塑軟件開發(fā)的時代,我們?nèi)绾伟盐兆兏铮咳绾瓮黄萍夹g邊界?4 月 10-12 日,QCon 全球軟件開發(fā)大會· 北京站 邀你共赴 3 天沉浸式學習之約,跳出「技術繭房」,探索前沿科技的無限可能。

本次大會將匯聚頂尖技術專家、創(chuàng)新實踐者,共同探討多行業(yè) AI 落地應用,分享一手實踐經(jīng)驗,深度參與 DeepSeek 主題圓桌,洞見未來趨勢。