国产三p在线观看,国产精品香蕉视频网,亚洲国产精品片,有码中文字幕a,久久99国产一区二区

作者 | QCon 全球軟件開發(fā)大會

策劃 | Kitty

編輯 | 宇琪

大數(shù)據(jù)技術的飛速發(fā)展，揭開了基于海量數(shù)據(jù)實現(xiàn)深度分析與科學決策的新篇章，而以大語言模型為代表的人工智能技術的崛起，正以前所未有的速度推動大數(shù)據(jù)分析變得更具洞察力。那么，大模型訓練中數(shù)據(jù)存儲 IO 的瓶頸問題應該如何突破？數(shù)據(jù)智能新范式又是什么樣的呢？

近日 InfoQ《極客有約》X QCon 直播欄目特別邀請了大數(shù)據(jù)技術領域的資深專家趙健博擔任主持人，和北銀金科大數(shù)據(jù)開發(fā)部總經(jīng)理助理李俊、焱融科技 CTO張文濤、數(shù)勢科技 AI 負責人李飛一起，在Qcon 全球軟件開發(fā)大會2025 北京站即將召開之際，共同探討 AI 算力瓶頸如何破局。

部分精彩觀點如下：

大模型的出現(xiàn)，讓人和機器之間的交互界面逐漸消失，并使得 AI 應用呈現(xiàn)井噴式增長。
固定的計算任務適合下沉到存儲層，而對于更復雜通用的計算任務，下沉可能會帶來復雜性和穩(wěn)定性問題。
AI 訓練中的存儲需求需要實現(xiàn)的目標是，高吞吐和低延遲的數(shù)據(jù)訪問，同時確保 GPU 的算力得到充分利用。
分布式存儲在架構設計上更靈活，而集中存儲在不同知識庫之間數(shù)據(jù)共享更便捷。
AI 的到來是為了提升我們的工作效率，而不是取代人。

在 4 月 10-12 日將于北京舉辦的 Qcon 全球軟件開發(fā)大會上，我們特別設置了【AI 引領數(shù)據(jù)分析進化】專題。該專題將探討 AI 賦能大數(shù)據(jù)分析與決策的核心技術，以及各行業(yè)領先企業(yè)的創(chuàng)新實踐。期待聽眾能夠洞悉 AI 在數(shù)據(jù)分析領域的前沿動態(tài)，并將這些新技術化為推動自身企業(yè)發(fā)展的強大助力。
查看大會日程解鎖更多精彩內(nèi)容：https://qcon.infoq.cn/2025/beijing/track

以下內(nèi)容基于直播速記整理，經(jīng) InfoQ 刪減。

趙健博：AI 賦能的數(shù)據(jù)分析在多個領域不斷取得突破。那么，AI 給哪些具體場景下帶來了變化，以及 AI 究竟是如何實現(xiàn)這些變革的呢？它又為我們帶來了哪些新的機遇和挑戰(zhàn)？

李?。?/strong>隨著人工智能，尤其是今年以來 DeepSeek 技術的發(fā)展，銀行從業(yè)者的工作效率和能力得到了顯著提升。首先是信貸審批，利用大模型撰寫盡調(diào)報告，節(jié)省了至少 30% 的人工時間。其次是智能客服，通過大模型生成對話話術并結合情感分析，優(yōu)化客戶體驗。第三是在合同審查，AI 自動識別合同條款，結合外部數(shù)據(jù)防范信貸風險，提升了 20% 以上的預警響應速度。最后是數(shù)據(jù)分析，我們推出了水晶球 Chat BI 工具，與指標引擎結合，降低了數(shù)據(jù)分析門檻，讓每個人都能輕松使用。

然而，我們也面臨一些挑戰(zhàn)。首先是數(shù)據(jù)安全，大模型可能繞過權限，訪問敏感數(shù)據(jù)。其次是大模型的“幻覺”問題，生成虛假信息可能導致用戶信任危機。最后是人才轉型的壓力，需要培養(yǎng)既懂業(yè)務又懂 AI 的復合型人才，同時幫助傳統(tǒng)員工適應新技術。

張文濤：第一個是自動駕駛，尤其是在 2022 年，自動駕駛技術蓬勃發(fā)展，AI 在其中的應用逐漸成熟。到了 2023 年和 2024 年，許多自動駕駛車型已經(jīng)變得相對成熟，效果也越來越好。另一個是私募量化，這個行業(yè)對 AI 的應用非常廣泛，特別是通過 AI 根據(jù)特定算法進行訓練和模擬交易。其效果已逐漸顯現(xiàn)，許多股民在這個過程中被“割了韭菜”，這正是 AI 在小型量化投資領域的體現(xiàn)。

從存儲的角度來看，這兩個行業(yè)的挑戰(zhàn)在于對算法和數(shù)據(jù)的高要求，特別是數(shù)據(jù)質量。在私募量化領域，歷史數(shù)據(jù)至關重要，只有通過高質量的歷史數(shù)據(jù)，才能進行模擬分析并預測未來市場趨勢。因此，如何處理原始數(shù)據(jù)并從中提取有效因子，成為關鍵。最終，AI 模型的訓練對存儲提出了更高要求。

李飛：前段時間，谷歌剛開源了 AlexNet 的代碼，我相信大部分人其實都挺有感慨的，因為 AlexNex 對深度學習的發(fā)展具有里程碑意義。其實，深度學習很早就被提出來了，但直到 2006 年，通過反向傳播算法的提出，才逐漸讓落地成為可能性。在大模型出現(xiàn)之前，AI 雖然發(fā)展迅速，但多聚焦于小場景應用，如自然語言處理使用 RNN、LSTM，圖像識別用 CNN 等。然而，AI 的泛化能力一直未得到充分保障，也缺乏與人類最自然的交互方式。

大模型的出現(xiàn)，讓人和機器之間的交互障礙逐漸消失，變得更加自然和流暢，并使得 AI 應用呈現(xiàn)井噴式增長。交互界面的簡化降低了理解和使用成本，極大擴展了應用場景。近兩年，AI 在編程和分析等領域的應用廣泛，尤其是 AI 編程，它降低了用戶寫代碼的門檻，可以通過自然語言生成代碼，減少了人與機器之間的復雜交互。智能分析作為一個高門檻的應用，過去我們需要用 Excel 或專業(yè)軟件進行數(shù)據(jù)分析，技術要求較高，但現(xiàn)在，借助 AI，只需簡單的指令就能完成復雜的任務。這將大大降低分析的門檻，使得更多人能夠輕松完成高階分析任務。

趙健博：傳統(tǒng)的數(shù)據(jù)預處理通常在計算層完成，但隨著分布式存儲技術的發(fā)展，越來越多的聲音開始探討將數(shù)據(jù)預處理下沉到存儲層的可能性。那么，這種做法究竟是性能提升的捷徑，還是架構復雜性的陷阱呢？

李飛：將數(shù)據(jù)預處理和計算下放到存儲層，實際上是實現(xiàn)存算一體化或者說存算協(xié)同。傳統(tǒng)模式下，數(shù)據(jù)需要從存儲層傳輸?shù)接嬎銓?，然后進行處理，這會涉及大量的網(wǎng)絡 I/O、序列化和反序列化操作。如果計算下放到存儲層，數(shù)據(jù)移動的開銷將大大減少。存儲層本身具備分布式特性，能夠增強并行處理能力，例如通過分片策略實現(xiàn)并行預處理，從而提升性能。此外，新型存儲系統(tǒng)和硬件，如全閃存分布式存儲，能夠提供較高帶寬，進一步加速計算過程。

但也有弊端，首先，存儲層同時承擔存取和計算任務，可能導致資源競爭，如何設計有效的路由和調(diào)度策略是一個挑戰(zhàn)。其次，數(shù)據(jù)一致性問題。存儲層缺乏像傳統(tǒng)計算層中的容錯機制，可能導致數(shù)據(jù)丟失或重復，這對分布式事務處理構成挑戰(zhàn)。此外，將計算和存儲能力下放到同一層，可能會增加開發(fā)和運維的復雜度和成本。

所以，必須根據(jù)場景進行權衡。例如，在 AI 高頻場景中，像 KB 緩存管理等，存儲層能夠直接過濾無效數(shù)據(jù)，減輕計算層負擔。此外，對于實時性要求較高的場景，比如銀行的交易數(shù)據(jù)預處理，存算一體化也是一種有效的解決方案。對于結果一致性要求極高的場景，或是涉及復雜計算任務的場景，如多表關聯(lián)和 ETL 等，存儲層的計算能力可能無法滿足需求。這類場景下，我們應根據(jù)具體需求謹慎選擇是否下放計算到存儲層。

李?。?/strong>將數(shù)據(jù)預處理下放到存儲層，可以提高性能，但也會帶來架構上的復雜性挑戰(zhàn)。首先，這種方式可以在數(shù)據(jù)讀取時直接獲取預處理后的數(shù)據(jù)，減少傳輸?shù)綉脤踊蛴嬎銓拥难舆t，是一種“以空間換時間”的方法。例如，在進行多維分析時，可能采用這種技術。

然而，這也增加了系統(tǒng)設計的復雜性，尤其是在硬件和數(shù)據(jù)鏈路設計方面。數(shù)據(jù)預處理下沉到存儲層要求系統(tǒng)具備強大的計算能力，并支持預處理操作。同時，數(shù)據(jù)鏈路需要加入處理調(diào)度、校驗、備份和恢復機制，這對系統(tǒng)設計提出了更高要求。

適合下沉存儲層的數(shù)據(jù)預處理的場景需要靈活處理和優(yōu)化的數(shù)據(jù)分析，尤其是多維分析和熱點數(shù)據(jù)訪問。例如，使用維度減少技術處理頻繁訪問的熱點數(shù)據(jù)。在這些場景下，存儲層處理可以有效提高效率。

張文濤：將存儲分為專有存儲和通用存儲兩類，對于專有存儲，卸載計算任務到存儲層是可行的，在提升性能的同時還不會增加架構復雜度。在專有存儲中，我們可以構建極簡架構，專注于 AI 訓練和推理的存儲功能。DeepSeek 開源的 3FS 就是一個典型的專有存儲案例。

然而，如果是面向通用存儲的廠商，比如我們這樣的第三方存儲公司，情況就不同了。我們服務的用戶涉及多種業(yè)務，不僅限于某一特定業(yè)務。此時將計算下沉到存儲層會增加架構復雜度，因為存儲協(xié)議通常是通用的，我們需要在專有協(xié)議和通用協(xié)議之間找到平衡。

此外，存儲中的計算資源原本是為了應對峰值負載而預留的。如果將計算任務卸載到存儲層，可能會影響存儲性能。不過，解決方案也是存在的。比如，存儲設備可以將計算任務轉移到硬件中處理，如通過讀卡或專用的計算單元（DPU）來加速計算。盡管如此，如果存儲廠商不做這些工作，其他廠商就會先行一步，可能會形成行業(yè)壁壘。

因此，我們在設計架構時，必須謹慎考慮如何解耦專有計算能力。雖然不可能一個存儲架構解決所有問題，但我們必須在架構設計上做出選擇，這些選擇通常是為了實現(xiàn)戰(zhàn)略目標而做出的妥協(xié)。因此，是否進行計算下沉，如何選擇架構設計，最終取決于用戶的戰(zhàn)略方向。

趙健博：技術設計的最終決定往往依賴于業(yè)務需求發(fā)展的方向。關于計算下沉的技術已經(jīng)提出一段時間了，并非特別新的概念。在大數(shù)據(jù)實時處理業(yè)務中，通常是從 Kafka 中獲取數(shù)據(jù)進行處理，然而受限于 kafka 的行存儲模式，在某些場景中不得不在客戶端進行過濾，這不僅浪費計資源還帶來了延遲的代價，所以針對這樣的場景，計算（過濾）下沉到 kafka 通常是比較好的選擇。

從通用方面看，我認為一些固定的計算任務，如壓縮、加密、過濾等，適合下沉到存儲層處理。而對于更復雜、更通用的計算，通常還是保持在計算層比較合適。此外，計算下沉到存儲層，但還可能會帶來穩(wěn)定性問題。例如，大規(guī)模的數(shù)據(jù)掃描如果下沉到存儲層，可能會導致存儲服務節(jié)點過載；而同樣的作業(yè)在計算層，可以做到隔離，且隨時可以取消任務，這樣可以更靈活地進行控制。

趙健博：在深度學習領域中，數(shù)據(jù)是基礎，算力是引擎。訓練一個模型需要大量的數(shù)據(jù)和算力，并且需要反復迭代和驗證才能得到想要的模型。為了提升訓練效率，縮短訓練時間，所有組件之間都需要快速響應，這其中就包括了計算和存儲之間的交互。對于一個 AI 系統(tǒng)而言，模型的能力隨著模型尺寸和訓練數(shù)據(jù)的增加而顯著提升，但隨著數(shù)據(jù)集和模型規(guī)模不斷增加，訓練任務加載訓練數(shù)據(jù)所消耗的時間越來越長，進而影響了訓練效率，緩慢的 IO 嚴重拖累了 GPU 的強大算力。那么，在這樣的背景下，大模型訓練場景對分布式存儲提出了哪些新的性能挑戰(zhàn)？

張文濤：在多模態(tài)場景下，文件的數(shù)量急劇增加，面臨的挑戰(zhàn)主要是存儲系統(tǒng)能否容納如此大量的文件。因此，存儲的訪問性能也是一個挑戰(zhàn)，尤其是當文件較小時，數(shù)據(jù)訪問的開銷會顯著增加。第二種挑戰(zhàn)是數(shù)據(jù)集的隨機訪問。數(shù)據(jù)集的訪問通常是隨機的，且需要讀取整個數(shù)據(jù)集，這種訪問方式打破了緩存，導致緩存效率低下。

第三個挑戰(zhàn)是 checkpoint 操作。每隔一段時間，訓練模型會進行 checkpoint 保存，這個過程涉及同步寫操作，GPU 會暫停，直到寫入完成。這會增加存儲的開銷，并導致 GPU 空閑時間過長，降低計算效率。盡管異步寫操作能在一定程度上解決這個問題，但依然是存儲的挑戰(zhàn)。

還有計算節(jié)點方面，數(shù)據(jù)通常從 GPU 顯存?zhèn)鬏數(shù)?CPU 內(nèi)存，再到存儲，這個數(shù)據(jù)鏈路在數(shù)據(jù)量較小的情況下，內(nèi)存拷貝問題不會凸顯，但數(shù)據(jù)量較大時，內(nèi)存拷貝的開銷非常明顯，成為性能瓶頸。當單節(jié)點的數(shù)據(jù)需求很大時，例如每秒傳輸 80GB 或 150GB 數(shù)據(jù)，內(nèi)存帶寬的限制會非常明顯。此外，大數(shù)據(jù)集的訪問容易導致緩存擊穿，緩存失效時，延遲會急劇增加，影響性能。

最后是網(wǎng)絡層面。傳統(tǒng)以太網(wǎng)的延遲較高，相比于 RDMA 網(wǎng)絡，延遲可能大兩到三倍。由于計算集群的規(guī)模通常大于存儲集群，計算節(jié)點可能同時向多個存儲節(jié)點請求數(shù)據(jù)，這種情況可能會導致網(wǎng)絡擁塞，尤其是在高速無損網(wǎng)絡環(huán)境下，這個問題更加明顯。

李?。?/strong>金融行業(yè)，在構建知識庫時面臨類似的取舍問題。分布式存儲雖然在架構設計上更靈活，但確實也面臨性能上的挑戰(zhàn)。而集中存儲的優(yōu)勢在于不同知識庫之間數(shù)據(jù)共享更便捷。如何在這兩者之間找到平衡，是我們面臨的一個難題。

零售數(shù)據(jù)訓練時，我們會處理 PB 級別的數(shù)據(jù)集。數(shù)據(jù)讀取的吞吐量要求非常高，因此分布式存儲系統(tǒng)必須進行橫向擴展，通過多節(jié)點來提升帶寬。在大規(guī)模的分布式訓練中，數(shù)百甚至數(shù)千個計算節(jié)點可能同時訪問存儲系統(tǒng)，這會極大增加源數(shù)據(jù)服務的壓力。面對高并發(fā)，我們需要將源數(shù)據(jù)服務進行分布式化，避免單點瓶頸。

此外，訓練數(shù)據(jù)通常包含大量的小文件，如文本、圖片等樣本數(shù)據(jù)。傳統(tǒng)的分布式文件系統(tǒng)在處理小文件的讀寫時效率較低，因此我們需要對這些小文件進行合并處理，將其轉化為較大的對象。這一過程帶來了額外的工作負擔，進一步增加了性能挑戰(zhàn)。

李飛：大模型訓練的特性對訓練數(shù)據(jù)，尤其是海量數(shù)據(jù)，有著高要求?，F(xiàn)在的大模型多采用自回歸的網(wǎng)絡結構，這對海量數(shù)據(jù)集有頻繁的順序讀取需求。盡管單次讀取的數(shù)據(jù)量較大，但在千卡或萬卡集群規(guī)模下，集群擴大將增加對 IOPS（每秒輸入輸出操作）的需求。

在大模型訓練中，checkpoint 保存是必須的，它可以在訓練出錯時進行回滾，確保模型的持續(xù)訓練。這一過程需要顯存到存儲系統(tǒng)的高帶寬寫入。特別是現(xiàn)在模型的參數(shù)量越來越大，甚至達到萬億級別，對存儲系統(tǒng)的寫緩存容量和吞吐量提出了更高要求。如果存儲系統(tǒng)無法提供足夠的提升，可能會導致訓練時間延長，從而增加訓練中斷的時間。

在推理階段，我們需要高效地將模型分發(fā)到 GPU 資源池。這要求存儲系統(tǒng)具有較強的高讀取緩存能力，并且網(wǎng)絡帶寬的性能要求也相對較高。為了優(yōu)化這一過程，可以采用顯存、內(nèi)存和存儲的分層緩存策略，減少數(shù)據(jù)訪問延遲，提高推理效率。

趙健博：針對 AI 訓練中的存儲需求，我認為需要實現(xiàn)的目標是高吞吐和低延遲的數(shù)據(jù)訪問，同時確保 GPU 的算力得到充分利用。GPU 算力停頓的幾個問題點如下：首先，在模型訓練中，checkpoint 的保存過程會導致計算停頓，直接影響 GPU 算力的釋放時間。其次，訓練過程中涉及大量小文件的加載，頻繁且大規(guī)模小文件訪問會導致 IO 路徑上出現(xiàn)瓶頸，導致計算停頓。第三，訓練過程中還會有大量的網(wǎng)絡交互，特別是在訓練作業(yè)進行參數(shù)同步時，網(wǎng)絡的 IO 瓶頸也會導致計算停頓。因此，如何從這些問題入手，解決瓶頸，優(yōu)化存儲系統(tǒng)的整體性能，是我們面臨的核心挑戰(zhàn)。

趙健博：大模型訓練需要大量的數(shù)據(jù)和強大的算力，而存儲系統(tǒng)在其中扮演著至關重要的角色。隨著數(shù)據(jù)集和模型規(guī)模的不斷增加，訓練任務加載訓練數(shù)據(jù)所消耗的時間越來越長，進而影響了訓練效率。那么，如何優(yōu)化計算和存儲之間的交互，以提升訓練效率和縮短訓練時間呢？

李?。?/strong>第一，利用分布式存儲系統(tǒng)。通過將數(shù)據(jù)分布在多個節(jié)點上，這種系統(tǒng)能夠提供高并發(fā)、高存儲量的訪問，同時具備數(shù)據(jù)冗余和容錯能力，從而增強系統(tǒng)的可靠性。第二，采用數(shù)據(jù)預取技術。這基于大模型訓練的數(shù)據(jù)訪問模式，通過智能預測算法，提前加載數(shù)據(jù)，減少 IO 等待時間。第三，采用數(shù)據(jù)并行和模型并行。在大模型訓練中，我們將訓練數(shù)據(jù)和模型分布到不同的計算節(jié)點，實現(xiàn)數(shù)據(jù)和模型的并行。這不僅提升計算效率，還優(yōu)化存儲交互，從而減輕單個節(jié)點的存儲壓力。

李飛：對于 AI，特別是算法來說，訓練數(shù)據(jù)的預處理非常關鍵。例如，將訓練數(shù)據(jù)轉換為像 TF record 這樣的格式，是為了將多個小文件聚合成一個大的順序文件。這樣做的目的是優(yōu)化數(shù)據(jù)的讀取方式，將隨機讀取轉化為順序讀取，從而減輕存儲系統(tǒng)的壓力。

另外，通過多節(jié)點并行寫入大模型文件，如 checkpoint 數(shù)據(jù)。清華大學和華為合作開發(fā)的高性能存儲系統(tǒng)大大降低了 checkpoint 的寫入時間，從小時級縮短到了分鐘級。這一優(yōu)化在大模型訓練過程中，對存儲與計算之間的交互起到了重要作用，有助于提高訓練效率。

張文濤：計算和存儲之間的交互本質上是從 A 到 B 的數(shù)據(jù)傳輸，關鍵在于數(shù)據(jù)傳輸?shù)乃俣仁欠褡銐蚩?。從存儲角度看，網(wǎng)絡必須是高速網(wǎng)絡。如果網(wǎng)絡本身存在瓶頸，那么無論如何優(yōu)化效果也會受限。目前一般采用 200G 或 400G 的 InfiniBand 網(wǎng)絡，或 RoCE 網(wǎng)絡，確保網(wǎng)絡層面的高速傳輸。

此外，還需要提升存儲集群的整體性能，可以通過兩種方式實現(xiàn)：第一是橫向擴展（scale-out），通過擴大集群規(guī)模，提供更多的性能。第二是提升單節(jié)點的吞吐量和 IOPS（每秒操作數(shù)）。例如，使用高速磁盤（如 NVMe）代替 SATA 或 HDD，以提供更高帶寬，減少性能瓶頸。節(jié)點帶寬也非常關鍵，使用多網(wǎng)卡配置（如兩張 400G 網(wǎng)卡）可以大幅提升帶寬，從而提升數(shù)據(jù)傳輸效率。此外，避免跨 NUMA（非統(tǒng)一內(nèi)存訪問）訪問內(nèi)存，優(yōu)化內(nèi)存和存儲之間的數(shù)據(jù)傳輸，也是提升性能的重要措施。軟件層面，我們需要優(yōu)化路由策略，采用并行方式減少串行寫入時間。此外，異步隊列和協(xié)程的應用也能有效減少存儲系統(tǒng)的負載。

從業(yè)務角度來看，主要是元數(shù)據(jù)的壓力。訪問小文件時，需要先查詢元數(shù)據(jù)，再打開文件，且訪問完后還需關閉。這些操作消耗了大量時間，因此小文件聚合（如 TFRecord）可以減少元數(shù)據(jù)訪問，提高效率。英偉達推出的 GPU Direct Storage（GDS）技術，通過繞過 CPU 內(nèi)存來減少內(nèi)存拷貝，提高數(shù)據(jù)訪問的穩(wěn)定性和效率。業(yè)務上，還可以通過批量發(fā)送 IO 請求減少網(wǎng)絡連接的負擔，提高存儲系統(tǒng)處理能力。

對于 Checkpoint 的優(yōu)化，異步是一個重要方向。例如，先將數(shù)據(jù)寫入 CPU 內(nèi)存，再異步寫入后端存儲，減少 GPU 的阻塞時間。最后，數(shù)據(jù)預讀技術也能有效優(yōu)化 IO 性能。通過預測訪問數(shù)據(jù)并提前加載，后續(xù)訪問轉化為內(nèi)存訪問，從而顯著提升整體性能。

趙健博：AI 時代的到來對數(shù)據(jù)工程師提出了更高的要求。傳統(tǒng)的數(shù)據(jù)處理和分析技能已經(jīng)不足以應對當前的復雜需求。那么，AI 時代的數(shù)據(jù)工程師需要哪些新技能？

李飛：我們常說“AI for data”和“data for AI”。前者是通過 AI 來生產(chǎn)或者清洗數(shù)據(jù)，后者則是將數(shù)據(jù)與 AI 結合，推動數(shù)據(jù)分析的發(fā)展。從 AI 開發(fā)者的角度來看，“AI for data”可以為數(shù)據(jù)工程師提供技能支持。例如，傳統(tǒng)的數(shù)據(jù)工程師經(jīng)常進行數(shù)據(jù)清洗、ETL（數(shù)據(jù)提取、轉換和加載）和數(shù)據(jù)建模等工作。過去，數(shù)據(jù)開發(fā)者可能需要通過統(tǒng)計模型來實現(xiàn)這些工作，而現(xiàn)在，大模型可以大大提升在代碼能力和數(shù)學能力方面的表現(xiàn)，幫助快速發(fā)現(xiàn)數(shù)據(jù)中的問題，數(shù)據(jù)工程師可以利用大模型來提高數(shù)據(jù)清洗的效率。

此外，大模型也能幫助數(shù)據(jù)建模，特別是在表與表之間的關聯(lián)建模上。傳統(tǒng)上，數(shù)據(jù)工程師需要通過深入了解企業(yè)業(yè)務場景來建立這些關系，而大模型可以通過技術手段識別潛在的表關聯(lián)，并初步推薦建模思路。這種方式能大大提升工作效率，讓數(shù)據(jù)工程師能夠集中精力處理更復雜的建模和數(shù)據(jù)治理任務。隨著大模型在數(shù)學和編碼能力上的增強，我們的數(shù)據(jù)開發(fā)者也需要具備相關的思維和技能，更好地將大模型應用于日常工作，從而實現(xiàn)降本增效。

張文濤：對于我們從事 IT 行業(yè)的程序員來說，每個人都應該擁抱 AI，擁抱 AI 意味著充分利用其能力來輔助編程。如果我們不擁抱 AI、不借助 AI 進行輔助編程，那么我們的效率提升將會有限，團隊可能會落后。因此，我們要求團隊成員都應當使用 AI 來提升工作效率。當我們簡化了工作流程后，我們可以將更多時間投入到業(yè)務學習和理解上。

我認為大模型未來將成為像操作系統(tǒng)一樣的基礎設施，每個人都應了解大模型的基本原理，因為我們將基于這一基礎設施進行業(yè)務開發(fā)。我們不僅要知道如何使用它，還需要了解其背后的原理，這是我對未來發(fā)展的看法。

李?。?/strong>AI 時代的到來，使得數(shù)據(jù)的使用更加方便，特別是對于業(yè)務人員。比如我們公司得 Chat BI，它通過對話方式讓用戶直接提取數(shù)據(jù)并通過圖表展示趨勢和占比。傳統(tǒng)的數(shù)據(jù)工程師需要寫 SQL、調(diào)度任務和使用 BI 工具來配報表，而 AI 時代的到來讓這一切都簡化了。

AI 的到來是為了提升我們的工作效率，而不是取代人。雖然 AI 簡化了許多工作，數(shù)據(jù)工程師并不會被取代，但他們需要轉型。首先，數(shù)據(jù)工程師必須在數(shù)據(jù)和業(yè)務之間架起橋梁，既要懂數(shù)據(jù)，也要懂業(yè)務。其次，數(shù)據(jù)建模能力依然重要，特別是在業(yè)務需求的基礎上進行模型設計，AI 短期內(nèi)仍難以取代這一部分。

其次，隨著 AI 的普及，數(shù)據(jù)標注的需求大幅增加。尤其是在非結構化或半結構化數(shù)據(jù)的處理上，像風險分析中的客戶畫像數(shù)據(jù)，經(jīng)常是 PDF 或 Excel 文件，需要數(shù)據(jù)標注師從中提取標簽。數(shù)據(jù)工程師需要使用專業(yè)工具，標準化流程，確保標注的一致性和質量，這也是數(shù)據(jù)治理的一部分。

第三，數(shù)據(jù)工程師需要理解算法并與算法團隊緊密協(xié)作，數(shù)據(jù)工程師與算法工程師需要充分理解對方的工作，并共同推動項目進展。AI 時代要求數(shù)據(jù)工程師不僅僅具備數(shù)據(jù)處理能力，還要能理解和支持算法的實施。第四，AI 時代的到來帶來了數(shù)據(jù)權限和安全管理的新挑戰(zhàn)，數(shù)據(jù)訪問需要嚴格的權限隔離，確保不同層級用戶只能訪問相關數(shù)據(jù)。因此，數(shù)據(jù)權限管理和安全問題需要我們在 AI 應用中進一步解決。

最后，未來會使用 AI 的人將會勝過那些不使用 AI 的人。因此，數(shù)據(jù)工程師需要更多地利用低代碼或無代碼工具，以更高效地滿足業(yè)務需求，快速實現(xiàn)業(yè)務目標。

趙健博：AI 時代的到來確實給每個工程師帶來了很大的變化，無論是數(shù)據(jù)工程師還是其他工程師，都必須懂 AI，會用 AI，并將 AI 技術應用到工作中。雖然 AI 提高了工作效率，人的產(chǎn)出能力將得到提升，但要創(chuàng)造更高的價值，仍然需要對業(yè)務有深刻的理解。只有理解業(yè)務，具備業(yè)務洞察力和決策能力，才能真正做出有價值的工作。

從數(shù)據(jù)工程師或數(shù)據(jù)分析師的角度來看，工作重點也會發(fā)生變化。過去，我們更多關注解釋發(fā)生了什么、進行歸因分析，而未來，數(shù)據(jù)工程師與數(shù)據(jù)分析師將需要通過預測未來的趨勢，輔助業(yè)務做出決策，形成完整的業(yè)務決策閉環(huán)。這個轉變是數(shù)據(jù)工程師與數(shù)據(jù)分析師未來需要適應和發(fā)展的方向。

趙健博：在大數(shù)據(jù)分析中，非結構化數(shù)據(jù)如評論、日志等占據(jù)了數(shù)據(jù)的絕大部分。這些數(shù)據(jù)蘊含著豐富的信息，但傳統(tǒng)的分析方法往往難以高效挖掘其價值。那么，大模型技術如何幫助我們提升非結構化數(shù)據(jù)的挖掘與分析效率？

李飛：AI 大模型給我們帶來的是一種信息分發(fā)的新范式，這個信息包括結構化、非結構化的數(shù)據(jù)，以及從歷史數(shù)據(jù)中提取的“know-how”知識，大模型的作用在于能夠將這些知識進行有效分發(fā)。與過去的搜索引擎和推薦系統(tǒng)不同，大模型通過主動推送信息和工具，幫助我們更高效地獲取所需的內(nèi)容。因此，信息和知識的分發(fā)已成為 AI 的核心價值之一。

在提升非結構化信息處理效率方面，已有許多技術應用，如 RAG 和視頻推薦等。然而，RAG 的實際應用盡管初步落地比較簡單，但要做好卻非常困難。RAG 的核心技術包括召回、增強生成、排序等技巧，但當處理企業(yè)內(nèi)部復雜的、碎片化的信息時，會導致技術難度大大增加。企業(yè)內(nèi)部的文檔可能包含多種形式的數(shù)據(jù)，如 PDF 文件中的圖像和表格。

此外，如何高效地索引文檔、去除冗余信息，并確保大模型在生成回答時不受到過多冗余信息的干擾，也是技術上的難題。即使使用現(xiàn)有的組件平臺或開源工具，也不能簡單地完成企業(yè)內(nèi)部所有非結構化信息的挖掘工作。此外，語音、文本和圖像的處理單獨進行相對簡單，但如何將不同模態(tài)的數(shù)據(jù)進行有效串聯(lián)并進行聯(lián)動分析，以滿足用戶的需求，這是非常復雜的。做得好并不容易，尤其是在將 80 分提升到 95 分時，技術細節(jié)和優(yōu)化過程是非常復雜的。

會議推薦

在 AI 大模型重塑軟件開發(fā)的時代，我們?nèi)绾伟盐兆兏铮咳绾瓮黄萍夹g邊界？4 月 10-12 日，QCon 全球軟件開發(fā)大會· 北京站邀你共赴 3 天沉浸式學習之約，跳出「技術繭房」，探索前沿科技的無限可能。

本次大會將匯聚頂尖技術專家、創(chuàng)新實踐者，共同探討多行業(yè) AI 落地應用，分享一手實踐經(jīng)驗，深度參與 DeepSeek 主題圓桌，洞見未來趨勢。