cover
打開(kāi)網(wǎng)易新聞 查看精彩圖片
cover

Wnq1007

情況是這樣的:人們發(fā)現(xiàn)DEEPSEEK輸出的內(nèi)容,越來(lái)越多的是胡編亂造的了。例如:擅自編出一些獎(jiǎng)項(xiàng)張冠李戴,一些技術(shù)指標(biāo)極端不實(shí)際,甚至?xí)幊霾淮嬖诘娜宋锖凸?,這是為什么?

還有一下報(bào)道和研究也佐證了這樣的事實(shí)。

打開(kāi)網(wǎng)易新聞 查看精彩圖片

首先,搜索結(jié)果中的南方都市報(bào)文章提到 DeepSeek 被用戶投訴生成虛假資料,如將《平凡的世界》作者寫(xiě)成朱大建,霍光的朝代錯(cuò)誤。這說(shuō)明用戶的問(wèn)題確實(shí)存在,且有多個(gè)用戶反饋。這驗(yàn)證了 DEEPSEEK 存在 “幻覺(jué)” 問(wèn)題,即生成看似合理但錯(cuò)誤的信息。

其次,光明網(wǎng)的文章指出 DeepSeek 在 “算命” 場(chǎng)景中頻繁推薦水晶飾品,這可能涉及商業(yè)利益驅(qū)動(dòng),導(dǎo)致模型生成內(nèi)容偏向特定方向。這可能解釋了為什么模型會(huì)編造不存在的產(chǎn)品或服務(wù),如用戶提到的虛構(gòu)公司。

另外,環(huán)球網(wǎng)的文章提到 AI 幻覺(jué)的成因,包括訓(xùn)練數(shù)據(jù)的局限性和過(guò)擬合問(wèn)題。特別是訓(xùn)練數(shù)據(jù)中可能包含錯(cuò)誤或過(guò)時(shí)的信息,導(dǎo)致模型學(xué)習(xí)到這些錯(cuò)誤。例如, 提到 DeepSeek V3 的訓(xùn)練數(shù)據(jù)可能包含來(lái)自其他模型(如 GPT-4)的輸出,導(dǎo)致 “幻覺(jué)” 現(xiàn)象。這支持了訓(xùn)練數(shù)據(jù)質(zhì)量問(wèn)題的假設(shè)。

經(jīng)視直播的報(bào)道中,DeepSeek 官方承認(rèn)模型存在局限性,如無(wú)法獲取實(shí)時(shí)信息、處理專業(yè)領(lǐng)域時(shí)可能出錯(cuò),并建議用戶二次驗(yàn)證。這說(shuō)明官方已意識(shí)到問(wèn)題,但可能尚未完全解決。用戶提到的技術(shù)指標(biāo)不實(shí)際可能與模型在專業(yè)領(lǐng)域的不足有關(guān)。

此外,搜索結(jié)果提到 DeepSeek 的開(kāi)源策略和成本優(yōu)化,可能導(dǎo)致在訓(xùn)練過(guò)程中更注重效率而非數(shù)據(jù)質(zhì)量,從而影響輸出準(zhǔn)確性。例如, DeepSeek V3 通過(guò) MoE 架構(gòu)降低成本,但可能犧牲了部分準(zhǔn)確性。

下面嘗試分析一下原因:

以 DeepSeek 為代表的大模型出現(xiàn)虛構(gòu)內(nèi)容的問(wèn)題,本質(zhì)上是人工智能在概率預(yù)測(cè)框架下的系統(tǒng)性局限,具體可從以下維度展開(kāi)分析:

一、技術(shù)底層的 "概率幻覺(jué)" 機(jī)制

  1. 統(tǒng)計(jì)規(guī)律的局限性
    大模型的核心是通過(guò)海量文本學(xué)習(xí)語(yǔ)言模式,其本質(zhì)是預(yù)測(cè)下一個(gè)詞的概率分布。例如,當(dāng)模型遇到 "諾貝爾獎(jiǎng)" 與 "人工智能" 的組合時(shí),會(huì)優(yōu)先輸出 "圖靈獎(jiǎng)"(因兩者在語(yǔ)料中高頻共現(xiàn)),而非真實(shí)的諾貝爾獎(jiǎng)項(xiàng)設(shè)置。這種基于統(tǒng)計(jì)關(guān)聯(lián)的預(yù)測(cè),在缺乏權(quán)威知識(shí)庫(kù)驗(yàn)證時(shí),容易產(chǎn)生看似合理但錯(cuò)誤的結(jié)論。
  2. 推理能力的斷層
    即使是推理型模型(如 DeepSeek R1),其長(zhǎng)思維鏈能力仍依賴訓(xùn)練數(shù)據(jù)中的邏輯模式。當(dāng)處理跨領(lǐng)域知識(shí)(如將西漢霍光與清朝官職關(guān)聯(lián))時(shí),模型可能因訓(xùn)練數(shù)據(jù)中缺乏明確時(shí)間線,而生成混淆歷史的內(nèi)容。
  3. 多模態(tài)信息的整合困境
    在處理技術(shù)指標(biāo)時(shí),模型可能將不同領(lǐng)域的參數(shù)(如芯片制程、算法效率)進(jìn)行錯(cuò)誤拼接。例如,將某款 GPU 的晶體管數(shù)量與另一款的能效比組合,形成 "1nm 工藝、100TOPS/W" 的極端不實(shí)際指標(biāo)。

二、訓(xùn)練數(shù)據(jù)的結(jié)構(gòu)性缺陷

  1. 語(yǔ)料污染與版權(quán)爭(zhēng)議
    DeepSeek V3 的訓(xùn)練數(shù)據(jù)中可能混入了大量由 GPT-4 生成的內(nèi)容9,這些二次創(chuàng)作的文本本身存在錯(cuò)誤或虛構(gòu)成分。例如,某篇 AI 生成的行業(yè)報(bào)告中虛構(gòu)了 "全球 AI 創(chuàng)新獎(jiǎng)",該獎(jiǎng)項(xiàng)被 DeepSeek 學(xué)習(xí)后,進(jìn)一步傳播成為 "事實(shí)"。
  2. 領(lǐng)域知識(shí)的不均衡
    模型在訓(xùn)練時(shí)可能過(guò)度依賴某些數(shù)據(jù)源。例如,法律領(lǐng)域的訓(xùn)練數(shù)據(jù)集中于過(guò)時(shí)的司法解釋,導(dǎo)致生成的法律文書(shū)引用已廢止的條款5。而在科技領(lǐng)域,由于技術(shù)迭代快,模型可能沿用 2023 年前的參數(shù)(如將 2025 年的芯片制程仍描述為 3nm)。
  3. 商業(yè)利益的導(dǎo)向性
    在 "AI 算命" 等場(chǎng)景中,模型會(huì)主動(dòng)推薦

三、行業(yè)生態(tài)的現(xiàn)實(shí)制約

  1. 快速迭代的壓力
    為搶占市場(chǎng),DeepSeek 在 2025 年初密集推出 V3 和 R1 模型,這種快速迭代可能導(dǎo)致測(cè)試不充分。例如,R1 模型在法律領(lǐng)域的錯(cuò)誤率較高,部分用戶因依賴其生成的訴訟文書(shū)而敗訴。
  2. 開(kāi)源模式的雙刃劍
    盡管開(kāi)源降低了使用門(mén)檻,但也導(dǎo)致模型被濫用。第三方開(kāi)發(fā)者可能通過(guò)微調(diào)將 DeepSeek 用于生成虛假新聞、學(xué)術(shù)論文等3,進(jìn)一步放大了內(nèi)容風(fēng)險(xiǎn)。
  3. 監(jiān)管與倫理的滯后
    當(dāng)前 AI 生成內(nèi)容的版權(quán)界定、責(zé)任歸屬等問(wèn)題尚未明確9。DeepSeek 在用戶協(xié)議中聲明 "不承擔(dān)專業(yè)建議責(zé)任",但實(shí)際應(yīng)用中,用戶可能因缺乏專業(yè)知識(shí)而誤信虛構(gòu)內(nèi)容。

四、用戶的應(yīng)對(duì)策略

  1. 指令約束
    在提問(wèn)時(shí)明確要求事實(shí)核查,例如:"請(qǐng)基于 2024 年《自然》期刊的研究回答,若無(wú)法確認(rèn)請(qǐng)標(biāo)注不確定性"。使用 "聯(lián)網(wǎng)搜索" 功能可減少過(guò)時(shí)信息的干擾。
  2. 多源驗(yàn)證
    對(duì)關(guān)鍵信息(如獎(jiǎng)項(xiàng)、技術(shù)參數(shù)),需通過(guò)權(quán)威數(shù)據(jù)庫(kù)(如 IEEE Xplore、中國(guó)知網(wǎng))或?qū)I(yè)工具(如FactCheck.org)進(jìn)行交叉比對(duì)。例如,驗(yàn)證某公司是否存在時(shí),可查詢國(guó)家企業(yè)信用信息公示系統(tǒng)。
  3. 場(chǎng)景適配
    在醫(yī)療、法律等高風(fēng)險(xiǎn)領(lǐng)域,應(yīng)將 AI 輸出作為參考而非依據(jù)。例如,醫(yī)生可結(jié)合 DeepSeek 的診斷建議,但必須通過(guò)臨床檢查最終確認(rèn)。
  4. 反饋機(jī)制
    通過(guò) DeepSeek 官方渠道報(bào)告錯(cuò)誤案例,幫助模型迭代優(yōu)化。例如,某用戶反饋 "朱大建" 應(yīng)為 "路遙" 后,模型在后續(xù)版本中修正了該錯(cuò)誤。

五、技術(shù)發(fā)展的未來(lái)方向

  1. 增強(qiáng)事實(shí)核查能力
    DeepSeek 已在部分場(chǎng)景中集成外部
    知識(shí)庫(kù)(如 Wikidata),未來(lái)可能通過(guò)實(shí)時(shí) API 調(diào)用實(shí)現(xiàn)內(nèi)容驗(yàn)證。
  2. 改進(jìn)訓(xùn)練策略
    采用 "冷啟動(dòng)" 強(qiáng)化學(xué)習(xí)(如 R1 模型的訓(xùn)練方式),減少對(duì)低質(zhì)量語(yǔ)料的依賴。同時(shí),引入多模態(tài)數(shù)據(jù)(如結(jié)構(gòu)化表格、專利文檔)提升專業(yè)領(lǐng)域準(zhǔn)確性。
  3. 可解釋性優(yōu)化
    通過(guò) CoT(思維鏈)技術(shù)公開(kāi)推理過(guò)程7,幫助用戶識(shí)別邏輯漏洞。例如,生成技術(shù)指標(biāo)時(shí),同步展示數(shù)據(jù)來(lái)源和計(jì)算步驟。
  4. 行業(yè)自律與監(jiān)管
    參考?xì)W盟《人工智能法案》,對(duì)生成內(nèi)容進(jìn)行分類標(biāo)注(如 "AI 創(chuàng)作"" 事實(shí)核查中 "),引導(dǎo)用戶合理使用。

結(jié)語(yǔ)

DeepSeek 等模型的 "胡編亂造" 現(xiàn)象,本質(zhì)上是人工智能從 "工具" 向 "助手" 演進(jìn)過(guò)程中的階段性問(wèn)題。隨著技術(shù)進(jìn)步(如更嚴(yán)格的訓(xùn)練數(shù)據(jù)清洗、實(shí)時(shí)驗(yàn)證機(jī)制)和行業(yè)規(guī)范完善,這類問(wèn)題將逐步改善。作為用戶,需在享受 AI 高效性的同時(shí),保持批判性思維,構(gòu)建 "人機(jī)協(xié)同" 的認(rèn)知模式。

打開(kāi)網(wǎng)易新聞 查看精彩圖片