
作者 |耿宸斐
編輯|宋婉心
封面來源|視覺中國
“數(shù)據(jù)標(biāo)注”是伴隨AI進程誕生的重要的產(chǎn)業(yè)鏈一環(huán)。尤其在大模型問世后,數(shù)據(jù)標(biāo)注行業(yè)規(guī)模極速擴張,但隨著大模型迭代,作為勞動密集型行業(yè),數(shù)據(jù)標(biāo)注又不斷被市場重估。
美股市場的頭部數(shù)據(jù)標(biāo)注公司Innodata是這一過程的一個典型縮影。
近一年以來,Innodata股價漲幅高達432%。最新財報顯示,2024全年Innodata營收同比大漲96.44%,且8家大客戶中,有5家來自美股七巨頭。
不過穩(wěn)健的基本面擋不住市場預(yù)期的調(diào)整。DeepSeek發(fā)布后,市場對用于訓(xùn)練的公開數(shù)據(jù)的需求開始產(chǎn)生懷疑,Innodata股價因此產(chǎn)生波動,尤其在三月,公司股價下跌了超30%。
對于這家公司,目前市場聲音分歧較大。
看空者認(rèn)為在過去十年中,Innodata僅盈利了兩次,因此股價飆升是沒有道理的,而看多者則認(rèn)為,因為大模型現(xiàn)在的情況已經(jīng)不同,Innodata已將業(yè)務(wù)模式轉(zhuǎn)向了大模型的數(shù)據(jù)清理。

價值重估
數(shù)據(jù)標(biāo)注行業(yè)的第一次高光時刻,是來自自動駕駛的發(fā)展。在大模型出現(xiàn)之前,德勤報告顯示,2022年自動駕駛領(lǐng)域的標(biāo)注需求占整個AI下游應(yīng)用的38%。
而大模型對數(shù)據(jù)標(biāo)注的需求提升到了另一個量級。
“如果不是大模型出現(xiàn),就算是干成自動駕駛行業(yè)數(shù)據(jù)標(biāo)注龍頭的Scale AI,在2023年之前,其年收入也就1億至2億美金。而到了2024年,Scale AI全年的ARR預(yù)計在12-14億美金,比2022年翻了7倍左右。”有投資者表示。
大模型行業(yè)的Scaling Law理論認(rèn)為,模型性能與模型參數(shù)量、訓(xùn)練數(shù)據(jù)量和計算資源相關(guān)。以GPT-4為例,其參數(shù)量從GPT-3的約1750億提升至約1.8萬億,而訓(xùn)練數(shù)據(jù)集的規(guī)模也從GPT-3的幾千億Token擴大到13萬億Token。
業(yè)務(wù)集中在數(shù)據(jù)工程領(lǐng)域的Innodata,吃到了大模型賣鏟人的大量紅利。
最新財報顯示,Innodata的最大客戶授予該公司價值約2400萬美元的額外合同,使來自該客戶的總年化運營收入達到約1.35億美元。
除了該最大客戶之外,來自Innodata的另外七家大型科技公司客戶的收入,在第四季度環(huán)比增長了159%。
從近期業(yè)績看,Innodata的收入增長明顯加速。2024年一至四季度,該公司營收的同比增速分別為40.7%、65.6%、135.6%和126.6%。而且Innodata預(yù)計,2025年公司收入增長將超過40%。
不過,如今大模型行業(yè)擴張期過去之后,數(shù)據(jù)標(biāo)注行業(yè)的矛盾已經(jīng)開始浮現(xiàn)——即將耗盡的數(shù)據(jù)難以支撐模型迭代與與大模型落地等所帶來的訓(xùn)練需求。
Epoch AI的研究估計,自2020年以來,用于訓(xùn)練大語言模型的數(shù)據(jù)增長了100倍,且AI訓(xùn)練數(shù)據(jù)集的規(guī)模每年翻倍。然而,互聯(lián)網(wǎng)可用內(nèi)容每年的增長卻不足10%。到2028年,AI訓(xùn)練數(shù)據(jù)很可能耗盡。
事實上,數(shù)據(jù)不足所造成的發(fā)展瓶頸已經(jīng)是行業(yè)中的普遍現(xiàn)象。去年11月,The Information爆料稱,OpenAI下一代旗艦?zāi)P蚈rion改進大幅放緩,一個主要原因正是高質(zhì)量訓(xùn)練數(shù)據(jù)的短缺。
行業(yè)共識是,目前通用數(shù)據(jù)的供給已接近飽和,垂類數(shù)據(jù)將是未來AI模型差異化的關(guān)鍵。

DeepSeek淘汰數(shù)據(jù)標(biāo)注?
作為美股市場上僅有的AI數(shù)據(jù)標(biāo)注標(biāo)的,Innodata的“AI含量”至今仍飽受質(zhì)疑。
早在2019年,Innodata就宣稱自己開始實施人工智能和機器學(xué)習(xí)流程,并將自己劃為一家人工智能公司。但去年2月, Wolfpack Research發(fā)布的一份報告稱,Innodata是在拿AI炒作股價,其核心業(yè)務(wù)仍是依靠海外廉價勞動力進行基礎(chǔ)數(shù)據(jù)標(biāo)注,而非自主研發(fā)的AI技術(shù)。
報告引用前員工說法,稱公司為硅谷客戶提供的服務(wù)本質(zhì)是“鍵盤勞動”。
“Innodata的商業(yè)模式上就是基于人力外包的數(shù)據(jù)標(biāo)注,賺一份血汗錢。和同業(yè)的差異只是他們干得最久,做得最大?!庇型顿Y者評價,“技術(shù)只能讓數(shù)據(jù)標(biāo)注更快,要讓數(shù)據(jù)標(biāo)注更好,現(xiàn)在只能靠人。”
據(jù)智研咨詢報告,盡管已經(jīng)有數(shù)據(jù)標(biāo)注公司開發(fā)了相應(yīng)的半自動化工具,但從標(biāo)注比例來看,機器標(biāo)注和人工標(biāo)注的比例約為3:7。
Innodata的財報數(shù)據(jù)也側(cè)面印證了這一現(xiàn)實。僅在2024年第二季度,Innodata就花費了360萬美元的招聘代理費,這表明公司仍舊非常依賴人力。
業(yè)內(nèi)人士告訴36氪,這主要是由于數(shù)據(jù)標(biāo)注的復(fù)雜性和多樣性,以及不同領(lǐng)域的數(shù)據(jù)標(biāo)注要求不同。此外,自動化標(biāo)注技術(shù)在現(xiàn)階段還存在一定的局限性,如對某些類型的數(shù)據(jù)的識別準(zhǔn)確率不高、對復(fù)雜場景的處理能力有限等。
但DeepSeek一定程度上改寫了數(shù)據(jù)需求的邏輯。
技術(shù)層面來看,簡單而言,DeepSeek采用的強化學(xué)習(xí)(RL)技術(shù),讓大模型不再需要被不斷喂養(yǎng)模型外的新數(shù)據(jù),只用模型內(nèi)已存在的數(shù)據(jù)即可進行自我訓(xùn)練。
這一方面降低了大模型廠商對數(shù)據(jù)量的需求,另一方面,全聯(lián)并購工會信用管理委員會專家安光勇認(rèn)為,企業(yè)出于開源節(jié)流的考慮,有可能會傾向于低成本合成數(shù)據(jù)。這也會在一定程度上沖擊Innodata等數(shù)據(jù)標(biāo)注企業(yè)。
關(guān)于DeepSeek沖擊的質(zhì)疑,財報電話會上,Innodata管理層表示,他們相信,預(yù)訓(xùn)練數(shù)據(jù)和微調(diào)數(shù)據(jù)對AGI發(fā)展而言是無法替代的。
在他們看來,DeepSeek依賴以現(xiàn)有模型數(shù)據(jù)訓(xùn)練新模型,會極大地壓縮數(shù)據(jù),最終導(dǎo)致模型崩潰。
從市場質(zhì)疑聲音來看,Innodata可持續(xù)增長的不確定性來源于兩點,一是數(shù)據(jù)標(biāo)注需求是否持續(xù)增長,二是標(biāo)注工作是否持續(xù)低自動化。
針對前者,科技部國家科技專家周迪告訴36氪,合成數(shù)據(jù)的適用邊界在于它更適合于生成新的、用于訓(xùn)練模型的數(shù)據(jù),而人工標(biāo)注則更適合對已有數(shù)據(jù)進行深入的理解和解讀。
盡管合成數(shù)據(jù)可以提供更加一致和可控的數(shù)據(jù),但在情感分析和文本生成等需要深度語義理解的領(lǐng)域,人工標(biāo)注數(shù)據(jù)仍具有不可替代性。
另有投資者分析指出,隨著DeepSeek帶來的模型部署和運行的成本大幅降低,會有越來越多應(yīng)用層的公司部署自己的大模型,這也會帶來額外的數(shù)據(jù)標(biāo)注的需求。所以DeepSeek的出現(xiàn)對Innodata至少不會是一個利空。
但針對后者,這一問題淪為了“雞生蛋還是蛋生雞”的悖論。當(dāng)市場投資者們質(zhì)疑Innodata“AI含量”低時,一個可能性很大的未來是,數(shù)據(jù)標(biāo)注工作的AI化會首先革掉數(shù)據(jù)標(biāo)注公司自己的命。


點擊圖片即可閱讀
熱門跟貼