
圖片來(lái)源@pixabay
生成式AI技術(shù)變革,正驅(qū)使數(shù)據(jù)庫(kù)廠商展開(kāi)激烈競(jìng)爭(zhēng)。
傳統(tǒng)廠商長(zhǎng)期占據(jù)主導(dǎo)地位,卻也因云原生分布式數(shù)據(jù)庫(kù)的沖擊而有所動(dòng)搖。當(dāng)AI風(fēng)暴再次攪動(dòng)這個(gè)市場(chǎng),數(shù)據(jù)庫(kù)廠商紛紛調(diào)整數(shù)據(jù)戰(zhàn)略,試圖更加貼近企業(yè)客戶(hù)使用AI的實(shí)際場(chǎng)景。新舊勢(shì)力間的角逐,實(shí)際也讓真實(shí)的客戶(hù)加快享受到新時(shí)代紅利。
在Databricks的案例庫(kù)中流傳著這樣一個(gè)故事。來(lái)自中國(guó)的全球消費(fèi)電子品牌安克創(chuàng)新,其數(shù)據(jù)團(tuán)隊(duì)曾遇到過(guò)一個(gè)棘手問(wèn)題:受原有數(shù)倉(cāng)的制約,無(wú)法對(duì)企業(yè)內(nèi)部多個(gè)系統(tǒng)和應(yīng)用數(shù)據(jù)進(jìn)行統(tǒng)一治理,這導(dǎo)致團(tuán)隊(duì)將大量時(shí)間用于數(shù)據(jù)治理及相關(guān)的Devops落地,幾乎沒(méi)有時(shí)間挖掘更高價(jià)值的數(shù)據(jù)任務(wù),比如用于支持生成式AI的創(chuàng)新。
安克創(chuàng)新用上了云湖倉(cāng),而針對(duì)這一產(chǎn)品的選型中,其團(tuán)隊(duì)放棄了Snowflake,而選擇Databricks,其關(guān)鍵一點(diǎn)在于技術(shù)層面,前者并不符合團(tuán)隊(duì)對(duì)操作便捷性和基于同一平臺(tái)實(shí)現(xiàn)數(shù)據(jù)、分析、AI創(chuàng)新的需求。而基于Databricks的云湖倉(cāng)產(chǎn)品Delta Lake實(shí)現(xiàn)200TB數(shù)據(jù)的統(tǒng)一數(shù)據(jù)底座后,安克創(chuàng)新又陸續(xù)用上了Databricks的其他產(chǎn)品:通過(guò)Unity Catalog實(shí)現(xiàn)表格式數(shù)據(jù)訪問(wèn),基于MLflow實(shí)現(xiàn)AI應(yīng)用自動(dòng)化流程編排。準(zhǔn)備就緒后,安克創(chuàng)新數(shù)據(jù)團(tuán)隊(duì)終于有機(jī)會(huì)去探索大模型驅(qū)動(dòng)下的代碼檢索、自動(dòng)生成SQL、問(wèn)答知識(shí)庫(kù)等服務(wù)。
安克創(chuàng)新的選擇背后,是以Databricks和Snowflake為首的兩大數(shù)據(jù)分析與智能服務(wù)提供商所焦灼的領(lǐng)域——云湖倉(cāng)。在表引擎、分析引擎、實(shí)時(shí)計(jì)算引擎、數(shù)據(jù)入湖工具、數(shù)據(jù)開(kāi)發(fā)DataOps工具鏈、統(tǒng)一元數(shù)據(jù)管理等相關(guān)的引擎或組件,以及當(dāng)下面向AI的大模型自研、AI數(shù)據(jù)庫(kù)層面,各方都展開(kāi)了尤為激烈的競(jìng)爭(zhēng),以搶占市場(chǎng)先機(jī)。
過(guò)去兩年間,其實(shí)很多企業(yè)都在嘗試生成式AI應(yīng)用,但直至今天,我們?nèi)詻](méi)有看到真正能大規(guī)模推廣到企業(yè)中的AI案例。其核心問(wèn)題在于生成式AI應(yīng)用始終存在不準(zhǔn)確或不相關(guān)的推理結(jié)果,也就是常稱(chēng)的“幻覺(jué)”問(wèn)題。而結(jié)合上述案例實(shí)踐能夠進(jìn)一步理解,減少模型幻覺(jué)的重要方法之一,是引入企業(yè)內(nèi)部知識(shí)庫(kù),提高生成準(zhǔn)確性和邊界,這往往需要在IT基礎(chǔ)設(shè)施和數(shù)據(jù)集成的統(tǒng)一性上下功夫。
看似技術(shù)引領(lǐng)了市場(chǎng)變革,其實(shí)不然。數(shù)據(jù)庫(kù)市場(chǎng)的變局,是發(fā)展到一定程度必然面對(duì)的,并且早已箭在弦上。
1990~2020,被反復(fù)錘煉的一個(gè)技術(shù)名詞
理解數(shù)據(jù)庫(kù)市場(chǎng)這一切變化,還要從“倉(cāng)”與“湖”說(shuō)起。
作為一款分析型數(shù)據(jù)庫(kù),數(shù)據(jù)倉(cāng)庫(kù)(Data Warehouse)的出現(xiàn)已有幾十年的歷程,最早可以追溯到20世紀(jì)60年代,并且隨著近些年大數(shù)據(jù)技術(shù)的發(fā)展而不斷升級(jí)。
20世紀(jì)90年代,在比爾·恩門(mén)(Bill Inmon)和拉爾夫·金博爾(Ralph Kimball)的推動(dòng)下,數(shù)據(jù)倉(cāng)庫(kù)迅速發(fā)展。被譽(yù)為數(shù)據(jù)倉(cāng)庫(kù)之父的比爾·恩門(mén)在《構(gòu)建數(shù)據(jù)庫(kù)倉(cāng)庫(kù)》一書(shū)中給出其定義:一個(gè)面向主題的(Subject Oriented)、集成的(Integrated)、相對(duì)穩(wěn)定的(Non-Volatile)、反映歷史變化(Time Variant)的數(shù)據(jù)集合,用于支持管理決策(Decision Making Support)。
這在當(dāng)時(shí),是一項(xiàng)重大創(chuàng)新,包括能夠支持更快的商業(yè)智能(當(dāng)時(shí)還談不上AI,更多是BI),能更高效地處理結(jié)構(gòu)化數(shù)據(jù)等,也存在明顯缺點(diǎn),如缺乏對(duì)非結(jié)構(gòu)化數(shù)據(jù)的處理能力,處理大量數(shù)據(jù)需要較長(zhǎng)時(shí)間。但這一技術(shù)方案,基本滿足了當(dāng)時(shí)大量處于初創(chuàng)階段的中小企業(yè)或客戶(hù)團(tuán)隊(duì),對(duì)于處理有限數(shù)據(jù)和分析的訴求。
直至21世紀(jì)初,大數(shù)據(jù)的興起給傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)帶來(lái)了挑戰(zhàn)。這一挑戰(zhàn)首先暴露在谷歌、雅虎等互聯(lián)網(wǎng)公司內(nèi)部:后端有大量的業(yè)務(wù)系統(tǒng)支撐,同時(shí)也有支持“海量”數(shù)據(jù)服務(wù)的平臺(tái)架構(gòu),但在數(shù)據(jù)分析、商業(yè)智能等方面,一直在使用傳統(tǒng)的數(shù)據(jù)庫(kù)+數(shù)據(jù)倉(cāng)庫(kù)作為底層支撐。傳統(tǒng)的數(shù)據(jù)倉(cāng)庫(kù)無(wú)法處理大量非結(jié)構(gòu)化數(shù)據(jù),一旦遇到業(yè)務(wù)流量洪峰,數(shù)據(jù)倉(cāng)庫(kù)就會(huì)出現(xiàn)瓶頸,持續(xù)擴(kuò)容也顯得捉襟見(jiàn)肘。

為了應(yīng)對(duì)這一挑戰(zhàn),數(shù)據(jù)湖(Data Lake)的概念應(yīng)運(yùn)而生。
從核心目標(biāo)上講,數(shù)據(jù)湖與數(shù)據(jù)倉(cāng)庫(kù)都是用于數(shù)據(jù)分析,以便為組織提供洞察,輔助業(yè)務(wù)決策,但二者仍有區(qū)分。數(shù)據(jù)湖通常存儲(chǔ)用于高級(jí)分析應(yīng)用的各類(lèi)大數(shù)據(jù),而數(shù)據(jù)倉(cāng)庫(kù)則存儲(chǔ)用于基本商業(yè)智能、分析和報(bào)告用途的常規(guī)交易數(shù)據(jù)。
2003年至2006年期間,谷歌相繼發(fā)表文件分布式系統(tǒng)GFS、并行計(jì)算框架MapReduce和BigTable論文,這“三駕馬車(chē)”奠定了大數(shù)據(jù)技術(shù)的基石,開(kāi)啟了大數(shù)據(jù)技術(shù)發(fā)展大幕。隨后,Hadoop出現(xiàn),它以HDFS分布式文件系統(tǒng)作為存儲(chǔ)層,以MapReduce提供計(jì)算,為海量數(shù)據(jù)處理提供了一套全面的解決方案,并在雅虎的支持下,Hadoop生態(tài)發(fā)展迅猛。
2010年,Hadoop World大會(huì)上Pentaho公司創(chuàng)始人詹姆斯·迪克森(James Dixon)率先提出“數(shù)據(jù)湖”的概念,以解決當(dāng)時(shí)數(shù)據(jù)倉(cāng)庫(kù)處理大數(shù)據(jù)時(shí)所面臨的的性能瓶頸。他指出:“如果把數(shù)據(jù)集市想象成一個(gè)瓶裝水倉(cāng)庫(kù),經(jīng)過(guò)清潔、包裝和結(jié)構(gòu)化處理,方便飲用,那么數(shù)據(jù)湖就是一個(gè)更自然狀態(tài)的大型水庫(kù)。數(shù)據(jù)湖的內(nèi)容從源頭入湖,用戶(hù)可來(lái)湖中查看、潛入或取樣?!?/p>
也就是說(shuō),數(shù)據(jù)湖一開(kāi)始就將所有數(shù)據(jù)源的數(shù)據(jù)進(jìn)行存儲(chǔ),包括離線的、在線的,結(jié)構(gòu)化的、非結(jié)構(gòu)化的,各類(lèi)面向事務(wù)型的數(shù)據(jù)。同時(shí),利用Hadoop等大數(shù)據(jù)處理技術(shù),使得海量數(shù)據(jù)處理更容易。
從理論上講,數(shù)據(jù)湖的出現(xiàn)在很大程度是符合時(shí)代的,并且在2015年得到比較大的發(fā)展。但由于許多企業(yè)構(gòu)建數(shù)據(jù)湖的進(jìn)展并沒(méi)有想象中順利,也一定程度上削弱了數(shù)據(jù)湖的普及。例如,當(dāng)時(shí)的數(shù)據(jù)湖只解決存儲(chǔ)問(wèn)題,分析計(jì)算的問(wèn)題依然需要數(shù)倉(cāng)完成,放到今天,計(jì)算、存儲(chǔ)是需要同時(shí)被解決的。另外,數(shù)據(jù)湖的實(shí)施和維護(hù)成本高,且需要經(jīng)年累月與企業(yè)業(yè)務(wù)流程以及數(shù)據(jù)分析工具集成,才能實(shí)現(xiàn)其價(jià)值。
那么,能否實(shí)現(xiàn)“倉(cāng)”、“湖”的優(yōu)點(diǎn)兼具?即讓數(shù)據(jù)倉(cāng)庫(kù)直接ETL數(shù)據(jù)湖里的數(shù)據(jù),實(shí)現(xiàn)湖、倉(cāng)的打通。2020年,Databricks公司對(duì)湖倉(cāng)一體(DLH,Data Lakehouse)概念的提出,不僅讓Databricks這家以開(kāi)源Spark出名的公司再次出圈,也讓業(yè)內(nèi)看到了湖倉(cāng)一體架構(gòu)的優(yōu)越性,眾多數(shù)倉(cāng)專(zhuān)家由此也開(kāi)始了對(duì)數(shù)據(jù)湖功能兼容的大量技術(shù)探索。
誰(shuí)在入局
Databricks首先在2020年發(fā)表了一篇重要論文《A New Generation of Open Platforms that Unify Data Warehousing and Advanced Analytics》,將“湖倉(cāng)一體”作為一種新穎的數(shù)據(jù)管理方法。據(jù)論文描述,該方法將數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)湖整合到一個(gè)系統(tǒng)中,以更“湖倉(cāng)一體”的方式運(yùn)行,充分利用云存儲(chǔ)服務(wù)的成本效益,這尤其對(duì)于同時(shí)使用BI工具和依賴(lài)數(shù)據(jù)科學(xué)/機(jī)器學(xué)習(xí)解決方案的大型企業(yè)有益。
在概念提出的最開(kāi)始一段時(shí)間,確實(shí)只有Databricks一家商業(yè)公司提供湖倉(cāng)產(chǎn)品,但很快,隨著湖倉(cāng)一體理念得到廣泛關(guān)注,圍繞湖倉(cāng)的技術(shù)組件和產(chǎn)品方案,逐漸衍生出四股力量:
一是MPP數(shù)據(jù)庫(kù)Teradata和基于Hadoop的Cloudera等老牌公司,二是三大云廠商的同類(lèi)產(chǎn)品包括Google BigQuery、Amazon Redshift、Azure Synapse Analytics;三是主打存算分離的云數(shù)倉(cāng)(CDW)新貴Snowflake,四是以數(shù)據(jù)湖開(kāi)源表格式Delta Lake、Apache Hudi等為基礎(chǔ)的商業(yè)公司Databricks。
從技術(shù)路徑上,與單獨(dú)建倉(cāng)或單獨(dú)建湖的不同的是,前者無(wú)法保證數(shù)據(jù)湖與數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)一致性問(wèn)題,湖倉(cāng)一體是以數(shù)據(jù)倉(cāng)庫(kù)中支持?jǐn)?shù)據(jù)湖特性,和以數(shù)據(jù)湖中支持?jǐn)?shù)倉(cāng)特性?xún)纱蠓较?。例如,Snowflake、Amazon Redshift,以及國(guó)內(nèi)的阿里云MaxCompute以前者為技術(shù)路徑;而Databricks、Uber則以后者為技術(shù)路徑。作為湖倉(cāng)一體概念的提出者,Databricks如今基于Apache Spark、Delta Lake、MLflow等開(kāi)源組件構(gòu)建了相對(duì)完整的產(chǎn)品方案,并且基于三方云平臺(tái),將湖倉(cāng)產(chǎn)品集成售賣(mài)。
數(shù)據(jù)湖、數(shù)據(jù)倉(cāng)庫(kù)曾各自獨(dú)立發(fā)展過(guò)一段時(shí)間,現(xiàn)如今,這兩個(gè)技術(shù)方案已經(jīng)走向融合。
根據(jù)Fortune?Business?Insights公布的《大數(shù)據(jù)分析市場(chǎng)報(bào)告,2021-2028年》,目前大量初創(chuàng)公司正在爭(zhēng)奪全球大數(shù)據(jù)分析市場(chǎng)的份額,預(yù)計(jì)2028年將達(dá)到5497.3億美元。根據(jù)資本流動(dòng)趨勢(shì)和觀察到的客戶(hù)需求,大數(shù)據(jù)分析市場(chǎng)中最熱門(mén)的領(lǐng)域無(wú)疑是數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)湖、數(shù)據(jù)湖倉(cāng)、數(shù)據(jù)網(wǎng)格、DataOps和超快速大數(shù)據(jù)查詢(xún)引擎。
中國(guó)信通院《數(shù)據(jù)庫(kù)發(fā)展研究報(bào)告(2024)》指出,隨著智能時(shí)代的到來(lái),AI大模型需要的存儲(chǔ)底座需要具備高存儲(chǔ)密度、高性能計(jì)算、數(shù)據(jù)安全保障等特點(diǎn),能夠?qū)Υ笠?guī)模數(shù)據(jù)進(jìn)行高性能處理的湖倉(cāng)一體技術(shù)成為AI大模型不可或缺的數(shù)據(jù)基礎(chǔ)設(shè)施。原因在于兩點(diǎn):一是湖倉(cāng)一體的設(shè)計(jì)為大模型提供了高性能數(shù)據(jù)處理底座,二是人工智能也使得倉(cāng)內(nèi)智能成為可能。
如果說(shuō)傳統(tǒng)數(shù)倉(cāng)、數(shù)據(jù)湖能夠向湖倉(cāng)一體架構(gòu)持續(xù)演進(jìn),其首要原因還是來(lái)自實(shí)際企業(yè)應(yīng)用場(chǎng)景中,業(yè)務(wù)驅(qū)動(dòng)的結(jié)果。那么,隨著企業(yè)應(yīng)用場(chǎng)景逐步推進(jìn)到以AIGC的業(yè)務(wù)和應(yīng)用中,AI大模型在企業(yè)的快速推進(jìn)正客觀促成湖倉(cāng)相關(guān)領(lǐng)域的廠商展開(kāi)競(jìng)賽,筆者注意到,各股勢(shì)力不光頻繁展開(kāi)性能拉練,也在試圖通過(guò)技術(shù)收購(gòu)整合、投入研發(fā),企業(yè)客戶(hù)也成為這場(chǎng)競(jìng)賽中的直接受益者。
過(guò)去一年,頭部的數(shù)據(jù)庫(kù)企業(yè),甚至于大模型企業(yè)都已經(jīng)在積極采取產(chǎn)品發(fā)布、或進(jìn)行收購(gòu)、合作的方式,搶占AI大模型時(shí)代的先機(jī)。

今年2月,Databricks公司還宣布與SAP達(dá)成合作,SAP將把Databricks的AI數(shù)據(jù)管理工具集成到其新的業(yè)務(wù)數(shù)據(jù)云;而Snowflake宣布將與英偉達(dá)合作,為企業(yè)量身定制AI模型。
另外,在大模型技術(shù)爆發(fā)背景下,以及各方產(chǎn)業(yè)鏈上下游廠商的頻繁較量中,戰(zhàn)火也早已燒到了中國(guó)市場(chǎng)。
以阿里云湖倉(cāng)架構(gòu)為例,在數(shù)據(jù)存儲(chǔ)層,基于數(shù)據(jù)平臺(tái)、數(shù)倉(cāng)和數(shù)據(jù)湖能力基礎(chǔ)之上,進(jìn)行倉(cāng)內(nèi)數(shù)據(jù)模型直接調(diào)用;在數(shù)據(jù)服務(wù)層,提供RAG服務(wù)、Data API及模型管理能力;在場(chǎng)景應(yīng)用層,湖倉(cāng)可支持企業(yè)快速搭建知識(shí)庫(kù)。
國(guó)內(nèi)市場(chǎng),除了阿里云、華為云等云廠商外,星環(huán)科技、滴普科技、柏睿數(shù)據(jù)、偶數(shù)科技等創(chuàng)業(yè)廠商也在過(guò)去一段時(shí)間展開(kāi)了對(duì)湖倉(cāng)一體架構(gòu)的技術(shù)探索與產(chǎn)品落地。
但對(duì)比了品牌、產(chǎn)品技術(shù)、市場(chǎng)資源、客戶(hù)基礎(chǔ)、組織能力等多維度優(yōu)勢(shì)后,我們注意到,在湖倉(cāng)領(lǐng)域,始終有兩個(gè)無(wú)法忽視的競(jìng)對(duì):Databricks和Snowflake。
兩種路線的較量
其實(shí)兩方勢(shì)力的競(jìng)爭(zhēng)成功與否,并不在于一地之得失,而在于有生力量之消長(zhǎng)。Databricks與Snowflake競(jìng)爭(zhēng)的背后,也是兩種技術(shù)路線的較量。
與外界現(xiàn)如今感知所不同的是,湖倉(cāng)這一概念在被市場(chǎng)得到關(guān)注之前,Databricks其實(shí)定位于基于Apache Spark構(gòu)建的統(tǒng)一數(shù)據(jù)和分析平臺(tái),并且一直在緩慢且成功地發(fā)展其業(yè)務(wù)。只是在近些年,Databricks開(kāi)始從Snowflake等數(shù)倉(cāng)廠商手中奪取了越來(lái)越多的市場(chǎng)份額。
而Databricks的最大亮點(diǎn)在于,它是以流數(shù)據(jù)處理為出發(fā)點(diǎn),向上擴(kuò)展自身AI能力,向下打造湖倉(cāng)一體,通過(guò)不斷完善AI基礎(chǔ)架構(gòu),為最上層AI應(yīng)用提供一個(gè)優(yōu)化的承載平臺(tái)。因而Databricks并非是一家數(shù)倉(cāng)或數(shù)據(jù)庫(kù)公司,而是構(gòu)建AI infra的公司。
業(yè)務(wù)層面,Databricks更專(zhuān)注于高級(jí)分析和處理復(fù)雜的數(shù)據(jù)處理任務(wù),通常涉及數(shù)據(jù)科學(xué)或機(jī)器學(xué)習(xí)。這也使得Databricks一開(kāi)始合作的客戶(hù)通常具備數(shù)據(jù)工程能力,并認(rèn)可其數(shù)據(jù)湖中支持?jǐn)?shù)倉(cāng)特性的技術(shù)路線。
技術(shù)層面,Databricks做了許多能力建設(shè)。首先,Databricks對(duì)其數(shù)據(jù)湖表格式開(kāi)源項(xiàng)目Delta Lake投入了大量資金和,并且還是該開(kāi)源項(xiàng)目的最大貢獻(xiàn)者。
2024年,Databricks進(jìn)一步收購(gòu)Iceberg的商業(yè)公司Tabular,進(jìn)一步鞏固其市場(chǎng)地位,要知道Snowflake、Cloudera、AWS、Oracle、Salesforce等眾多廠商基于Iceberg構(gòu)建。這一操作明顯使Snowflake的處境更加艱難,并導(dǎo)致其不得不宣布將Polaris Catalog作為Delta Lake和Iceberg的直接開(kāi)源替代方案,以對(duì)抗Databricks的影響。
其次,Databricks成功解決了跨各種數(shù)據(jù)處理引擎的無(wú)縫互操作性這一重大挑戰(zhàn),消除了供應(yīng)商鎖定的問(wèn)題。
此外,Databricks從一開(kāi)始就面向數(shù)據(jù)科學(xué)、人工智能領(lǐng)域持續(xù)探索,并構(gòu)建了一系列數(shù)據(jù)與AI工具組件。如開(kāi)發(fā)和維護(hù)AI生命周期管理開(kāi)源平臺(tái)MLflow,用于進(jìn)行機(jī)器學(xué)習(xí)模型的部署和訓(xùn)練;數(shù)據(jù)分析工具Koalas,可讓使用Pandas進(jìn)行編程的數(shù)據(jù)科學(xué)家直接切換到Spark上,用于大型分布式集群應(yīng)用。
2023年,Databricks開(kāi)源了其首個(gè)大語(yǔ)言模型dolly 2.0,為其后續(xù)推出大模型拉開(kāi)了序幕。2023年末,Databricks以13億美金收購(gòu)大模型初創(chuàng)公司Mosaic,以便Databricks現(xiàn)有的客戶(hù)實(shí)現(xiàn)數(shù)據(jù)源無(wú)縫集成,提高構(gòu)建數(shù)據(jù)服務(wù)的統(tǒng)一體驗(yàn)。通過(guò)對(duì)MosaicML的技術(shù)和團(tuán)隊(duì)整合,MosaicML被全面整合進(jìn)Databricks的湖倉(cāng)產(chǎn)品中。
今年3月,Databricks發(fā)布了一款132B混合專(zhuān)家模型DBRX,該大模型由內(nèi)部Mosaic Research團(tuán)隊(duì)開(kāi)發(fā),其人員一部分就來(lái)自于此前對(duì)MosaicML團(tuán)隊(duì)的收編而來(lái)。據(jù)Databricks透露,DBRX完全基于Databricks平臺(tái)開(kāi)發(fā),利用Unity Catalog等工具進(jìn)行數(shù)據(jù)治理、Apache Spark進(jìn)行數(shù)據(jù)處理以及Mosaic AI Training進(jìn)行模型訓(xùn)練和微調(diào)。正是這種深度集成,客戶(hù)可以通過(guò)API訪問(wèn)DBRX,從而無(wú)縫集成到現(xiàn)有工作流程和應(yīng)用程序中。
從趨勢(shì)上看,隨著生成式AI應(yīng)用的出現(xiàn),市場(chǎng)需求顯然已經(jīng)在從數(shù)倉(cāng)轉(zhuǎn)向了更有利于Databricks的湖倉(cāng)技術(shù)。Databricks近期指出,已經(jīng)有200多家客戶(hù)從Snowflake遷移到Databricks,其中有8家還是頭部大客戶(hù)。
另一個(gè)信號(hào)是,Databricks和Snowflake之間的差距正在縮小。Databricks宣布預(yù)計(jì)截至2025年1月31日第四季度的收入運(yùn)行率將超過(guò)30億美元,而Snowflake公布的2025財(cái)年產(chǎn)品營(yíng)收實(shí)現(xiàn)35億美元。
Databricks已多次與Snowflake進(jìn)行性能大戰(zhàn)。2023年,為了甩開(kāi)膀子撕逼,雙方甚至同意將DeWitt條款限制拿掉,即允許研究人員和科學(xué)家在學(xué)術(shù)論文中明確使用其系統(tǒng)名稱(chēng)。
技術(shù)層面,Snowflake針對(duì)結(jié)構(gòu)化數(shù)據(jù)的存儲(chǔ)和分析進(jìn)行了優(yōu)化,并高度重視數(shù)據(jù)倉(cāng)庫(kù)的易用性和可擴(kuò)展性。同時(shí),Snowflake從2022年相繼收購(gòu)了Applica、Streamlit、SnowConvert、Myst.AI和Neeva等多家AI與數(shù)據(jù)領(lǐng)域初創(chuàng)公司,加大對(duì)AI分析和數(shù)據(jù)平臺(tái)的投入。今年4月,Snowflake發(fā)布了其開(kāi)源大模型Arctic,以4800億參數(shù)MoE架構(gòu)試圖擊敗Databricks的DBRX。此外,Snowflake還與Anthropic等大模型廠商合作。去年10月,Snowflake還與Cloudera實(shí)現(xiàn)集成,客戶(hù)通過(guò)使用Snowflake的計(jì)算引擎和獲得Iceberg支持的Cloudera湖倉(cāng)一體架構(gòu),實(shí)現(xiàn)動(dòng)態(tài)擴(kuò)展分析與AI工作負(fù)載,同時(shí)降低成本。
與Snowflake同樣技術(shù)路線的云廠商也開(kāi)始頻繁向外界證明,其核心產(chǎn)品能夠跟上生成式AI和大模型的進(jìn)步。
Google BigQuery為解決湖倉(cāng)統(tǒng)一治理,直接將治理功能嵌入到數(shù)倉(cāng)中,而非單獨(dú)工具或流程。近日的Google Cloud Next大會(huì)上,谷歌表示Google BigQuery自2011年面世以來(lái),其客戶(hù)數(shù)量已經(jīng)是Snowflake和Databricks的五倍。

2024 Gartner云數(shù)據(jù)庫(kù)管理系統(tǒng)魔力象限
無(wú)論走哪種技術(shù)路徑,無(wú)非是代表不同的商業(yè)利益群體,這種爭(zhēng)論對(duì)于客戶(hù)而言,都需要深入了解當(dāng)前和未來(lái)的需求??赡苣承﹫?chǎng)景下,Databricks更廣泛的功能使其更具優(yōu)勢(shì),而在其他情況下,Snowflake的易用性亦會(huì)成為其決定性因素。
暗流涌動(dòng)
但最耐人尋味的,是雙方在AI大模型時(shí)代達(dá)成的某些共識(shí)對(duì)整個(gè)數(shù)據(jù)庫(kù)市場(chǎng)的震動(dòng)。當(dāng)其他老牌對(duì)手看到Snowflake和Databricks增強(qiáng)了對(duì)大模型的支持,也終于下場(chǎng)布局,新興的初創(chuàng)公司也因數(shù)據(jù)庫(kù)市場(chǎng)的攪動(dòng),開(kāi)始重新找準(zhǔn)市場(chǎng)定位。
不久前,Snowflake、Databricks競(jìng)相展開(kāi)對(duì)AI RAG(檢索增強(qiáng)生成)公司VoyageAI的收購(gòu)。收購(gòu)Voyage或?qū)椭罢咛嵘陨砥脚_(tái)的速度和性能。例如,Snowflake已通過(guò)一項(xiàng)云服務(wù)向客戶(hù)提供Voyage模型的訪問(wèn)權(quán)限,客戶(hù)可以使用該服務(wù)構(gòu)建AI應(yīng)用。Databricks此前也在努力為其相應(yīng)的服務(wù)提供同樣的訪問(wèn)權(quán)限。不過(guò),隨著MongoDB對(duì)VoyageAI的成功截胡,一切正朝著新的變局演變。
與此同時(shí),新興AI搜索初創(chuàng)公司Glean已經(jīng)在瞄準(zhǔn)這塊市場(chǎng),推出能夠幫助企業(yè)更有效搜索數(shù)據(jù)庫(kù)中數(shù)據(jù)的產(chǎn)品。值得關(guān)注的是,近期Databricks還被曝出擬將收購(gòu)無(wú)服務(wù)器初創(chuàng)公司Neon。
但更大的問(wèn)題是,對(duì)于客戶(hù)而言,企業(yè)對(duì)數(shù)據(jù)的訴求早已不在于記錄信息、收集信息,更在于獲得可行的見(jiàn)解,做出更明智、更快速的決策。在AI應(yīng)用潮流和企業(yè)降本增效的驅(qū)使下,客戶(hù)仍然需要花一定的精力和成本來(lái)做新數(shù)據(jù)庫(kù)的嘗試和遷移,同樣面臨極大風(fēng)險(xiǎn)。
數(shù)據(jù)庫(kù)賽道也越來(lái)越卷了,尤其在國(guó)內(nèi)市場(chǎng),很多兩三年前出現(xiàn)的初創(chuàng)公司或產(chǎn)品已消弭不少,諸多創(chuàng)業(yè)十年以上的數(shù)據(jù)庫(kù)廠商也在頻繁跟進(jìn)技術(shù)基調(diào)更新產(chǎn)品。
而紛爭(zhēng)角逐的核心主線是,在新賽道、新興細(xì)分市場(chǎng)中,數(shù)據(jù)庫(kù)廠商的核心機(jī)會(huì)仍然是解決客戶(hù)的業(yè)務(wù)問(wèn)題,而不是過(guò)度關(guān)注拿獎(jiǎng)、追逐技術(shù)時(shí)尚,成為市場(chǎng)的投機(jī)者。(本文首發(fā)于鈦媒體APP,作者 | 楊麗,編輯 | 蓋虹達(dá))
熱門(mén)跟貼