打開網(wǎng)易新聞 查看精彩圖片

圖片來源@pixabay

生成式AI技術(shù)變革,正驅(qū)使數(shù)據(jù)庫廠商展開激烈競爭。

傳統(tǒng)廠商長期占據(jù)主導(dǎo)地位,卻也因云原生分布式數(shù)據(jù)庫的沖擊而有所動搖。當(dāng)AI風(fēng)暴再次攪動這個(gè)市場,數(shù)據(jù)庫廠商紛紛調(diào)整數(shù)據(jù)戰(zhàn)略,試圖更加貼近企業(yè)客戶使用AI的實(shí)際場景。新舊勢力間的角逐,實(shí)際也讓真實(shí)的客戶加快享受到新時(shí)代紅利。

在Databricks的案例庫中流傳著這樣一個(gè)故事。來自中國的全球消費(fèi)電子品牌安克創(chuàng)新,其數(shù)據(jù)團(tuán)隊(duì)曾遇到過一個(gè)棘手問題:受原有數(shù)倉的制約,無法對企業(yè)內(nèi)部多個(gè)系統(tǒng)和應(yīng)用數(shù)據(jù)進(jìn)行統(tǒng)一治理,這導(dǎo)致團(tuán)隊(duì)將大量時(shí)間用于數(shù)據(jù)治理及相關(guān)的Devops落地,幾乎沒有時(shí)間挖掘更高價(jià)值的數(shù)據(jù)任務(wù),比如用于支持生成式AI的創(chuàng)新。

安克創(chuàng)新用上了云湖倉,而針對這一產(chǎn)品的選型中,其團(tuán)隊(duì)放棄了Snowflake,而選擇Databricks,其關(guān)鍵一點(diǎn)在于技術(shù)層面,前者并不符合團(tuán)隊(duì)對操作便捷性和基于同一平臺實(shí)現(xiàn)數(shù)據(jù)、分析、AI創(chuàng)新的需求。而基于Databricks的云湖倉產(chǎn)品Delta Lake實(shí)現(xiàn)200TB數(shù)據(jù)的統(tǒng)一數(shù)據(jù)底座后,安克創(chuàng)新又陸續(xù)用上了Databricks的其他產(chǎn)品:通過Unity Catalog實(shí)現(xiàn)表格式數(shù)據(jù)訪問,基于MLflow實(shí)現(xiàn)AI應(yīng)用自動化流程編排。準(zhǔn)備就緒后,安克創(chuàng)新數(shù)據(jù)團(tuán)隊(duì)終于有機(jī)會去探索大模型驅(qū)動下的代碼檢索、自動生成SQL、問答知識庫等服務(wù)。

安克創(chuàng)新的選擇背后,是以Databricks和Snowflake為首的兩大數(shù)據(jù)分析與智能服務(wù)提供商所焦灼的領(lǐng)域——云湖倉。在表引擎、分析引擎、實(shí)時(shí)計(jì)算引擎、數(shù)據(jù)入湖工具、數(shù)據(jù)開發(fā)DataOps工具鏈、統(tǒng)一元數(shù)據(jù)管理等相關(guān)的引擎或組件,以及當(dāng)下面向AI的大模型自研、AI數(shù)據(jù)庫層面,各方都展開了尤為激烈的競爭,以搶占市場先機(jī)。

過去兩年間,其實(shí)很多企業(yè)都在嘗試生成式AI應(yīng)用,但直至今天,我們?nèi)詻]有看到真正能大規(guī)模推廣到企業(yè)中的AI案例。其核心問題在于生成式AI應(yīng)用始終存在不準(zhǔn)確或不相關(guān)的推理結(jié)果,也就是常稱的“幻覺”問題。而結(jié)合上述案例實(shí)踐能夠進(jìn)一步理解,減少模型幻覺的重要方法之一,是引入企業(yè)內(nèi)部知識庫,提高生成準(zhǔn)確性和邊界,這往往需要在IT基礎(chǔ)設(shè)施和數(shù)據(jù)集成的統(tǒng)一性上下功夫。

看似技術(shù)引領(lǐng)了市場變革,其實(shí)不然。數(shù)據(jù)庫市場的變局,是發(fā)展到一定程度必然面對的,并且早已箭在弦上。

1990~2020,被反復(fù)錘煉的一個(gè)技術(shù)名詞

理解數(shù)據(jù)庫市場這一切變化,還要從“倉”與“湖”說起。

作為一款分析型數(shù)據(jù)庫,數(shù)據(jù)倉庫(Data Warehouse)的出現(xiàn)已有幾十年的歷程,最早可以追溯到20世紀(jì)60年代,并且隨著近些年大數(shù)據(jù)技術(shù)的發(fā)展而不斷升級。

20世紀(jì)90年代,在比爾·恩門(Bill Inmon)和拉爾夫·金博爾(Ralph Kimball)的推動下,數(shù)據(jù)倉庫迅速發(fā)展。被譽(yù)為數(shù)據(jù)倉庫之父的比爾·恩門在《構(gòu)建數(shù)據(jù)庫倉庫》一書中給出其定義:一個(gè)面向主題的(Subject Oriented)、集成的(Integrated)、相對穩(wěn)定的(Non-Volatile)、反映歷史變化(Time Variant)的數(shù)據(jù)集合,用于支持管理決策(Decision Making Support)。

這在當(dāng)時(shí),是一項(xiàng)重大創(chuàng)新,包括能夠支持更快的商業(yè)智能(當(dāng)時(shí)還談不上AI,更多是BI),能更高效地處理結(jié)構(gòu)化數(shù)據(jù)等,也存在明顯缺點(diǎn),如缺乏對非結(jié)構(gòu)化數(shù)據(jù)的處理能力,處理大量數(shù)據(jù)需要較長時(shí)間。但這一技術(shù)方案,基本滿足了當(dāng)時(shí)大量處于初創(chuàng)階段的中小企業(yè)或客戶團(tuán)隊(duì),對于處理有限數(shù)據(jù)和分析的訴求。

直至21世紀(jì)初,大數(shù)據(jù)的興起給傳統(tǒng)數(shù)據(jù)倉庫帶來了挑戰(zhàn)。這一挑戰(zhàn)首先暴露在谷歌、雅虎等互聯(lián)網(wǎng)公司內(nèi)部:后端有大量的業(yè)務(wù)系統(tǒng)支撐,同時(shí)也有支持“海量”數(shù)據(jù)服務(wù)的平臺架構(gòu),但在數(shù)據(jù)分析、商業(yè)智能等方面,一直在使用傳統(tǒng)的數(shù)據(jù)庫+數(shù)據(jù)倉庫作為底層支撐。傳統(tǒng)的數(shù)據(jù)倉庫無法處理大量非結(jié)構(gòu)化數(shù)據(jù),一旦遇到業(yè)務(wù)流量洪峰,數(shù)據(jù)倉庫就會出現(xiàn)瓶頸,持續(xù)擴(kuò)容也顯得捉襟見肘。

打開網(wǎng)易新聞 查看精彩圖片

為了應(yīng)對這一挑戰(zhàn),數(shù)據(jù)湖(Data Lake)的概念應(yīng)運(yùn)而生。

從核心目標(biāo)上講,數(shù)據(jù)湖與數(shù)據(jù)倉庫都是用于數(shù)據(jù)分析,以便為組織提供洞察,輔助業(yè)務(wù)決策,但二者仍有區(qū)分。數(shù)據(jù)湖通常存儲用于高級分析應(yīng)用的各類大數(shù)據(jù),而數(shù)據(jù)倉庫則存儲用于基本商業(yè)智能、分析和報(bào)告用途的常規(guī)交易數(shù)據(jù)。

2003年至2006年期間,谷歌相繼發(fā)表文件分布式系統(tǒng)GFS、并行計(jì)算框架MapReduce和BigTable論文,這“三駕馬車”奠定了大數(shù)據(jù)技術(shù)的基石,開啟了大數(shù)據(jù)技術(shù)發(fā)展大幕。隨后,Hadoop出現(xiàn),它以HDFS分布式文件系統(tǒng)作為存儲層,以MapReduce提供計(jì)算,為海量數(shù)據(jù)處理提供了一套全面的解決方案,并在雅虎的支持下,Hadoop生態(tài)發(fā)展迅猛。

2010年,Hadoop World大會上Pentaho公司創(chuàng)始人詹姆斯·迪克森(James Dixon)率先提出“數(shù)據(jù)湖”的概念,以解決當(dāng)時(shí)數(shù)據(jù)倉庫處理大數(shù)據(jù)時(shí)所面臨的的性能瓶頸。他指出:“如果把數(shù)據(jù)集市想象成一個(gè)瓶裝水倉庫,經(jīng)過清潔、包裝和結(jié)構(gòu)化處理,方便飲用,那么數(shù)據(jù)湖就是一個(gè)更自然狀態(tài)的大型水庫。數(shù)據(jù)湖的內(nèi)容從源頭入湖,用戶可來湖中查看、潛入或取樣?!?/p>

也就是說,數(shù)據(jù)湖一開始就將所有數(shù)據(jù)源的數(shù)據(jù)進(jìn)行存儲,包括離線的、在線的,結(jié)構(gòu)化的、非結(jié)構(gòu)化的,各類面向事務(wù)型的數(shù)據(jù)。同時(shí),利用Hadoop等大數(shù)據(jù)處理技術(shù),使得海量數(shù)據(jù)處理更容易。

從理論上講,數(shù)據(jù)湖的出現(xiàn)在很大程度是符合時(shí)代的,并且在2015年得到比較大的發(fā)展。但由于許多企業(yè)構(gòu)建數(shù)據(jù)湖的進(jìn)展并沒有想象中順利,也一定程度上削弱了數(shù)據(jù)湖的普及。例如,當(dāng)時(shí)的數(shù)據(jù)湖只解決存儲問題,分析計(jì)算的問題依然需要數(shù)倉完成,放到今天,計(jì)算、存儲是需要同時(shí)被解決的。另外,數(shù)據(jù)湖的實(shí)施和維護(hù)成本高,且需要經(jīng)年累月與企業(yè)業(yè)務(wù)流程以及數(shù)據(jù)分析工具集成,才能實(shí)現(xiàn)其價(jià)值。

那么,能否實(shí)現(xiàn)“倉”、“湖”的優(yōu)點(diǎn)兼具?即讓數(shù)據(jù)倉庫直接ETL數(shù)據(jù)湖里的數(shù)據(jù),實(shí)現(xiàn)湖、倉的打通。2020年,Databricks公司對湖倉一體(DLH,Data Lakehouse)概念的提出,不僅讓Databricks這家以開源Spark出名的公司再次出圈,也讓業(yè)內(nèi)看到了湖倉一體架構(gòu)的優(yōu)越性,眾多數(shù)倉專家由此也開始了對數(shù)據(jù)湖功能兼容的大量技術(shù)探索。

誰在入局

Databricks首先在2020年發(fā)表了一篇重要論文《A New Generation of Open Platforms that Unify Data Warehousing and Advanced Analytics》,將“湖倉一體”作為一種新穎的數(shù)據(jù)管理方法。據(jù)論文描述,該方法將數(shù)據(jù)倉庫和數(shù)據(jù)湖整合到一個(gè)系統(tǒng)中,以更“湖倉一體”的方式運(yùn)行,充分利用云存儲服務(wù)的成本效益,這尤其對于同時(shí)使用BI工具和依賴數(shù)據(jù)科學(xué)/機(jī)器學(xué)習(xí)解決方案的大型企業(yè)有益。

在概念提出的最開始一段時(shí)間,確實(shí)只有Databricks一家商業(yè)公司提供湖倉產(chǎn)品,但很快,隨著湖倉一體理念得到廣泛關(guān)注,圍繞湖倉的技術(shù)組件和產(chǎn)品方案,逐漸衍生出四股力量:

一是MPP數(shù)據(jù)庫Teradata和基于Hadoop的Cloudera等老牌公司,二是三大云廠商的同類產(chǎn)品包括Google BigQuery、Amazon Redshift、Azure Synapse Analytics;三是主打存算分離的云數(shù)倉(CDW)新貴Snowflake,四是以數(shù)據(jù)湖開源表格式Delta Lake、Apache Hudi等為基礎(chǔ)的商業(yè)公司Databricks。

從技術(shù)路徑上,與單獨(dú)建倉或單獨(dú)建湖的不同的是,前者無法保證數(shù)據(jù)湖與數(shù)據(jù)倉庫中的數(shù)據(jù)一致性問題,湖倉一體是以數(shù)據(jù)倉庫中支持?jǐn)?shù)據(jù)湖特性,和以數(shù)據(jù)湖中支持?jǐn)?shù)倉特性兩大方向。例如,Snowflake、Amazon Redshift,以及國內(nèi)的阿里云MaxCompute以前者為技術(shù)路徑;而Databricks、Uber則以后者為技術(shù)路徑。作為湖倉一體概念的提出者,Databricks如今基于Apache Spark、Delta Lake、MLflow等開源組件構(gòu)建了相對完整的產(chǎn)品方案,并且基于三方云平臺,將湖倉產(chǎn)品集成售賣。

數(shù)據(jù)湖、數(shù)據(jù)倉庫曾各自獨(dú)立發(fā)展過一段時(shí)間,現(xiàn)如今,這兩個(gè)技術(shù)方案已經(jīng)走向融合。

根據(jù)Fortune?Business?Insights公布的《大數(shù)據(jù)分析市場報(bào)告,2021-2028年》,目前大量初創(chuàng)公司正在爭奪全球大數(shù)據(jù)分析市場的份額,預(yù)計(jì)2028年將達(dá)到5497.3億美元。根據(jù)資本流動趨勢和觀察到的客戶需求,大數(shù)據(jù)分析市場中最熱門的領(lǐng)域無疑是數(shù)據(jù)倉庫、數(shù)據(jù)湖、數(shù)據(jù)湖倉、數(shù)據(jù)網(wǎng)格、DataOps和超快速大數(shù)據(jù)查詢引擎。

中國信通院《數(shù)據(jù)庫發(fā)展研究報(bào)告(2024)》指出,隨著智能時(shí)代的到來,AI大模型需要的存儲底座需要具備高存儲密度、高性能計(jì)算、數(shù)據(jù)安全保障等特點(diǎn),能夠?qū)Υ笠?guī)模數(shù)據(jù)進(jìn)行高性能處理的湖倉一體技術(shù)成為AI大模型不可或缺的數(shù)據(jù)基礎(chǔ)設(shè)施。原因在于兩點(diǎn):一是湖倉一體的設(shè)計(jì)為大模型提供了高性能數(shù)據(jù)處理底座,二是人工智能也使得倉內(nèi)智能成為可能。

如果說傳統(tǒng)數(shù)倉、數(shù)據(jù)湖能夠向湖倉一體架構(gòu)持續(xù)演進(jìn),其首要原因還是來自實(shí)際企業(yè)應(yīng)用場景中,業(yè)務(wù)驅(qū)動的結(jié)果。那么,隨著企業(yè)應(yīng)用場景逐步推進(jìn)到以AIGC的業(yè)務(wù)和應(yīng)用中,AI大模型在企業(yè)的快速推進(jìn)正客觀促成湖倉相關(guān)領(lǐng)域的廠商展開競賽,筆者注意到,各股勢力不光頻繁展開性能拉練,也在試圖通過技術(shù)收購整合、投入研發(fā),企業(yè)客戶也成為這場競賽中的直接受益者。

過去一年,頭部的數(shù)據(jù)庫企業(yè),甚至于大模型企業(yè)都已經(jīng)在積極采取產(chǎn)品發(fā)布、或進(jìn)行收購、合作的方式,搶占AI大模型時(shí)代的先機(jī)。

打開網(wǎng)易新聞 查看精彩圖片

今年2月,Databricks公司還宣布與SAP達(dá)成合作,SAP將把Databricks的AI數(shù)據(jù)管理工具集成到其新的業(yè)務(wù)數(shù)據(jù)云;而Snowflake宣布將與英偉達(dá)合作,為企業(yè)量身定制AI模型。

另外,在大模型技術(shù)爆發(fā)背景下,以及各方產(chǎn)業(yè)鏈上下游廠商的頻繁較量中,戰(zhàn)火也早已燒到了中國市場。

以阿里云湖倉架構(gòu)為例,在數(shù)據(jù)存儲層,基于數(shù)據(jù)平臺、數(shù)倉和數(shù)據(jù)湖能力基礎(chǔ)之上,進(jìn)行倉內(nèi)數(shù)據(jù)模型直接調(diào)用;在數(shù)據(jù)服務(wù)層,提供RAG服務(wù)、Data API及模型管理能力;在場景應(yīng)用層,湖倉可支持企業(yè)快速搭建知識庫。

國內(nèi)市場,除了阿里云、華為云等云廠商外,星環(huán)科技、滴普科技、柏睿數(shù)據(jù)、偶數(shù)科技等創(chuàng)業(yè)廠商也在過去一段時(shí)間展開了對湖倉一體架構(gòu)的技術(shù)探索與產(chǎn)品落地。

但對比了品牌、產(chǎn)品技術(shù)、市場資源、客戶基礎(chǔ)、組織能力等多維度優(yōu)勢后,我們注意到,在湖倉領(lǐng)域,始終有兩個(gè)無法忽視的競對:Databricks和Snowflake。

兩種路線的較量

其實(shí)兩方勢力的競爭成功與否,并不在于一地之得失,而在于有生力量之消長。Databricks與Snowflake競爭的背后,也是兩種技術(shù)路線的較量。

與外界現(xiàn)如今感知所不同的是,湖倉這一概念在被市場得到關(guān)注之前,Databricks其實(shí)定位于基于Apache Spark構(gòu)建的統(tǒng)一數(shù)據(jù)和分析平臺,并且一直在緩慢且成功地發(fā)展其業(yè)務(wù)。只是在近些年,Databricks開始從Snowflake等數(shù)倉廠商手中奪取了越來越多的市場份額。

而Databricks的最大亮點(diǎn)在于,它是以流數(shù)據(jù)處理為出發(fā)點(diǎn),向上擴(kuò)展自身AI能力,向下打造湖倉一體,通過不斷完善AI基礎(chǔ)架構(gòu),為最上層AI應(yīng)用提供一個(gè)優(yōu)化的承載平臺。因而Databricks并非是一家數(shù)倉或數(shù)據(jù)庫公司,而是構(gòu)建AI infra的公司。

業(yè)務(wù)層面,Databricks更專注于高級分析和處理復(fù)雜的數(shù)據(jù)處理任務(wù),通常涉及數(shù)據(jù)科學(xué)或機(jī)器學(xué)習(xí)。這也使得Databricks一開始合作的客戶通常具備數(shù)據(jù)工程能力,并認(rèn)可其數(shù)據(jù)湖中支持?jǐn)?shù)倉特性的技術(shù)路線。

技術(shù)層面,Databricks做了許多能力建設(shè)。首先,Databricks對其數(shù)據(jù)湖表格式開源項(xiàng)目Delta Lake投入了大量資金和,并且還是該開源項(xiàng)目的最大貢獻(xiàn)者。

2024年,Databricks進(jìn)一步收購Iceberg的商業(yè)公司Tabular,進(jìn)一步鞏固其市場地位,要知道Snowflake、Cloudera、AWS、Oracle、Salesforce等眾多廠商基于Iceberg構(gòu)建。這一操作明顯使Snowflake的處境更加艱難,并導(dǎo)致其不得不宣布將Polaris Catalog作為Delta Lake和Iceberg的直接開源替代方案,以對抗Databricks的影響。

其次,Databricks成功解決了跨各種數(shù)據(jù)處理引擎的無縫互操作性這一重大挑戰(zhàn),消除了供應(yīng)商鎖定的問題。

此外,Databricks從一開始就面向數(shù)據(jù)科學(xué)、人工智能領(lǐng)域持續(xù)探索,并構(gòu)建了一系列數(shù)據(jù)與AI工具組件。如開發(fā)和維護(hù)AI生命周期管理開源平臺MLflow,用于進(jìn)行機(jī)器學(xué)習(xí)模型的部署和訓(xùn)練;數(shù)據(jù)分析工具Koalas,可讓使用Pandas進(jìn)行編程的數(shù)據(jù)科學(xué)家直接切換到Spark上,用于大型分布式集群應(yīng)用。

2023年,Databricks開源了其首個(gè)大語言模型dolly 2.0,為其后續(xù)推出大模型拉開了序幕。2023年末,Databricks以13億美金收購大模型初創(chuàng)公司Mosaic,以便Databricks現(xiàn)有的客戶實(shí)現(xiàn)數(shù)據(jù)源無縫集成,提高構(gòu)建數(shù)據(jù)服務(wù)的統(tǒng)一體驗(yàn)。通過對MosaicML的技術(shù)和團(tuán)隊(duì)整合,MosaicML被全面整合進(jìn)Databricks的湖倉產(chǎn)品中。

今年3月,Databricks發(fā)布了一款132B混合專家模型DBRX,該大模型由內(nèi)部Mosaic Research團(tuán)隊(duì)開發(fā),其人員一部分就來自于此前對MosaicML團(tuán)隊(duì)的收編而來。據(jù)Databricks透露,DBRX完全基于Databricks平臺開發(fā),利用Unity Catalog等工具進(jìn)行數(shù)據(jù)治理、Apache Spark進(jìn)行數(shù)據(jù)處理以及Mosaic AI Training進(jìn)行模型訓(xùn)練和微調(diào)。正是這種深度集成,客戶可以通過API訪問DBRX,從而無縫集成到現(xiàn)有工作流程和應(yīng)用程序中。

從趨勢上看,隨著生成式AI應(yīng)用的出現(xiàn),市場需求顯然已經(jīng)在從數(shù)倉轉(zhuǎn)向了更有利于Databricks的湖倉技術(shù)。Databricks近期指出,已經(jīng)有200多家客戶從Snowflake遷移到Databricks,其中有8家還是頭部大客戶。

另一個(gè)信號是,Databricks和Snowflake之間的差距正在縮小。Databricks宣布預(yù)計(jì)截至2025年1月31日第四季度的收入運(yùn)行率將超過30億美元,而Snowflake公布的2025財(cái)年產(chǎn)品營收實(shí)現(xiàn)35億美元。

Databricks已多次與Snowflake進(jìn)行性能大戰(zhàn)。2023年,為了甩開膀子撕逼,雙方甚至同意將DeWitt條款限制拿掉,即允許研究人員和科學(xué)家在學(xué)術(shù)論文中明確使用其系統(tǒng)名稱。

技術(shù)層面,Snowflake針對結(jié)構(gòu)化數(shù)據(jù)的存儲和分析進(jìn)行了優(yōu)化,并高度重視數(shù)據(jù)倉庫的易用性和可擴(kuò)展性。同時(shí),Snowflake從2022年相繼收購了Applica、Streamlit、SnowConvert、Myst.AI和Neeva等多家AI與數(shù)據(jù)領(lǐng)域初創(chuàng)公司,加大對AI分析和數(shù)據(jù)平臺的投入。今年4月,Snowflake發(fā)布了其開源大模型Arctic,以4800億參數(shù)MoE架構(gòu)試圖擊敗Databricks的DBRX。此外,Snowflake還與Anthropic等大模型廠商合作。去年10月,Snowflake還與Cloudera實(shí)現(xiàn)集成,客戶通過使用Snowflake的計(jì)算引擎和獲得Iceberg支持的Cloudera湖倉一體架構(gòu),實(shí)現(xiàn)動態(tài)擴(kuò)展分析與AI工作負(fù)載,同時(shí)降低成本。

與Snowflake同樣技術(shù)路線的云廠商也開始頻繁向外界證明,其核心產(chǎn)品能夠跟上生成式AI和大模型的進(jìn)步。

Google BigQuery為解決湖倉統(tǒng)一治理,直接將治理功能嵌入到數(shù)倉中,而非單獨(dú)工具或流程。近日的Google Cloud Next大會上,谷歌表示Google BigQuery自2011年面世以來,其客戶數(shù)量已經(jīng)是Snowflake和Databricks的五倍。

打開網(wǎng)易新聞 查看精彩圖片

2024 Gartner云數(shù)據(jù)庫管理系統(tǒng)魔力象限

無論走哪種技術(shù)路徑,無非是代表不同的商業(yè)利益群體,這種爭論對于客戶而言,都需要深入了解當(dāng)前和未來的需求??赡苣承﹫鼍跋?,Databricks更廣泛的功能使其更具優(yōu)勢,而在其他情況下,Snowflake的易用性亦會成為其決定性因素。

暗流涌動

但最耐人尋味的,是雙方在AI大模型時(shí)代達(dá)成的某些共識對整個(gè)數(shù)據(jù)庫市場的震動。當(dāng)其他老牌對手看到Snowflake和Databricks增強(qiáng)了對大模型的支持,也終于下場布局,新興的初創(chuàng)公司也因數(shù)據(jù)庫市場的攪動,開始重新找準(zhǔn)市場定位。

不久前,Snowflake、Databricks競相展開對AI RAG(檢索增強(qiáng)生成)公司VoyageAI的收購。收購Voyage或?qū)椭罢咛嵘陨砥脚_的速度和性能。例如,Snowflake已通過一項(xiàng)云服務(wù)向客戶提供Voyage模型的訪問權(quán)限,客戶可以使用該服務(wù)構(gòu)建AI應(yīng)用。Databricks此前也在努力為其相應(yīng)的服務(wù)提供同樣的訪問權(quán)限。不過,隨著MongoDB對VoyageAI的成功截胡,一切正朝著新的變局演變。

與此同時(shí),新興AI搜索初創(chuàng)公司Glean已經(jīng)在瞄準(zhǔn)這塊市場,推出能夠幫助企業(yè)更有效搜索數(shù)據(jù)庫中數(shù)據(jù)的產(chǎn)品。值得關(guān)注的是,近期Databricks還被曝出擬將收購無服務(wù)器初創(chuàng)公司Neon。

但更大的問題是,對于客戶而言,企業(yè)對數(shù)據(jù)的訴求早已不在于記錄信息、收集信息,更在于獲得可行的見解,做出更明智、更快速的決策。在AI應(yīng)用潮流和企業(yè)降本增效的驅(qū)使下,客戶仍然需要花一定的精力和成本來做新數(shù)據(jù)庫的嘗試和遷移,同樣面臨極大風(fēng)險(xiǎn)。

數(shù)據(jù)庫賽道也越來越卷了,尤其在國內(nèi)市場,很多兩三年前出現(xiàn)的初創(chuàng)公司或產(chǎn)品已消弭不少,諸多創(chuàng)業(yè)十年以上的數(shù)據(jù)庫廠商也在頻繁跟進(jìn)技術(shù)基調(diào)更新產(chǎn)品。

而紛爭角逐的核心主線是,在新賽道、新興細(xì)分市場中,數(shù)據(jù)庫廠商的核心機(jī)會仍然是解決客戶的業(yè)務(wù)問題,而不是過度關(guān)注拿獎、追逐技術(shù)時(shí)尚,成為市場的投機(jī)者。(本文首發(fā)于鈦媒體APP,作者 | 楊麗,編輯 | 蓋虹達(dá))