打開網(wǎng)易新聞 查看精彩圖片

導(dǎo)讀

Dify.AI 作為 GitHub 上排名第二的 LLM 開發(fā)平臺,憑借 TiDB Cloud Serverless 和 AWS 基礎(chǔ)設(shè)施的創(chuàng)新架構(gòu),為眾多 AI 應(yīng)用開發(fā)者打造了一個(gè)可擴(kuò)展的平臺,顯著提升了開發(fā)效率。面對 AI 時(shí)代海量數(shù)據(jù)和多租戶管理的挑戰(zhàn),Dify.AI 通過統(tǒng)一數(shù)據(jù)存儲(chǔ)、自動(dòng)擴(kuò)縮容及向量檢索優(yōu)化,大幅提升開發(fā)效率,基礎(chǔ)設(shè)施成本降低 80%,運(yùn)維開銷減少 90%。

本文將深入解析 Dify.AI 如何借助 TiDB 打造高效、可擴(kuò)展的 AI 平臺。

Dify.AI 是一款領(lǐng)先的開源大語言模型(LLM)應(yīng)用開發(fā)平臺,它通過直觀的可視化工作流,讓企業(yè)無需深厚技術(shù)背景即可創(chuàng)建復(fù)雜的 AI 應(yīng)用,正在革新企業(yè)構(gòu)建和部署 AI 應(yīng)用的方式。

自 2023 年以來,Dify.AI 迅速崛起,成為 GitHub 上第二受歡迎的 LLM 工具,獲得了超過 70,000 顆 stars 和 630 多位貢獻(xiàn)者的支持。該平臺已助力全球數(shù)千名開發(fā)者,應(yīng)用范圍涵蓋聊天機(jī)器人、內(nèi)容生成、復(fù)雜文檔分析以及 AI 驅(qū)動(dòng)的工作流等領(lǐng)域。

Dify.AI 團(tuán)隊(duì)指出:“從接觸生成式 AI 到構(gòu)建可投入生產(chǎn)的應(yīng)用之間存在著巨大鴻溝。雖然使用 ChatGPT 或復(fù)制一個(gè)演示項(xiàng)目相對容易,但如何通過 AI 應(yīng)用創(chuàng)造真正的商業(yè)價(jià)值仍是巨大挑戰(zhàn),而我們正在努力填補(bǔ)這一缺口?!?/p>

打開網(wǎng)易新聞 查看精彩圖片

作為 GenAI 平臺供應(yīng)商,Dify.AI 在數(shù)據(jù)管理層面主要面臨兩個(gè)挑戰(zhàn)。一方面,平臺需要同時(shí)處理多種數(shù)據(jù)類型——從傳統(tǒng)的關(guān)系型數(shù)據(jù)到向量嵌入,從文檔存儲(chǔ)到對話歷史記錄;另一方面,平臺的多租戶架構(gòu)迫使他們需要管理數(shù)十萬隔離的數(shù)據(jù)庫,每個(gè)數(shù)據(jù)庫對應(yīng)一個(gè)開發(fā)者獨(dú)特的數(shù)據(jù)集

不僅如此,作為一個(gè) SaaS 公司,數(shù)據(jù)管理的復(fù)雜性還影響了他們自身的創(chuàng)新能力和服務(wù)客戶的效果。“管理不同數(shù)據(jù)類型的獨(dú)立數(shù)據(jù)庫不僅復(fù)雜,還讓我們無法專注于真正重要的事情:構(gòu)建更好的 AI 應(yīng)用?!盌ify.AI 團(tuán)隊(duì)表示。

打開網(wǎng)易新聞 查看精彩圖片

為了應(yīng)對這些挑戰(zhàn),Dify.AI 重新設(shè)計(jì)了 GenAI 平臺的數(shù)據(jù)管理層,統(tǒng)一技術(shù)棧:

圖 1 Dify.AI 的數(shù)據(jù)流、以及基于 TiDB 和云基礎(chǔ)設(shè)施的統(tǒng)一架構(gòu)
打開網(wǎng)易新聞 查看精彩圖片
圖 1 Dify.AI 的數(shù)據(jù)流、以及基于 TiDB 和云基礎(chǔ)設(shè)施的統(tǒng)一架構(gòu)

Dify.AI 的平臺實(shí)現(xiàn)了不同類型數(shù)據(jù)與處理流程的無縫銜接,借助先進(jìn)的 AI 技術(shù)將原始數(shù)據(jù)轉(zhuǎn)化為有價(jià)值的信息。所有數(shù)據(jù)均統(tǒng)一存儲(chǔ)于 TiDB 的存儲(chǔ)層,并依托 AWS 基礎(chǔ)設(shè)施進(jìn)行部署,從而提升可擴(kuò)展性和效率。

這種架構(gòu)的意義遠(yuǎn)不止于技術(shù)整合。它體現(xiàn)了 Dify.AI 如何將整個(gè)數(shù)據(jù)基礎(chǔ)設(shè)施整合為一個(gè)統(tǒng)一系統(tǒng),實(shí)現(xiàn)從數(shù)據(jù)采集到 AI 驅(qū)動(dòng)應(yīng)用的全流程數(shù)據(jù)管理。該架構(gòu)分為以下四層:

  • 用戶交互層:從一個(gè)簡潔易用的界面開始,用戶可以輸入數(shù)據(jù)和查詢指令與系統(tǒng)交互。用戶交互層是吸引用戶并確保交互過程順暢的關(guān)鍵所在。
  • Dify 數(shù)據(jù)管道:
  • 當(dāng)用戶輸入數(shù)據(jù)后,信息便進(jìn)入 Dify 數(shù)據(jù)管道。在此階段,系統(tǒng)從多種來源(例如文檔、表格、列表和圖像)收集原始數(shù)據(jù),并對其進(jìn)行分塊處理和 Named Entity Recognition 等高級操作。這些步驟為數(shù)據(jù)生成嵌入向量做好準(zhǔn)備,從而使其能夠被 AI 應(yīng)用所使用。
  • Dify 處理引擎則負(fù)責(zé)協(xié)調(diào)整個(gè)工作流,并整合處理結(jié)果,以便根據(jù)用戶的查詢請求生成準(zhǔn)確且有意義的答復(fù)。

TiDB 統(tǒng)一存儲(chǔ):作為整個(gè)架構(gòu)的核心,TiDB 提供了統(tǒng)一的存儲(chǔ)解決方案,同時(shí)支持關(guān)系型和非關(guān)系型數(shù)據(jù),使得開發(fā)者能夠在一個(gè)平臺上管理多種數(shù)據(jù)集,從而簡化操作并降低復(fù)雜性。具體包括:

  • 事務(wù)性數(shù)據(jù)處理:高效處理事務(wù)性數(shù)據(jù)和實(shí)時(shí)數(shù)據(jù),確保數(shù)據(jù)的準(zhǔn)確性和及時(shí)性。
  • 知識圖譜存儲(chǔ):支持復(fù)雜關(guān)系型數(shù)據(jù)的原生存儲(chǔ),助力深度洞察和關(guān)聯(lián)分析。
  • 向量存儲(chǔ):為 AI 應(yīng)用中的相似性搜索提供強(qiáng)大的嵌入支持,提升檢索效率。
  • 文檔存儲(chǔ):用于存儲(chǔ)原始內(nèi)容,方便對非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行快速檢索。
  • AWS 基礎(chǔ)設(shè)施:系統(tǒng)依托 AWS 基礎(chǔ)設(shè)施運(yùn)行,充分利用以下資源:
  • 利用 AWS EC2 提供彈性計(jì)算能力,靈活應(yīng)對不同工作負(fù)載的波動(dòng)。
  • 采用綜合存儲(chǔ)方案,例如使用 S3 存儲(chǔ)海量數(shù)據(jù),使用 EBS 提供持久化存儲(chǔ)。
  • 與 AWS Bedrock 的深度集成,使 Dify.AI 能夠訪問多個(gè) LLM 供應(yīng)商的預(yù)訓(xùn)練模型,從而進(jìn)一步提升其在外部知識服務(wù)方面的能力。

打開網(wǎng)易新聞 查看精彩圖片

Dify.AI 將數(shù)十萬個(gè)數(shù)據(jù)庫整合至單一的 TiDB Cloud,極大地簡化了基礎(chǔ)設(shè)施架構(gòu),顯著降低了操作復(fù)雜性與維護(hù)成本。

這一統(tǒng)一解決方案為平臺在數(shù)據(jù)庫層面提供了強(qiáng)大的 AI 功能支持,包括內(nèi)置的知識庫功能以及無縫集成的 RAG 實(shí)現(xiàn),能夠自動(dòng)處理文檔,并將內(nèi)容與向量嵌入統(tǒng)一存儲(chǔ)于同一張表中。

開發(fā)者僅需通過簡單的 SQL 查詢即可快速完成原型開發(fā),這種查詢方式同時(shí)適用于傳統(tǒng)數(shù)據(jù)和向量數(shù)據(jù),免去了學(xué)習(xí)多種查詢語言和管理多個(gè)系統(tǒng)的繁瑣過程。此外,平臺的自動(dòng)擴(kuò)縮容(Scale-to-zero)功能能夠根據(jù)實(shí)際使用情況自動(dòng)調(diào)整資源,優(yōu)化成本,同時(shí)確保高性能。

打開網(wǎng)易新聞 查看精彩圖片

這一方案最吸引人的地方在于,通過引入 TiDB 帶來的這種架構(gòu)革新,讓我們能夠在一套系統(tǒng)中同時(shí)處理傳統(tǒng)數(shù)據(jù)庫操作和 AI 特有的向量相似性搜索,這不僅是基礎(chǔ)架構(gòu)升級,更是一次對平臺構(gòu)建和未來擴(kuò)展方式的根本性變革。

張路宇

Dify.AI 創(chuàng)始人兼 CEO

打開網(wǎng)易新聞 查看精彩圖片

TiDB 的轉(zhuǎn)型帶來了三大核心技術(shù)優(yōu)勢,徹底改變了 Dify.AI 構(gòu)建和擴(kuò)展平臺的方式:

統(tǒng)一數(shù)據(jù)處理

  • 單一數(shù)據(jù)源:實(shí)現(xiàn)了文檔、向量數(shù)據(jù)、對話歷史及傳統(tǒng)關(guān)系型數(shù)據(jù)的統(tǒng)一存儲(chǔ)。
  • 簡化架構(gòu):將多套專用數(shù)據(jù)庫整合為一個(gè)統(tǒng)一系統(tǒng),大幅降低運(yùn)維復(fù)雜性。
  • 提升性能:優(yōu)化傳統(tǒng)操作與向量操作的查詢模式,顯著提高數(shù)據(jù)處理效率。

可擴(kuò)展的多租戶設(shè)計(jì)

  • 隔離性:為每位客戶提供獨(dú)立的邏輯空間,同時(shí)共享物理資源,確保數(shù)據(jù)安全與隔離。
  • 資源管理:根據(jù)客戶工作負(fù)載自動(dòng)擴(kuò)縮容(Scale-to-zero)資源,實(shí)現(xiàn)靈活調(diào)度。
  • 成本效益:采用按需付費(fèi)模式,系統(tǒng)能根據(jù)實(shí)際使用量自動(dòng)擴(kuò)展或縮減資源,甚至可以在閑置時(shí)完全停止運(yùn)行,有效優(yōu)化成本。

集成向量操作

  • 原生向量支持:內(nèi)置相似性搜索功能,無需額外插件。
  • 混合查詢:支持傳統(tǒng) SQL 與向量操作的融合查詢,簡化開發(fā)流程。
  • 靈活索引:自動(dòng)管理索引,優(yōu)化性能,提升數(shù)據(jù)檢索效率。

與此同時(shí),Dify.AI 在多個(gè)關(guān)鍵指標(biāo)上取得了顯著的可量化提升:

打開網(wǎng)易新聞 查看精彩圖片
打開網(wǎng)易新聞 查看精彩圖片

此次數(shù)據(jù)架構(gòu)的轉(zhuǎn)型升級,使 Dify.AI 能夠站在 GenAI 領(lǐng)域創(chuàng)新的最前沿。現(xiàn)在,團(tuán)隊(duì)基于 TiDB Serverless 來運(yùn)行 RAG 工作流,并進(jìn)一步探索更多高級功能,比如實(shí)時(shí)知識圖譜更新和跨模態(tài)查詢優(yōu)化——這些功能基于之前的基礎(chǔ)設(shè)施是完全無法實(shí)現(xiàn)的。TiDB 不僅僅是一個(gè)數(shù)據(jù)庫解決方案,它已經(jīng)成為積極擁抱 AI 生態(tài)企業(yè)的戰(zhàn)略級技術(shù)支撐平臺。通過將向量搜索、知識圖譜和日常運(yùn)營數(shù)據(jù)整合到一個(gè)統(tǒng)一系統(tǒng)內(nèi),徹底解決了過去多個(gè)數(shù)據(jù)庫管理帶來的高度復(fù)雜度,同時(shí)確保了系統(tǒng)擁有企業(yè)級的穩(wěn)定性。

Dify.AI 團(tuán)隊(duì)表示:“我們與 TiDB 的合作體驗(yàn)非常出色。平臺能夠在同一個(gè)系統(tǒng)中處理多種需求:從知識圖譜管理到文檔存儲(chǔ),再到對話歷史等,這與我們追求簡化、強(qiáng)大的 AI 開發(fā)平臺的愿景高度契合?!?/p>

“我們選擇 TiDB,不僅是為了應(yīng)對當(dāng)前的挑戰(zhàn),更是為了構(gòu)建一個(gè)能夠隨著我們和客戶需求共同演進(jìn)的基礎(chǔ)設(shè)施?!?/p>