
導(dǎo)讀
在金融科技迅猛發(fā)展的今天,華安基金作為行業(yè)的先行者,面臨著數(shù)據(jù)管理和分析的全新挑戰(zhàn)。隨著業(yè)務(wù)的不斷擴(kuò)展和數(shù)據(jù)量的激增,傳統(tǒng)的數(shù)據(jù)庫架構(gòu)已難以滿足系統(tǒng)對實時性、靈活性和分析能力的需求。在這樣的背景下,HTAP(混合事務(wù)/分析處理)數(shù)據(jù)庫成為了數(shù)字化轉(zhuǎn)型的關(guān)鍵。
本文由華安基金大數(shù)據(jù)開發(fā)工程師鄭圣瑜撰寫。探討了華安基金在 HTAP 場景下的數(shù)據(jù)庫選擇。從實際業(yè)務(wù)場景出發(fā),解析了選擇 HTAP 數(shù)據(jù)庫的原因及選擇 TiDB 的決策過程;以及如何通過 POC 測試和實際應(yīng)用,驗證 TiDB 的優(yōu)勢;同時展示報表系統(tǒng)后臺數(shù)據(jù)庫從 MySQL 遷移到 TiDB 的案例及性能提升,分享測試和使用中的挑戰(zhàn)及 TiDB 的新特性應(yīng)用。

華安基金管理有限公司,成立于 1998 年,總部位于上海,是中國證監(jiān)會批準(zhǔn)成立的首批 5 家基金管理公司之一。華安基金旗下公募基金規(guī)模超過 6000 億元,非貨幣公募資產(chǎn)管理規(guī)模超過 3500 億元。公司管理的公募基金共計 248 只,服務(wù)的客戶數(shù)量超過 1.3 億,累計為投資者實現(xiàn)分紅金額超過 1000 億元。華安基金憑借其出色的資產(chǎn)管理能力,累計獲得金牛獎 57 座,另外多次獲得金基金獎、明星基金獎等榮譽。
在 2018 年以前,華安基金的數(shù)據(jù)庫技術(shù)棧采用了集中式架構(gòu),以 Oracle 為主,MySQL 為輔;在 2018 年后,系統(tǒng)的數(shù)據(jù)量和并發(fā)量都有了大規(guī)模的增長,數(shù)據(jù)倉庫層面引入了一套基于 Hadoop 生態(tài)的國產(chǎn)化分布式數(shù)據(jù)庫;到 2023 年華安基金響應(yīng)號召進(jìn)行了國產(chǎn)化改造,進(jìn)行了國產(chǎn)集中式數(shù)據(jù)庫的選型替換。隨著業(yè)務(wù)的不斷發(fā)展,面對系統(tǒng)的復(fù)雜性,一個既能處理大量事務(wù),又能進(jìn)行實時分析的數(shù)據(jù)庫解決方案成為了必須,因此,華安基金開啟了新一輪的架構(gòu)選型。


華安基金第一次感受到 HTAP 數(shù)據(jù)庫的重要性是在反洗錢系統(tǒng)的研發(fā)中。由于該系統(tǒng)既包含批處理場景,也包含交易場景。尤其是審計模塊,業(yè)務(wù)分析前置條件較多、需要處理的數(shù)據(jù)量很大,服務(wù)于 1.3 億投資人,涉及到大量的數(shù)據(jù)增刪改查操作。
過去,OLAP 請求從上游負(fù)責(zé) OLTP 請求的各個信息數(shù)據(jù)庫中提取數(shù)據(jù),在數(shù)倉進(jìn)行加工處理,再將處理后的數(shù)據(jù)推送到下游的各個應(yīng)用系統(tǒng)中。在純分析場景中,原有的 Hadoop+分布式數(shù)據(jù)庫架構(gòu)能夠滿足需求,但在交易場景中,尤其是審計模塊,效率下降得十分明顯。
為了應(yīng)對業(yè)務(wù)的需求,新的數(shù)據(jù)庫架構(gòu)必須具備以下能力:
- 實時混合交易分析查詢能力;
- 海量并發(fā)數(shù)據(jù)寫入查詢能力;
- 透明水平彈性拓展能力;
- 實時大規(guī)模批量更新刪除處理能力;
- 金融級自愈容災(zāi)高可用能力等。
因此,華安基金開啟了 HTAP 數(shù)據(jù)庫選型的技術(shù)儲備工作。

國產(chǎn)化改造要求
華安基金是上海僅有的兩家基金行業(yè)中的國產(chǎn)化改造試點單位之一,根據(jù)相關(guān)部門要求,需要在 2027 年之前完成所有系統(tǒng)的國產(chǎn)化化改造,目前已經(jīng)完成了 70%。
TiDB 是新一代分布式數(shù)據(jù)庫的引領(lǐng)者,堅持自主開源的價值主張和全球化策略,2024 年 9 月,依托于 TiDB 經(jīng)過深度優(yōu)化與功能增強(qiáng),為企業(yè)級關(guān)鍵業(yè)務(wù)場景量身打造的分布式數(shù)據(jù)庫平凱數(shù)據(jù)庫首批通過分布式數(shù)據(jù)庫安全可靠測評,現(xiàn)已在金融、運營商、能源、醫(yī)療、電力、政企等多個行業(yè)的關(guān)鍵業(yè)務(wù)系統(tǒng)中得到了廣泛應(yīng)用和驗證,這也是華安基金選擇 TiDB 的前提條件。
透明、靈活、高效、易用的使用體驗
在降本增效的大背景下,企業(yè)的 IT 人員有限,需要數(shù)據(jù)庫可靠、穩(wěn)定,并且運維簡單;與此同時,金融行業(yè)的安全性和審計也至關(guān)重要,TiDB 的架構(gòu)恰好能夠滿足這些需求:

- 原生分布式架構(gòu):TiDB 的使用體驗與集中式數(shù)據(jù)庫相似,無需考慮分片鍵,簡化了應(yīng)用開發(fā)和建表的過程。數(shù)據(jù)庫自動實現(xiàn)數(shù)據(jù)的打散和負(fù)載均衡,降低了人工運維成本。
- 存儲計算分離:TiDB 的存儲和計算分離架構(gòu)提供了更好的彈性擴(kuò)展能力,允許存儲和計算資源獨立擴(kuò)展。支持在線擴(kuò)縮容,擴(kuò)縮容操作在后臺異步進(jìn)行,不影響業(yè)務(wù)運行。
- HTAP 混合負(fù)載:TiDB 支持行存儲和列存儲引擎,能夠同時支持在線交易和實時分析,兩種操作互不干擾。這種混合負(fù)載能力簡化了技術(shù)棧,提高了分析效率,替代了原有的 OLTP+ETL+OLAP 架構(gòu)。
- 高可用及易管理:TiDB 的所有組件都具有高可用性,即使在節(jié)點故障時也能保障數(shù)據(jù)不丟失、業(yè)務(wù)不中斷。此外,它還支持在線 DDL 變更、資源管控、圖形化管理和安全審計等,提高了系統(tǒng)的易管理性。
TiDB 憑借先進(jìn)的架構(gòu)和透明、靈活、高效、易用的使用體驗成為了此次 HTAP 數(shù)據(jù)庫選型中的優(yōu)選。
測試驗證產(chǎn)品能力
在框定了選型范圍后,需要通過嚴(yán)格的全鏈路測試來驗證產(chǎn)品能力。在設(shè)置測試標(biāo)準(zhǔn)時,主要有兩方面考慮:
- 本次測試的目標(biāo)是構(gòu)建技術(shù)儲備。華安基金希望通過測試不同的數(shù)據(jù)庫解決方案,為未來可能的技術(shù)升級和擴(kuò)展打下基礎(chǔ)。最初的設(shè)想是,只要新數(shù)據(jù)庫在實時查詢場景下,能夠達(dá)到現(xiàn)有 TP 系統(tǒng)性能的 70%和 AP 系統(tǒng)性能的 70%,就足以滿足需求。然而,測試結(jié)果表明,TiDB 的性能遠(yuǎn)超預(yù)期。特別是在 AP 場景中,TiDB 在組件帶索引查詢、多表關(guān)聯(lián)、聚合等操作方面的表現(xiàn)極為出色,甚至超出了對 AP 性能 70%的預(yù)期。在 TP 場景中,TiDB 的性能與測試中的另一個 TP 數(shù)據(jù)庫相當(dāng),并且在處理大規(guī)模批量操作時表現(xiàn)更佳。
- 數(shù)據(jù)導(dǎo)入和導(dǎo)出性能是關(guān)注的重點。引入 TiDB 的出發(fā)點是報表數(shù)據(jù)集市,這是選擇 TiDB 的關(guān)鍵應(yīng)用場景。由于上游是數(shù)據(jù)倉庫,需要導(dǎo)入大量數(shù)據(jù),因此評估數(shù)據(jù)導(dǎo)入和導(dǎo)出的性能至關(guān)重要。華安基金期望推廣的報表系統(tǒng)能夠得到公司業(yè)務(wù)人員的廣泛使用,這就要求查詢速度必須足夠快。因此,對數(shù)據(jù)庫的導(dǎo)入導(dǎo)出性能進(jìn)行了嚴(yán)格測試,以確保它能夠滿足對速度的需求。
根據(jù)以上原則,本輪選型測試采用 3 節(jié)點國產(chǎn)化硬件服務(wù)器以及操作系統(tǒng)進(jìn)行部署,對百萬級/億級別/百億級別等 13 項 HTAP 場景進(jìn)行了業(yè)務(wù)測試,測試的場景和標(biāo)準(zhǔn)如下:

TiDB 超過 2 TB 級別混合場景中,運維、管控、數(shù)據(jù)處理、彈性擴(kuò)容等場景均表現(xiàn)優(yōu)秀。經(jīng)過綜合評估,TiDB 在 GPT(General Purpose Transactional Processing,通用事務(wù)處理)得分上脫穎而出:


在將報表系統(tǒng)升級至 TiDB 之后的性能對比分析顯示,原先依賴單機(jī) MySQL 數(shù)據(jù)庫的系統(tǒng)經(jīng)過升級,采用了三臺服務(wù)器的配置,性能提升顯著,遠(yuǎn)超三倍的預(yù)期。升級后的系統(tǒng)表現(xiàn)贏得了后臺運營團(tuán)隊和業(yè)務(wù)團(tuán)隊的高度滿意。

TiDB 在華安基金的近期應(yīng)用主要集中在 OLAP 能力上,支持大規(guī)模數(shù)據(jù)的聚合分析和精確查詢,這些場景要求數(shù)據(jù)庫能夠處理千萬級以上的多表關(guān)聯(lián)和聚合分析,以及百億級的數(shù)據(jù)查詢和范圍掃描。未來,TiDB 在華安基金的應(yīng)用將擴(kuò)展到 OLTP 層面,支持更復(fù)雜的事務(wù)處理和在線交易業(yè)務(wù),包括注冊登記系統(tǒng) TA、華安基金 APP、華安基金投資助手公眾號,以及反洗錢系統(tǒng)審計等場景。


在測試過程中,除了對 HTAP 能力的驗證,TiDB 的新特性也帶給了華安基金驚喜的使用體驗。
Pipelined DML
過去,在處理大規(guī)模事務(wù)的過程中,往往需要調(diào)整應(yīng)用端的業(yè)務(wù)邏輯和需求以適應(yīng)大量數(shù)據(jù)的導(dǎo)入,使用到批處理 DML(Batch DML)功能。隨著 TiDB pipelined DML 功能的推出,現(xiàn)在可以通過簡單地添加一個參數(shù)開關(guān)來提升性能,無需再對業(yè)務(wù)操作進(jìn)行修改。這一改進(jìn)顯著簡化了操作流程,提高了效率。

TiDB 的新版本相較于舊版本,在性能上也實現(xiàn)了顯著的飛躍。這些性能上的改進(jìn)極大地提升了華安基金在處理大規(guī)模數(shù)據(jù)時的效率,并且優(yōu)化了操作流程。
資源管控
TiDB 的資源管控特性為系統(tǒng)提供了關(guān)鍵的資源分配能力。報表系統(tǒng)需要特定的資源分配策略,尤其是確保高層管理部門能夠優(yōu)先獲取計算資源。對于后臺部門,如執(zhí)行常規(guī)數(shù)據(jù)處理的,對速度的要求相對寬松。為此,華安基金實施了兩個資源池的設(shè)置:一個是高優(yōu)先級的 online(在線)資源池,另一個是 offline(離線)資源池。在系統(tǒng)界面中(RU Consumed by Resource Groups),online 資源池以紅色標(biāo)識,而 offline 資源池以藍(lán)色顯示,確保 online 資源池能夠獲得更高的優(yōu)先級和使用權(quán)限。

分區(qū)表全局索引
TiDB 的新特性——分區(qū)表全局索引,在營銷領(lǐng)域的客戶持倉分析中發(fā)揮了重要作用。面對一張每天新增超過 6000 萬條持倉數(shù)據(jù)的明細(xì)表,數(shù)據(jù)導(dǎo)入過程中的穩(wěn)定性非常重要,需要開啟特定開關(guān)來確保操作的安全性。此外,針對業(yè)務(wù)人員的查詢需求,通?;谄胀ㄋ饕龍?zhí)行點查詢或小范圍查詢,TiDB 提供的全局索引(Global Index)功能顯著提升了使用的高效性和便捷性。

ORC 文件導(dǎo)入
華安基金的上游數(shù)據(jù)倉庫是基于開源 Hadoop 生態(tài)系統(tǒng)構(gòu)建,主要采用 ORC 格式存儲文件,TiDB 團(tuán)隊快速響應(yīng),在原有的文本文件和 Parquet 文件導(dǎo)入之外,實現(xiàn)了 ORC 文件的導(dǎo)入,從而滿足了報表系統(tǒng)下游的多樣化需求。

圖形化管理監(jiān)控 TEM
TiDB 的圖形化管控界面簡化了操作流程,避免了僅依賴命令行進(jìn)行操作的復(fù)雜性,同時集成了告警管理、數(shù)據(jù)備份和主機(jī)管理等關(guān)鍵功能。這些功能的集成與華安基金現(xiàn)有的大數(shù)據(jù)倉庫操作高度一致,從而提高了管理效率和用戶體驗。



華安基金在選擇 HTAP 數(shù)據(jù)庫的過程中,遵循了一套全面而細(xì)致的選型思路,以確保所選技術(shù)能夠充分滿足業(yè)務(wù)需求并推動公司發(fā)展:
- 明確需求:首先評估業(yè)務(wù)對 TP(事務(wù)處理)和 AP(分析處理)的需求比重,確定數(shù)據(jù)量、查詢速度和響應(yīng)時間,確保數(shù)據(jù)庫能滿足業(yè)務(wù)對實時性的要求。
- 技術(shù)特性評估:考慮數(shù)據(jù)庫的實時分析能力、可擴(kuò)展性、高性能、安全性和靈活性,以支持業(yè)務(wù)人員實施的場景需求,特別是后臺營銷人員對數(shù)據(jù)實時性的需求。
- 集成與兼容性:評估數(shù)據(jù)庫與現(xiàn)有數(shù)據(jù)庫、應(yīng)用程序和其他關(guān)鍵系統(tǒng)的集成能力,確保數(shù)據(jù)同步策略的無縫實施。
- 安全性與可靠性:重視數(shù)據(jù)庫的安全性措施、容災(zāi)備份機(jī)制、數(shù)據(jù)恢復(fù)能力和錯誤處理機(jī)制,保障業(yè)務(wù)連續(xù)性和數(shù)據(jù)安全。
- 成本與投資回報:分析數(shù)據(jù)庫的購買、部署、維護(hù)和升級成本。
- 產(chǎn)品成熟度:考察產(chǎn)品的成熟度、更新頻率和技術(shù)支持情況,TiDB 已經(jīng)在全球超過 4,000 家企業(yè)中部署,經(jīng)過了金融、互聯(lián)網(wǎng)等規(guī)?;瘓鼍暗尿炞C。
- 測試與驗證:在做出最終選擇前,對 HTAP 數(shù)據(jù)庫進(jìn)行充分的測試和驗證,確保其能滿足業(yè)務(wù)需求。
經(jīng)過細(xì)致的選型過程后,華安基金選擇了 TiDB 作為 HTAP 數(shù)據(jù)庫解決方案。現(xiàn)在,TiDB 在華安基金報表系統(tǒng)上已經(jīng)穩(wěn)定運行,成為了有參考性的解決方案;反洗錢系統(tǒng)作為金融行業(yè)當(dāng)前的一個重點和難點,華安基金也在積極與眾多同業(yè)探討交流,探索 TiDB 的應(yīng)用場景。
國內(nèi)金融機(jī)構(gòu)正紛紛借數(shù)字化轉(zhuǎn)型建設(shè)加大投入,科技對于公募基金行業(yè)創(chuàng)新發(fā)展的驅(qū)動正在進(jìn)入新的階段。展望未來,相信 TiDB 有能力支撐華安基金的業(yè)務(wù)發(fā)展和技術(shù)需求,更好地服務(wù)于廣大持有人和投資者。
熱門跟貼