最近有一則不太被大家關注的新聞,說農(nóng)行順利完成了分布式核心工程,穩(wěn)妥實現(xiàn)了大型機的關停下電工作。

打開網(wǎng)易新聞 查看精彩圖片

這是銀行業(yè)規(guī)模最大、涉及客戶最多的大型主機切換及下線工作,為我國商業(yè)銀行核心系統(tǒng)架構轉型提供了重要借鑒。

看到這些消息,我是很吃驚的,因為IBM最核心的技術,終于要被國產(chǎn)替代了!

很多人并不了解IBM大型機,這種被簡稱為大機的服務器十分神秘,深藏在核心的機房中,保存著最核心的數(shù)據(jù),運行著最核心的業(yè)務,普通人根本沒機會見到它。

大機以高性能,高可用性,高可靠性著稱,它有一套自成體系的硬件和軟件,在服務器市場中鶴立雞群,價格也非常感人,只有超大型公司才能用得起。

我們拿2017年發(fā)布的z14來看看它的性能指標吧:

CPU主頻5.2G Hz,10個核心

可以配置170個CPU

內(nèi)存32TB (不是GB!)

最多支持8000個虛擬機

可以橫向擴展到200萬個Docker容器

為什么要設計出這樣的“怪物般”的機器呢?

因為這個世界上存在著一些關鍵業(yè)務,對平臺要求極高。

幾年前,調(diào)研機構Qualix Group曾有一組數(shù)字,服務器宕機1分鐘,平均使運輸業(yè)損失15萬美元,銀行業(yè)損失27萬美元,通信業(yè)損失35萬美元,制造業(yè)損失42萬美元,證券業(yè)損失45萬美元……

尤其對于銀行業(yè),如果銀行系統(tǒng)中斷1小時,將直接影響該行的基本支付業(yè)務;中斷1天,將對其聲譽造成極大傷害;中斷2-3天以上不能恢復,將直接危及其他銀行乃至整個金融系統(tǒng)的穩(wěn)定。

必須有一種機器,在處理能力、穩(wěn)定性和安全性上,滿足這些需求,大型機就應運而生。

0 1

硬件

大型機一般都在系統(tǒng)內(nèi)集成了高程度的冗余和錯誤檢查技術,防止系統(tǒng)發(fā)生災難性問題。

大型機的每個處理器核心都有2個完全的執(zhí)行通道來同時執(zhí)行每一條指令。如果兩條通道的計算結果不一致,CPU的狀態(tài)就會復原,重新執(zhí)行該條指令,結果還是不一致的話,一個空閑狀態(tài)的CPU將會被激活替代當前的CPU。

獨立磁盤冗余陣列(RAID)大家都聽說過,可以用冗余的磁盤和條帶化算法,防止數(shù)據(jù)的損壞和丟失。

打開網(wǎng)易新聞 查看精彩圖片

2010年,IBM率先把類似的理念也引入到內(nèi)存當中,用部分物理內(nèi)存實現(xiàn)磁盤RAID的功能,叫做RAIM(獨立冗余內(nèi)存陣列), 從而實現(xiàn)內(nèi)存的高可用性。

除了CPU和內(nèi)存外,其它的元件如內(nèi)存總線、I/O通道、電源等等,都有相應的冗余設計。確保系統(tǒng)的高可靠性、高可用性。

即使出錯,許多組件的熱拔插特性也能確保系統(tǒng)的高服務性,在系統(tǒng)運行的同時被更換。

在大機中把很多軟件模塊都被硬件化了,比如硬件壓縮卡、排序指令、向量運算指令,隨機數(shù)生成器、加密硬件(AES、DES、TDES、SHA等),非常的霸氣。

大機的處理器用的是自己獨特z/Architecture主機架構。

IBM z14 有170個處理單元(PU),每個PU中除了我們常說的中央處理器(CPU)之外,還有集成固件處理器,集成信息處理器,內(nèi)部耦合處理器等專用處理器。

這些專用處理器完成特定工作,卸下CPU的工作負載,讓它專注于操作系統(tǒng)和應用程序。

打開網(wǎng)易新聞 查看精彩圖片

0 2

軟件

大機的操作系統(tǒng)也是獨特的,叫z/OS,看看這復古的界面:

打開網(wǎng)易新聞 查看精彩圖片

在上面可以運行DB2, IMS(數(shù)據(jù)庫),CICS(交易中間件),JVM等應用程序,當然,它們也都是為大機定制的。

打開網(wǎng)易新聞 查看精彩圖片

大機也提供了強大的虛擬化能力,可以創(chuàng)建多個虛擬機實例,每個虛擬機運行不同的操作系統(tǒng)和應用程序:

打開網(wǎng)易新聞 查看精彩圖片

有意思的是無論操作系統(tǒng),還是上面的應用程序,它們的收費方式很獨特:用戶定期上傳一個報告,根據(jù)使用情況來計算軟件費用。

比如MSU(Million Service Units),這是IBM z Systems上一個用于測量處理能力的度量單位,一個MSU相當于系統(tǒng)每秒能夠執(zhí)行一百萬條指令。

在IBM z/OS操作系統(tǒng)中,許多IBM和第三方軟件都使用MSU來確定許可成本??蛻敉ǔP枰徺I足夠的MSU來覆蓋其應用程序和工作負載的處理需求。

我原來所在的IBM部門,就是專門負責大機上軟件的銷售和費用計算的,業(yè)務邏輯很有意思。

0 3

向后兼容性

單獨把向后兼容性拎出來說,是因為對于關鍵業(yè)務應用來說,它實在太重要了。

它可以讓大型公司平穩(wěn)地升級硬件和軟件,而無需重寫或修改現(xiàn)有的應用程序。

IBM大型機的歷史可以追溯到上世紀60年代,那個時候IBM通過System/360統(tǒng)治了計算機市場,后來雖然不斷進化,但是一直保持了向后兼容性。

許多為早期系統(tǒng)編寫的應用程序,在 50 年后仍然可以在最新的 IBM z系統(tǒng)上運行,無需修改。

所以我們看到很多用COBOL寫的恐龍級古老應用:稅收、社保、醫(yī)療保險、保單、理賠等,在大機上穩(wěn)定運行了幾十年,并且極有可能會繼續(xù)運行下去。

打開網(wǎng)易新聞 查看精彩圖片

0 4

國產(chǎn)化替代

早些年互聯(lián)網(wǎng)企業(yè)掀起了一場“去IOE”的運動,利用分布式技術,把IBM的小型機,Oracle的數(shù)據(jù)庫,EMC的存儲給“干掉了”。

但是看了上面的科普,你就會明白,想替換掉大機難度遠超“去IOE”。

更何況大型機主要是銀行、金融等行業(yè)在使用,保存著最核心的數(shù)據(jù),運行著最核心的應用,比如你的銀行賬戶數(shù)據(jù),這些不允許有一絲一毫的錯誤。

農(nóng)行是怎么做的呢?我去搜了一下,只找到了很少的信息,簡單來說就是用分布式的核心系統(tǒng)替代集中式的大型機。

1. 農(nóng)行分布式核心系統(tǒng)建設采用的數(shù)據(jù)庫是TDSQL。

2. 在核心架構上,農(nóng)業(yè)銀行采用了高并發(fā)處理能力的分布式微服務架構,可以同時支持超過8億客戶的4011項綜合金融服務。

3. 根據(jù)測試數(shù)據(jù),系統(tǒng)響應時間提升至毫秒級,交易處理能力由每秒5000筆提升至8000筆。

4. 系統(tǒng)具備了強大的數(shù)據(jù)備份恢復能力,可以在極短的時間內(nèi)恢復故障數(shù)據(jù),確??蛻粜畔⒌陌踩?。

5. 新版分布式核心系統(tǒng)實現(xiàn)了零停機、零問題、零差錯和零投訴的目標。

6. 這是銀行業(yè)規(guī)模最大、涉及客戶最多的大型主機切換及下線工作,為我國商業(yè)銀行核心系統(tǒng)架構轉型提供了重要借鑒。

一般來說,企業(yè)推出新產(chǎn)品/解決方案,實際的效果要在宣傳的效果上打個折扣,我相信大型機的關停下電工作不會像表面上看起來波瀾不驚,一帆風順,有知道詳情的同學可以在評論區(qū)聊聊。

但是農(nóng)行把這件事搞成了,這本身就是一個巨大的突破。

這不由得讓我想起了IBM在中國的命運,20年多前,IBM的大型機,小型機,x86服務器可謂風頭正勁,五大品牌軟件WebSphere、Db2、Lotus、Tivoli、Rational在企業(yè)軟件市場被眾人追捧,再加上咨詢服務業(yè)務,IBM在中國真是賺得盆滿缽滿。

IBM在中國負責研發(fā)業(yè)務的公司叫做國際商業(yè)機器(中國)投資有限公司,下設中國研究院(CRL),中國開發(fā)實驗室(CDL)和IBM中國系統(tǒng)中心(CSL)等機構,薪資高,活兒輕松,人性化管理,是諸多名校畢業(yè)生趨之若鶩的地方,

互聯(lián)網(wǎng)浪潮一浪接一浪打來,IBM被動成為“去IOE”運動中的一員,硬件和軟件逐漸失勢,就剩下大型機還在苦苦支撐。

2021年CRL關閉,2024年CDL和CSL關閉,2025年國際商業(yè)機器(中國)投資有限公司停止運營。

只剩下一個負責銷售、市場推廣的IBM(中國)有限公司了,如今銀行連大型機也要干掉了,它又能持續(xù)多久呢?

一個時代真的落幕了。

全文完,覺得不錯的話點個贊或者在看吧。