早在好幾年前,我就在天翼云服務器上部署了Zabbix,用于監(jiān)測客戶的服務器,以及關鍵的網(wǎng)絡設備,比如防火墻、路由器、核心交換機等等。
并且也部署了堡壘機,以便于安全地遠程管理客戶的服務器和網(wǎng)絡設備。
應該說,還是相當有用的,很多次都提前發(fā)現(xiàn)了問題,并妥善處理了。
這不,前天它又給我來活了——突然收到好幾封郵件警告,仔細一看,每封郵件就是一條內(nèi)存壞,一共三條內(nèi)存,都壞了!

其實這臺服務器上,原來有4條16G內(nèi)存,去年已經(jīng)壞了一條,因為不影響使用,我跟客戶講了一聲,也就沒采購,估計這回是真不行了。
趕緊遠程登錄iDRAC看一下,果然是“嚴重”警告。

點開“內(nèi)存”查看詳細信息;

好家伙,三條內(nèi)存都是一樣的“檢測到存在嚴重錯誤”,直接在控制臺重啟服務器,并沒有用,再看日志,還是報錯

而且,服務器也是無法啟動的,說明內(nèi)存故障嚴重。
我前幾年也遇到過,同樣是戴爾服務器,其中一條16G的內(nèi)存變成4G了,服務器還在跑呢,重啟也能起來,只是反復提示要更換內(nèi)存條,想來,不是嚴重問題,系統(tǒng)還是能啟動的。
但,這次顯然不行了,只能換內(nèi)存了。

iDRAC控制臺關閉服務器,開著也沒用了,就省一晚上的電吧。
給客戶發(fā)截圖,報價,由于是金蝶服務器,停一天都不行,客戶很快確認了,第二天早上,一路趕去更換內(nèi)存。
因為原來就是64G內(nèi)存,所以這次直接換了兩條32G的,算是恢復到原來的內(nèi)存容量了。

更換完成后,再次登錄 iDRAC,查看系統(tǒng)狀態(tài),內(nèi)存告警沒了,一切都正常了,另外兩個報錯,重啟后也就消失了,可能不是什么實質(zhì)性的問題,也可能就是由內(nèi)存引起的,總之,現(xiàn)在恢復正常就行了。

趕緊提醒客戶,測試金蝶。

任務完成,趕往下一站,20多年IT運維外包,不就是這么過來的,嘿嘿。
熱門跟貼