
編輯 | ScienceAI
地質(zhì)圖作為地質(zhì)科學(xué)的核心工具,不僅揭示了地球地下及地表結(jié)構(gòu)的關(guān)鍵信息,還在災(zāi)害預(yù)警、礦產(chǎn)資源勘探、工程建設(shè)以及環(huán)境保護等多個領(lǐng)域有著廣泛的應(yīng)用。
例如,在災(zāi)害預(yù)警中,地質(zhì)圖有助于預(yù)測和防范如地震、滑坡等地質(zhì)災(zāi)害;在礦產(chǎn)資源勘探中,礦產(chǎn)地質(zhì)圖可以分析研究礦床形成的地質(zhì)背景、成礦條件、礦床類型和分布規(guī)律;在工程建設(shè)時,工程地質(zhì)圖對于判斷區(qū)域穩(wěn)定性至關(guān)重要,能夠保障建筑物的安全性;而在環(huán)境保護方面,水文地質(zhì)圖則有助于分析水文條件和污染源分布。
地質(zhì)圖的理解具有極高的門檻。地質(zhì)圖中包含大量的空間信息和復(fù)雜的地質(zhì)現(xiàn)象,這就要求解讀者具備深厚的專業(yè)知識和豐富的實踐經(jīng)驗。此外,地質(zhì)數(shù)據(jù)復(fù)雜且涉及大量的外部知識,即便是經(jīng)驗豐富的地質(zhì)學(xué)家也可能需要耗費大量時間和人力來全面關(guān)聯(lián)地質(zhì)、地理和地震等相關(guān)數(shù)據(jù)。而且人工分析還可能出現(xiàn)遺漏或錯誤,主觀偏差也可能會影響判斷的準確性。
盡管現(xiàn)有的多模態(tài)大語言模型(MLLMs)在通用圖像識別任務(wù)上表現(xiàn)出色,但在特定領(lǐng)域的應(yīng)用如地質(zhì)圖的理解上,則遇到了諸如圖片分辨率過高、依賴專業(yè)領(lǐng)域知識、區(qū)域繁多且相互關(guān)聯(lián)等挑戰(zhàn),導(dǎo)致它們的表現(xiàn)遠未達到專業(yè)標準。
為了幫助地質(zhì)學(xué)領(lǐng)域更好地解讀地質(zhì)圖,微軟亞洲研究院推出了首個用于評估多模態(tài)大語言模型在地質(zhì)圖理解方面的基準集 GeoMap-Bench。同時,研究員們還借助微軟 Azure OpenAI 服務(wù)中的多模態(tài)大模型技術(shù),設(shè)計并開發(fā)了一個專門的智能體 GeoMap-Agent,以提高地質(zhì)圖理解的準確率和效率。
通過使用 MLLMs 增強對地質(zhì)圖整體理解(empowering geologic map holistic understanding,PEACE)的能力,研究員們?yōu)槿斯ぶ悄茉诘刭|(zhì)學(xué)領(lǐng)域的應(yīng)用打開了一扇新的大門。目前兩項成果均已在 GitHub 上開源。相關(guān)論文已被 CVPR 2025 接收。
GeoMap-Bench:定義地質(zhì)圖理解的基準與挑戰(zhàn)
在地質(zhì)學(xué)領(lǐng)域,人工智能的應(yīng)用研究尚處于起步階段。為了使人工智能更好地服務(wù)于地質(zhì)圖的解讀,首先需要明確定義地質(zhì)圖理解的問題。為此,微軟亞洲研究院的研究員們與中國地質(zhì)科學(xué)院和武漢大學(xué)遙感信息工程學(xué)院地理信息工程系的領(lǐng)域?qū)<疫M行了深入交流,基于專家的經(jīng)驗,確立了地質(zhì)圖理解所需的五大關(guān)鍵能力:提取、定位、指代、推理和分析。
- 提取:評估模型從地質(zhì)圖中準確獲取基本信息的能力,如標題、比例尺和地理坐標。
- 定位:衡量模型根據(jù)組件名稱或意圖,精確定位地圖上特定元素的能力。
- 指代:評估模型將名稱與其對應(yīng)屬性關(guān)聯(lián)起來的技能。
- 推理:評估執(zhí)行需要跨組件連接信息或融合外部知識的高級邏輯任務(wù)的能力。
- 分析:評估模型對地質(zhì)圖上給定主題進行全面理解,并能從不同角度提供詳細且有意義見解的能力。
通過一系列討論,研究員們基于中國地質(zhì)調(diào)查局(CGS)的 1,000 多幅地圖,以及美國地質(zhì)勘探局(USGS)的 6,000 多幅地圖,定義了五個關(guān)鍵能力下的 25 種不同任務(wù),并挑選了 100 余張有代表性的地質(zhì)圖,創(chuàng)建了 3,000 多個帶有標準答案的問題的基準集 GeoMap-Bench。

圖1:GeoMap-Bench 中25種任務(wù)類型的問題分布圖
GeoMap-Bench 為地質(zhì)學(xué)領(lǐng)域的人工智能應(yīng)用研究提供了一個起點,有助于推動該領(lǐng)域更深入的研究和發(fā)展。武漢大學(xué)遙感信息工程學(xué)院地理信息工程系主任桂志鵬表示:「如果人工智能模型能夠?qū)崿F(xiàn)更精準的地質(zhì)圖解讀,將對測繪地理信息、地圖學(xué)、導(dǎo)航位置服務(wù)乃至無人駕駛領(lǐng)域產(chǎn)生重大影響。這意味著,那些過去只有專業(yè)人士才能解讀的圖表將不再是專業(yè)人員特有的技能。同時,這還將有助于提升地質(zhì)學(xué)領(lǐng)域的自動化和智能化水平,從而更好地保存大量紙質(zhì)和電子地圖中的地質(zhì)信息,促進它們的集成應(yīng)用,例如知識發(fā)現(xiàn),甚至激發(fā)新時代的地理大發(fā)現(xiàn)?!?/p>
GeoMap-Agent:加速地質(zhì)圖智能解析與精準分析
研究員們在 GeoMap-Bench 基準集上測試了現(xiàn)有主流的多模態(tài)大模型,進一步明確了這些模型在地質(zhì)圖理解與分析中的局限性:
- 高分辨率需求:地質(zhì)圖通常具有很高的分辨率,有的甚至達到 10,000×10,000 像素,圖像中還包含大量細節(jié)信息,部分局部信息需要放大解讀。因此,要從全局來解讀地質(zhì)圖,對模型的性能提出了更高的要求。
- 領(lǐng)域知識密集:地質(zhì)圖由復(fù)雜且符號化的地質(zhì)體對象構(gòu)成,眾多元素和組件相互關(guān)聯(lián),理解它們需要豐富的專業(yè)知識。例如,要讀懂一幅地質(zhì)圖,首先要理解其圖例,知道每種顏色、每種紋理所代表的具體含義。
- 多樣化視覺表現(xiàn):地質(zhì)圖不僅包含文本信息,還涉及多樣化的視覺元素,如不同類型的圖形符號。這要求人工智能具備一系列能力,包括但不限于檢測、分類、分割、光學(xué)字符識別(OCR)、理解和推理等。
「地質(zhì)學(xué)家們迫切需要的是數(shù)字化地質(zhì)圖,這是一個側(cè)重于產(chǎn)品開發(fā)的目標,技術(shù)實現(xiàn)相對容易。但我們希望更進一步,讓大模型不僅能解析地質(zhì)圖上的已有地質(zhì)信息,還能對與地質(zhì)圖相關(guān)的下游應(yīng)用問題進行分析,例如評估特定地質(zhì)區(qū)域的地震災(zāi)害風(fēng)險等。為了提供綜合、全面且準確的問題解答,我們需要將地質(zhì)圖作為媒介,聯(lián)系并整合不同的知識領(lǐng)域。」微軟亞洲研究院高級研發(fā)工程師黃楊昱說。
為此,研究員們設(shè)計了 GeoMap-Agent,這是首個專門用于地質(zhì)圖理解和分析的智能體。GeoMap-Agent 不僅滿足了地質(zhì)學(xué)家對于地質(zhì)圖數(shù)字化的需求,還在處理高分辨率圖像、復(fù)雜關(guān)聯(lián)組件以及領(lǐng)域知識方面做出了顯著改進,從而能夠高效全面地分析大量地質(zhì)圖。

圖2:GeoMap-Agent 框架圖
GeoMap-Agent 的主要架構(gòu)如圖 2 所示,由三個核心模塊組成:層級信息提?。℉IE)、領(lǐng)域知識注入(DKI)和增強提示問答(PEOA)。
- 層級信息提?。℉ierarchical Information Extraction, HIE):為了充分理解地質(zhì)圖上的語義信息并將其數(shù)字化,層級信息提取模塊采用了“分而治之”的策略。具體來說,HIE 模塊將整個地質(zhì)圖按照層次結(jié)構(gòu)劃分為多個子圖像,然后應(yīng)用基礎(chǔ)模型逐個處理這些子圖像,從中提取局部信息并整合為全局數(shù)字化信息。
- 領(lǐng)域知識注入(Domain Knowledge Injection, DKI):DKI 模塊負責(zé)為 GeoMap-Agent 注入外部關(guān)聯(lián)的知識,特別是地質(zhì)學(xué)家的經(jīng)驗知識,這對于需要推理和分析的問題尤為關(guān)鍵。該過程分為兩步:首先,對于給定的問題,基礎(chǔ)模型會與專家組中的每位 AI 專家確定是否需要特定類型的領(lǐng)域知識;一旦確定了所需的知識類型,基礎(chǔ)模型會查詢并連接工具池中的 AI 工具來獲取相關(guān)知識。此外,另一些知識會通過 HIE 模塊中提取的經(jīng)緯度范圍進行關(guān)聯(lián)。
- 增強提示問答(Prompt Enhanced Question Answering, PEOA):除了上述兩個模塊提供的文本知識外,地質(zhì)圖還包含大量視覺層面的信息。PEOA 模塊會融合文本與視覺信息作為提示,以提升大模型對問題的理解。這是一個動態(tài)選擇的過程,它允許 GeoMap-Agent 針對不同問題選擇地質(zhì)圖中特定部分的文本和視覺信息作為提示,從而有針對性地生成答案。

表 1:不同方法在 GeoMap-Bench 上的評估結(jié)果
表 1 展示了 GeoMap-Agent 在 GeoMap-Bench 上的評估結(jié)果,相較于其它多模態(tài)大模型(MLLMs),GeoMap-Agent 的得分更高,其在地質(zhì)圖理解上的表現(xiàn)更為出色。
以地震風(fēng)險分析為例,GeoMap-Agent 會基于給定地質(zhì)圖提取與地震風(fēng)險相關(guān)的信息,結(jié)合不同類型專家的知識(如地質(zhì)學(xué)家、地理專家、地震學(xué)專家等),并在視覺上選擇與問題相關(guān)的特定區(qū)域,將三者融合形成增強的提示來推理、解答問題。
在這個過程中,GeoMap-Agent 不需要理解全部地質(zhì)圖信息,只需關(guān)注主圖和圖例,以及巖性表這一外部知識,而無需地震相關(guān)的知識,展現(xiàn)了智能代理動態(tài)分析的能力。

圖3:GeoMap-Agent(右)和 GPT-4o(中)對地震風(fēng)險分析(左)分別給出的答案。相比之下,GeoMap-Agent 的回答更清晰、全面。
「GeoMap-Agent 通過自動化讀取、分析和解讀地質(zhì)圖,大幅提高了解讀效率和準確性,給地質(zhì)領(lǐng)域相關(guān)人員帶來了巨大便利。借助 GeoMap-Agent,地質(zhì)學(xué)家將可以快速識別地質(zhì)圖中的關(guān)鍵地質(zhì)單元,如巖層、巖性、斷層等,并提供相應(yīng)的數(shù)據(jù)支持;礦產(chǎn)勘探人員將能夠迅速提取礦藏分布信息,降低人工判斷的誤差,提升勘探效率和準確性;工程師將可以更高效地評估地質(zhì)風(fēng)險,支持決策者更好地理解地質(zhì)條件,確保工程建設(shè)的安全性。人工智能工具大大縮短了人工分析的時間,減少了人為誤差,可以更全面地分析問題,使地質(zhì)圖的應(yīng)用變得更加高效、準確和綜合。」中國地質(zhì)科學(xué)院高級工程師宋洋表示。
開源 GeoMap-Bench 和 GeoMap-Agent,
構(gòu)建地質(zhì)領(lǐng)域 AI 應(yīng)用的通用范式
專題地圖如地質(zhì)圖、氣象圖、降雨分布圖等,是地理事件、現(xiàn)象及規(guī)律的圖形化、抽象化表達,符號化、綜合化與尺度相關(guān)是這類圖共有的特性。
GeoMap-Agent 解決地質(zhì)圖解讀核心問題的成功經(jīng)驗,可以推廣到其他類似的專題地圖中,有助于加速地理和地球系統(tǒng)科學(xué)的知識發(fā)現(xiàn),深化對自然與人類社會、城市系統(tǒng)運行機制的理解,從而更好地解決城市建設(shè)與可持續(xù)發(fā)展中遇到的各類問題。
人工智能技術(shù)在地質(zhì)學(xué)領(lǐng)域的深入應(yīng)用離不開跨學(xué)科的合作。地質(zhì)問題往往具有強烈的地方性特征,某些細微的地質(zhì)特征需要基于經(jīng)驗才能識別,僅靠人工智能難以捕捉到這些細節(jié)。因此,要確保人工智能技術(shù)的有效應(yīng)用,必須有地理領(lǐng)域?qū)<?、計算機科學(xué)家、數(shù)據(jù)分析師等多方的密切配合。
該團隊希望與地質(zhì)學(xué)領(lǐng)域的專家持續(xù)合作,擴展 GeoMap-Bench 的任務(wù)類型,并提升 GeoMap-Agent 的性能,使之成為解讀各類專題地圖的通用范式。
GeoMap-Bench 和 GeoMap-Agent 已分別在 HuggingFace 和 GitHub 上開源,歡迎全球科研人員、開發(fā)者和愛好者共同推動人工智能在地質(zhì)學(xué)領(lǐng)域的應(yīng)用。
PEACE 論文地址:https://arxiv.org/pdf/2501.06184
GeoMap-Bench 數(shù)據(jù)地址:https://huggingface.co/datasets/microsoft/PEACE
GeoMap-Agent 代碼地址:https://github.com/microsoft/PEACE
熱門跟貼