【太平洋科技快訊】近日,最新報(bào)告指出,谷歌推出的 Gemini 2.5 Pro 模型能夠準(zhǔn)確解析 PDF 文檔的視覺結(jié)構(gòu),并實(shí)現(xiàn)精確的視覺引用,成為全球首個(gè)能夠完全理解 PDF 布局的 AI 模型。

谷歌于 3 月 25 日向付費(fèi)用戶和開發(fā)者發(fā)布了 Gemini 2.5 Pro 實(shí)驗(yàn)?zāi)P?,短短四天后,便通過(guò)免費(fèi) Web 應(yīng)用向全球用戶開放。這款模型的最大亮點(diǎn)在于其“原生視覺”(Native Vision)能力,它不僅能提取 PDF 文檔中的文本內(nèi)容,還能深入理解其視覺布局,包括圖表、表格和整體排版。
AI 初創(chuàng)公司 Matrisk 的聯(lián)合創(chuàng)始人 Sergey Filimonov 對(duì) Gemini 2.5 Pro 的視覺引用功能給予了高度評(píng)價(jià)。他指出,在 ChatGPT 等模型中,用戶點(diǎn)擊引用往往只能下載 PDF,然后自行判斷模型是否出現(xiàn)“幻覺”(即生成錯(cuò)誤或不相關(guān)的信息)。
Gemini 2.5 Pro 則能將提取的文本片段精確映射回原始 PDF 的確切位置,并高亮顯示,甚至可以鎖定特定句子、表格單元或圖像。例如,當(dāng)用戶詢問(wèn)房屋費(fèi)率變化時(shí),系統(tǒng)能直接高亮文檔中相關(guān)數(shù)據(jù)(如 15.4% 的費(fèi)率變化),并標(biāo)注來(lái)源依據(jù)。這種清晰度和交互性是現(xiàn)有工具無(wú)法企及的,不僅優(yōu)化了現(xiàn)有流程,更開啟了全新的文檔交互模式。
在衡量模型空間理解能力的 IoU(交并比)指標(biāo)上,Gemini 2.5 Pro 以 0.804 的精度遙遙領(lǐng)先于其他模型。相比之下,OpenAI 的 GPT-4o 僅為 0.223,Claude 3.7 Sonnet 更是低至 0.210。這一顯著優(yōu)勢(shì)證明了 Gemini 2.5 Pro 在 PDF 布局理解方面的卓越能力。
Gemini 2.5 Pro 的潛力遠(yuǎn)不止于文本定位。它還能從 PDF 中提取結(jié)構(gòu)化數(shù)據(jù),并明確標(biāo)注每個(gè)數(shù)據(jù)的來(lái)源位置。這一功能對(duì)于解決下游決策中因數(shù)據(jù)來(lái)源不明而產(chǎn)生的信任障礙具有重要意義。
熱門跟貼