男人日女人视频免费,女生高潮抽搐喷水91av,国产又黄又爽又色的视频,亚洲伊人精品网,尤物午夜福利在线观看

谷歌Gemini2.5 Pro可完全理解PDF布局實(shí)現(xiàn)精確視覺引用

2025-04-23 17:11 ·廣東 ·優(yōu)質(zhì)數(shù)碼領(lǐng)域創(chuàng)作者

【太平洋科技快訊】近日，最新報(bào)告指出，谷歌推出的 Gemini 2.5 Pro 模型能夠準(zhǔn)確解析 PDF 文檔的視覺結(jié)構(gòu)，并實(shí)現(xiàn)精確的視覺引用，成為全球首個(gè)能夠完全理解 PDF 布局的 AI 模型。

谷歌于 3 月 25 日向付費(fèi)用戶和開發(fā)者發(fā)布了 Gemini 2.5 Pro 實(shí)驗(yàn)?zāi)Ｐ?，短短四天后，便通過(guò)免費(fèi) Web 應(yīng)用向全球用戶開放。這款模型的最大亮點(diǎn)在于其“原生視覺”(Native Vision)能力，它不僅能提取 PDF 文檔中的文本內(nèi)容，還能深入理解其視覺布局，包括圖表、表格和整體排版。

AI 初創(chuàng)公司 Matrisk 的聯(lián)合創(chuàng)始人 Sergey Filimonov 對(duì) Gemini 2.5 Pro 的視覺引用功能給予了高度評(píng)價(jià)。他指出，在 ChatGPT 等模型中，用戶點(diǎn)擊引用往往只能下載 PDF，然后自行判斷模型是否出現(xiàn)“幻覺”(即生成錯(cuò)誤或不相關(guān)的信息)。

Gemini 2.5 Pro 則能將提取的文本片段精確映射回原始 PDF 的確切位置，并高亮顯示，甚至可以鎖定特定句子、表格單元或圖像。例如，當(dāng)用戶詢問(wèn)房屋費(fèi)率變化時(shí)，系統(tǒng)能直接高亮文檔中相關(guān)數(shù)據(jù)(如 15.4% 的費(fèi)率變化)，并標(biāo)注來(lái)源依據(jù)。這種清晰度和交互性是現(xiàn)有工具無(wú)法企及的，不僅優(yōu)化了現(xiàn)有流程，更開啟了全新的文檔交互模式。

在衡量模型空間理解能力的 IoU(交并比)指標(biāo)上，Gemini 2.5 Pro 以 0.804 的精度遙遙領(lǐng)先于其他模型。相比之下，OpenAI 的 GPT-4o 僅為 0.223，Claude 3.7 Sonnet 更是低至 0.210。這一顯著優(yōu)勢(shì)證明了 Gemini 2.5 Pro 在 PDF 布局理解方面的卓越能力。

Gemini 2.5 Pro 的潛力遠(yuǎn)不止于文本定位。它還能從 PDF 中提取結(jié)構(gòu)化數(shù)據(jù)，并明確標(biāo)注每個(gè)數(shù)據(jù)的來(lái)源位置。這一功能對(duì)于解決下游決策中因數(shù)據(jù)來(lái)源不明而產(chǎn)生的信任障礙具有重要意義。