打開網(wǎng)易新聞 查看精彩圖片

人工智能,這個詞匯如今已如同科幻電影的預(yù)告片,充斥著我們對未來的想象。似乎只要一聲令下,它們就能無所不能,上天入地,解決一切難題。然而,最近愛丁堡大學(xué)的一項(xiàng)研究卻如同達(dá)利畫筆下那融化的時鐘,提醒我們:即使是再先進(jìn)的AI,也可能在最基礎(chǔ)的時間管理上犯難,比如——認(rèn)不清時鐘。這并非是危言聳聽,而是對我們盲目樂觀的一次有力警醒,也引出了一個值得深思的問題:當(dāng)我們熱衷于追逐AI的“高精尖”能力時,是否忽略了它們在“基本功”上的欠缺?

人工智能也會“看表懵”?

這項(xiàng)由愛丁堡信息學(xué)院的Rohit Saxena領(lǐng)銜的研究,給那些高歌猛進(jìn)的人工智能發(fā)展?jié)娏艘慌枥渌?。研究顯示,那些被寄予厚望的多模態(tài)大型語言模型(MLLMs),在面對看似簡單的時間任務(wù)時,卻表現(xiàn)得像個“時間盲”。 它們解讀時鐘指針的正確率竟不足25%,遇到羅馬數(shù)字或風(fēng)格化指針時更是束手無策。 更有趣的是,即使研究人員貼心地移除了秒針,試圖降低難度,結(jié)果依然沒有明顯改善。這不禁讓人懷疑,AI難道真的患上了“閱讀障礙癥”,而且還是對著時鐘?當(dāng)我們驚嘆于AI在圍棋、繪畫等復(fù)雜領(lǐng)域的卓越表現(xiàn)時,卻發(fā)現(xiàn)它們連看懂時間都如此吃力,這背后折射出的,或許是人工智能發(fā)展路徑上的一種“能力錯配”——我們是否過分強(qiáng)調(diào)了AI在復(fù)雜任務(wù)上的能力,而忽視了其在基礎(chǔ)認(rèn)知能力上的構(gòu)建?這如同蓋摩天大樓,地基尚未穩(wěn)固,就急于求成地向上發(fā)展,最終難免會面臨搖搖欲墜的風(fēng)險。

時鐘QA 和 日歷QA:AI的“時間考試”

時鐘QA 和 日歷QA:AI的“時間考試”

為了更深入地探究人工智能的時間感知能力,愛丁堡大學(xué)的研究人員還別出心裁地設(shè)計了兩套數(shù)據(jù)集——ClockQA 和 CalendarQA,堪稱是為AI量身定制的“時間考試”。ClockQA 數(shù)據(jù)集匯集了各種“奇形怪狀”的時鐘,從標(biāo)準(zhǔn)的、黑色的,到?jīng)]有秒針的、羅馬數(shù)字的,甚至是箭頭指針的,應(yīng)有盡有,并配以各種與時間相關(guān)的問題,可謂是煞費(fèi)苦心。而 CalendarQA 則由年度日歷圖像組成,問題也從簡單的日期識別,升級到需要計算的日期,比如“一年中的第100天是哪天?”、“第153天呢?”,以此考察AI的數(shù)值推理和時間推斷能力。 這兩個數(shù)據(jù)集的誕生,無疑為我們提供了一個量化評估AI時間認(rèn)知能力的有效工具,也讓我們得以窺見,在看似簡單的“看時間”、“算日期”背后,人工智能所面臨的巨大挑戰(zhàn)。它們不僅僅是在測試AI的視覺識別能力,更是在檢驗(yàn)其對時間概念的深層理解,以及將視覺信息轉(zhuǎn)化為抽象時間概念的認(rèn)知飛躍。這不禁讓人思考,人類習(xí)以為常的時間感知,對于人工智能而言,究竟是怎樣一道難以逾越的鴻溝?

時間敏感型應(yīng)用的“警鐘”

時間敏感型應(yīng)用的“警鐘”

這項(xiàng)研究的發(fā)現(xiàn),絕非僅僅停留在學(xué)術(shù)層面,它更像是一記警鐘,敲響在那些對AI寄予厚望的時間敏感型應(yīng)用領(lǐng)域。 試想一下,如果AI連時鐘都認(rèn)不清,又如何能勝任日程安排助手、自動駕駛、智能家居等需要精確時間管理的任務(wù)呢?研究表明,即便是目前表現(xiàn)最好的AI模型,在日歷問題上仍然有約20%的錯誤率,這個數(shù)字在實(shí)際應(yīng)用中,足以造成嚴(yán)重的混亂。例如,在醫(yī)療預(yù)約系統(tǒng)中,AI的時間誤判可能導(dǎo)致患者錯過最佳就診時間;在工業(yè)機(jī)器人領(lǐng)域,時間的毫秒之差可能引發(fā)生產(chǎn)線事故;甚至在智能家居中,AI對時間的錯誤理解,都可能導(dǎo)致用戶錯過重要的日程安排。 這項(xiàng)研究無疑給那些盲目樂觀的AI應(yīng)用開發(fā)者們提了個醒:在追求更高階的AI功能之前,或許應(yīng)該先審視一下,我們的人工智能系統(tǒng),是否真的掌握了這些最基礎(chǔ)、最核心的能力?正如團(tuán)隊研究員Aryo Gema所言:“當(dāng)今的AI研究往往強(qiáng)調(diào)復(fù)雜的推理任務(wù),但具有諷刺意味的是,許多系統(tǒng)在處理更簡單的日常任務(wù)時仍然存在困難?!?這句話可謂一針見血地指出了當(dāng)前人工智能發(fā)展的一種偏差——我們是否本末倒置,舍本逐末了呢?

ICLR 2025:人工智能的“時間反思”

ICLR 2025:人工智能的“時間反思”

值得關(guān)注的是,愛丁堡大學(xué)研究團(tuán)隊的這項(xiàng)成果,將在第十三屆國際學(xué)習(xí)表征會議(ICLR 2025)上進(jìn)行展示,這無疑將引發(fā)人工智能領(lǐng)域的又一次“時間反思”。 ICLR 作為國際頂級的機(jī)器學(xué)習(xí)會議,匯聚了全球最頂尖的人工智能學(xué)者和研究人員,而本次研究成果能夠在 ICLR 的“大型語言模型的推理與規(guī)劃”研討會上亮相,也充分說明了其學(xué)術(shù)價值和行業(yè)影響力。 會議將于2025年4月28日在新加坡舉行,屆時,相信會有更多的目光聚焦到人工智能的“時間盲區(qū)”問題上,共同探討如何彌合AI在時間認(rèn)知上的差距,推動人工智能技術(shù)更加健康、均衡地發(fā)展。 這次 ICLR 演講,或許不僅僅是一次學(xué)術(shù)交流,更是一次行業(yè)反思的契機(jī),它提醒我們,在人工智能的“狂飆突進(jìn)”中,不要忘了停下來,審視一下腳下的路,關(guān)注那些被我們忽略的“基本功”。人工智能的發(fā)展,不應(yīng)僅僅是技術(shù)上的堆砌,更應(yīng)是認(rèn)知能力上的全面提升,唯有如此,才能真正讓人工智能更好地服務(wù)于人類社會。

擴(kuò)展數(shù)據(jù)

擴(kuò)展數(shù)據(jù)

? 全球時間管理市場規(guī)模: 據(jù)估計,2023年全球時間管理軟件市場規(guī)模達(dá)到了74.3億美元,預(yù)計到2030年將達(dá)到175.1億美元,期間年復(fù)合增長率高達(dá)12.9%。 這表明,無論是個人還是企業(yè),對高效時間管理的需求都在持續(xù)增長,而人工智能在時間管理領(lǐng)域的應(yīng)用前景也十分廣闊。
? 模態(tài)學(xué)習(xí)研究進(jìn)展: 多模態(tài)學(xué)習(xí)是當(dāng)前人工智能研究的熱點(diǎn)方向之一,旨在讓AI系統(tǒng)能夠像人類一樣,處理和理解來自不同模態(tài)(如視覺、聽覺、文本等)的信息。 然而,愛丁堡大學(xué)的這項(xiàng)研究表明,即使在多模態(tài)學(xué)習(xí)領(lǐng)域取得了顯著進(jìn)展,AI在整合不同模態(tài)信息、進(jìn)行復(fù)雜推理方面仍然面臨挑戰(zhàn),特別是在時間這種抽象概念的理解上。
? ICLR 會議的影響力: 國際學(xué)習(xí)表征會議 (ICLR) 是深度學(xué)習(xí)領(lǐng)域的頂級會議之一,與 NeurIPS 和 ICML 并稱為深度學(xué)習(xí)三大頂會。 ICLR 每年都吸引了大量的學(xué)術(shù)界和工業(yè)界人士參與,其接收的論文代表了深度學(xué)習(xí)領(lǐng)域的最新研究進(jìn)展和發(fā)展趨勢。 在 ICLR 上展示研究成果,通常被認(rèn)為是對研究工作的高度認(rèn)可,也能夠提升研究成果的國際影響力。