很多人在制作PPT時常常感到困擾,尤其是在撰寫文案時,費盡心思也難以寫出吸引人的內(nèi)容;即使勉強完成了文字,整體效果看起來仍然單調(diào)乏味,排版效果也總是讓人覺得不滿意。

針對這一痛點,中國科學(xué)院軟件研究所、中國科學(xué)院大學(xué)和上海捷心科技的研究團隊聯(lián)合推出了開源項目——PPT Agent。

該工具能夠模擬人類的思路,分析優(yōu)秀的示例幻燈片,捕捉其中的內(nèi)容結(jié)構(gòu)和排版規(guī)律?;谳斎氲奈臋n,PPT Agent能逐步生成并優(yōu)化幻燈片內(nèi)容,同時具備自我調(diào)整的能力,確保生成的PPT無論是在內(nèi)容表達、設(shè)計風(fēng)格還是整體連貫性上,都符合用戶的期望,從而大幅節(jié)省了制作PPT所需的時間和精力。

打開網(wǎng)易新聞 查看精彩圖片

開源地址:https://github.com/icip-cas/PPTAgent

PPTAgent的核心技術(shù)和創(chuàng)新之處在于采用了一種獨特的兩階段幻燈片生成策略,這一方法借鑒了人類制作PPT的自然流程。

傳統(tǒng)的PPT生成通常是直接將文本內(nèi)容轉(zhuǎn)換為幻燈片,容易使得最終的演示文稿在視覺效果和結(jié)構(gòu)銜接上表現(xiàn)平淡。

而PPTAgent則通過模擬人類先選取參考幻燈片,再逐步進行編輯優(yōu)化的方式,巧妙地提升了演示文稿的整體質(zhì)量與連貫性。

打開網(wǎng)易新聞 查看精彩圖片

在第一階段,PPTAgent對參考的演示文稿進行了深入的分析與處理。首先,它對幻燈片進行了分類,將其劃分為結(jié)構(gòu)幻燈片和內(nèi)容幻燈片兩大類。結(jié)構(gòu)幻燈片主要負責(zé)整體框架的搭建,比如標題頁和目錄頁;而內(nèi)容幻燈片則用于展示具體信息,比如項目列表或圖表。

借助大模型的強大能力,PPTAgent能夠識別幻燈片在整體結(jié)構(gòu)中的作用,并依據(jù)文本特征對其進行分組。針對內(nèi)容幻燈片,系統(tǒng)將其轉(zhuǎn)化為圖像形式,再通過層次聚類的方法,將相似的幻燈片聚合到一起。隨后,PPTAgent運用多模態(tài)大模型對這些圖像進行分析,提取每個聚類所代表的布局模式。

這一流程不僅為后續(xù)的幻燈片生成提供了明確的參考模板,也保證了演示文稿在結(jié)構(gòu)層面的連貫性和一致性。此外,PPTAgent還建立了一個詳盡的內(nèi)容提取框架,對每個幻燈片元素進行分類與描述,使得內(nèi)容信息以結(jié)構(gòu)化的形式呈現(xiàn),進一步理清整體內(nèi)容的組織。

打開網(wǎng)易新聞 查看精彩圖片

例如,一張幻燈片可能包含標題、正文、圖像等多種元素,每個元素都有詳細的描述和具體的數(shù)據(jù)內(nèi)容。這樣細致的內(nèi)容模式提取為后續(xù)的幻燈片生成奠定了堅實基礎(chǔ),使PPTAgent能夠更深入地理解幻燈片的結(jié)構(gòu)和內(nèi)容組織。

在第二階段,PPTAgent引入了基于編輯的生成策略。不同于傳統(tǒng)從零開始創(chuàng)建幻燈片的方法,PPTAgent先選取適合的參考幻燈片,然后通過逐步編輯來生成新的幻燈片。該方法既能保留參考幻燈片原有的精心設(shè)計的布局和風(fēng)格,又能夠通過編輯操作實現(xiàn)內(nèi)容的更新和優(yōu)化。為此,PPTAgent設(shè)計了一套編輯API,支持對幻燈片元素進行修改、刪除和復(fù)制。

結(jié)合HTML渲染技術(shù),這些API使得大模型能夠以更加直觀、簡潔的方式處理和調(diào)整幻燈片內(nèi)容。相比傳統(tǒng)的XML格式,HTML更加簡明易懂,操作起來也更為高效,從而提升了生成過程的準確性和速度。

此外,PPTAgent還引入了自我修正機制,以增強生成過程的穩(wěn)定性。在幻燈片生成期間,所有的編輯命令都會在REPL環(huán)境中執(zhí)行。如果操作無法成功應(yīng)用于參考幻燈片,系統(tǒng)會返回執(zhí)行反饋,協(xié)助大模型對編輯指令進行調(diào)整。

通過這種反復(fù)迭代的修正,PPTAgent有效避免了生成錯誤或不連貫的幻燈片,從而保證最終演示文稿在內(nèi)容和結(jié)構(gòu)上都具有高質(zhì)量。

為了驗證PPTAgent的表現(xiàn),研究團隊從Zenodo10K數(shù)據(jù)集中選取了50份演示文稿作為參考,并收集了同一領(lǐng)域的50篇文檔作為輸入,組成500個生成任務(wù),這些任務(wù)涵蓋了5個不同領(lǐng)域、10種輸入文檔及10個參考演示文稿的多種組合情況。

打開網(wǎng)易新聞 查看精彩圖片

實驗結(jié)果表明,PPTAgent在內(nèi)容豐富度、設(shè)計美觀度和整體連貫性方面均明顯優(yōu)于現(xiàn)有的演示文稿生成技術(shù)。與基于規(guī)則的DocPres和基于模板的KCTV相比,PPTAgent在內(nèi)容質(zhì)量上提升幅度介于12.1%到28.6%,設(shè)計效果提升了13.2%到40.9%,而連貫性方面的提升更是達到了25.5%至36.6%。這些數(shù)據(jù)充分展示了PPTAgent在打造高質(zhì)量、視覺效果突出且結(jié)構(gòu)合理的演示文稿方面的優(yōu)勢。

我們相信人工智能為普通人提供了一種“增強工具”,并致力于分享全方位的AI知識。在這里,您可以找到最新的AI科普文章、工具評測、提升效率的秘籍以及行業(yè)洞察。 歡迎關(guān)注“福大大架構(gòu)師每日一題”,讓AI助力您的未來發(fā)展。