
新智元報(bào)道
編輯:英智
【新智元導(dǎo)讀】從編程到論文,AI無處不在! 一項(xiàng)針對(duì)百萬條學(xué)生對(duì)話的分析顯示,AI不僅能調(diào)試代碼,還能潤色文章,甚至生成學(xué)習(xí)資料。但這背后,學(xué)術(shù)誠信的邊界在哪里?
如今,AI不再只是專業(yè)的研究工具,它已成為大學(xué)生日常學(xué)習(xí)的好幫手。
隨著AI越來越深入地融入教育環(huán)境,需要思考一系列關(guān)于學(xué)習(xí)、評(píng)估和技能培養(yǎng)的重要問題。
目前,大多數(shù)相關(guān)討論都基于調(diào)查和對(duì)照實(shí)驗(yàn),卻缺乏學(xué)生在真實(shí)學(xué)習(xí)場(chǎng)景中自然融入AI的直接證據(jù)。
為了填補(bǔ)這一空白,Anthropic開展了一項(xiàng)針對(duì)高等教育中AI實(shí)際使用的大規(guī)模研究,分析了Claude.ai平臺(tái)上100萬條匿名學(xué)生對(duì)話記錄。

報(bào)告的主要發(fā)現(xiàn)如下:
理工科學(xué)生是Claude等AI工具的早期使用者,其中計(jì)算機(jī)專業(yè)尤為突出。計(jì)算機(jī)專業(yè)僅占美國學(xué)位的5.4%,但在Claude.ai的對(duì)話中,占比卻高達(dá)36.8%。相比之下,商科、健康科學(xué)和人文學(xué)科的學(xué)生,Claude的使用率相對(duì)較低。
總結(jié)了學(xué)生與AI交互的四種模式,每種模式在數(shù)據(jù)中的占比大致相同(各占對(duì)話總數(shù)的23-29%),分別是直接解決問題、直接生成內(nèi)容、協(xié)作解決問題和協(xié)作生成內(nèi)容。
學(xué)生使用AI主要是為了創(chuàng)造新知識(shí)和進(jìn)行分析,如創(chuàng)建編程項(xiàng)目或分析法律概念。這與布魯姆分類法中的高階認(rèn)知功能相契合。不過,這也引發(fā)了人們的擔(dān)憂:如何防止學(xué)生過度依賴AI,而放棄自身關(guān)鍵認(rèn)知能力的鍛煉?
教育領(lǐng)域的AI使用情況
研究人們?nèi)绾问褂肁I模型時(shí),保護(hù)用戶隱私是重中之重。
Claude Insights and Observations(簡稱Clio)是一款自動(dòng)分析工具,能幫助了解人們使用Claude的具體情況。
Clio能深入挖掘用戶與Claude的對(duì)話內(nèi)容,將其提煉成諸如「調(diào)試代碼」「解釋經(jīng)濟(jì)概念」等高層次的總結(jié),從而發(fā)現(xiàn)AI的使用模式。
研究中,Clio分析了來自Claude.ai免費(fèi)和專業(yè)賬戶約100萬條匿名對(duì)話。
然后,進(jìn)一步篩選出與學(xué)生學(xué)業(yè)緊密相關(guān)的對(duì)話,如課程作業(yè)、學(xué)術(shù)研究,最終得到574,740條有效對(duì)話。
接著,Clio對(duì)這些對(duì)話進(jìn)行分類匯總,從不同角度得出有價(jià)值的見解,包括不同學(xué)科在對(duì)話中的占比、學(xué)生與AI交互方式的差異,以及學(xué)生交給AI完成的任務(wù)類型等。
學(xué)生用AI做什么?
研究發(fā)現(xiàn),學(xué)生使用Claude的主要目的,是跨學(xué)科地創(chuàng)建和優(yōu)化教育內(nèi)容,這類對(duì)話占比達(dá)到39.3%。
具體為設(shè)計(jì)練習(xí)題、潤色論文、總結(jié)學(xué)術(shù)資料等。
33.5%的對(duì)話是讓Claude為作業(yè)提供技術(shù)解答,如幫學(xué)生調(diào)試代碼、修復(fù)編程錯(cuò)誤、實(shí)現(xiàn)算法和數(shù)據(jù)結(jié)構(gòu),或解答數(shù)學(xué)難題。
其中部分行為可能存在作弊嫌疑,后面會(huì)詳細(xì)討論。
另外,還有一部分學(xué)生用來分析和可視化數(shù)據(jù)(11.0%)、輔助研究設(shè)計(jì)和工具開發(fā)(6.5%)、繪制技術(shù)圖表(3.2%),以及進(jìn)行翻譯和校對(duì)(2.4%)。
下圖是各學(xué)科常見請(qǐng)求的詳細(xì)分類。

各學(xué)科使用AI的情況
通過對(duì)比Claude.ai的使用模式和美國各學(xué)科頒發(fā)學(xué)士學(xué)位的數(shù)量,發(fā)現(xiàn)計(jì)算機(jī)專業(yè)使用Claude的比例極高。
雖然計(jì)算機(jī)專業(yè)在學(xué)士學(xué)位中僅占5.4%,但在Claude.ai的對(duì)話中卻占了38.6%。這可能是因?yàn)镃laude在編程方面的獨(dú)特優(yōu)勢(shì)。
自然科學(xué)和數(shù)學(xué)專業(yè)Claude.ai的使用占比,也高于這兩個(gè)專業(yè)的學(xué)生人數(shù)的占比(分別為15.2%和9.2%)。
理工科學(xué)生,特別是計(jì)算機(jī)專業(yè)的學(xué)生,可能更早地將Claude用于學(xué)習(xí)。
這可能是因?yàn)橛?jì)算機(jī)學(xué)生對(duì)Claude更熟悉,同時(shí)AI系統(tǒng)在處理STEM任務(wù)時(shí),也更出色。
商科相關(guān)的對(duì)話在Claude.ai上僅占8.9%,而商科學(xué)位在美國學(xué)士學(xué)位中占比高達(dá)18.6%,可見Claude在商科領(lǐng)域的使用率較低。

學(xué)生如何與AI互動(dòng)
分析學(xué)生與AI的交互時(shí),識(shí)別出了四種不同的交互模式,按照兩個(gè)不同維度分類,具體如下圖。

第一個(gè)維度是「交互模式」,包括:
(1)直接對(duì)話,指的是用戶期望盡快得到問題的答案,解決自己的疑問。
(2)協(xié)作對(duì)話,即用戶主動(dòng)與模型展開交流,通過對(duì)話來實(shí)現(xiàn)自己的目標(biāo)。
第二個(gè)維度是交互的「期望結(jié)果」,分為:
(1)解決問題,也就是用戶尋求問題的解決辦法或解釋。
(2)生成輸出,意味著用戶想要生成像演示文稿、論文這類較長的內(nèi)容。
這4種交互在對(duì)話中的占比相近(均在23%-29%之間),體現(xiàn)了學(xué)生對(duì)AI的多元應(yīng)用。
傳統(tǒng)的網(wǎng)絡(luò)搜索通常只能提供直接答案,而AI支持更為豐富的交互方式,為教育帶來了新的機(jī)遇。
以下是一些用于學(xué)習(xí)的案例:
闡釋哲學(xué)概念與理論,幫助理解其內(nèi)涵。
打造全面的化學(xué)學(xué)習(xí)資料,助力化學(xué)知識(shí)的學(xué)習(xí)。
為作業(yè)講解肌肉的解剖結(jié)構(gòu)、生理機(jī)能和功能概念。
與此同時(shí),AI也帶來了新的難題。
一個(gè)備受關(guān)注的問題是:「學(xué)生在多大程度上利用AI作弊?」
這個(gè)問題很難給出確切答案,因?yàn)椴⒉磺宄﨏laude的每一個(gè)回復(fù)在具體學(xué)習(xí)場(chǎng)景中的實(shí)際用途。
比如「直接解決問題」的對(duì)話,既可能是學(xué)生在居家考試中作弊,也可能只是在檢查練習(xí)題答案。
「直接生成成果」的對(duì)話,也許是學(xué)生想直接生成一篇論文,也可能是為進(jìn)一步研究總結(jié)知識(shí)要點(diǎn)。
至于協(xié)作對(duì)話是否屬于作弊,也取決于具體的課程規(guī)定。
實(shí)際上,近一半(約47%)學(xué)生與AI的對(duì)話屬于直接對(duì)話,即參與度較低,只是單純尋求答案或內(nèi)容。
雖然很多對(duì)話是出于合理的學(xué)習(xí)目的(如詢問概念性問題、生成學(xué)習(xí)指南),但還是發(fā)現(xiàn)了一些令人擔(dān)憂的情況:
讓AI提供機(jī)器學(xué)習(xí)選擇題的答案。
直接獲取英語測(cè)試題的答案。
借助AI改寫營銷和商業(yè)文本,以躲避抄襲檢測(cè)。
這些現(xiàn)象引發(fā)了關(guān)于學(xué)術(shù)誠信、批判性思維能力培養(yǎng),以及如何有效評(píng)估學(xué)生學(xué)習(xí)效果的思考和討論。
即使是協(xié)作對(duì)話,學(xué)習(xí)成果也可能存在爭議。
比如「求解概率和統(tǒng)計(jì)作業(yè)問題并給出解釋」,雖然涉及學(xué)生與AI的多次交流,但大部分思考過程是由AI完成的。
Anthropic會(huì)持續(xù)關(guān)注這些交互情況,努力甄別哪些真正有助于學(xué)習(xí)和批判性思維的養(yǎng)成。
特定學(xué)科的AI使用模式
不同學(xué)科的學(xué)生與AI的互動(dòng)方式存在差異。
在自然科學(xué)與數(shù)學(xué)領(lǐng)域,學(xué)生的對(duì)話多圍繞解決問題展開,常見的如「通過逐步計(jì)算求解特定概率問題」「為學(xué)術(shù)作業(yè)或考試題目提供詳細(xì)解答」。
計(jì)算機(jī)科學(xué)、工程以及自然科學(xué)與數(shù)學(xué)專業(yè)的學(xué)生,更傾向于選擇協(xié)作對(duì)話。而人文、商業(yè)和健康領(lǐng)域的學(xué)生,在協(xié)作對(duì)話和直接對(duì)話之間的選擇相對(duì)均衡。
教育領(lǐng)域的對(duì)話中,生成輸出的需求最為突出,占比達(dá)到74.4%。不過,這可能是由于篩選方法不夠完善。
這表明,針對(duì)不同學(xué)科制定專門的AI教育策略,或許能取得更好的效果。

學(xué)生交給AI的認(rèn)知任務(wù)
團(tuán)隊(duì)還研究了學(xué)生將哪些認(rèn)知任務(wù)交給AI處理。
研究采用了布魯姆分類法,這是一種在教育領(lǐng)域用于將認(rèn)知過程從簡單到復(fù)雜進(jìn)行分類的框架。
雖然該框架最初是針對(duì)學(xué)生思維設(shè)計(jì)的,對(duì)其進(jìn)行調(diào)整,用來分析Claude與學(xué)生對(duì)話時(shí)的回復(fù)。
研究結(jié)果顯示,Claude主要承擔(dān)高階認(rèn)知功能,創(chuàng)造(39.8%)和分析(30.2%)是最常見的操作。
低階認(rèn)知任務(wù)的占比相對(duì)較低,應(yīng)用(10.9%)、理解(10.0%)和記憶(1.8%)。

生成學(xué)術(shù)文本摘要、撰寫論文反饋等生成任務(wù),更多涉及創(chuàng)造。而解決微積分問題、解釋編程基礎(chǔ)知識(shí)等任務(wù),則更多運(yùn)用分析功能。
雖然AI具備這些能力,但這并不意味著學(xué)生不能自己運(yùn)用這些技能。
比如,學(xué)生可以和AI共同完成項(xiàng)目,或者在其他場(chǎng)景中利用AI生成的代碼來分析數(shù)據(jù)集。
不過,這確實(shí)引發(fā)了人們的擔(dān)憂,學(xué)生是否會(huì)過度依賴AI,導(dǎo)致自身認(rèn)知能力發(fā)展受阻。
畢竟,如果基礎(chǔ)技能得不到鍛煉,就如同倒金字塔一樣,難以穩(wěn)固支撐高階思維的發(fā)展。
參考資料:
https://www.anthropic.com/news/anthropic-education-report-how-university-students-use-claude
https://x.com/AnthropicAI/status/1909626720476365171
熱門跟貼