2024年高考已順利落幕,讓大模型寫(xiě)高考作文題已不稀奇,大眾通常認(rèn)為大模型更擅長(zhǎng)文科,不擅長(zhǎng)進(jìn)行數(shù)學(xué)計(jì)算和邏輯推理。當(dāng)AI遇上高考數(shù)學(xué)題,大模型化身為“考生”答數(shù)學(xué)題,會(huì)交出怎樣的答卷?
我們選取了4名有代表性的大模型“考生”,分別是九章大模型、星火大模型(v3.5版本)、文心一言(3.5版)、智譜清言(GLM-4),選取2024全國(guó)高考數(shù)學(xué)新課標(biāo)1卷客觀題部分進(jìn)行測(cè)評(píng)。大模型的數(shù)學(xué)能力究竟如何?其在數(shù)學(xué)學(xué)科教育場(chǎng)景中能夠發(fā)揮多大價(jià)值?結(jié)果值得期待。
四位“考生”表現(xiàn)參差不齊
此次測(cè)評(píng)選取的4個(gè)大模型中,星火大模型(v3.5版本)、文心一言(3.5版)、智譜清言(GLM-4)為通用大模型,九章大模型則為以數(shù)學(xué)能力見(jiàn)長(zhǎng)的教育垂類(lèi)模型。
在試題選擇上,為便于評(píng)價(jià)統(tǒng)計(jì),統(tǒng)一選擇了2024年數(shù)學(xué)新課標(biāo)Ⅰ卷中的14道客觀題進(jìn)行測(cè)試,其中包括8道單選題、3道多選題、3道填空題。此外,由于試題中存在圖形、大量數(shù)學(xué)符號(hào),為防止以文本形式輸入題目產(chǎn)生偏差,統(tǒng)一選擇以圖片形式呈現(xiàn)題目并提供給大模型進(jìn)行解答。
四個(gè)大模型在此次“考試”中,整體表現(xiàn)如何?
據(jù)新京報(bào)記者統(tǒng)計(jì),14道題目中,九章大模型共答對(duì)11道,星火大模型共答對(duì)12道,二者不相上下。而另外兩位差別較大,文心一言共答對(duì)1道,智譜清言共答對(duì)4道。
最終統(tǒng)計(jì)結(jié)果顯示,四位“考生”此次作答正確率從高到低依次為星火大模型(85.71%)、九章大模型(78.57%)、智譜清言(28.57%)、文心一言(7.14%)。
四個(gè)大模型正確率測(cè)評(píng)統(tǒng)計(jì)數(shù)據(jù)。制圖/新京報(bào)記者 馮琪
從不同題目類(lèi)型的答題情況來(lái)看,九章大模型8道單選題全部答對(duì),3道多選題答錯(cuò)2道,3道填空題答錯(cuò)1道;星火大模型單選題全部答對(duì),多選題答錯(cuò)2道,填空題全部答對(duì);文心一言僅答對(duì)1道單選題;智譜清言僅答對(duì)3道單選、1道多選(另有3道題目因大模型提示無(wú)法識(shí)別圖片未參與作答)。
需要指出的是,由于測(cè)試的是客觀題,上述正確率僅根據(jù)大模型作答的最終選項(xiàng)進(jìn)行判斷和統(tǒng)計(jì),不涉及解題過(guò)程。但記者在測(cè)評(píng)過(guò)程中注意到,的確存在不少選項(xiàng)正確、但解題過(guò)程存在差錯(cuò)及瑕疵的情況。
部分大模型“蒙”對(duì)答案 計(jì)算推理過(guò)程存在明顯錯(cuò)誤
正確率的背后受多個(gè)維度能力影響,而數(shù)學(xué)能力是此次測(cè)評(píng)關(guān)注的核心。在測(cè)評(píng)過(guò)程中記者注意到,幾位“考生”在題目理解能力、計(jì)算推理能力以及解析過(guò)程的詳略上,均存在差異和不同特征。
就正確率而言,星火大模型表現(xiàn)較好,但部分題目的計(jì)算推理過(guò)程卻經(jīng)不起推敲,雖然結(jié)果正確,但過(guò)程中出現(xiàn)了明顯錯(cuò)誤。例如單選題第1題中,星火大模型的解題步驟中提到“2不在區(qū)間(?2.236,2.236)(?2.236,2.236)內(nèi)(因?yàn)樗^(guò)了上界)”,存在明顯謬誤,但最后卻“蒙”對(duì)答案。再如單選題第2題,一位數(shù)學(xué)專(zhuān)業(yè)人士看到解題過(guò)程后評(píng)價(jià)稱(chēng)“推理的上下兩行公式之間沒(méi)有任何關(guān)聯(lián),也無(wú)法推導(dǎo)得出這個(gè)答案,為何最終選出了正確選項(xiàng),令人匪夷所思?!?/p>
九章大模型的部分解題過(guò)程也存在瑕疵。在一道多選題中,九章大模型在推理中明明認(rèn)為C選項(xiàng)錯(cuò)誤,但最后又把C選為正確答案,“這個(gè)表述上下文之間沒(méi)啥邏輯關(guān)系,讓人摸不到頭腦?!鄙鲜鰯?shù)學(xué)專(zhuān)業(yè)人士指出。
如果看看正確率排名倒數(shù)第一的“考生”文心一言的試卷,令人匪夷所思的地方就更多了??赐赀@位考生答對(duì)的唯一一道題目,上述專(zhuān)業(yè)人士稱(chēng),解題過(guò)程中連基本的輸入都有多處錯(cuò)誤,能得出正確答案可能只是“歪打正著”。
測(cè)評(píng)中可以發(fā)現(xiàn),文心一言具備讀取圖片內(nèi)容的能力,但無(wú)法識(shí)別僅帶有復(fù)雜分?jǐn)?shù)的公式和圖形。且讀取后出現(xiàn)了理解錯(cuò)誤,例如單選題第3題,明明成功讀出題目中的“⊥”符號(hào)為“垂直”,卻在后面的步驟中理解為“平行”(題面中未出現(xiàn)任何平行相關(guān)字眼或符號(hào)),經(jīng)提示,文心一言發(fā)現(xiàn)理解錯(cuò)誤,卻在再次解答時(shí)又出現(xiàn)理解偏差。
實(shí)際上,從單選題第5題的答題情況不難看出,文心一言解答數(shù)學(xué)題并不是用數(shù)理邏輯,而是試圖用文字論證的方式去猜測(cè)一個(gè)接近的結(jié)果。在多次提示下,它仍然執(zhí)著于靠猜測(cè)來(lái)答題——“這個(gè)計(jì)算過(guò)程并不是題目所要求的,因?yàn)轭}目只需要我們根據(jù)給定的選項(xiàng)來(lái)選擇答案?!?/p>
文心一言幾乎對(duì)每一題都進(jìn)行了詳細(xì)的推理,但最終大部分題目都得出了錯(cuò)誤的答案。在第11題,文心一言非常坦誠(chéng)地做出答復(fù),并揭示了大模型處理數(shù)學(xué)問(wèn)題背后的本質(zhì):“由于我們沒(méi)有具體的數(shù)學(xué)工具或方程來(lái)直接進(jìn)行計(jì)算,只能根據(jù)給定的信息進(jìn)行邏輯推理。因此,我無(wú)法確定任何選項(xiàng)的正確性?!睂?duì)于第12題,文心一言也告知稱(chēng)“我只能提供解題的思路和步驟,而不能直接給出確切值?!?/p>
智譜清言在部分題目中也存在類(lèi)似的問(wèn)題。在第12題中,經(jīng)過(guò)一番分析后,智譜清言告訴用戶無(wú)法計(jì)算出結(jié)果。在第13題中,智譜清言重復(fù)地分析、發(fā)現(xiàn)問(wèn)題、重新審視問(wèn)題,又一遍一遍地發(fā)現(xiàn)行不通,進(jìn)行了十輪以上的死循環(huán),直到人工點(diǎn)擊暫停才停下。
面對(duì)多選題,能否自行判斷每個(gè)選項(xiàng)正確與否、有幾個(gè)選項(xiàng)符合題目要求,對(duì)大模型來(lái)說(shuō)也是一個(gè)考驗(yàn)。
經(jīng)測(cè)試,九章大模型、星火大模型、智譜清言均能夠在未提示此題目為多選題的情況下,識(shí)別出多個(gè)正確選項(xiàng);而文心一言在這方面稍遜色,且在提示某題目為多選題的情況下,仍然只選出一個(gè)選項(xiàng)(且是錯(cuò)的)。
根據(jù)此次測(cè)評(píng)的整體答題情況,一位不愿具名的數(shù)學(xué)教研專(zhuān)家對(duì)四個(gè)大模型的表現(xiàn)分別作出點(diǎn)評(píng)。他認(rèn)為,其中,九章大模型回答較為簡(jiǎn)單,缺少深入分析,部分題目的表達(dá)力度也比較低,回答也不夠全面。星火大模型的分析有一定的深度和見(jiàn)解,但有些地方的回答不夠簡(jiǎn)潔,有的題目的回答不夠準(zhǔn)確,在表述和數(shù)學(xué)符號(hào)的應(yīng)用上存在一些問(wèn)題。
文心一言(3.5版)思考比較全面,方方面面都會(huì)涵蓋,由此推測(cè)前期建模分類(lèi)分得比較細(xì),語(yǔ)言表達(dá)相對(duì)來(lái)說(shuō)也比較流暢。但回答特別冗長(zhǎng),也沒(méi)有重點(diǎn),答案也存在一些偏差。智譜清言的解答比較簡(jiǎn)潔,一般會(huì)直接回應(yīng)題目,也有一定的邏輯性和條理性,但答案不是特別詳細(xì),也沒(méi)有深入分析。有些題目的回答和標(biāo)準(zhǔn)答案的匹配度不高,有些題目雖然答對(duì)了,但會(huì)漏掉一些關(guān)鍵點(diǎn)。
大模型在“數(shù)學(xué)圖形識(shí)別及圖文關(guān)系理解”等方面存在短板
當(dāng)大模型應(yīng)用于教育場(chǎng)景中,除準(zhǔn)確性這個(gè)核心要求外,如何啟發(fā)學(xué)生思考、對(duì)學(xué)生進(jìn)行引導(dǎo)也備受關(guān)注。從這個(gè)角度看,四個(gè)受測(cè)大模型均能夠做到“不直接給出答案”,而是呈現(xiàn)解題過(guò)程,這是有別于傳統(tǒng)產(chǎn)品“拍照搜題”之處。
在啟發(fā)引導(dǎo)方面,九章大模型能夠依次進(jìn)行分析、詳解、點(diǎn)睛,最后才會(huì)給出答案,但在部分題目關(guān)鍵重難點(diǎn)步驟一帶而過(guò),需要追問(wèn)才會(huì)展開(kāi)解答。星火大模型也能夠給出解題步驟及正確結(jié)果,但較少呈現(xiàn)每一步背后的思路和思考邏輯;智譜清言可以從入手點(diǎn)開(kāi)始一步一步引導(dǎo)解答,最終給出正確答案,但偶有分析錯(cuò)誤、重新分析的情況出現(xiàn);而文心一言在答題的每一步都會(huì)做詳細(xì)的推理分析,但分析方向往往是錯(cuò)誤的。
題目的識(shí)別讀取對(duì)解題效率有較大影響。此次測(cè)試統(tǒng)一采取上傳題目圖片的方式由大模型進(jìn)行識(shí)別讀取,也考驗(yàn)著大模型的圖片處理能力。
對(duì)于多選題第11題,四個(gè)大模型均未能成功識(shí)別,也是唯一一道讓四個(gè)大模型“全軍覆沒(méi)”的題目??梢钥吹?,四個(gè)大模型在數(shù)學(xué)圖形識(shí)別及圖文關(guān)系理解上,普遍存在短板。
九章大模型在圖片題目識(shí)別上,會(huì)先在輸入文本框中識(shí)別讀取出題面,并以文本形式呈現(xiàn),用戶可在框內(nèi)確認(rèn)題目的準(zhǔn)確性。若發(fā)現(xiàn)識(shí)別錯(cuò)誤,點(diǎn)擊即可出現(xiàn)數(shù)學(xué)符號(hào)的輔助輸入工具欄,進(jìn)行編輯修改,防止題目讀取錯(cuò)誤。
星火大模型在圖片題目識(shí)別上亦未出現(xiàn)明顯障礙,但由于并不顯示識(shí)別內(nèi)容,而是直接作答,因此無(wú)法確定識(shí)別結(jié)果是否影響了答題。智譜清言則在多道題目中均給出“未能識(shí)別”的反饋,需要將題目以文本形式進(jìn)行人工輸入,方可進(jìn)行后續(xù)解答。文心一言對(duì)于圖片及數(shù)學(xué)符號(hào)的識(shí)別略優(yōu)于智譜清言,但復(fù)雜分?jǐn)?shù)公式、圖形亦識(shí)別不佳。
記者在測(cè)評(píng)過(guò)程中發(fā)現(xiàn),幾個(gè)大模型對(duì)上下文語(yǔ)境及語(yǔ)義的理解能力也存在差異。這一能力在教育場(chǎng)景中則關(guān)乎與學(xué)生的互動(dòng)能否順利達(dá)成。
記者注意到,文心一言在答數(shù)學(xué)題能力上雖然遜色,但通過(guò)一系列的追問(wèn)、對(duì)話可以發(fā)現(xiàn),這位“考生”對(duì)語(yǔ)義語(yǔ)境的把控能力非常優(yōu)秀,很容易明白用戶在說(shuō)什么,在用戶補(bǔ)充提醒的時(shí)候,它很快就可以知道根據(jù)新信息去解釋上面的題目。
如果說(shuō)文心一言是個(gè)不錯(cuò)的“文科生”,那九章大模型和星火大模型可以說(shuō)是地地道道的“理科生”,雖然非常擅長(zhǎng)解題,但上下文語(yǔ)義語(yǔ)境的理解是它們的弱勢(shì)。
例如,當(dāng)用戶對(duì)星火大模型提出“上面這道題可以再詳細(xì)分析一下嗎”時(shí),星火并不能理解指向的是什么,而是回答“很抱歉,由于我無(wú)法看到您提到的具體問(wèn)題,所以無(wú)法為您提供更詳細(xì)的分析。請(qǐng)?zhí)峁﹩?wèn)題的詳細(xì)信息,以便我能夠更好地幫助您?!?/p>
再如,當(dāng)用戶對(duì)九章大模型追問(wèn)“請(qǐng)你檢查一下這道題,D選項(xiàng)到底對(duì)不對(duì)”時(shí),九章并不明白用戶問(wèn)的是什么,回應(yīng)稱(chēng)“當(dāng)然可以,請(qǐng)您提供題目的具體內(nèi)容,包括選項(xiàng)D的表述,我會(huì)盡力幫助您檢查?!闭f(shuō)明其比較擅長(zhǎng)解題,但很難聯(lián)系上下文語(yǔ)境語(yǔ)義來(lái)與用戶互動(dòng)對(duì)話。
大模型的數(shù)學(xué)能力取決于算法和數(shù)據(jù)量
在大模型這一新事物面世初期,不少網(wǎng)友用開(kāi)源的大模型去測(cè)試一些簡(jiǎn)單數(shù)學(xué)題,發(fā)現(xiàn)很多答案并不準(zhǔn)確。與自然語(yǔ)言理解不同,大型語(yǔ)言模型在解決算術(shù)推理任務(wù)時(shí)性能欠佳。
九章大模型是此次四位“考生”中唯一一個(gè)、也是國(guó)內(nèi)首個(gè)專(zhuān)為數(shù)學(xué)打造的大模型。2023年5月,好未來(lái)公布正在進(jìn)行自研數(shù)學(xué)大模型的研發(fā),是以解題和講題算法為核心的數(shù)學(xué)垂直領(lǐng)域大模型,其官網(wǎng)顯示,其數(shù)學(xué)計(jì)算能力已覆蓋小學(xué)、初中、高中的數(shù)學(xué)題,題目類(lèi)型涵蓋計(jì)算題、應(yīng)用題、代數(shù)題等多個(gè)類(lèi)型。
為何不同模型的正確率及使用體驗(yàn)會(huì)存在差別?
中國(guó)社科院新聞與傳播研究所所長(zhǎng)胡正榮指出,大模型雖然是語(yǔ)言模型,但這個(gè)語(yǔ)言不是人們通常理解的字面意思,音頻、解題等都是大模型可以做的。從理論上看,數(shù)學(xué)大模型這個(gè)技術(shù)方向是可行的,但最終結(jié)果如何,取決于兩個(gè)因素,一是算法是不是足夠好,二是是否有足夠量的數(shù)據(jù)做支撐。
數(shù)據(jù)是大模型最基本的要素之一,如果要讓大模型解題精準(zhǔn),那么訓(xùn)練大模型的數(shù)據(jù)量需要足夠大。“正確率的差別,一方面是因?yàn)檩斎氲臄?shù)據(jù)量的差別造成的?!敝源竽P徒鈹?shù)學(xué)題會(huì)出錯(cuò)、沒(méi)有達(dá)到理想效果,就是因?yàn)橛?xùn)練的題庫(kù)不夠大,數(shù)據(jù)量越大、質(zhì)量越高,精準(zhǔn)度就會(huì)越好。
另一方面,胡正榮也強(qiáng)調(diào)了算法的重要性?!叭绻竽P偷乃惴ú粔蚵斆?,不是真正的數(shù)學(xué)思維,也會(huì)影響到答題的正確率?!?/p>
北京教育科學(xué)研究院基礎(chǔ)教育教學(xué)研究中心中學(xué)數(shù)學(xué)教研員丁明怡指出,通過(guò)四位“考生”的答題狀況可以看到,都存在答案正確但過(guò)程錯(cuò)誤的情況。從當(dāng)下情況來(lái)看,如果應(yīng)用到真實(shí)教育場(chǎng)景中,無(wú)論是給老師用還是給學(xué)生用,都還有較大的提升空間。
此次測(cè)評(píng)暴露出幾個(gè)大模型存在的幾個(gè)普遍問(wèn)題。第一,題目識(shí)別上存在比較大的困難,涉及一些數(shù)學(xué)符號(hào)、分式等會(huì)影響識(shí)別效果,還有一些圖形、表格識(shí)別存在問(wèn)題,以及一些數(shù)學(xué)專(zhuān)業(yè)術(shù)語(yǔ)的表述識(shí)別也不夠精準(zhǔn)。
第二,幾個(gè)大模型在邏輯推理能力上還存在不足。邏輯推理強(qiáng)調(diào)連貫性、嚴(yán)謹(jǐn)性,但幾個(gè)大模型這方面做得不夠好,例如,經(jīng)常會(huì)出現(xiàn)跳步,或者關(guān)鍵步驟缺失的情況。有時(shí)候不見(jiàn)得是計(jì)算錯(cuò)誤,而是邏輯推理出現(xiàn)問(wèn)題,導(dǎo)致最后結(jié)果錯(cuò)誤。
第三是解題方法較為單一。例如此次測(cè)試的第十二題,實(shí)際上是一道中等偏下難度的題目,通常會(huì)基于雙曲線的定義和性質(zhì)進(jìn)行求解,這樣可以避免比較復(fù)雜的坐標(biāo)計(jì)算、聯(lián)立方程求解等,可以大幅減少計(jì)算量、節(jié)省考試時(shí)間,但是這幾位“考生”在答這道題時(shí)都使用了常規(guī)方法,計(jì)算量很大、步驟也特別多。大模型似乎只能按照固定的模板去答題,而不能依據(jù)題目的特征因地制宜地選擇最優(yōu)方法。“如果用這樣的方法指導(dǎo)學(xué)生,對(duì)于學(xué)生知識(shí)學(xué)習(xí)和知識(shí)結(jié)構(gòu)建立都是有弊病的?!?/p>
若用于數(shù)學(xué)教育,大模型還需優(yōu)化對(duì)學(xué)生的啟發(fā)引導(dǎo)
針對(duì)上述大模型存在的普遍問(wèn)題,丁明怡提出多方面建議。
首先是要提升題目的識(shí)別能力,包括術(shù)語(yǔ)、符號(hào)、圖形、表格等等的識(shí)別。第二,建議加強(qiáng)大模型的邏輯推理能力訓(xùn)練,通過(guò)算法的優(yōu)化提升邏輯的嚴(yán)謹(jǐn)性、連貫性,改善跳步、表述不嚴(yán)謹(jǐn)?shù)膯?wèn)題。第三,建議優(yōu)化解題方法,能夠運(yùn)用概念應(yīng)用、數(shù)學(xué)結(jié)合等方法,來(lái)對(duì)學(xué)生進(jìn)行指導(dǎo)。實(shí)際教學(xué)中,無(wú)論是代數(shù)還是幾何,都要依靠數(shù)形結(jié)合的方法讓學(xué)生快速理解、簡(jiǎn)潔解題。建議大模型提升畫(huà)圖技能和應(yīng)用能力,包括幾何圖形、函數(shù)圖形、統(tǒng)計(jì)圖形等。
丁明怡特別強(qiáng)調(diào),還有特別重要的一點(diǎn),要提高大模型的思維能力。“在創(chuàng)新性題型和情景創(chuàng)設(shè)性題型上,大模型大多數(shù)不太擅長(zhǎng)。這類(lèi)題一般會(huì)基于比較復(fù)雜的現(xiàn)實(shí)情境,表述形式也比較綜合,可能會(huì)有文字、表格、圖像等,而且需要解決真實(shí)的問(wèn)題,比如提出最優(yōu)策略或者建議等。這種題目是沒(méi)有答題模板的,考查學(xué)生的閱讀能力和問(wèn)題解決能力。實(shí)際上這對(duì)大模型也提出了更高的要求,需要真正讀懂這道題說(shuō)的是什么,然后再把它轉(zhuǎn)化成數(shù)學(xué)問(wèn)題,再運(yùn)用數(shù)學(xué)知識(shí)進(jìn)行解答,隨后再回到現(xiàn)實(shí)問(wèn)題中提出解決方案。這方面大模型還有比較大的提升空間?!倍∶麾忉尩?。
另外丁明怡提到,如果大模型應(yīng)用到數(shù)學(xué)教育場(chǎng)景中,對(duì)于學(xué)生的啟發(fā)引導(dǎo)還需優(yōu)化。
“比如,拿到一道題,希望能夠先講一下題目所涉及的知識(shí)點(diǎn)和知識(shí)結(jié)構(gòu),再去講這道題求解的方法,假如說(shuō)基于定義性質(zhì)來(lái)求解,可以一邊畫(huà)圖,一邊結(jié)合知識(shí)結(jié)構(gòu)進(jìn)行分步講解,得出答案后,還可以再進(jìn)行解法比較,提出更優(yōu)的方法等。既有前期知識(shí)框架的分析,又有后期一步步的啟發(fā)以及和前期框架之間的聯(lián)系。”在丁明怡看來(lái),這才是大模型應(yīng)用于教育場(chǎng)景中的價(jià)值體現(xiàn)。
新京報(bào)記者 馮琪
編輯 繆晨霞 巫慧 校對(duì) 付春愔