大模型的數(shù)學(xué)能力究竟如何？其在數(shù)學(xué)學(xué)科教育場(chǎng)景中能夠發(fā)揮多大價(jià)值？結(jié)果值得期待。

2024年高考已順利落幕，讓大模型寫(xiě)高考作文題已不稀奇，大眾通常認(rèn)為大模型更擅長(zhǎng)文科，不擅長(zhǎng)進(jìn)行數(shù)學(xué)計(jì)算和邏輯推理。當(dāng)AI遇上高考數(shù)學(xué)題，大模型化身為“考生”答數(shù)學(xué)題，會(huì)交出怎樣的答卷？

我們選取了4名有代表性的大模型“考生”，分別是九章大模型、星火大模型（v3.5版本）、文心一言（3.5版）、智譜清言（GLM-4），選取2024全國(guó)高考數(shù)學(xué)新課標(biāo)1卷客觀題部分進(jìn)行測(cè)評(píng)。大模型的數(shù)學(xué)能力究竟如何？其在數(shù)學(xué)學(xué)科教育場(chǎng)景中能夠發(fā)揮多大價(jià)值？結(jié)果值得期待。

四位“考生”表現(xiàn)參差不齊

此次測(cè)評(píng)選取的4個(gè)大模型中，星火大模型（v3.5版本）、文心一言（3.5版）、智譜清言（GLM-4）為通用大模型，九章大模型則為以數(shù)學(xué)能力見(jiàn)長(zhǎng)的教育垂類(lèi)模型。

在試題選擇上，為便于評(píng)價(jià)統(tǒng)計(jì)，統(tǒng)一選擇了2024年數(shù)學(xué)新課標(biāo)Ⅰ卷中的14道客觀題進(jìn)行測(cè)試，其中包括8道單選題、3道多選題、3道填空題。此外，由于試題中存在圖形、大量數(shù)學(xué)符號(hào)，為防止以文本形式輸入題目產(chǎn)生偏差，統(tǒng)一選擇以圖片形式呈現(xiàn)題目并提供給大模型進(jìn)行解答。

四個(gè)大模型在此次“考試”中，整體表現(xiàn)如何？

據(jù)新京報(bào)記者統(tǒng)計(jì)，14道題目中，九章大模型共答對(duì)11道，星火大模型共答對(duì)12道，二者不相上下。而另外兩位差別較大，文心一言共答對(duì)1道，智譜清言共答對(duì)4道。

最終統(tǒng)計(jì)結(jié)果顯示，四位“考生”此次作答正確率從高到低依次為星火大模型（85.71%）、九章大模型（78.57%）、智譜清言（28.57%）、文心一言（7.14%）。

四個(gè)大模型正確率測(cè)評(píng)統(tǒng)計(jì)數(shù)據(jù)。制圖/新京報(bào)記者馮琪

從不同題目類(lèi)型的答題情況來(lái)看，九章大模型8道單選題全部答對(duì)，3道多選題答錯(cuò)2道，3道填空題答錯(cuò)1道；星火大模型單選題全部答對(duì)，多選題答錯(cuò)2道，填空題全部答對(duì)；文心一言僅答對(duì)1道單選題；智譜清言僅答對(duì)3道單選、1道多選（另有3道題目因大模型提示無(wú)法識(shí)別圖片未參與作答）。

需要指出的是，由于測(cè)試的是客觀題，上述正確率僅根據(jù)大模型作答的最終選項(xiàng)進(jìn)行判斷和統(tǒng)計(jì)，不涉及解題過(guò)程。但記者在測(cè)評(píng)過(guò)程中注意到，的確存在不少選項(xiàng)正確、但解題過(guò)程存在差錯(cuò)及瑕疵的情況。

部分大模型“蒙”對(duì)答案計(jì)算推理過(guò)程存在明顯錯(cuò)誤

正確率的背后受多個(gè)維度能力影響，而數(shù)學(xué)能力是此次測(cè)評(píng)關(guān)注的核心。在測(cè)評(píng)過(guò)程中記者注意到，幾位“考生”在題目理解能力、計(jì)算推理能力以及解析過(guò)程的詳略上，均存在差異和不同特征。

就正確率而言，星火大模型表現(xiàn)較好，但部分題目的計(jì)算推理過(guò)程卻經(jīng)不起推敲，雖然結(jié)果正確，但過(guò)程中出現(xiàn)了明顯錯(cuò)誤。例如單選題第1題中，星火大模型的解題步驟中提到“2不在區(qū)間(?2.236,2.236)(?2.236,2.236)內(nèi)（因?yàn)樗^(guò)了上界）”，存在明顯謬誤，但最后卻“蒙”對(duì)答案。再如單選題第2題，一位數(shù)學(xué)專(zhuān)業(yè)人士看到解題過(guò)程后評(píng)價(jià)稱(chēng)“推理的上下兩行公式之間沒(méi)有任何關(guān)聯(lián)，也無(wú)法推導(dǎo)得出這個(gè)答案，為何最終選出了正確選項(xiàng)，令人匪夷所思?！?/p>

九章大模型的部分解題過(guò)程也存在瑕疵。在一道多選題中，九章大模型在推理中明明認(rèn)為C選項(xiàng)錯(cuò)誤，但最后又把C選為正確答案，“這個(gè)表述上下文之間沒(méi)啥邏輯關(guān)系，讓人摸不到頭腦?！鄙鲜鰯?shù)學(xué)專(zhuān)業(yè)人士指出。

如果看看正確率排名倒數(shù)第一的“考生”文心一言的試卷，令人匪夷所思的地方就更多了?？赐赀@位考生答對(duì)的唯一一道題目，上述專(zhuān)業(yè)人士稱(chēng)，解題過(guò)程中連基本的輸入都有多處錯(cuò)誤，能得出正確答案可能只是“歪打正著”。

測(cè)評(píng)中可以發(fā)現(xiàn)，文心一言具備讀取圖片內(nèi)容的能力，但無(wú)法識(shí)別僅帶有復(fù)雜分?jǐn)?shù)的公式和圖形。且讀取后出現(xiàn)了理解錯(cuò)誤，例如單選題第3題，明明成功讀出題目中的“⊥”符號(hào)為“垂直”，卻在后面的步驟中理解為“平行”（題面中未出現(xiàn)任何平行相關(guān)字眼或符號(hào)），經(jīng)提示，文心一言發(fā)現(xiàn)理解錯(cuò)誤，卻在再次解答時(shí)又出現(xiàn)理解偏差。

實(shí)際上，從單選題第5題的答題情況不難看出，文心一言解答數(shù)學(xué)題并不是用數(shù)理邏輯，而是試圖用文字論證的方式去猜測(cè)一個(gè)接近的結(jié)果。在多次提示下，它仍然執(zhí)著于靠猜測(cè)來(lái)答題——“這個(gè)計(jì)算過(guò)程并不是題目所要求的，因?yàn)轭}目只需要我們根據(jù)給定的選項(xiàng)來(lái)選擇答案?！?/p>

文心一言幾乎對(duì)每一題都進(jìn)行了詳細(xì)的推理，但最終大部分題目都得出了錯(cuò)誤的答案。在第11題，文心一言非常坦誠(chéng)地做出答復(fù)，并揭示了大模型處理數(shù)學(xué)問(wèn)題背后的本質(zhì)：“由于我們沒(méi)有具體的數(shù)學(xué)工具或方程來(lái)直接進(jìn)行計(jì)算，只能根據(jù)給定的信息進(jìn)行邏輯推理。因此，我無(wú)法確定任何選項(xiàng)的正確性?！睂?duì)于第12題，文心一言也告知稱(chēng)“我只能提供解題的思路和步驟，而不能直接給出確切值?！?/p>

智譜清言在部分題目中也存在類(lèi)似的問(wèn)題。在第12題中，經(jīng)過(guò)一番分析后，智譜清言告訴用戶無(wú)法計(jì)算出結(jié)果。在第13題中，智譜清言重復(fù)地分析、發(fā)現(xiàn)問(wèn)題、重新審視問(wèn)題，又一遍一遍地發(fā)現(xiàn)行不通，進(jìn)行了十輪以上的死循環(huán)，直到人工點(diǎn)擊暫停才停下。

面對(duì)多選題，能否自行判斷每個(gè)選項(xiàng)正確與否、有幾個(gè)選項(xiàng)符合題目要求，對(duì)大模型來(lái)說(shuō)也是一個(gè)考驗(yàn)。

經(jīng)測(cè)試，九章大模型、星火大模型、智譜清言均能夠在未提示此題目為多選題的情況下，識(shí)別出多個(gè)正確選項(xiàng)；而文心一言在這方面稍遜色，且在提示某題目為多選題的情況下，仍然只選出一個(gè)選項(xiàng)（且是錯(cuò)的）。

根據(jù)此次測(cè)評(píng)的整體答題情況，一位不愿具名的數(shù)學(xué)教研專(zhuān)家對(duì)四個(gè)大模型的表現(xiàn)分別作出點(diǎn)評(píng)。他認(rèn)為，其中，九章大模型回答較為簡(jiǎn)單，缺少深入分析，部分題目的表達(dá)力度也比較低，回答也不夠全面。星火大模型的分析有一定的深度和見(jiàn)解，但有些地方的回答不夠簡(jiǎn)潔，有的題目的回答不夠準(zhǔn)確，在表述和數(shù)學(xué)符號(hào)的應(yīng)用上存在一些問(wèn)題。

文心一言（3.5版）思考比較全面，方方面面都會(huì)涵蓋，由此推測(cè)前期建模分類(lèi)分得比較細(xì)，語(yǔ)言表達(dá)相對(duì)來(lái)說(shuō)也比較流暢。但回答特別冗長(zhǎng)，也沒(méi)有重點(diǎn)，答案也存在一些偏差。智譜清言的解答比較簡(jiǎn)潔，一般會(huì)直接回應(yīng)題目，也有一定的邏輯性和條理性，但答案不是特別詳細(xì)，也沒(méi)有深入分析。有些題目的回答和標(biāo)準(zhǔn)答案的匹配度不高，有些題目雖然答對(duì)了，但會(huì)漏掉一些關(guān)鍵點(diǎn)。

大模型在“數(shù)學(xué)圖形識(shí)別及圖文關(guān)系理解”等方面存在短板

當(dāng)大模型應(yīng)用于教育場(chǎng)景中，除準(zhǔn)確性這個(gè)核心要求外，如何啟發(fā)學(xué)生思考、對(duì)學(xué)生進(jìn)行引導(dǎo)也備受關(guān)注。從這個(gè)角度看，四個(gè)受測(cè)大模型均能夠做到“不直接給出答案”，而是呈現(xiàn)解題過(guò)程，這是有別于傳統(tǒng)產(chǎn)品“拍照搜題”之處。

在啟發(fā)引導(dǎo)方面，九章大模型能夠依次進(jìn)行分析、詳解、點(diǎn)睛，最后才會(huì)給出答案，但在部分題目關(guān)鍵重難點(diǎn)步驟一帶而過(guò)，需要追問(wèn)才會(huì)展開(kāi)解答。星火大模型也能夠給出解題步驟及正確結(jié)果，但較少呈現(xiàn)每一步背后的思路和思考邏輯；智譜清言可以從入手點(diǎn)開(kāi)始一步一步引導(dǎo)解答，最終給出正確答案，但偶有分析錯(cuò)誤、重新分析的情況出現(xiàn)；而文心一言在答題的每一步都會(huì)做詳細(xì)的推理分析，但分析方向往往是錯(cuò)誤的。

題目的識(shí)別讀取對(duì)解題效率有較大影響。此次測(cè)試統(tǒng)一采取上傳題目圖片的方式由大模型進(jìn)行識(shí)別讀取，也考驗(yàn)著大模型的圖片處理能力。

對(duì)于多選題第11題，四個(gè)大模型均未能成功識(shí)別，也是唯一一道讓四個(gè)大模型“全軍覆沒(méi)”的題目?？梢钥吹?，四個(gè)大模型在數(shù)學(xué)圖形識(shí)別及圖文關(guān)系理解上，普遍存在短板。

九章大模型在圖片題目識(shí)別上，會(huì)先在輸入文本框中識(shí)別讀取出題面，并以文本形式呈現(xiàn)，用戶可在框內(nèi)確認(rèn)題目的準(zhǔn)確性。若發(fā)現(xiàn)識(shí)別錯(cuò)誤，點(diǎn)擊即可出現(xiàn)數(shù)學(xué)符號(hào)的輔助輸入工具欄，進(jìn)行編輯修改，防止題目讀取錯(cuò)誤。

星火大模型在圖片題目識(shí)別上亦未出現(xiàn)明顯障礙，但由于并不顯示識(shí)別內(nèi)容，而是直接作答，因此無(wú)法確定識(shí)別結(jié)果是否影響了答題。智譜清言則在多道題目中均給出“未能識(shí)別”的反饋，需要將題目以文本形式進(jìn)行人工輸入，方可進(jìn)行后續(xù)解答。文心一言對(duì)于圖片及數(shù)學(xué)符號(hào)的識(shí)別略優(yōu)于智譜清言，但復(fù)雜分?jǐn)?shù)公式、圖形亦識(shí)別不佳。

記者在測(cè)評(píng)過(guò)程中發(fā)現(xiàn)，幾個(gè)大模型對(duì)上下文語(yǔ)境及語(yǔ)義的理解能力也存在差異。這一能力在教育場(chǎng)景中則關(guān)乎與學(xué)生的互動(dòng)能否順利達(dá)成。

記者注意到，文心一言在答數(shù)學(xué)題能力上雖然遜色，但通過(guò)一系列的追問(wèn)、對(duì)話可以發(fā)現(xiàn)，這位“考生”對(duì)語(yǔ)義語(yǔ)境的把控能力非常優(yōu)秀，很容易明白用戶在說(shuō)什么，在用戶補(bǔ)充提醒的時(shí)候，它很快就可以知道根據(jù)新信息去解釋上面的題目。

如果說(shuō)文心一言是個(gè)不錯(cuò)的“文科生”，那九章大模型和星火大模型可以說(shuō)是地地道道的“理科生”，雖然非常擅長(zhǎng)解題，但上下文語(yǔ)義語(yǔ)境的理解是它們的弱勢(shì)。

例如，當(dāng)用戶對(duì)星火大模型提出“上面這道題可以再詳細(xì)分析一下嗎”時(shí)，星火并不能理解指向的是什么，而是回答“很抱歉，由于我無(wú)法看到您提到的具體問(wèn)題，所以無(wú)法為您提供更詳細(xì)的分析。請(qǐng)?zhí)峁﹩?wèn)題的詳細(xì)信息，以便我能夠更好地幫助您?！?/p>

再如，當(dāng)用戶對(duì)九章大模型追問(wèn)“請(qǐng)你檢查一下這道題，D選項(xiàng)到底對(duì)不對(duì)”時(shí)，九章并不明白用戶問(wèn)的是什么，回應(yīng)稱(chēng)“當(dāng)然可以,請(qǐng)您提供題目的具體內(nèi)容,包括選項(xiàng)D的表述,我會(huì)盡力幫助您檢查?！闭f(shuō)明其比較擅長(zhǎng)解題，但很難聯(lián)系上下文語(yǔ)境語(yǔ)義來(lái)與用戶互動(dòng)對(duì)話。

大模型的數(shù)學(xué)能力取決于算法和數(shù)據(jù)量

在大模型這一新事物面世初期，不少網(wǎng)友用開(kāi)源的大模型去測(cè)試一些簡(jiǎn)單數(shù)學(xué)題，發(fā)現(xiàn)很多答案并不準(zhǔn)確。與自然語(yǔ)言理解不同，大型語(yǔ)言模型在解決算術(shù)推理任務(wù)時(shí)性能欠佳。

九章大模型是此次四位“考生”中唯一一個(gè)、也是國(guó)內(nèi)首個(gè)專(zhuān)為數(shù)學(xué)打造的大模型。2023年5月，好未來(lái)公布正在進(jìn)行自研數(shù)學(xué)大模型的研發(fā)，是以解題和講題算法為核心的數(shù)學(xué)垂直領(lǐng)域大模型，其官網(wǎng)顯示，其數(shù)學(xué)計(jì)算能力已覆蓋小學(xué)、初中、高中的數(shù)學(xué)題，題目類(lèi)型涵蓋計(jì)算題、應(yīng)用題、代數(shù)題等多個(gè)類(lèi)型。

為何不同模型的正確率及使用體驗(yàn)會(huì)存在差別？

中國(guó)社科院新聞與傳播研究所所長(zhǎng)胡正榮指出，大模型雖然是語(yǔ)言模型，但這個(gè)語(yǔ)言不是人們通常理解的字面意思，音頻、解題等都是大模型可以做的。從理論上看，數(shù)學(xué)大模型這個(gè)技術(shù)方向是可行的，但最終結(jié)果如何，取決于兩個(gè)因素，一是算法是不是足夠好，二是是否有足夠量的數(shù)據(jù)做支撐。

數(shù)據(jù)是大模型最基本的要素之一，如果要讓大模型解題精準(zhǔn)，那么訓(xùn)練大模型的數(shù)據(jù)量需要足夠大。“正確率的差別，一方面是因?yàn)檩斎氲臄?shù)據(jù)量的差別造成的?！敝源竽Ｐ徒鈹?shù)學(xué)題會(huì)出錯(cuò)、沒(méi)有達(dá)到理想效果，就是因?yàn)橛?xùn)練的題庫(kù)不夠大，數(shù)據(jù)量越大、質(zhì)量越高，精準(zhǔn)度就會(huì)越好。

另一方面，胡正榮也強(qiáng)調(diào)了算法的重要性?！叭绻竽Ｐ偷乃惴ú粔蚵斆?，不是真正的數(shù)學(xué)思維，也會(huì)影響到答題的正確率?！?/p>

北京教育科學(xué)研究院基礎(chǔ)教育教學(xué)研究中心中學(xué)數(shù)學(xué)教研員丁明怡指出，通過(guò)四位“考生”的答題狀況可以看到，都存在答案正確但過(guò)程錯(cuò)誤的情況。從當(dāng)下情況來(lái)看，如果應(yīng)用到真實(shí)教育場(chǎng)景中，無(wú)論是給老師用還是給學(xué)生用，都還有較大的提升空間。

此次測(cè)評(píng)暴露出幾個(gè)大模型存在的幾個(gè)普遍問(wèn)題。第一，題目識(shí)別上存在比較大的困難，涉及一些數(shù)學(xué)符號(hào)、分式等會(huì)影響識(shí)別效果，還有一些圖形、表格識(shí)別存在問(wèn)題，以及一些數(shù)學(xué)專(zhuān)業(yè)術(shù)語(yǔ)的表述識(shí)別也不夠精準(zhǔn)。

第二，幾個(gè)大模型在邏輯推理能力上還存在不足。邏輯推理強(qiáng)調(diào)連貫性、嚴(yán)謹(jǐn)性，但幾個(gè)大模型這方面做得不夠好，例如，經(jīng)常會(huì)出現(xiàn)跳步，或者關(guān)鍵步驟缺失的情況。有時(shí)候不見(jiàn)得是計(jì)算錯(cuò)誤，而是邏輯推理出現(xiàn)問(wèn)題，導(dǎo)致最后結(jié)果錯(cuò)誤。

第三是解題方法較為單一。例如此次測(cè)試的第十二題，實(shí)際上是一道中等偏下難度的題目，通常會(huì)基于雙曲線的定義和性質(zhì)進(jìn)行求解，這樣可以避免比較復(fù)雜的坐標(biāo)計(jì)算、聯(lián)立方程求解等，可以大幅減少計(jì)算量、節(jié)省考試時(shí)間，但是這幾位“考生”在答這道題時(shí)都使用了常規(guī)方法，計(jì)算量很大、步驟也特別多。大模型似乎只能按照固定的模板去答題，而不能依據(jù)題目的特征因地制宜地選擇最優(yōu)方法。“如果用這樣的方法指導(dǎo)學(xué)生，對(duì)于學(xué)生知識(shí)學(xué)習(xí)和知識(shí)結(jié)構(gòu)建立都是有弊病的?！?/p>

若用于數(shù)學(xué)教育，大模型還需優(yōu)化對(duì)學(xué)生的啟發(fā)引導(dǎo)

針對(duì)上述大模型存在的普遍問(wèn)題，丁明怡提出多方面建議。

首先是要提升題目的識(shí)別能力，包括術(shù)語(yǔ)、符號(hào)、圖形、表格等等的識(shí)別。第二，建議加強(qiáng)大模型的邏輯推理能力訓(xùn)練，通過(guò)算法的優(yōu)化提升邏輯的嚴(yán)謹(jǐn)性、連貫性，改善跳步、表述不嚴(yán)謹(jǐn)?shù)膯?wèn)題。第三，建議優(yōu)化解題方法，能夠運(yùn)用概念應(yīng)用、數(shù)學(xué)結(jié)合等方法，來(lái)對(duì)學(xué)生進(jìn)行指導(dǎo)。實(shí)際教學(xué)中，無(wú)論是代數(shù)還是幾何，都要依靠數(shù)形結(jié)合的方法讓學(xué)生快速理解、簡(jiǎn)潔解題。建議大模型提升畫(huà)圖技能和應(yīng)用能力，包括幾何圖形、函數(shù)圖形、統(tǒng)計(jì)圖形等。

丁明怡特別強(qiáng)調(diào)，還有特別重要的一點(diǎn)，要提高大模型的思維能力。“在創(chuàng)新性題型和情景創(chuàng)設(shè)性題型上，大模型大多數(shù)不太擅長(zhǎng)。這類(lèi)題一般會(huì)基于比較復(fù)雜的現(xiàn)實(shí)情境，表述形式也比較綜合，可能會(huì)有文字、表格、圖像等，而且需要解決真實(shí)的問(wèn)題，比如提出最優(yōu)策略或者建議等。這種題目是沒(méi)有答題模板的，考查學(xué)生的閱讀能力和問(wèn)題解決能力。實(shí)際上這對(duì)大模型也提出了更高的要求，需要真正讀懂這道題說(shuō)的是什么，然后再把它轉(zhuǎn)化成數(shù)學(xué)問(wèn)題，再運(yùn)用數(shù)學(xué)知識(shí)進(jìn)行解答，隨后再回到現(xiàn)實(shí)問(wèn)題中提出解決方案。這方面大模型還有比較大的提升空間?！倍∶麾忉尩?。

另外丁明怡提到，如果大模型應(yīng)用到數(shù)學(xué)教育場(chǎng)景中，對(duì)于學(xué)生的啟發(fā)引導(dǎo)還需優(yōu)化。

“比如，拿到一道題，希望能夠先講一下題目所涉及的知識(shí)點(diǎn)和知識(shí)結(jié)構(gòu)，再去講這道題求解的方法，假如說(shuō)基于定義性質(zhì)來(lái)求解，可以一邊畫(huà)圖，一邊結(jié)合知識(shí)結(jié)構(gòu)進(jìn)行分步講解，得出答案后，還可以再進(jìn)行解法比較，提出更優(yōu)的方法等。既有前期知識(shí)框架的分析，又有后期一步步的啟發(fā)以及和前期框架之間的聯(lián)系。”在丁明怡看來(lái)，這才是大模型應(yīng)用于教育場(chǎng)景中的價(jià)值體現(xiàn)。

新京報(bào)記者馮琪

編輯繆晨霞巫慧校對(duì) 付春愔

163 +1

微博

微信