蘋果公司研究團(tuán)隊(duì)近期發(fā)表了一篇深入探討大型語(yǔ)言模型(LLM)在數(shù)學(xué)推理方面局限性的論文。該論文指出,盡管LLM在生成類似人類的文本方面表現(xiàn)出色,但在處理簡(jiǎn)單數(shù)學(xué)問題時(shí),若對(duì)問題稍作修改,如增添無(wú)關(guān)信息,其表現(xiàn)便會(huì)顯著下降。
論文中舉了一個(gè)例子,當(dāng)詢問“奧利弗三天內(nèi)共摘了多少個(gè)奇異果”時(shí),LLM能夠正確計(jì)算。然而,一旦加入如“其中5個(gè)奇異果比平均小”這樣的無(wú)關(guān)細(xì)節(jié),LLM便會(huì)給出錯(cuò)誤答案。研究人員對(duì)數(shù)百個(gè)類似問題進(jìn)行了修改,并發(fā)現(xiàn)幾乎所有這些修改都導(dǎo)致LLM的回答成功率大幅降低。
研究團(tuán)隊(duì)認(rèn)為,這一現(xiàn)象顯示出LLM并未真正理解數(shù)學(xué)問題,而是依賴于訓(xùn)練數(shù)據(jù)中的模式進(jìn)行預(yù)測(cè)。當(dāng)需要進(jìn)行真正的邏輯推理時(shí),模型往往無(wú)法得出合理結(jié)果。這一發(fā)現(xiàn)為人工智能的發(fā)展提供了重要的參考依據(jù)。盡管LLM在多個(gè)領(lǐng)域都表現(xiàn)出色,但其推理能力仍需進(jìn)一步提升。