一道小學(xué)生難度的數(shù)學(xué)題難倒了一眾海內(nèi)外AI大模型。
問(wèn)題是:“9.11和9.9哪個(gè)更大?”就此問(wèn)題,記者測(cè)試了12個(gè)大模型,結(jié)果顯示阿里通義千問(wèn)、百度文心一言、Minimax和騰訊元寶答對(duì)了,但ChatGPT-4.0、字節(jié)豆包、月之暗面kimi、智譜清言、零一萬(wàn)物萬(wàn)知、階躍星辰躍問(wèn)、百川智能百小應(yīng)、商湯商量都答錯(cuò)了。每個(gè)錯(cuò)誤的原因都各有不同。
大部分大模型在問(wèn)答過(guò)程中錯(cuò)誤地比較了小數(shù)點(diǎn)后的數(shù)字,認(rèn)為9.11大于9.9??紤]到數(shù)字涉及的語(yǔ)境問(wèn)題,記者將其限定為數(shù)學(xué)語(yǔ)境下,但像ChatGPT這樣的高級(jí)模型也依然答錯(cuò)。
這反映出大模型在數(shù)學(xué)能力上的不足,這是一個(gè)長(zhǎng)期存在的問(wèn)題。有行業(yè)人士認(rèn)為,生成式語(yǔ)言模型從設(shè)計(jì)上更偏向文字思維而非數(shù)字思維。然而,針對(duì)性的語(yǔ)料訓(xùn)練或許能在未來(lái)逐步提升模型的理科能力。