據(jù)新浪科技報道,上海人工智能實驗室旗下的司南評測體系OpenCompass對七個大型語言模型進(jìn)行了高考“語數(shù)外”全卷能力測試,并發(fā)布了首個大模型高考全卷評測結(jié)果。
此次測試的語文、數(shù)學(xué)和英語三科總分為420分。測試結(jié)果顯示,阿里巴巴的通義千問2-72B以303分的成績排名第一,OpenAI的GPT-4以296分緊隨其后,位居第二。上海人工智能實驗室的書生浦語2.0排名第三。這三個大模型的得分率均超過70%。法國初創(chuàng)公司Mistral的大模型排名末尾。
從測試結(jié)果來看,大模型在語文和英語考試中的表現(xiàn)普遍較好,但在數(shù)學(xué)科目上表現(xiàn)欠佳,最高分僅為75分,全部未能及格。