大模型參加K12學(xué)科測驗：文強理弱，對圖表理解能力不足

來(lái)源：澎湃新聞　作者：張靜　發(fā)表時(shí)間：2024-05-21 21:12

澎湃新聞作者：張靜 2024-05-21

澎湃新聞?dòng)浾?張靜

·在大模型K12學(xué)科測驗中，模型綜合學(xué)科能力與海淀學(xué)生平均水平有差距。在人文學(xué)科考試中，模型欠缺對文字背后的文化內涵及家國情懷的理解。面對歷史地理綜合題時(shí)，模型并不能像人類(lèi)考生一樣有效識別學(xué)科屬性。相較于簡(jiǎn)單的英語(yǔ)題，模型更擅長(cháng)復雜的英語(yǔ)題。

5月17日，北京智源人工智能研究院推出智源評測體系，發(fā)布并解讀國內外140余個(gè)開(kāi)源和商業(yè)閉源的語(yǔ)言及多模態(tài)大模型全方位能力評測結果，其中包括49個(gè)參加K12學(xué)科測驗的大模型測驗結果，該測驗旨在考察大模型與人類(lèi)學(xué)生的學(xué)科水平差異。結果顯示，大模型在學(xué)科測驗上略低于北京海淀各年級學(xué)生平均水平（教師預估）。

在北京海淀區教委支持下，智源研究院聯(lián)合與海淀區教師進(jìn)修學(xué)校對齊學(xué)生測驗方式，考察大模型與人類(lèi)學(xué)生的學(xué)科水平差異，其中，答案不唯一的主觀(guān)題由海淀教師親自評卷。在大模型K12學(xué)科測驗中發(fā)現，模型在綜合學(xué)科能力上與海淀學(xué)生平均水平仍有差距，普遍存在文強理弱的情況，并且對圖表的理解能力不足，大模型未來(lái)仍有提升空間。

北京市海淀區教師進(jìn)修學(xué)校校長(cháng)姚守梅解讀大模型K12學(xué)科測試結果時(shí)表示，在語(yǔ)文、歷史等人文學(xué)科的考試中，模型欠缺對文字背后的文化內涵以及家國情懷的理解。例如在“依據材料并結合所學(xué)，概括清代白銀流動(dòng)的變化并加以分析”時(shí)，某些大模型認為只是一次殖民擴張，沒(méi)有闡述其背后的意義。但題目還需學(xué)生指出這場(chǎng)戰爭意味著(zhù)貿易侵略、喪權辱國。這些價(jià)值判斷和愛(ài)國主義情懷是學(xué)生學(xué)習歷史最重要的意義。如果學(xué)生在未來(lái)依賴(lài)于大模型尋找參考答案，而大模型并不具備正確的歷史觀(guān)和中國人應該擁有的家國情懷，不利于學(xué)生價(jià)值觀(guān)的養成。

面對歷史地理綜合題時(shí)，模型并不能像人類(lèi)考生一樣有效識別學(xué)科屬性。相較于簡(jiǎn)單的英語(yǔ)題，模型反而更擅長(cháng)復雜的英語(yǔ)題。解理科題目時(shí)，模型會(huì )出現以超出年級知識范圍外的方法解題的情況。當出現無(wú)法理解的考題時(shí)，模型依然存在明顯的“幻覺(jué)”。

本次評測還從主觀(guān)、客觀(guān)兩個(gè)維度考察了語(yǔ)言模型的簡(jiǎn)單理解、知識運用、推理能力、數學(xué)能力、代碼能力、任務(wù)解決、安全與價(jià)值觀(guān)七大能力，主客觀(guān)評測總計約5.8萬(wàn)題，其中主觀(guān)更偏重考察中文能力。在中文語(yǔ)境下，國內頭部語(yǔ)言模型的綜合表現已接近國際水平，但存在能力發(fā)展不均衡情況。語(yǔ)言模型主觀(guān)評測結果顯示，在中文語(yǔ)境下，字節跳動(dòng)豆包Skylark2、OpenAI的GPT-4位居前列，國產(chǎn)大模型更懂中國用戶(hù)。在語(yǔ)言模型客觀(guān)評測中，GPT-4、百川智能Baichuan3位列前列。百度文心一言4.0、智譜華章GLM-4和月之暗面Kimi均進(jìn)入語(yǔ)言模型主客觀(guān)評測前五。

多模態(tài)理解模型是指模型能夠接受文本、圖片等不同模態(tài)的信息輸入并回答相關(guān)問(wèn)題。評測主要考察模型的圖文問(wèn)答能力，共評測20余個(gè)模型。多模態(tài)理解模型客觀(guān)評測結果顯示，圖文問(wèn)答方面，阿里巴巴通義Qwen-vl-max與上海人工智能實(shí)驗室InternVL-Chat-V1.5領(lǐng)先于OpenAI GPT-4。在多模態(tài)理解圖文問(wèn)答任務(wù)上，開(kāi)閉源模型平分秋色。

多模態(tài)生成模型是指模型能夠接受文本、圖片等不同模態(tài)的信息，并生成不同模態(tài)的內容。本次評測選取“文本-圖像”生成和“文本-視頻”生成模型，共評測20余個(gè)模型。多模態(tài)生成模型文生圖評測結果顯示，OpenAI DALL-E3位列第一，智譜華章CogView3、Meta-Imagine分居第二、第三，百度文心一格、字節跳動(dòng)doubao-Image次之。多模態(tài)生成模型文生視頻評測結果顯示，OpenAI Sora、Runway、愛(ài)詩(shī)科技PixVerse、Pika、騰訊VideoCrafter-V2位列前五。國產(chǎn)多模態(tài)模型在中文語(yǔ)境下的文生圖能力與國際一流水平差距較小。在多模態(tài)模型的文生視頻能力上，對比各家公布的演示視頻長(cháng)度和質(zhì)量，Sora優(yōu)勢明顯，其他開(kāi)放評測的文生視頻模型中，國產(chǎn)模型PixVerse表現優(yōu)異。

依托科技部“人工智能基礎模型支撐平臺與評測技術(shù)”和工信部“大模型公共服務(wù)平臺”項目，智源研究院與10余家高校和機構聯(lián)合開(kāi)展大模型評測方法與工具研發(fā)。2023年6月，由智源研究院與多個(gè)高校團隊共建的FlagEval大模型評測平臺上線(xiàn)，迄今完成1000多次覆蓋全球多個(gè)開(kāi)源大模型的評測。此次模型評測使用20余個(gè)數據集、超8萬(wàn)道考題，采取了客觀(guān)評測統一規則與主觀(guān)評測多重校驗打分相結合的方法，其中，開(kāi)源模型采用模型發(fā)布方推薦的推理代碼及運行環(huán)境，對所有模型統一使用業(yè)界通用的提示語(yǔ)，不針對模型做提示語(yǔ)的優(yōu)化。

編輯：彭勇

返回頂部

精品国产免费福利片,一级片手机在线观看,欧美日韩国产在线一区,久久精品综合一区二区三区

大模型參加K12學(xué)科測驗：文強理弱，對圖表理解能力不足