久久精品无码一区二区三区国产,日本视频一区二区,人人干人人爱,亚洲AV第二区国产精品

AI參加高考,為何偏科嚴(yán)重
來(lái)源:搜狐 發(fā)表于2024-07-05 18:29:45 編輯:時(shí)寒峰
摘要: 原標(biāo)題:AI參加高考,為何偏科嚴(yán)重 大模型參加高考,能考多少分?近日,科技創(chuàng)新交流平臺(tái)極客公園發(fā)布高考新課標(biāo)Ⅰ卷大模型評(píng)測(cè)報(bào)告,在參試大模型

  原標(biāo)題:AI參加高考,為何偏科嚴(yán)重

  大模型參加高考,能考多少分?近日,科技創(chuàng)新交流平臺(tái)極客公園發(fā)布高考新課標(biāo)Ⅰ卷大模型評(píng)測(cè)報(bào)告,在參試大模型中,GPT-4o以562分的成績(jī)排名文科第一。參加評(píng)測(cè)的8款國(guó)產(chǎn)大模型中,字節(jié)跳動(dòng)旗下的豆包成績(jī)是542.5分,其后依次是百度文心一言4.0的537.5分和百川智能“百小應(yīng)”的521分。本次大模型高考評(píng)測(cè)與河南省考卷完全相同,以上3款國(guó)產(chǎn)大模型均超過(guò)河南文科一本線521分。GPT-4o的562分在河南文科考生中可排名8811名,相當(dāng)于前2.45%;豆包處于前4.27%,接近頂尖大模型的水平。

  文綜評(píng)測(cè)中,GPT-4o獲237分,優(yōu)于多數(shù)人類考生。國(guó)產(chǎn)大模型中,豆包文綜成績(jī)最高,得分224.5分,其中歷史達(dá)到82.5分,在所有9款大模型中排第一。地理考卷有大量圖片考題,圖像理解能力較強(qiáng)的GPT-4o得到最高分,但僅有68分。

  語(yǔ)文、英語(yǔ)評(píng)測(cè)中,多家大模型在客觀題上拿滿分。但寫(xiě)作文是弱項(xiàng)。多次參加全國(guó)高考語(yǔ)文閱卷的北京市級(jí)骨干教師、懷柔區(qū)語(yǔ)文學(xué)科帶頭人夏老師是本次評(píng)測(cè)的作文閱卷人。她認(rèn)為,“AI作文有清晰完整的結(jié)構(gòu),有邏輯性,語(yǔ)言通順流暢,但缺乏感情和感染力”。同理,在40分的英語(yǔ)寫(xiě)作考試中,大模型的最高分只有29分,主要丟分在表達(dá)空泛、缺少細(xì)節(jié)上。

  值得注意的是,大模型高考呈現(xiàn)出嚴(yán)重的偏科現(xiàn)象:數(shù)學(xué)、物理、化學(xué)等數(shù)理學(xué)科全線不及格,總分最高分不到480。而河南理科一本線是511分。最頂尖的大模型無(wú)法進(jìn)入理科考生的前30%。

  數(shù)學(xué)評(píng)測(cè)中,僅GPT-4o、文心一言4.0和豆包獲得60分以上成績(jī)(滿分150分)。大模型能準(zhǔn)確運(yùn)用求導(dǎo)公式和三角函數(shù)定理,但面對(duì)較為復(fù)雜的推導(dǎo)和證明問(wèn)題就很難得分。物理有一道送分的選擇題,人類考生根據(jù)“時(shí)間不會(huì)倒流”可以輕易選對(duì)答案,大模型則全軍覆沒(méi)。

  “目前的大語(yǔ)言模型本質(zhì)上是文字接龍,基于海量資料,預(yù)測(cè)下一個(gè)最可能出現(xiàn)的詞句。通過(guò)不斷預(yù)測(cè),生成連貫和完整的文本。應(yīng)對(duì)文科考試,大模型的用詞不準(zhǔn)或用了近義詞,不太影響評(píng)分。但理科考試考驗(yàn)推理和計(jì)算,比如一道題有五步推理,大模型走偏一步,答案就全錯(cuò)。而且大模型的訓(xùn)練數(shù)據(jù)中,文科語(yǔ)料要遠(yuǎn)遠(yuǎn)大于理科語(yǔ)料。”國(guó)內(nèi)一位大模型研發(fā)專家告訴科技日?qǐng)?bào)記者。

  近期,有一些國(guó)內(nèi)外大模型在奧數(shù)題評(píng)測(cè)(非奧數(shù)現(xiàn)場(chǎng)比賽)上拿到不錯(cuò)的成績(jī)。對(duì)此,該專家解釋,用大家都訓(xùn)練過(guò)的公開(kāi)數(shù)據(jù)集評(píng)測(cè),大模型的準(zhǔn)確率很高;但用比較新的數(shù)據(jù)集去測(cè)試,準(zhǔn)確率就大大下降。最新的高考題是哪家大模型都沒(méi)有訓(xùn)練過(guò)的,考驗(yàn)的是數(shù)學(xué)推理和計(jì)算的泛化能力,這就暴露了大模型的短板。

  北京大學(xué)計(jì)算語(yǔ)言學(xué)研究所教授穗志方近日也表示,大模型在中國(guó)高考、公務(wù)員考試和美國(guó)SAT考試等標(biāo)準(zhǔn)化考試中的表現(xiàn)是優(yōu)劣兼具的。一些大模型在SAT數(shù)學(xué)測(cè)試中表現(xiàn)優(yōu)異,但在復(fù)雜推理或特定知識(shí)領(lǐng)域中的表現(xiàn)不夠出色。

  “在大模型內(nèi)在機(jī)理沒(méi)有探究清楚的情況下,我們目前的評(píng)測(cè)路徑只能依靠從外部表現(xiàn)來(lái)推測(cè)內(nèi)在能力。”穗志方說(shuō),未來(lái)應(yīng)發(fā)展更系統(tǒng)的評(píng)測(cè)大綱、更具挑戰(zhàn)的評(píng)測(cè)任務(wù)、更科學(xué)的評(píng)測(cè)方法。AI是否比人類更適合考試?尚未可定論。

投稿郵箱:qingjuedu@163.com
相關(guān)推薦
高考志愿季來(lái)臨 招聘平臺(tái)發(fā)布張雪峰推薦專業(yè)就業(yè)形勢(shì)
高考志愿季來(lái)臨 招聘平臺(tái)發(fā)布張雪峰推薦專業(yè)就業(yè)形勢(shì)

原標(biāo)題:高考志愿季來(lái)臨 招聘平臺(tái)發(fā)布張雪峰推薦專業(yè)就業(yè)形勢(shì)盤(pán)點(diǎn) 每逢高考

觀察3分鐘前

期末到了,班主任如何用好綜合素質(zhì)評(píng)價(jià)手冊(cè)有技巧
期末到了,班主任如何用好綜合素質(zhì)評(píng)價(jià)手冊(cè)有技巧

原標(biāo)題:期末到了,班主任如何用好綜合素質(zhì)評(píng)價(jià)手冊(cè)有技巧 期末將至,一個(gè)

觀察10分鐘前

AI參加高考,為何偏科嚴(yán)重
AI參加高考,為何偏科嚴(yán)重

原標(biāo)題:AI參加高考,為何偏科嚴(yán)重 大模型參加高考,能考多少分?近日,科技

觀察21分鐘前

高考加分政策,也要求一個(gè)公平
高考加分政策,也要求一個(gè)公平

原標(biāo)題:高考加分政策,也要求一個(gè)公平 近期,一系列涉及加分的爭(zhēng)議事件如

觀察23分鐘前

殯葬專業(yè)可“月入10萬(wàn)”?高校教師回應(yīng)
殯葬專業(yè)可“月入10萬(wàn)”?高校教師回應(yīng)

原標(biāo)題:殯葬專業(yè)可月入10萬(wàn)?高校教師回應(yīng) 今年,民政職業(yè)大學(xué)推出中國(guó)

觀察26分鐘前

多校出臺(tái)更加靈活的本科轉(zhuǎn)專業(yè)新規(guī),有何深意?
多校出臺(tái)更加靈活的本科轉(zhuǎn)專業(yè)新規(guī),有何深意?

原標(biāo)題:多校出臺(tái)更加靈活的本科轉(zhuǎn)專業(yè)新規(guī),有何深意? 最近,高考分?jǐn)?shù)公

觀察2024-07-04 17:33:03

在日本求職的打工人,真能拿到爽文劇本?
在日本求職的打工人,真能拿到爽文劇本?

原標(biāo)題:在日本求職的打工人,真能拿到爽文劇本? 日本生育率暴跌十年之后

觀察2024-07-04 17:22:22

興趣引領(lǐng),機(jī)器助力:西交利物浦大學(xué)新研究幫你選到
興趣引領(lǐng),機(jī)器助力:西交利物浦大學(xué)新研究幫你選到

原標(biāo)題:興趣引領(lǐng),機(jī)器助力:西交利物浦大學(xué)新研究幫你選到理想的畢業(yè)設(shè)計(jì)

觀察2024-07-02 20:01:27

家長(zhǎng)的這3個(gè)做法,可能影響寶寶的免疫力,你還在做嗎
家長(zhǎng)的這3個(gè)做法,可能影響寶寶的免疫力,你還在做嗎

原標(biāo)題:家長(zhǎng)的這3個(gè)做法,可能影響寶寶的免疫力,你還在做嗎? 小孩子在很

觀察2024-07-02 19:58:25

24屆高考成績(jī)不理想,復(fù)讀之路如何抉擇
24屆高考成績(jī)不理想,復(fù)讀之路如何抉擇

原標(biāo)題:24屆高考成績(jī)不理想,復(fù)讀之路如何抉擇 隨著2024年高考的落幕,不少

觀察2024-07-01 19:27:28

?