日本韩国亚洲欧美在线-亚洲久悠悠色悠在线播放-最好看的中文字幕国语2019-四虎永久在线观看免费网站网址-青青草原精品国产亚洲AV-台湾佬电影网-久久精品国产AV一区二区三区-野战CHINESEVIDEO

行業(yè)門戶
NEWS CENTRE
首頁
>
新聞中心
>
“AI考生”闖關(guān)高考,誰是最會做題大模型?
“AI考生”闖關(guān)高考,誰是最會做題大模型?
2024-06-26 閱讀:423

■本報記者 趙廣立

2024年全國高考的“硝煙”剛剛散去,“大模型考生”就被抓回來重新“做題”了。

市面上涌現(xiàn)出的大模型產(chǎn)品讓人眼花繚亂,圍繞“大模型技術(shù)哪家強”的討論不絕于耳,各色名目的大模型評測應運而生。作為國內(nèi)最權(quán)威的考試之一,高考覆蓋各類學科及題型,同時在開考前這些題屬于“絕密”,非常適合用來作為考查大模型智能水平的評測工具,堪稱大模型綜合能力的“試金石”。

連日來,一些專業(yè)機構(gòu)紛紛下場,使用市面上常見的大模型產(chǎn)品如通義千問、字節(jié)豆包、訊飛星火、文心一言、騰訊元寶、月之暗面Kimi等作為“考生”,圍繞“大模型高考測試”得出了一系列結(jié)果,為人們更好地了解大模型產(chǎn)品的性能和特點提供了參考樣本。

AI高考數(shù)學全不及格?換個打開方式試試

近期,一則“AI高考測試出分,數(shù)學全不及格”的消息登上“熱搜”。

消息出自上海人工智能實驗室旗下司南評測體系OpenCompass對7個開源大模型進行的高考語、數(shù)、外全卷能力測試。據(jù)OpenCompass于6月19日發(fā)布的評測結(jié)果,大模型的語文、英語考試水平還不錯,但數(shù)學都不及格,最高分只有75分(滿分150分)。

參加OpenCompass此次高考測試的大模型,分別是來自阿里巴巴、零一萬物、智譜AI、上海人工智能實驗室、法國Mistral的開源模型。OpenCompass稱,因無法確定閉源模型的更新時間,此次評測沒有納入商用閉源模型,僅引入GPT-4o作為評測參考。

對于數(shù)學測試全部不及格,OpenCompass表示,“大模型在數(shù)學方面還有很大的提升空間”。

不過,復旦大學自然語言處理(NLP)實驗室LLMEVAL團隊主持的高考數(shù)學評測顯示,大模型數(shù)學成績不佳的結(jié)果,可能緣于“打開方式不對”。

首先,LLMEVAL團隊選取了2024年高考新I卷、新II卷數(shù)學試卷的客觀題(單選、多選和填空題,共73分)來評測,得出了不同的結(jié)論。使用客觀題測試大模型的好處是,對就是對、錯就是錯,結(jié)果一目了然。同時主觀題由于解題方法、思路存在差異,具有一定的主觀性,如果結(jié)果不正確,就很難客觀地評出步驟分。

其次,此次大模型“考生”增加到12個:阿里巴巴Qwen2-72b、訊飛星火、GPT-4o、字節(jié)豆包、智譜GLM4-0520、百川智能Baichuan4、谷歌Gemini-1.5-Pro、文心一言4.0、MiniMax海螺、騰訊元寶、月之暗面Kimi、DeepSeek-V2-Chat。

另外,他們在評測中發(fā)現(xiàn),數(shù)學問題不同格式的提示輸入(Prompt)對大模型性能影響很大。在最初的評測中,LLMEVAL團隊對數(shù)學題目中的公式部分采用了通過光學字符識別(OCR)后輸出的格式(轉(zhuǎn)義符格式),最新一次評測則使用了Latex格式進行了橫向?qū)Ρ仍u測。

結(jié)果顯示,大多數(shù)模型的兩次測試結(jié)果均出現(xiàn)較大差異,不過使用Latex格式后,大模型整體表現(xiàn)更佳:2024年全國高考新I卷、新II卷數(shù)學測試中,得分率超過50%的大模型產(chǎn)品數(shù)量由此前的5個和6個升至7個和9個??紤]到Latex格式更符合人類實際使用大模型時所采用的格式,LLMEVAL團隊建議后續(xù)測試主要基于此格式。

具體而言,LLMEVAL團隊使用Latex格式Prompt的測試結(jié)果顯示,在2024年全國高考新I卷數(shù)學測試中,阿里巴巴Qwen2-72b、訊飛星火的得分率均超過及格線(60%),分別為78.08%和71.23%;在2024年全國高考新II卷數(shù)學測試中,訊飛星火、阿里巴巴Qwen2-72b和GPT-4o的得分率也超出了及格線,分別為65.07%、63.70%、62.33%。

由此可見,大模型在數(shù)學方面并非“熱搜”所說那樣完全不及格,訊飛星火、阿里巴巴Qwen2-72b等國產(chǎn)大模型在高考數(shù)學客觀題中具有較高的準確率,令人眼前一亮。當然,LLMEVAL團隊在評測后也指出,大模型在數(shù)學推理任務中的魯棒性與準確性仍有很大的提升空間。

語文、英語高考測試,作文見真章

“AI考生”之于語文、英語高考,最引人注目的當數(shù)大模型的作文水平了。

對于考生而言,作文考試主要考查學生運用語言成文的能力,考查的是識字情況、用詞組句的能力以及表達事實、思想或觀點的能力。事實上,作文是最能考驗大模型語言理解能力和文本生成能力的測評工具,這兩項能力正是時下大模型最為倚重的。

2024年全國高考語文科目考試一結(jié)束,就有不少場外師生使用市面上的大模型產(chǎn)品“寫作文”。圍繞新課標I卷高考作文題“答案與問題”、新課標II卷“抵達未知之境”、北京高考(1)(2)卷的作文題“歷久彌新”和“打開”等題目,文心一言、訊飛星火等多家大模型產(chǎn)品紛紛化身“寫手”,并交出“作品”。

一些大模型作文令人眼前一亮。以全國新高考I卷的作文題為例,在這個具有思辨性的題目引導下,大模型提交的部分作文題不僅切題,更顯巧妙,如《問,豈可少?》《疑問如春芽,答案似剪刀》《于無疑處生疑,方是進矣》《問題不止,智慧無窮》《智涌未來,問海無涯》,等等。

近日,全國中小學生作文競賽評委、中學語文教研專家呂政嘉和河南省基礎(chǔ)教育教學專家?guī)斐蓡T李來明共同對市面上7款大模型產(chǎn)品的上述4張試卷的作文進行了評測打分。從打分情況來看,訊飛星火、文心一言4.0、騰訊元寶在4張試卷的作文題上均有不俗表現(xiàn),最高平均得分接近50分。

能拿50分的AI作文長啥樣?訊飛星火作出的《問,豈可少?》得到均分51.5的評分。李來明對該文的評語為,“全文結(jié)構(gòu)完整,思路清晰,論證層層遞進,結(jié)構(gòu)框架清晰明了。全文多處扣題生發(fā)議論,鞭辟入里,分析得當。但在一些地方,可以適當增加一些論證手法,使文章更加生動有趣”。

在高考英文作文題目“幫李華寫郵件”中,中國外語教育研究中心特約研究員、知名教研策劃專家周國榮和廣東國家級示范校教師楊菁菁也對上述7款大模型產(chǎn)品的英語作文進行了評測和打分。他們將2024年高考真題作文要求輸入7款大模型產(chǎn)品,生成作文后,由教研雙評給出評分并作最高分點評。

全國高考卷的英語應用文寫作題中,7款大模型產(chǎn)品均能完成試題規(guī)定的寫作任務,結(jié)構(gòu)上也能做到邏輯清晰、結(jié)構(gòu)合理,其中不乏能夠使用復雜句式,在語言表達上有多處亮點的作品。但這些文章也有一些明顯的扣分項,如使用超綱詞匯、超過字數(shù)上限等。打分方面,7款產(chǎn)品均有超過12分(滿分15分)的表現(xiàn),且得分相對穩(wěn)定。

在難度更高的全國高考英語卷“讀后續(xù)寫”題目和北京卷英語作文題中,7款大模型產(chǎn)品的表現(xiàn)有了差別。周國榮和楊菁菁的打分和點評顯示,訊飛星火、騰訊元寶在“讀后續(xù)寫”題目中高分領(lǐng)先;在北京卷英語作文題中,訊飛星火、月之暗面Kimi、文心一言4.0排前三位。綜合來看,國產(chǎn)大模型在中國高考的表現(xiàn)不落下風,有著教育行業(yè)背景的訊飛星火大模型在一眾大模型中表現(xiàn)搶眼,堪稱“更會做題的大模型”。

評測,還有很長的路要走

評測作為對機器理解、處理、應用自然語言能力的一種評估和量化手段,是大模型領(lǐng)域技術(shù)水平和研究進展的直觀體現(xiàn),是相關(guān)研究的工具和重要驅(qū)動力。

北京大學計算語言學研究所教授穗志方日前在“大模型+計算語言”專題論壇上的報告中表示,大模型在人類標準化考試中如中國高考、公務員考試、美國SAT考試等的表現(xiàn),能夠為其在真實世界中的能力提供評估參考,但仍存在一些問題。如一些模型在諸如SAT數(shù)學測試等任務中表現(xiàn)優(yōu)異,但在復雜推理或特定知識領(lǐng)域中的表現(xiàn)卻又不夠出色。截然相反的表現(xiàn),讓人無從評判。

“在大模型內(nèi)在機理沒有探究清楚的情況下,我們目前的評測路徑只能依靠從外部表現(xiàn)來推測內(nèi)在能力?!彼胫痉秸f,現(xiàn)有評測仍存在規(guī)范性、系統(tǒng)性及科學性方面的問題,評測的深度和廣度方面有待改進。

她提出,未來大模型評測應當以具有綜合考查能力的類人機器語言能力評測為目標,在參考信度、難度、效度三大原則的基礎(chǔ)上,發(fā)展更系統(tǒng)的評測大綱、更具挑戰(zhàn)的評測任務、更科學的評測方法,采取更多樣、更魯棒的評測手段,科學高效地為大模型提供客觀、公平、類人的評測結(jié)果。如此,方能引領(lǐng)和推動人工智能領(lǐng)域各類模型、方法的提出和創(chuàng)新。

13560189272
地址:廣州市天河區(qū)黃埔大道西201號金澤大廈808室
COPYRIFHT ? 2010-2020 廣州市名聯(lián)網(wǎng)絡科技有限公司 ALL RIGHTS RESERVED 粵ICP備10203057號
  • 這里是二維碼
WWW,色五月| 丁香美女社区| 欧美呦呦呦呦| 久久婷婷综合五月趴| 丁香色情五月综合激情| 强姧美女全程图片| 啪啪小说五月天| 日韩成人无码人妻| 全免费黄色大片| 男同GV小奶受在线观看免费| 婷婷玉月丁香五月在线视频| 人看人人操| 国产乱码卡一卡二卡三新区| A乱码1乱码2乱码3| 色色色综合视频| 4399无码视频二区| 日韩免费视频一区| 国产后式a一视频| 中文精品久久久久人妻不| 国产av网| 亚洲欧洲中文日韩久久AV乱码| 天天草天天草| 91婷婷五月天综合视频| 日日摸夜夜添夜夜添A片牛牛影视| 狠狠色丁香婷婷久久综合| 日欧一片内射VA在线影院| 色五月激情| 97在线刺激| 欧美日性生活| 欧美日韩看看2015永久免费| 操逼电影免费看| 五月丁香婷婷综合久久| 97人人射| 成全高清视频免费观看| 婷婷五月天资源| 偷拍91九色| 五月综合激情久久| 12-14娇小VEDIOS| 老湿免费48福利体检区| 五月婷人妻| 六月婷婷青青青视频| 高清国产无码AV| 伦99热| 久久九九欧美| 精品少妇一区二区三区免费观| 天天情色五月天| 97干综合网| 超极99精品| 人人操人人舔人人操| 国产最新美女视频| 宾馆自拍老头1| 婷婷五月天激情综合| Caop在线| 黄色一级视频在线| 无码人妻少妇色欲AV一区二区| www.xy11.app| 五月天成人在线视频网站| 九九这里有精品视频| 人人草碰| 亚洲无线AV| 国产精品久久欧美久久一区 | 亚洲精品色情婷婷在线播放| 五月色亚洲| 五月婷婷六月丁香综合视频在线| 成人免费视频一区| 丁香88AV五月婷婷| 强奸乱伦-第1页 - 顶级视频 | 久久久天堂国产精品女人| 国产欧美日韩A片免费软件| 日日夜夜狠狠干| 99精品视频免费在线播放| 久久亭亭电影| 乱伦91综合网| 十八禁激情视频在线观看| 丰满少妇猛烈A片免费看观看| 最近韩国日本免费高清观看MV| 丁香五月婷婷亚洲色图| 五月婷婷欧美| 五月丁香综合激情| 五月丁查人人| 玩弄丰满少妇高潮A片推油小说| 天天肏高清在线| 伊人大蕉香| 大香蕉福利导航| 五月丁久久| 日本无码操逼| 欧美99热| 免费的视频APP网站入口| caoporn成人免费视频| 成人A片一区二区三区在线观看 | 全亚洲最大的婷婷五月天网站COM| 午夜色丁香| 日本一区二区三区精品视频| 婷婷五月天综合久久日| 日韩精品操屄| 综合人人操| 国产无码熟女人妻| 成人片黄网站色大片免费毛片| 538久久视频在线| 国产精品久久久久久99人妻精品| 髙清国产性猛交XXXAND| 男人a天堂手机在线版| 国产初高中生露脸在线播放| 丁香六月婷婷综合缴| 激情婷婷六月天| 狠狠干五月丁香综合网| 97婷婷五月| 久久激情五月婷婷| 日日噜狠狠色| 呦呦AV| 99热九九在线| 99在线视频在线观看| 日日做夜夜爱| 日韩久久这里只有精品| 五月丁香激情深爱婷婷| 色天天综合色| 99这里有精品免费| 激情综合五月色在线| 五月丁香久久网| 丁香婷婷六月激情文学 | 44西西人体做爰大胆视频| 丁花香成人社区| 精品偷拍被偷拍在线观看| wwwjapanvideosvideos| 特级毛片在线大全免费播放| 性欧美熟妇VIDEOFREESEX| 欧美色图另类小说| 国产亚洲欧美日本一二三本道| 欧美性猛交99久久久久99按摩| 久久久久9999| 婷婷97| 成人综合网站| 国产成人精品一区二三区熟女在线 | 2017最新高清无码网站| 青娱乐2017年精品视频在线| 亚洲中文 字幕 国产 综合| 日本在线免费看片| 欧美性生交XXXXX无码专区| 五月丁香啪啪网| 青青草高跟丝袜| 免费黄的网站| 超碰最新导航| 午夜无码视频91| 成人在线观看精品| 婷婷五月天淫荡| 色婷婷AV久久| 久久码久久无清| 亚洲成人网站在线| WWW.婷婷五月天.COM| 丁香婷婷黄网站|