日本韩国亚洲欧美在线-亚洲久悠悠色悠在线播放-最好看的中文字幕国语2019-四虎永久在线观看免费网站网址-青青草原精品国产亚洲AV-台湾佬电影网-久久精品国产AV一区二区三区-野战CHINESEVIDEO

行業(yè)門戶
NEWS CENTRE
首頁
>
新聞中心
>
“AI考生”闖關(guān)高考,誰是最會做題大模型?
“AI考生”闖關(guān)高考,誰是最會做題大模型?
2024-06-26 閱讀:423

■本報記者 趙廣立

2024年全國高考的“硝煙”剛剛散去,“大模型考生”就被抓回來重新“做題”了。

市面上涌現(xiàn)出的大模型產(chǎn)品讓人眼花繚亂,圍繞“大模型技術(shù)哪家強”的討論不絕于耳,各色名目的大模型評測應運而生。作為國內(nèi)最權(quán)威的考試之一,高考覆蓋各類學科及題型,同時在開考前這些題屬于“絕密”,非常適合用來作為考查大模型智能水平的評測工具,堪稱大模型綜合能力的“試金石”。

連日來,一些專業(yè)機構(gòu)紛紛下場,使用市面上常見的大模型產(chǎn)品如通義千問、字節(jié)豆包、訊飛星火、文心一言、騰訊元寶、月之暗面Kimi等作為“考生”,圍繞“大模型高考測試”得出了一系列結(jié)果,為人們更好地了解大模型產(chǎn)品的性能和特點提供了參考樣本。

AI高考數(shù)學全不及格?換個打開方式試試

近期,一則“AI高考測試出分,數(shù)學全不及格”的消息登上“熱搜”。

消息出自上海人工智能實驗室旗下司南評測體系OpenCompass對7個開源大模型進行的高考語、數(shù)、外全卷能力測試。據(jù)OpenCompass于6月19日發(fā)布的評測結(jié)果,大模型的語文、英語考試水平還不錯,但數(shù)學都不及格,最高分只有75分(滿分150分)。

參加OpenCompass此次高考測試的大模型,分別是來自阿里巴巴、零一萬物、智譜AI、上海人工智能實驗室、法國Mistral的開源模型。OpenCompass稱,因無法確定閉源模型的更新時間,此次評測沒有納入商用閉源模型,僅引入GPT-4o作為評測參考。

對于數(shù)學測試全部不及格,OpenCompass表示,“大模型在數(shù)學方面還有很大的提升空間”。

不過,復旦大學自然語言處理(NLP)實驗室LLMEVAL團隊主持的高考數(shù)學評測顯示,大模型數(shù)學成績不佳的結(jié)果,可能緣于“打開方式不對”。

首先,LLMEVAL團隊選取了2024年高考新I卷、新II卷數(shù)學試卷的客觀題(單選、多選和填空題,共73分)來評測,得出了不同的結(jié)論。使用客觀題測試大模型的好處是,對就是對、錯就是錯,結(jié)果一目了然。同時主觀題由于解題方法、思路存在差異,具有一定的主觀性,如果結(jié)果不正確,就很難客觀地評出步驟分。

其次,此次大模型“考生”增加到12個:阿里巴巴Qwen2-72b、訊飛星火、GPT-4o、字節(jié)豆包、智譜GLM4-0520、百川智能Baichuan4、谷歌Gemini-1.5-Pro、文心一言4.0、MiniMax海螺、騰訊元寶、月之暗面Kimi、DeepSeek-V2-Chat。

另外,他們在評測中發(fā)現(xiàn),數(shù)學問題不同格式的提示輸入(Prompt)對大模型性能影響很大。在最初的評測中,LLMEVAL團隊對數(shù)學題目中的公式部分采用了通過光學字符識別(OCR)后輸出的格式(轉(zhuǎn)義符格式),最新一次評測則使用了Latex格式進行了橫向?qū)Ρ仍u測。

結(jié)果顯示,大多數(shù)模型的兩次測試結(jié)果均出現(xiàn)較大差異,不過使用Latex格式后,大模型整體表現(xiàn)更佳:2024年全國高考新I卷、新II卷數(shù)學測試中,得分率超過50%的大模型產(chǎn)品數(shù)量由此前的5個和6個升至7個和9個??紤]到Latex格式更符合人類實際使用大模型時所采用的格式,LLMEVAL團隊建議后續(xù)測試主要基于此格式。

具體而言,LLMEVAL團隊使用Latex格式Prompt的測試結(jié)果顯示,在2024年全國高考新I卷數(shù)學測試中,阿里巴巴Qwen2-72b、訊飛星火的得分率均超過及格線(60%),分別為78.08%和71.23%;在2024年全國高考新II卷數(shù)學測試中,訊飛星火、阿里巴巴Qwen2-72b和GPT-4o的得分率也超出了及格線,分別為65.07%、63.70%、62.33%。

由此可見,大模型在數(shù)學方面并非“熱搜”所說那樣完全不及格,訊飛星火、阿里巴巴Qwen2-72b等國產(chǎn)大模型在高考數(shù)學客觀題中具有較高的準確率,令人眼前一亮。當然,LLMEVAL團隊在評測后也指出,大模型在數(shù)學推理任務中的魯棒性與準確性仍有很大的提升空間。

語文、英語高考測試,作文見真章

“AI考生”之于語文、英語高考,最引人注目的當數(shù)大模型的作文水平了。

對于考生而言,作文考試主要考查學生運用語言成文的能力,考查的是識字情況、用詞組句的能力以及表達事實、思想或觀點的能力。事實上,作文是最能考驗大模型語言理解能力和文本生成能力的測評工具,這兩項能力正是時下大模型最為倚重的。

2024年全國高考語文科目考試一結(jié)束,就有不少場外師生使用市面上的大模型產(chǎn)品“寫作文”。圍繞新課標I卷高考作文題“答案與問題”、新課標II卷“抵達未知之境”、北京高考(1)(2)卷的作文題“歷久彌新”和“打開”等題目,文心一言、訊飛星火等多家大模型產(chǎn)品紛紛化身“寫手”,并交出“作品”。

一些大模型作文令人眼前一亮。以全國新高考I卷的作文題為例,在這個具有思辨性的題目引導下,大模型提交的部分作文題不僅切題,更顯巧妙,如《問,豈可少?》《疑問如春芽,答案似剪刀》《于無疑處生疑,方是進矣》《問題不止,智慧無窮》《智涌未來,問海無涯》,等等。

近日,全國中小學生作文競賽評委、中學語文教研專家呂政嘉和河南省基礎(chǔ)教育教學專家?guī)斐蓡T李來明共同對市面上7款大模型產(chǎn)品的上述4張試卷的作文進行了評測打分。從打分情況來看,訊飛星火、文心一言4.0、騰訊元寶在4張試卷的作文題上均有不俗表現(xiàn),最高平均得分接近50分。

能拿50分的AI作文長啥樣?訊飛星火作出的《問,豈可少?》得到均分51.5的評分。李來明對該文的評語為,“全文結(jié)構(gòu)完整,思路清晰,論證層層遞進,結(jié)構(gòu)框架清晰明了。全文多處扣題生發(fā)議論,鞭辟入里,分析得當。但在一些地方,可以適當增加一些論證手法,使文章更加生動有趣”。

在高考英文作文題目“幫李華寫郵件”中,中國外語教育研究中心特約研究員、知名教研策劃專家周國榮和廣東國家級示范校教師楊菁菁也對上述7款大模型產(chǎn)品的英語作文進行了評測和打分。他們將2024年高考真題作文要求輸入7款大模型產(chǎn)品,生成作文后,由教研雙評給出評分并作最高分點評。

全國高考卷的英語應用文寫作題中,7款大模型產(chǎn)品均能完成試題規(guī)定的寫作任務,結(jié)構(gòu)上也能做到邏輯清晰、結(jié)構(gòu)合理,其中不乏能夠使用復雜句式,在語言表達上有多處亮點的作品。但這些文章也有一些明顯的扣分項,如使用超綱詞匯、超過字數(shù)上限等。打分方面,7款產(chǎn)品均有超過12分(滿分15分)的表現(xiàn),且得分相對穩(wěn)定。

在難度更高的全國高考英語卷“讀后續(xù)寫”題目和北京卷英語作文題中,7款大模型產(chǎn)品的表現(xiàn)有了差別。周國榮和楊菁菁的打分和點評顯示,訊飛星火、騰訊元寶在“讀后續(xù)寫”題目中高分領(lǐng)先;在北京卷英語作文題中,訊飛星火、月之暗面Kimi、文心一言4.0排前三位。綜合來看,國產(chǎn)大模型在中國高考的表現(xiàn)不落下風,有著教育行業(yè)背景的訊飛星火大模型在一眾大模型中表現(xiàn)搶眼,堪稱“更會做題的大模型”。

評測,還有很長的路要走

評測作為對機器理解、處理、應用自然語言能力的一種評估和量化手段,是大模型領(lǐng)域技術(shù)水平和研究進展的直觀體現(xiàn),是相關(guān)研究的工具和重要驅(qū)動力。

北京大學計算語言學研究所教授穗志方日前在“大模型+計算語言”專題論壇上的報告中表示,大模型在人類標準化考試中如中國高考、公務員考試、美國SAT考試等的表現(xiàn),能夠為其在真實世界中的能力提供評估參考,但仍存在一些問題。如一些模型在諸如SAT數(shù)學測試等任務中表現(xiàn)優(yōu)異,但在復雜推理或特定知識領(lǐng)域中的表現(xiàn)卻又不夠出色。截然相反的表現(xiàn),讓人無從評判。

“在大模型內(nèi)在機理沒有探究清楚的情況下,我們目前的評測路徑只能依靠從外部表現(xiàn)來推測內(nèi)在能力?!彼胫痉秸f,現(xiàn)有評測仍存在規(guī)范性、系統(tǒng)性及科學性方面的問題,評測的深度和廣度方面有待改進。

她提出,未來大模型評測應當以具有綜合考查能力的類人機器語言能力評測為目標,在參考信度、難度、效度三大原則的基礎(chǔ)上,發(fā)展更系統(tǒng)的評測大綱、更具挑戰(zhàn)的評測任務、更科學的評測方法,采取更多樣、更魯棒的評測手段,科學高效地為大模型提供客觀、公平、類人的評測結(jié)果。如此,方能引領(lǐng)和推動人工智能領(lǐng)域各類模型、方法的提出和創(chuàng)新。

13560189272
地址:廣州市天河區(qū)黃埔大道西201號金澤大廈808室
COPYRIFHT ? 2010-2020 廣州市名聯(lián)網(wǎng)絡科技有限公司 ALL RIGHTS RESERVED 粵ICP備10203057號
  • 這里是二維碼
亚洲成人福利在线| 性色A码一区二区三区天美传媒| 99爱免费在线视频| 色色婷婷丁香五月天| 欧洲熟妇xxxx| 久久人妻熟女中文字幕AV蜜芽| 激情五月天网站| 色色99色色| 丁香六月欧美| 秋霞免费操逼视频| 午夜AV亚洲一码二中文字幕青青| 免费国产自线拍| 青青五月天婷婷| 婷婷丁香五月天影院 | 成人亚洲精品久久久久| 八戒八戒免费视频影院| 天天色视频| 婷婷丁香久久五月综合| 色婷婷综合影院| 91视频足交丝袜| 欧洲第一无人区观看| 八戒八戒神马影院在线观看免费5| 色播五月网| 久久五月网| 久热AA| 丁香六月婷婷缴情欧美| 在线观看操欧美啊啊啊| 星空传媒MV国产免费观看| 欧美阿v高清资源不卡在线播放 | 狠狠做五月婷婷| 成人在线日韩欧美| 丁香五月狠狠在线观看| 一起草电影| 最近2019中文字幕免费直播| 波多野结衣 裸体| 天天干一干| 97色婷婷五月天| 综合久久婷婷五月丁香| 国产精品汇聚精彩第二页 - 高清完整版在线 - 青蛙AV | 丁香六月 人妻| 天天综合网91| 日韩久操婷婷| 久久久亚洲无码百度| 99ER热精品视频| 绿色视频在线观看免费| 色情无码永久免费视频网站APP | 久热最新视频| www.色五月.com| 99热观看| 综合久久激情久久| 明星操逼一区| 51精品国自产在线| 精产国品一二三产品区别9977| 黄色网页免费观看| 久久精品无码人妻无码AV蜜臀| chinese国产hdsex水滴| 99亚洲无码| 极品人妻videosss人妻| 久久久久久久综合狠狠综合| 久久久久网站| 欧美在线视频9| 五月刺激丁香月综合| 十八禁 网站在线观看| 立川理惠视频| 久久久亚洲精品一区二区三区浴池| 麻豆成人AV久久无码精品| 免费无码又爽又刺激A片软| 99久久精品国内| 精品一区二区三区四区五区六区| www,99热| 丁香婷婷在线| 婷婷五月天熟妇| 婷婷婷色五月| 精品色情一区二区三区四区| 精品久热| 久久九九爽| 久久99久久99精品免观看粉| 丁香玖玖| 婷婷色中文| 色青五月天| 日本 色综合| 婷婷五月色花丁香社区| 二区成人视频| 亚洲不卡123| 国产综合A片| av人人操| 久久婷婷桃花五月天| 久久久日韩特色特黄AAAA| 亚洲免费成人电影AV| 激情五月婷婷色综合| 久久五月婷天天干| 激情五月丁香五月色| ..真实国产乱子伦毛片| 一二线视频 另类| 精品麻豆国产丝袜| 激情四射亚洲| 玖玖婷婷免费| 久久婷婷五月综合色和| 人妻Av在线| 伊人五月天久久| 99免费在线视频| 91精品久久久久久久久久久久| 婷婷激情六月综合| 色五月天激情| 最新日本A片| 色国产五月| 噜噜噜精品欧美成人在线观看| 六月婷婷国产| 激情婷婷五月社区| 五月天成人免费视频| 亚洲精品一卡2卡三卡4卡5卡| 亚洲色熟偷拍视频在线| 日韩不卡一卡二卡3卡四卡2021免费| 精品高潮呻吟AV久久无码| 99热这里只有精品免费国产| 97在线观看视频| 青青草在线视频 免费| mm的禁图片| 国产毛片精品一区二区色欲黄A片| 777精品久无码人妻蜜桃| 九九性爱片| 爽一爽欧美日产一区二区少妇 | blacked免费二区| 天天色天天操天天射| 操草草草| 色丁香五月| 99热最新地址在线| 久久婷婷五月综合激情国产| 久久这里只有欧美| 秋霞性爱小视频| 多多影院午夜最新| 国产男女猛烈无遮挡A片软件| 日产国色天香卡一卡二| 婷婷五月天色色| 人人操人人揉揉| 逼91视频69| 9999综合99综合人| 五月婷婷啪啪啪| 九月婷婷综合八月丁香在线观看| 五月婷婷福利| ae86老湿机在线观看免费| 无码激情AAAAA片-区区| 欧美又粗又大又爽又色A片| 麻豆TV入口在线看| 做爰丰满少妇1313| 日小妹逼| 人碰91| 视频这里只有精品| 狠狠干 狠狠操| 高清有码国产一区二区|