华体会-AI参加高考，为何偏科严重—新闻

华体会-AI参加高考，为何偏科严重—新闻—科学网

发布日期：2024-07-31 作者：华体会

年夜模子加入高考，能考几多分？近日，科技立异交换平台极客公园发布高考新课标Ⅰ卷年夜模子评测陈述，在参试年夜模子中，GPT-4o以562分的成就排名文科第一。加入评测的8款国产年夜模子中，字节跳动旗下的豆包成就是542.5分，厥后顺次是百度文心一言4.0的537.5分和百川智能“百小应”的521分。本次年夜模子高考评测与河南省考卷完全不异，以上3款国产年夜模子均跨越河南文科一本线521分。GPT-4o的562分在河南文科考生中可排名8811名，相当在前2.45%；豆包处在前4.27%，接近顶尖年夜模子的程度。

文综评测中，GPT-4o获237分，优在大都人类考生。国产年夜模子中，豆包文综成就最高，得分224.5分，此中汗青到达82.5分，在所有9款年夜模子中排第一。地舆考卷有年夜量图片考题，图象理解能力较强的GPT-4o获得最高分，但唯一68分。

语文、英语评测中，多家年夜模子在客不雅题上拿满分。但写作文是弱项。屡次加入全国高评语文阅卷的北京市级主干教师、怀柔区语文学科带头人夏教员是本次评测的作文阅卷人。她认为，“AI作文有清楚完全的布局，有逻辑性，说话通顺流利，但缺少豪情和传染力”。同理，在40分的英语写作测验中，年夜模子的最高分只有29分，首要丢分在表达空洞、贫乏细节上。

值得留意的是，年夜模子高考显现出严重的偏科现象：数学、物理、化学等数理学科全线不和格，总分最高分不到480。而河南理科一本线是511分。最顶尖的年夜模子没法进入理科考生的前30%。

数学评测中，仅GPT-4o、文心一言4.0和豆包取得60分以上成就（满分150分）。年夜模子能正确应用求导公式和三角函数定理，但面临较为复杂的推导和证实问题就很可贵分。物理有一道送分的选择题，人类考生按照“时候不会倒流”可以等闲选对谜底，年夜模子则三军覆没。

“今朝的年夜说话模子素质上是文字接龙，基在海量资料，猜测下一个最可能呈现的文句。经由过程不竭猜测，生成联贯和完全的文本。应对文科测验，年夜模子的用词禁绝或用了近义词，不太影响评分。但理科测验考验推理和计较，好比一道题有五步推理，年夜模子走偏一步，谜底就全错。并且年夜模子的练习数据中，文科语料要远弘远在理科语料。”国内一名年夜模子研发专家告知科技日报记者。

近期，有一些国表里年夜模子在奥数题评测（非奥数现场角逐）上拿到不错的成就。对此，该专家注释，用大师都练习过的公然数据集评测，年夜模子的正确率很高；但用比力新的数据集去测试，正确率就年夜年夜降落。最新的高考题是哪家年夜模子都没有练习过的，考验的是数学推理和计较的泛化能力，这就表露了年夜模子的短板。

北京年夜学计较说话学研究所传授穗志方近日也暗示，年夜模子在中国高考、公事员华体会体育app测验和美国SAT测验等尺度化测验中的表示是好坏兼具的。一些年夜模子在SAT数学测试中表示优良，但在复杂推理或特定常识范畴中的表示不敷超卓。

“在年夜模子内涵机理没有探讨清晰的环境下，我们今朝的评测路径只能依托从外部表示来猜测内涵能力。”穗志方说，将来应成长更系统的评测纲领、更具挑战的评测使命、更科学的评测方式。AI是不是比人类更合适测验？还没有可定论。

特殊声明：本文转载仅仅是出在传布信息的需要，其实不意味着代表本网站不雅点或证实其内容的真实性；如其他媒体、网站或小我从本网站转载利用，须保存本网站注明的“来历”，并自大版权等法令责任；作者假如不但愿被转载或联系转载稿费等事宜，请与我们联系。

18755199984/0551-82601881

( 服务咨询热线 )