563支AI队伍和姜萍答了同一份试卷:最高34分,无一入围决赛
据赛事官方统计,参与竞赛的AI队伍的平均分为18分,已赶上人类选手的平均水平。但AI的最高分仅为34分,与人类选手最高分113分相比,差距甚远。
6月13日,第六届阿里巴巴全球数学竞赛(下称“阿里数赛”)公布决赛名单,17岁的江苏涟水中等专业学校学生姜萍排名12位,成为全球30名里唯一的女选手。
连续多日的热搜,让公众知道了这位天才少女,也让更多人知道了阿里数赛。与往届不同,今年的阿里数赛首次开放了AI大模型挑战赛,共有563支由全球知名高校院所和企业组建的AI队伍与姜萍解答了同一份试卷。
4月13日早上8点,阿里数赛开考,数万名来自全球各地的数学爱好者,需要完成其中选择题、解答题与证明题的考验。但在6月13日公布的决赛名单中,801名晋级者里没有一支AI队伍入围。
据赛事官方统计,参与竞赛的AI队伍的平均分为18分,已赶上人类选手的平均水平。但AI的最高分仅为34分,与人类选手最高分113分相比,差距甚远。
经济观察网了解到,AI队伍中的最高分由上海建平中学涂津豪个人推出的AI方案获得。涂津豪通过借鉴自辩论思想,让多个大模型进行多轮的“自问自答自验证”,从而寻求问题的最优解,再让AI从中选出唯一答案。
来自西南交通大学的特工宇宙团队和中国人民大学的SuperCarryMan团队均获得27分,成为本届阿里数赛AI挑战赛的亚军和季军。这两支AI队伍均基于Multi-Agent(多个智能体组成)进行方案设计,前者是让多种大模型扮演不同角色进行思路分析、解题、评价,并通过调用Python等输出答案;后者则动态调整推理、逻辑验证和解释器等多个阶段,并针对每个子问题选择合适的参考案例,经过多重验证整合,最终给出答案。
在浙江大学计算机系统结构实验室从事大模型相关研究工作的陈天楚分析,现有LLM(大语言模型)的工作方法还是以固定的速率根据上下文预测下一个词,一次性输出结果。像数学竞赛这种需要反复、多次试错、思考的任务,LLM在完成复杂推理、严谨思考方面仍存在局限性。
陈天楚透露,目前虽然可以通过Prompt(输入到文生图模型的文字)工程方式,让单个LLM自我质问或多个LLM相互质问,但这种方式对模型性能的增益还比较有限,无法替代经过专业训练的人类。
公布AI挑战赛成绩的同时,赛事组委会给出的AI阅卷点评中,指出了AI的数学短板,诸如逻辑推理能力弱,证明题很难拿到完整得分点等。
在阿里数赛设立AI挑战赛之初,某互联网企业的一位技术总监就对此十分关注,他认为这是“百模大战”后,对AI模型能力的一次考验。虽然在规则清晰、计算密集型的问题上,AI模型的能力表现可以优于人类,但在需要深层次逻辑推理以及高度创新思维的问题上,人类选手仍然占据绝对优势。
从第六届阿里数赛决赛晋级名单看,AI大模型做题还难以超越人类,但上述技术总监觉得,这场数学竞赛的对决或将推动人类对人工智能本质的理解再进一步,甚至有望激发出新的数学理论和AI技术的发展。
今年,563支AI队伍使用模型调优、AI Agent(人工智能体)、提示词工程等多种方式,试图推动AI构建更强大的数学能力。
阿里数赛始办于2018年,由阿里巴巴公益、达摩院共同举办,每年来自全球的数学爱好者可以通过达摩院官网报名,竞赛以不设报名门槛、全民参与著称。一组数据显示,阿里数赛至今已累计吸引了25万人次参赛,成为全球规模最大的在线数学竞赛。
(经济观察报)