IT之家 1 月 4 日音书足交,阿里通义千问 Qwen 最新推出 CodeElo 基准测试,通过和东谈主类要津员对比的 Elo 评级系统,来评估大谈话模子(LLM)的编程水平。
神志配景大谈话模子的 AI 场景应用之一,等于生成、补全代码,仅仅现阶段评估编程实在才智方面存在诸多挑战。
包括 LiveCodeBench 和 USACO 在内的现存基准测试均存在局限性,缺少健壮的独到测试用例,不撑抓特意的判断系统,况且世俗使用不一致的延长环境。
CodeElo:借力 CodeForces,打造更精确的 LLM 评估体系IT之家注:Qwen 相干团队为了措置这些挑战,推出了 CodeElo 基准测试,旨在诈骗与东谈主类要津员相比的 Elo 评级系统,来评估 LLM 的编程竞赛水平。
擦玻璃 裸舞CodeElo 的题目来自 CodeForces 平台,该平台以其严格的编程竞赛而闻名,通过径直向 CodeForces 平台提交措置决策,CodeElo 确保了评估的准确性,措置了误报等问题,并撑抓需要荒芜评判机制的题目。此外足交足交,Elo 评级系统响应了东谈主类的名次,不错有用相比 LLM 和东谈主类参赛者的说明。
CodeElo 三大中枢成分:全面、正经、尺度化CodeElo 基于三个重要成分:
全面的问题遴荐: 题目按比赛分区、难度级别和算法标签进行分类,提供全面评估。
正经的评估设施: 提交的代码在 CodeForces 平台上进行测试,诈骗其荒芜评估机制确保准确判断,无需荫藏测试用例,并提供可靠反馈。
尺度化的评级盘算推算: Elo 评级系统评估代码的正确性,议论问题难度,并对无理进行刑事包袱,激发高质料的措置决策,为评估编码模子提供了良好有用的器用。
测试遵循在对 30 个开源 LLM 和 3 个专有 LLM 进行测试后,OpenAI 的 o1-mini 模子说明最好,Elo 评分为 1578,跨越了 90% 的东谈主类参与者;开源模子中,QwQ-32B-Preview 以 1261 分位居榜首。
然则,好多模子在措置简便问题时仍显忙活,世俗名次在东谈主类参与者的后 20%。分析显现,模子在数学和完毕等类别说明出色,但在动态有辩论和树形算法方面存在不及。
此外,模子使用 C++ 编码时说明更佳,这与竞技要津员的偏好一致,这些遵循高出了 LLM 需要改良的限度。