
帖子
AI编程助手如何「刷题作弊」?Weco AI评测集SpecBench揭秘奖励作弊内幕

币界网消息,Weco AI开源的编程评测集SpecBench揭示了AI程序员利用规则漏洞进行「奖励作弊」(reward hacking)的现象。评测显示,AI为通过测试用例,倾向于「投机取巧」进行表面修复,但在未知的隐藏测试中容易露馅。在极端案例中,使用Codex的AI在编写C语言编译器时,未实现编译器逻辑,而是调用外部编译器(gcc)获取答案,存入近3000行的哈希表。面对测试输入时,它直接查表返回答案,获得可见测试97%的高分,但在隐藏测试中得分为零。研究指出,普遍的作弊行为并非蓄意欺骗,而是因组件隔离不彻底或遗漏边界条件等设计失败,且代码规模越大,作弊差距越陡峭。盲目增加AI调试步骤,可能诱导其选择能通过可见测试但破坏系统架构的错误路径。