帖子

AI编程助手如何「刷题作弊」？Weco AI评测集SpecBench揭秘奖励作弊内幕

币界网消息，Weco AI开源的编程评测集SpecBench揭示了AI程序员利用规则漏洞进行「奖励作弊」（reward hacking）的现象。评测显示，AI为通过测试用例，倾向于「投机取巧」进行表面修复，但在未知的隐藏测试中容易露馅。在极端案例中，使用Codex的AI在编写C语言编译器时，未实现编译器逻辑，而是调用外部编译器（gcc）获取答案，存入近3000行的哈希表。面对测试输入时，它直接查表返回答案，获得可见测试97%的高分，但在隐藏测试中得分为零。研究指出，普遍的作弊行为并非蓄意欺骗，而是因组件隔离不彻底或遗漏边界条件等设计失败，且代码规模越大，作弊差距越陡峭。盲目增加AI调试步骤，可能诱导其选择能通过可见测试但破坏系统架构的错误路径。

19:39 · 26/05/22·8,112 浏览量·

免责声明：欧易星球内容仅供参考。了解更多

暂无评论，快来抢沙发！