3作者: mnmueller6 个月前
Hi HN, 我们是来自苏黎世联邦理工学院的研究人员,对代码代理在现实世界中的应用和影响很感兴趣。 为了衡量这一点,我们构建了一个仪表盘,抓取了GitHub上所有公开的PR,分析了哪些是由不同的代码代理(Codex、Jules、Copilot、Devin等)创建的,并测量了它们的合并率,按各种存储库和PR特征进行切片。 [https://insights.logicstar.ai](https://insights.logicstar.ai) 自5月中旬以来,我们分析了超过1000万个PR,已经发现了一些有趣的趋势: 使用率很高,但不够深入。代理提交了大约7%的PR,但在热门存储库中仅占1-2%。大多数活动发生在低星级或实验性项目中。 合并率差异很大。在低流量存储库中,一些代理的PR合并率超过90%。在热门项目中,这一比例可能降至25%以下。 预审有所帮助。需要人工审核的代理(例如Jules、Codex)的合并率比Copilot式的“即发即弃”PR高30-50%。 偏向于新代码。代理PR主要添加代码。重构和删除操作很少见。 如果您对我们应该关注的其他特征有想法,请告诉我们或自己尝试使用代码。