1作者: slmslm22 天前
厌倦了每周五下午翻阅提交记录来写状态报告,所以我做了一个东西来自动化这个过程。<p>问题:Git 历史记录包含了团队发布的所有内容,但它被埋在像“feat: impl oauth w/ refresh tokens”这样难以理解的提交信息下,利益相关者根本看不懂。<p>我做了什么:一个可以监控代码库并自动生成可读摘要的工具。<p>例如,<p>原本是:<p>fix: rm deprecated api calls<p>feat: impl oauth2 flow w/ refresh tokens<p>现在你得到的是:<p>“我们推出了一个新的身份验证系统,允许用户使用 Google 和 GitHub 登录。会话自动刷新,因此用户保持登录状态。”<p>功能:<p>连接到 GitHub、GitLab 或 Bitbucket<p>每周/每月向电子邮件或 Slack 发送摘要<p>可以提问的 AI 助手(“团队上周发布了什么?”)<p>为客户自动生成的变更日志<p>技术栈:Next.js, MongoDB, Claude AI, Slack API<p>如果有人感兴趣,很乐意在评论中分享链接。欢迎任何也讨厌写状态报告的人提供反馈。
1作者: xparadigm22 天前
我写 Python 代码已经好几年了。但我觉得现在的大语言模型(LLMs)写的代码比我好多了。我以前总是紧跟新技术,但现在我越来越提不起兴趣了。我本来对学习 Rust 很感兴趣,但现在我连学习的动力都没有了,因为我可以直接用它来“生成” Rust 代码。大家有什么想法吗?
1作者: imshashank22 天前
过去一年,我一直在构建 AI 智能体,我注意到一个令人不安的现象:我与每个人交流时,他们评估智能体的方式都一样——只看最终输出,然后问“它正确吗?” 但这完全错了。 一个智能体可以通过错误的路径得到正确的答案。它可能在中间步骤中产生幻觉,但仍然得出正确的结论。它可能违反约束,但技术上却实现了目标。 传统的机器学习指标(准确率、精确率、召回率)忽略了所有这些,因为它们只关注最终输出。 我一直在尝试一种不同的方法:使用智能体的系统提示作为 ground truth(真实情况),评估整个轨迹(不仅仅是最终输出),并使用多维评分(不仅仅是单一指标)。 结果天壤之别。突然间,我能够看到传统指标完全错过的幻觉、约束违规、低效路径和一致性问题。 是我疯了吗?还是整个行业都在错误地评估智能体? 我很乐意听取其他构建智能体的人的意见。你们是如何评估它们的?遇到了什么问题?