1 分•作者: didierbreedt•22 天前
返回首页
最新
1 分•作者: voodooEntity•22 天前
1 分•作者: PaulHoule•22 天前
1 分•作者: pseudolus•22 天前
1 分•作者: slmslm•22 天前
厌倦了每周五下午翻阅提交记录来写状态报告,所以我做了一个东西来自动化这个过程。<p>问题:Git 历史记录包含了团队发布的所有内容,但它被埋在像“feat: impl oauth w/ refresh tokens”这样难以理解的提交信息下,利益相关者根本看不懂。<p>我做了什么:一个可以监控代码库并自动生成可读摘要的工具。<p>例如,<p>原本是:<p>fix: rm deprecated api calls<p>feat: impl oauth2 flow w/ refresh tokens<p>现在你得到的是:<p>“我们推出了一个新的身份验证系统,允许用户使用 Google 和 GitHub 登录。会话自动刷新,因此用户保持登录状态。”<p>功能:<p>连接到 GitHub、GitLab 或 Bitbucket<p>每周/每月向电子邮件或 Slack 发送摘要<p>可以提问的 AI 助手(“团队上周发布了什么?”)<p>为客户自动生成的变更日志<p>技术栈:Next.js, MongoDB, Claude AI, Slack API<p>如果有人感兴趣,很乐意在评论中分享链接。欢迎任何也讨厌写状态报告的人提供反馈。
1 分•作者: PaulHoule•22 天前
1 分•作者: PJones2000•22 天前
1 分•作者: xparadigm•22 天前
我写 Python 代码已经好几年了。但我觉得现在的大语言模型(LLMs)写的代码比我好多了。我以前总是紧跟新技术,但现在我越来越提不起兴趣了。我本来对学习 Rust 很感兴趣,但现在我连学习的动力都没有了,因为我可以直接用它来“生成” Rust 代码。大家有什么想法吗?
1 分•作者: qinchencq•22 天前
1 分•作者: dlillard•22 天前
2 分•作者: accengaged•22 天前
1 分•作者: tosh•22 天前
1 分•作者: victorbuilds•22 天前
1 分•作者: ForHackernews•22 天前
1 分•作者: 0xghost•22 天前
7 分•作者: mchaver•22 天前
大家都在忙什么呢?
1 分•作者: __rito__•22 天前
1 分•作者: imshashank•22 天前
过去一年,我一直在构建 AI 智能体,我注意到一个令人不安的现象:我与每个人交流时,他们评估智能体的方式都一样——只看最终输出,然后问“它正确吗?”
但这完全错了。
一个智能体可以通过错误的路径得到正确的答案。它可能在中间步骤中产生幻觉,但仍然得出正确的结论。它可能违反约束,但技术上却实现了目标。
传统的机器学习指标(准确率、精确率、召回率)忽略了所有这些,因为它们只关注最终输出。
我一直在尝试一种不同的方法:使用智能体的系统提示作为 ground truth(真实情况),评估整个轨迹(不仅仅是最终输出),并使用多维评分(不仅仅是单一指标)。
结果天壤之别。突然间,我能够看到传统指标完全错过的幻觉、约束违规、低效路径和一致性问题。
是我疯了吗?还是整个行业都在错误地评估智能体?
我很乐意听取其他构建智能体的人的意见。你们是如何评估它们的?遇到了什么问题?
1 分•作者: seinvak•22 天前
1 分•作者: violinar•22 天前