8作者: steven12310 个月前
查尔斯是我的叔叔,他当年在施乐帕克研究中心工作,那可是辉煌时期。他参与了最初的 Star 操作系统开发,还做了很多其他工作。<p>他对我来说是个伟大的灵感和英雄,我自己也是一名软件工程师。<p>只是想分享一下。
1作者: felipemesquita10 个月前
我发现,当任务只需要“写作”时,它是最好的模型——不需要编码、工具使用或推理。比如校对和润色。 我认为它在 progress.openai.com 这样的写作任务中,应该能和 GPT-5 一较高下。 我很失望它被弃用了,而且在 GPT-5 的演示中也没有任何关于它的比较。 附注:如果这里有人在使用专业版,并且仍然可以使用 4.5,能否请您用 progress.openai.com 上的提示词测试一下它,看看它和 5 的表现如何?
1作者: neom10 个月前
嗨,HN!难以置信我在这里已经超过 12 年了,这是我第一次 Show HN。<p>我想这有两个方面,第一:我又开始创业了!Charlie 是一个针对 TypeScript 团队的代理,主要侧重于增强功能。:)<p>第二:在过去的一周左右,我们通过我们的 Charlie Agent,将 GPT-5 与 Claude Code/Opus 在 10 个来自活跃 OSS 项目的真实 TypeScript 问题上进行了正面交锋。<p>我们的结果<p>GPT-5 在所有 10 个案例对比中都击败了 Claude Code。<p>GPT-5 生成的拉取请求解决了比 o3 多 29% 的问题。<p>PR 审查质量比 o3 提高了 5%。<p>正面交锋案例研究<p>我们衡量了 10 个正面交锋 PR 的可测试性、描述和整体质量。 可测试性衡量代码更改通过有意义的、以行为为中心的测试进行测试的彻底程度。它考虑了测试是否存在并与差异对齐,它们是否探索了边缘情况和现实场景,以及它们是否避免了 LLM 生成的代码中常见的空洞、误导性或依赖于实现的模式。<p>描述评估了拉取请求的标题和摘要如何清晰准确地传达代码更改的目的、范围和结构。它强调技术正确性、与差异的相关性以及对未来读者的清晰度——惩罚了代码生成代理经常产生的模糊、冗长或虚构的解释。 质量评估了代码更改本身的实质和工艺——判断其是否正确、最小、符合习惯用法,并且没有虚构的结构。<p>它强调清晰度、与项目规范的对齐以及逻辑完整性,同时识别代理特有的陷阱,如过度工程、不连贯的抽象或发明的实用程序。<p>可测试性:Charlie (0.69) vs Claude (0.55) 描述:Charlie (0.84) vs Claude (0.90) 整体质量:Charlie (0.84) vs Claude (0.65)<p>注意事项<p>单次运行;没有人工反馈循环。 质量评分使用次级 LLM 评审员——主观但透明。<p>绝对期待大家对我们可以进行的更多评估提出反馈意见,也请大家挑剔提示、想法、框架设计等等。告诉我们这个标准(CI + 类型)是否正确,或者你们会跟踪什么。<p>就我个人而言:我职业生涯一直在致力于帮助创作者进行创作的工具,我非常热衷于让人们更容易地完成更多工作。我对 Gen AI 仍然有些不安,但我确实相信未来是光明的,事情肯定会发生变化——我鼓励大家保持乐观的建设者心态。<p>感谢您的观看!
6作者: reissbaker10 个月前
嘿,Hacker News!我们今天发布了 Octofriend,一个可爱的编程助手,它可以在 GPT-5、Claude、本地或开源 LLM 等模型之间切换,并根据需要在对话中进行调整。它能很好地处理推理 tokens(包括来自 OpenAI 和 Anthropic 的加密 tokens),并且包含几个我们开源的定制训练的 ML 模型,用于修复细微的 diff 编辑和 JSON 编码错误。玩得开心!