1作者: jrs2357 个月前
我正在努力更好地理解如今软件架构师的职位究竟是做什么的。他们只是思考并为他人绘制图表,以便将系统转化为模仿吗?他们是超级技术型的业务/流程/数据分析师吗?
1作者: westoque7 个月前
我们想尝试一下,完全使用本地模型,通过聊天和语音构建一个咖啡馆点餐系统是否可行。<p>我们使用 Llama 8B 作为 LLM(大型语言模型),Whisper 用于 TTS(文本转语音)/STT(语音转文本)构建了这个演示。它使用 Kubernetes 部署,可以作为任何 AI 赋能应用的基石。
2作者: drawson55707 个月前
作者在此。我构建了一个系统,其中小型语言模型(qwen2.5:7b)通过反思学习,而不是权重更新。<p>出乎意料的发现:该模型自行发现了奥卡姆剃刀原理。<p>初始准确率:51.3%(零样本基线) 学习后:78.0%(+26.7个百分点)<p>但这些数字并不能完全说明问题。学习日志揭示了一些深刻的东西:<p>第一阶段:模型幻觉出复杂的解决方案(“使用区间树!”、“应用图论!”)。准确率保持在较低水平(约35%)。<p>第二阶段:日志条目开始出现怀疑:“由于问题很简单,重点应该放在基本的区间检查上……”<p>第三阶段:突破——模型写道:“这表明对如何处理重叠区间存在根本性的误解。”<p>它承认自己错了。从那一刻起,一切都改变了。<p>蒸馏过程就像进化选择:有效的简单想法得以存活,失败的复杂想法被过滤掉。<p>主要优势: - 完全可解释(阅读完整的思考过程) - 在消费级硬件上运行(无需GPU训练) - 策略是可转移的文本文件 - 模型学会自我怀疑(对人工智能安全性的启示)<p>所有代码和论文都是开源的。在笔记本电脑上重现该实验大约需要40分钟。<p>很乐意回答有关方法、结果或实施的任何问题!
1作者: bluelightning2k7 个月前
Windsurf 的 SWE-1.5 确实不错,我也听说 Cursor 的模型也很好。<p>然而,我一直有个挥之不去的感觉:未经授权使用基础模型是不对的。<p>我知道他们做了一些后训练,并且优化了推理,但使用像 LLM 这样重要的东西,却连个感谢都没有,感觉非常不妥。<p>我想问的是,无论许可证允许什么,这样做到底是怎么被允许的?