5作者: superasn16 天前
对我来说,最明显的变化是那些细长的、自动隐藏的滚动条。我在 macOS、Linux (Mint) 和手机上都看到了它们,Windows 应该也有(虽然我很久没用 Windows 了)。 这种设计更简洁吗?我一直很喜欢可见的滚动条,因为它们能很好地指示我在页面上的位置,还剩下多少内容,而且拖动起来也很方便。现在,你得先悬停在上面才能看到。 我很想知道,最近有哪些用户体验的变化让你印象深刻,无论是好是坏。也许一些设计师会关注这个论坛,并从中获得启发。
22作者: alecf16 天前
我从小就玩 Infocom 的游戏,当微软真正开源了 Zork 1/2/3 时,我真的很想弄清楚如何使用 LLM 来让你随意输入。我一直觉得这些游戏“理解”的语言量非常有限——即使在当时,这已经很先进了。 所以我想出了如何用 Tambo 封装它……(并在浏览器中运行游戏引擎)基本上,你输入的任何内容都会被“翻译”成 Zork 语言并传递给游戏——然后 LLM 接收游戏的输出,并可选地添加润色。(顶部的“>_”按钮显示实际的游戏输入) 让我非常惊讶的是多轮指令——你可以让它“探索房子里的所有房间,直到你找不到更多房间”,它会一次运行 10 多个“回合”……就像 Zork 的 Claude Code 一样。
1作者: psoto16 天前
我们将 RALPH 适配于机器学习工作流程。<p>它能自主运行实验,形成假设、训练模型、评估结果,并根据证据迭代优化。<p>与 W&amp;B 集成,适用于长时间运行的任务。提供完整的审计追踪。<p>在 Kaggle Higgs Boson 竞赛中进行了测试,几小时内进入前 30 名。<p>仍处于早期阶段,有许多需要改进的地方。欢迎提供反馈。<p>github.com&#x2F;pentoai&#x2F;ml-ralph
1作者: A_Duck16 天前
我多年来一直使用 Hacker News、lobste.rs 等平台来了解最新的技术发展。<p>但这里对人工智能工具和实际应用的发展关注较少。<p>有哪些社区适合持续关注这方面的内容?
2作者: seanlf16 天前
一次运行中出现 42 个验证错误。Claude 道歉而不是编写 HTML。OAuth 令牌在中途过期。<p>然后我修复了约束。八天,零故障,零干预。<p>秘诀不在于更好的提示词……而在于将 LLM 视为一个受约束的函数:模式验证的工具调用会拒绝格式错误的输出并强制重试,两阶段架构将编辑判断与格式化分开,以及无聊的 DevOps(重试逻辑、速率限制、结构化日志记录)。<p>Claude 的调用在 2000 行的系统中大约有 30 行。大部分工作都在它周围。<p><a href="https:&#x2F;&#x2F;seanfloyd.dev&#x2F;blog&#x2F;llm-reliability" rel="nofollow">https:&#x2F;&#x2F;seanfloyd.dev&#x2F;blog&#x2F;llm-reliability</a> <a href="https:&#x2F;&#x2F;github.com&#x2F;SeanLF&#x2F;claude-rss-news-digest" rel="nofollow">https:&#x2F;&#x2F;github.com&#x2F;SeanLF&#x2F;claude-rss-news-digest</a>
2作者: svij13716 天前
我是创始人。我构建了 NEO,一个专为 AI 和 ML 工程工作流程设计的 AI 智能体,此前我反复在使用现有工具时遇到了同样的瓶颈:它们适用于短小、线性的任务,但一旦工作流程变得耗时、有状态且需要反馈驱动时,就会崩溃。 在真实的机器学习工作中,你不仅仅是生成代码然后继续。你需要探索数据、训练模型、评估结果、调整假设、重新运行实验、比较指标、生成工件并迭代;这些过程通常需要数小时甚至数天。大多数现代编码智能体已经超越了单一提示。它们可以规划步骤、编写文件、运行命令并对错误做出反应。 但问题仍然在于,当机器学习工作流程变得耗时且需要大量反馈时。训练任务、评估、重试、指标比较和部分失败仍然被视为短暂的副作用,而不是持久的状态。一旦一个工作流程跨越数小时、多个实验或迭代评估,你就要么一直盯着智能体,要么重启流程的大部分。反馈是存在的,但系统无法从中可靠地恢复。 NEO 试图按照实际发生的方式来模拟机器学习工作。它是一个执行端到端机器学习工作流程的 AI 智能体,而不仅仅是代码生成。工作被分解为具有状态、检查点和中间结果的明确执行步骤。来自指标、评估或失败的反馈直接反馈到下一步,而不是强制完全重启。你可以暂停运行,检查发生了什么,调整假设,并从中断的地方继续。 这里有一个例子供你参考:你可能会要求 NEO 探索一个数据集,训练几个基线模型,比较它们的性能,并生成图表和一份简短的报告。NEO 将加载数据,运行 EDA,训练模型,评估它们,如果发现某些性能不佳或失败,则进行调整并继续。如果训练需要一个小时,并且一个模型在 45 分钟时崩溃,你不会从头开始。Neo 会检查失败原因,修复它,然后继续。 扩展文档:[https://docs.heyneo.so/#/vscode](https://docs.heyneo.so/#/vscode) 很乐意回答关于 Neo 的问题。