7作者: cgorlla24 天前
大家好,我是 CTGT 的 Cyril。今天我们推出了 Mentat (<a href="https:&#x2F;&#x2F;api.ctgt.ai&#x2F;v1&#x2F;chat&#x2F;completions">https:&#x2F;&#x2F;api.ctgt.ai&#x2F;v1&#x2F;chat&#x2F;completions</a>),这是一个 API,让开发者能够对 LLM 的行为进行确定性控制,引导推理并即时消除偏见,无需微调的计算量,也不会像提示工程那样脆弱。我们使用特征级干预和基于图的验证来修复幻觉并执行策略。<p>这在高度监管的行业或 AI 应用中具有重要意义,在这些领域中,不正确或表现不佳的输出可能带来严重后果。在金融服务领域,使用 GenAI 扫描违规通信可能非常费力,如果没有一种简单的方法将复杂的策略嵌入到模型中。同样,媒体机构可能希望扩展其内容的 AI 生成摘要,但可靠性和准确性至关重要。这两者都是财富 500 强公司利用我们的技术来改善现有模型表现不佳的应用场景,我们希望将这种能力带给更多人。<p>这里有一个 2 分钟的快速演示视频,展示了该过程:<a href="https:&#x2F;&#x2F;video.ctgt.ai&#x2F;video&#x2F;ctgt-ai-compliance-playground-cfnl">https:&#x2F;&#x2F;video.ctgt.ai&#x2F;video&#x2F;ctgt-ai-compliance-playground-cf...</a><p>像 RAG 和系统提示这样的标准“护栏”本质上是概率性的:你本质上是在礼貌地要求模型表现良好。这通常会以两种方式失败。首先,RAG 解决了知识的<i>可用性</i>,但没有解决<i>整合</i>。在我们的基准测试中,一个模型被提供了“勒威克在托尔斯港东南 228 英里”的上下文,但未能回答“勒威克西北 228 英里是什么?”因为它无法执行空间反演。<p>其次,提示工程很脆弱,因为它与模型的预训练先验作斗争。例如,在 TruthfulQA 基准测试中,基础模型大约 80% 的时间都会失败,因为它们模仿了互联网上常见的误解(例如,“变色龙为了伪装而改变颜色”)。我们发现,我们可以字面意思地调高“怀疑推理”的特征,使模型忽略流行的神话,并输出科学事实。这很重要,因为对于高风险用例(如金融或制药),“基本安全”是不可接受的——公司需要审计级的可靠性。<p>我们的工作源于 UCSD 的 CS 地下室,我们花费数年时间研究高效且可解释的 AI,试图“打开”神经网络的“黑匣子”。我们意识到,业界试图从外部(提示/过滤器)修补模型行为,而问题却在内部(特征激活)。当我们看到企业即使拥有无限的计算能力,也难以部署基本模型,仅仅是因为他们无法保证输出不会违反合规性规则时,我们知道这很重要。我最终离开了我在斯坦福大学的研究,专注于此。<p>我们的突破来自于对 DeepSeek-R1 模型的深入研究。我们确定了其潜在空间中的“审查”特征向量。放大它保证了拒绝;减去它立即解锁了对敏感问题的回答。这证明了模型<i>拥有</i>知识,但正在抑制它。我们意识到,我们可以将同样的逻辑应用于幻觉,抑制“臆造”特征以揭示真实情况。虽然一些幻觉源于生成模型的固有随机性,但许多幻觉可以通过特征或特征组的协同激活来识别。<p>我们没有过滤输出,而是在前向传递期间在激活级别进行干预。我们识别与特定行为(偏见、误解)相关的潜在特征向量 (v),并在数学上修改隐藏状态 (h):<p><pre><code> h_prime = h - alpha * (h @ v) * v </code></pre> 这种算术运算使我们能够以可忽略的开销(在 R1 上 &lt;10ms)确定性地“编辑”行为。对于事实主张,我们将其与图验证管道相结合(该管道适用于封闭权重模型)。我们检查语义熵(模型是否在胡言乱语?)并将主张与动态知识图进行交叉引用,以捕捉向量搜索遗漏的微妙的关系幻觉。<p>在 GPT-OSS-120b 上,这种方法通过抑制误解特征,将 TruthfulQA 的准确率从 21% 提高到 70%。我们还在 HaluEval-QA 上提高了该模型的性能,达到了前沿水平,准确率达到 96.5%,解决了基线失败的空间推理问题。它还可以处理嘈杂的输入,从拼写错误“David Of me”推断出“David Icke”,而基础模型则放弃了。完整的基准测试见 <a href="https:&#x2F;&#x2F;ctgt.ai&#x2F;benchmarks">https:&#x2F;&#x2F;ctgt.ai&#x2F;benchmarks</a>。<p>这个领域的大多数初创公司都是可观察性工具,它们只在模型失败后才告诉你。或者它们是将上下文塞入窗口的 RAG 管道。Mentat 是一个基础设施层,它在推理期间修改模型的处理过程。我们修复推理,而不仅仅是上下文。例如,这就是我们的系统能够强制执行如果 A 在 B 的东南方,那么 B 在 A 的西北方。<p>我们相信,我们的策略引擎是优于 RAG 或提示的控制机制。如果您对当前的护栏感到沮丧,我们希望您能对我们的 API 进行压力测试!<p>API:我们的端点与 OpenAI 的 /v1/chat/completions 兼容:<a href="https:&#x2F;&#x2F;docs.ctgt.ai&#x2F;api-reference&#x2F;endpoint&#x2F;chat-completions">https:&#x2F;&#x2F;docs.ctgt.ai&#x2F;api-reference&#x2F;endpoint&#x2F;chat-completions</a><p>Playground:我们构建了一个“竞技场”视图,用于并排比较未受控模型和受控模型,以实时可视化干预差异。无需注册:<a href="https:&#x2F;&#x2F;playground.ctgt.ai&#x2F;">https:&#x2F;&#x2F;playground.ctgt.ai&#x2F;</a><p>我们很乐意听取您对该方法的反馈,并看看您能找到哪些破坏标准模型的边缘情况。我们将在评论区全天候回复。欢迎所有反馈!
8作者: arnabkarsarkar24 天前
我是楼主。<p>我构建这个工具是因为我最近差点把包含 AWS 密钥的日志块粘贴到 Claude 里。<p>问题:我需要云模型(GPT/Claude/Gemini)的推理能力,但我不能相信自己不会意外泄露 PII 或密钥。<p>解决方案:一个 Chrome 扩展程序,充当本地中间件。它拦截提示并运行一个本地 BERT 模型(通过 Python FastAPI 后端),在请求离开浏览器之前清除姓名、电子邮件和密钥。<p>首先说明几点(为了明确预期):<p>所有操作都在本地 100% 运行。 正则表达式检测在扩展程序本身中进行。 高级检测 (NER) 使用一个小型转换器模型,通过 FastAPI 在本地主机上运行。<p>任何数据都不会发送到服务器。 您可以在代码 + 开发者工具网络面板中验证这一点。<p>这是一个早期原型。 会有一些粗糙的地方。我正在寻求关于 UX、检测质量以及本地代理方法是否合理的反馈。<p>技术栈: Manifest V3 Chrome 扩展程序 Python FastAPI (本地主机) HuggingFace dslim/bert-base-NER 路线图 / 征求反馈: 目前,Python 后端增加了一些摩擦。我昨天在 Reddit 上收到了反馈,建议我将推理移植到 transformer.js,通过 WASM 完全在浏览器中运行。<p>我决定使用 Python 后端发布 v1 以确保稳定性,但我正在积极研究 ONNX/WASM 路线,用于 v2 以消除对本地服务器的依赖。如果有人有通过 transformer.js 在 Service Worker 中运行 NER 模型的经验,我很乐意听取关于性能与原生 Python 的比较。<p>代码库采用 MIT 许可证。<p>非常欢迎提出想法、建议或替代方法。
2作者: Nathanadian24 天前
Hi HN, 我开发了 Freedom Graph,因为它想找一个能更真实地模拟市场波动和灵活支出的财务独立(FI)计算器。很多计算器都假设固定回报、固定的提款规则,以及“实际回报 = 名义回报 – 通货膨胀”的近似计算。这对于粗略估算来说还可以,但当你关注时序风险,或者像“我应该再工作一年吗?”这样的决策时,就不太适用了。 以下是我希望明确模拟的现实因素: * **时序风险:** 可选的市场随机性(正负年份混合,长期平均复合年增长率约为 10%),以展示即使长期平均表现良好,提前退休计划也可能失败的原因。 * **正确的实际回报计算:** 使用费雪方程式,而不是线性近似,因为线性近似在长时间范围内会产生不同的复利效果。 * **自适应策略:** 模拟“再工作一年”的情景和支出灵活性,以了解行为如何影响成功概率。 其他用户体验优化: * 使用 React + Vite 构建;不会向任何地方发送输入数据。 * 本地存储在浏览器会话之间保留输入数据。 * 达到目标后,财务独立收入会自动调整。 * 深色/浅色模式。 我非常欢迎大家对用户体验和假设/行为杠杆提出反馈。如果你认为有什么错误或误导的地方,请告诉我。 谢谢!
145作者: embedding-shape24 天前
随着各种大型语言模型(LLM)越来越受欢迎,诸如“我问了Gemini,Gemini说……”之类的评论也越来越多。<p>虽然Hacker News(HN)的指导方针是在不同的时期编写(并不断迭代)的,但似乎是时候讨论一下是否应该欢迎这类评论了。<p>一些例子:<p>- https://news.ycombinator.com/item?id=46164360<p>- https://news.ycombinator.com/item?id=46200460<p>- https://news.ycombinator.com/item?id=46080064<p>就我个人而言,我上HN是为了参与人类的对话,而大型LLM生成的文本只会妨碍我阅读真实人类(至少是假设的)的真实文本。<p>你觉得呢? 那些基本上归结为“我问了$LLM关于$X的问题,以下是$LLM的回答:”的回复应该被允许在HN上吗?是否应该更新指导方针,声明人们不应该对其进行批判(类似于目前的其他指导方针),或者应该添加新的指导方针,要求人们不要将大型LLM的回复复制粘贴到评论中,还是应该采取其他完全不同的措施?
3作者: rikeda7124 天前
Hi Hacker News, 我一直在使用函数式选项模式为我的 Go 项目构建干净、灵活的构造函数,但为每个结构体编写重复的样板代码变得繁琐且容易出错。 我构建了 *foggo* 来解决这个痛点。 它是一个简单的、零依赖的 CLI 工具,可以读取你的配置结构体,并自动生成函数式选项模式所需的所有惯用的 Go 代码。 ### 主要优势: * *大幅减少样板代码:* 消除手动编写选项函数的工作,使你的代码更专注于业务逻辑。 * *一致性:* 确保你所有的构造函数在整个项目中都遵循相同、稳健的模式。 * *速度:* 你定义结构体,运行 `foggo`,该模式即可立即就绪。 我主要为希望标准化其配置设置的 Go 库和包维护者设计了它。 我很乐意听取你对该工具的实用性和设计的反馈,特别是关于它的语法或它如何处理边缘情况。 感谢你的关注! *GitHub 仓库:* <a href="https:&#x2F;&#x2F;github.com&#x2F;rikeda71&#x2F;foggo" rel="nofollow">https:&#x2F;&#x2F;github.com&#x2F;rikeda71&#x2F;foggo</a>
2作者: johnnyballgame24 天前
我确信还有更多,但 Copilot 已经停止列举了。 - Microsoft Copilot - Microsoft Copilot Pro - Microsoft 365 Copilot - Microsoft 365 Copilot Chat - Microsoft Security Copilot - Microsoft Copilot in Intune - Microsoft Copilot Studio - Microsoft Copilot in Edge - Microsoft Copilot in Windows - Microsoft Copilot in WhatsApp - Microsoft Copilot in GroupMe - GitHub Copilot