7 分•作者: cgorlla•24 天前
大家好,我是 CTGT 的 Cyril。今天我们推出了 Mentat (<a href="https://api.ctgt.ai/v1/chat/completions">https://api.ctgt.ai/v1/chat/completions</a>),这是一个 API,让开发者能够对 LLM 的行为进行确定性控制,引导推理并即时消除偏见,无需微调的计算量,也不会像提示工程那样脆弱。我们使用特征级干预和基于图的验证来修复幻觉并执行策略。<p>这在高度监管的行业或 AI 应用中具有重要意义,在这些领域中,不正确或表现不佳的输出可能带来严重后果。在金融服务领域,使用 GenAI 扫描违规通信可能非常费力,如果没有一种简单的方法将复杂的策略嵌入到模型中。同样,媒体机构可能希望扩展其内容的 AI 生成摘要,但可靠性和准确性至关重要。这两者都是财富 500 强公司利用我们的技术来改善现有模型表现不佳的应用场景,我们希望将这种能力带给更多人。<p>这里有一个 2 分钟的快速演示视频,展示了该过程:<a href="https://video.ctgt.ai/video/ctgt-ai-compliance-playground-cfnl">https://video.ctgt.ai/video/ctgt-ai-compliance-playground-cf...</a><p>像 RAG 和系统提示这样的标准“护栏”本质上是概率性的:你本质上是在礼貌地要求模型表现良好。这通常会以两种方式失败。首先,RAG 解决了知识的<i>可用性</i>,但没有解决<i>整合</i>。在我们的基准测试中,一个模型被提供了“勒威克在托尔斯港东南 228 英里”的上下文,但未能回答“勒威克西北 228 英里是什么?”因为它无法执行空间反演。<p>其次,提示工程很脆弱,因为它与模型的预训练先验作斗争。例如,在 TruthfulQA 基准测试中,基础模型大约 80% 的时间都会失败,因为它们模仿了互联网上常见的误解(例如,“变色龙为了伪装而改变颜色”)。我们发现,我们可以字面意思地调高“怀疑推理”的特征,使模型忽略流行的神话,并输出科学事实。这很重要,因为对于高风险用例(如金融或制药),“基本安全”是不可接受的——公司需要审计级的可靠性。<p>我们的工作源于 UCSD 的 CS 地下室,我们花费数年时间研究高效且可解释的 AI,试图“打开”神经网络的“黑匣子”。我们意识到,业界试图从外部(提示/过滤器)修补模型行为,而问题却在内部(特征激活)。当我们看到企业即使拥有无限的计算能力,也难以部署基本模型,仅仅是因为他们无法保证输出不会违反合规性规则时,我们知道这很重要。我最终离开了我在斯坦福大学的研究,专注于此。<p>我们的突破来自于对 DeepSeek-R1 模型的深入研究。我们确定了其潜在空间中的“审查”特征向量。放大它保证了拒绝;减去它立即解锁了对敏感问题的回答。这证明了模型<i>拥有</i>知识,但正在抑制它。我们意识到,我们可以将同样的逻辑应用于幻觉,抑制“臆造”特征以揭示真实情况。虽然一些幻觉源于生成模型的固有随机性,但许多幻觉可以通过特征或特征组的协同激活来识别。<p>我们没有过滤输出,而是在前向传递期间在激活级别进行干预。我们识别与特定行为(偏见、误解)相关的潜在特征向量 (v),并在数学上修改隐藏状态 (h):<p><pre><code> h_prime = h - alpha * (h @ v) * v
</code></pre>
这种算术运算使我们能够以可忽略的开销(在 R1 上 <10ms)确定性地“编辑”行为。对于事实主张,我们将其与图验证管道相结合(该管道适用于封闭权重模型)。我们检查语义熵(模型是否在胡言乱语?)并将主张与动态知识图进行交叉引用,以捕捉向量搜索遗漏的微妙的关系幻觉。<p>在 GPT-OSS-120b 上,这种方法通过抑制误解特征,将 TruthfulQA 的准确率从 21% 提高到 70%。我们还在 HaluEval-QA 上提高了该模型的性能,达到了前沿水平,准确率达到 96.5%,解决了基线失败的空间推理问题。它还可以处理嘈杂的输入,从拼写错误“David Of me”推断出“David Icke”,而基础模型则放弃了。完整的基准测试见 <a href="https://ctgt.ai/benchmarks">https://ctgt.ai/benchmarks</a>。<p>这个领域的大多数初创公司都是可观察性工具,它们只在模型失败后才告诉你。或者它们是将上下文塞入窗口的 RAG 管道。Mentat 是一个基础设施层,它在推理期间修改模型的处理过程。我们修复推理,而不仅仅是上下文。例如,这就是我们的系统能够强制执行如果 A 在 B 的东南方,那么 B 在 A 的西北方。<p>我们相信,我们的策略引擎是优于 RAG 或提示的控制机制。如果您对当前的护栏感到沮丧,我们希望您能对我们的 API 进行压力测试!<p>API:我们的端点与 OpenAI 的 /v1/chat/completions 兼容:<a href="https://docs.ctgt.ai/api-reference/endpoint/chat-completions">https://docs.ctgt.ai/api-reference/endpoint/chat-completions</a><p>Playground:我们构建了一个“竞技场”视图,用于并排比较未受控模型和受控模型,以实时可视化干预差异。无需注册:<a href="https://playground.ctgt.ai/">https://playground.ctgt.ai/</a><p>我们很乐意听取您对该方法的反馈,并看看您能找到哪些破坏标准模型的边缘情况。我们将在评论区全天候回复。欢迎所有反馈!