26 分•作者: xlayn•3 天前
我复现了 David Ng 的 RYS 方法(<a href="https://dnhkng.github.io/posts/rys/" rel="nofollow">https://dnhkng.github.io/posts/rys/</a>),并在消费级 AMD GPU(RX 7900 XT + RX 6950 XT)上进行了测试,结果出乎意料。<p>Transformer 似乎拥有离散的“推理电路”——由 3-4 层组成的连续区块,它们充当不可分割的认知单元。复制正确的区块,模型就会运行两次推理流程。无需更改权重,无需训练。模型只是思考得更久了。<p>在标准基准测试(lm-evaluation-harness,n=50)上的结果如下:<p>Devstral-24B,复制 12-14 层一次:
- BBH 逻辑推理:0.22 → 0.76
- GSM8K(严格):0.48 → 0.64
- MBPP(代码生成):0.72 → 0.78
- 没有任何指标下降<p>Qwen2.5-Coder-32B,复制 7-9 层一次:
- 推理探针:76% → 94%<p>奇怪的是:不同的复制模式可以从相同的权重中创建不同的认知“模式”。双流程提升数学能力。三流程提升情感推理能力。交错加倍(13,13,14,14,15,15,16)则创造了一个纯粹的数学专家。相同的模型,相同的 VRAM,不同的路由。<p>电路边界非常清晰——移动一层,效果就会消失或反转。较小的模型(24B)比大型模型(Ng 在 72B 中发现了 7 层)拥有更紧凑的电路(3 层)。<p>在代码库中提供了用于在任何 GGUF 模型中查找电路并应用任意层路由的工具。整个过程——扫描、发现、验证——只花了一个晚上。<p>欢迎提问。