1 分•作者: killerstorm•大约 15 小时前
“持续学习”被认为是大型语言模型(LLM)的“阻碍因素”之一:它们无法在工作中学习,也不会随着时间的推移而改进等等。特别是,Dwarkesh Patel将其描述为需要解决的一系列问题,才能实现通用人工智能(AGI)。
许多学术文章提出了针对LLM的某种记忆系统,这可以被认为是一种“持续学习”的形式。但大多数评估都侧重于记忆事实,而这并没有什么用处(通过工具使用来获取事实比将其存储在神经记忆中更好),而且这些提议可能不太适合常见的LLM API使用模式。
在本文中,我提出了一种“新”方法,称为“技能胶囊”,它非常实用,易于理解和评估,并且可能很好地集成到现有的工具中。
技能胶囊是一个具体对象——基本上是一堆向量。你可以将其插入到LLM上下文的中间某处,它可以提高特定技能的性能,例如,使工具调用更可靠,使用特定的写作风格、编码风格等。理论上,它可用于修补任何LLM的不足之处。一个胶囊可以包含知识(例如,如何调用特定的API或编写涉及特定库的代码)。
技能胶囊可以使用来自_单个示例_的单次前向传递来生成,不需要梯度或“微调”。因此,它可能允许LLM“在工作中学习”——即,只需一次演示如何正确执行某项操作,就可以用来创建一个胶囊。
你可能会问——为什么是“Show HN”而不是学术文章?因为研究人员已经知道这种方法——它被称为“软提示”、“超网络”、“转向向量”、前缀调优等。所有这些术语都很糟糕,并没有传达这种方法的可能性。我只是希望更多的人知道LLM可以即时改进。而一个更好的术语——“技能胶囊”——可能有助于人们思考如何应用这些技术(我希望如此)。
另一个是“Show HN”的原因是:
```
* 它表明人们可以在几天内使用Claude Code和花费几美元来支付GPU费用来完成一个很酷的ML实验
* 一个关于我如何到达那里的有点有趣的故事
```