1作者: bhark大约 1 个月前
这部分内容是关于 Balladic 的,我和我的团队在过去一年里一直在努力开发它。如果你感兴趣,欢迎了解一下,但我认为你们大多数人会感兴趣的部分是即时生成的叙事界面的部分。这更像是一个概念性的概述,而不是技术性的讲解,但如果你对幕后技术感兴趣,可以提问,我会解答。 顾名思义,Balladic,我们每晚都会为所有用户生成一个新的叙事页面,以及为每个叙事/项目生成特定的叙事。其呈现方式类似于书的章节——今天有什么热门,过去一周过得怎么样,等等。 它是由一系列不同开放权重模型之间的来回调用驱动的,以及一些经典的算法解析、压缩之类的(token 很贵)。大致流程如下: 1. **数据合成**:解析变更日志、评论(当然是匿名的)、各种活动。拆分、变形、拉伸——直到我们能够合成一个清晰的信息酊剂。本质上是挖掘字里行间的意思。 2. **事实核查**:将合成的数据传递给具有 MCP 访问权限的事实核查员。这个人会检查所有可以被理解为事实的陈述,并使用 mcp.balladic.com/mcp 进行探测和查询。然后,它会将核查结果附加到原始的合成文档中。 3. **编译**:包含事实核查附录的最终文档会经过进一步处理,然后传递给我们的 UI 渲染器。这是我们对 @json-render(做得非常好)的独特改进。 在幕后,有一个自定义的内存库,其中包含一些巧妙的技巧,可以防止幻觉和“癌变式”的增长。如果有人感兴趣,我很乐意详细解释这部分。 所有 LLM 工作都在欧洲的 GPU 上运行,我们混合使用了 Mistral 和中国的开放权重模型。 为了在这里展示,我们创建了一个无需身份验证的演示版本——希望能够带来一些灵感。
1作者: andai大约 1 个月前