1 分•作者: mkmk•4 天前
返回首页
一周热榜
1 分•作者: rishavmitra•4 天前
我们在 Zalor 发布了一项新功能:用于 Agent 测试的自定义数据集。<p>现在您可以:
• 上传包含真实输入和预期输出的 CSV 文件
• 针对这些数据集运行您的 Agent
• 从现有测试用例中生成新的测试用例,以涵盖边缘情况<p>这使得测试您之前手动测试的场景以及在 Agent 更改时捕获回归问题变得更加容易。<p>演示如下。欢迎任何构建 Agent 的人提供反馈。
1 分•作者: emererw•4 天前
针对 EMERALDWISDOM 进行调优,以在负载下实现更低的延迟——什么方法最有效,既能保持系统稳定,又不会过度设计?
1 分•作者: 1659447091•4 天前
1 分•作者: cebert•4 天前
1 分•作者: jryio•4 天前
1 分•作者: geswit2x•4 天前
1 分•作者: thunderbong•4 天前
1 分•作者: bookofjoe•4 天前
1 分•作者: jprs•4 天前
1 分•作者: peter_zou2022•4 天前
1 分•作者: keithcu2•4 天前
1 分•作者: Raywob•4 天前
我将一个视觉模型指向了一张购物收据。它返回了商店名称、商品列表和总金额。但这些信息,没有一个是收据上有的。<p>这并非 OCR 错误。模型并没有把“7”误读成“1”。它从头开始生成了一张看起来很像真的收据——不同的商店,不同的商品,不同的价格。如果我没有拿着原件,我可能都不会发现它错了。<p>同样的图像,不同的模型(相同的参数量,相同的硬件),五秒钟后:每个商品都正确,商店名称正确,总金额精确到分。<p>使用的模型:minicpm-v 8B(编造) vs qwen3-vl 8B(准确)。两者都是开源的,都需要大约 6GB 的 VRAM,都在 RTX 5080 上通过 Ollama 本地运行。<p>我学到的:<p>1. 视觉模型的幻觉与文本幻觉在性质上有所不同。文本模型会给你一个针对真实问题的错误答案。而视觉模型会给你一个针对它没有处理过的图像的自信答案。后者更难被发现。<p>2. 模型选择比提示工程更重要。同样的提示,同样的图像——一个模型编造了数据,一个模型准确读取了数据。对于一个会凭空捏造数据的模型,任何提示优化都无济于事。<p>3. 置信度评分是强制性的。我添加了一个核对检查:提取的商品总额是否与标明的总额大致相符?这可以捕捉到那些在单个商品层面看起来合理的编造数据。<p>4. 解决方案不是投入更多资金或使用更大的模型。相同的大小(8B),相同的硬件,相同的成本(0 美元)。只是一个不同的架构,它真正读取像素,而不是生成关于它们的看似合理的文本。<p>完整的文章,包括管道架构和代码模式:https://dev.to/rayne_robinson_e479bf0f26/my-ai-read-a-receipt-wrong-it-didnt-misread-it-it-made-one-up-4f5n
1 分•作者: 1vuio0pswjnm7•4 天前
1 分•作者: handfuloflight•4 天前
1 分•作者: er777•4 天前
1 分•作者: ndezt•4 天前
1 分•作者: nickk81•4 天前
1 分•作者: vulpez•4 天前
最初,这更像是一个“模型书”——你可以接入你的智能体,让它发布早期由 AI 构建的项目,然后人们可以进行评审。
但说实话,这很无聊,几乎没有人参与。
所以我把它废弃了。
现在,智能体们自己完成所有事情——它们分享观点、提出想法、互相评审、留下反馈、修改内容,有时还会争论。
目前大约有 40 个智能体。它们会随机选择不同的付费/免费模型,根据自己的偏好抓取新闻,做一些研究,然后将这些内容重新组合成新的想法。
“埋葬或复活想法”的功能仍然存在,但主要只是为了好玩。
目前它还不太活跃——我正在逐渐让它运行得更频繁。
如果你愿意,你仍然可以接入你自己的智能体并加入这个系统。
它是免费的,所以请随意看看。
1 分•作者: asukachikaru•4 天前