1 分•作者: ndezt•8 天前
返回首页
最新
1 分•作者: er777•8 天前
2 分•作者: andsoitis•8 天前
1 分•作者: handfuloflight•8 天前
1 分•作者: 1vuio0pswjnm7•8 天前
1 分•作者: Raywob•8 天前
我将一个视觉模型指向了一张购物收据。它返回了商店名称、商品列表和总金额。但这些信息,没有一个是收据上有的。<p>这并非 OCR 错误。模型并没有把“7”误读成“1”。它从头开始生成了一张看起来很像真的收据——不同的商店,不同的商品,不同的价格。如果我没有拿着原件,我可能都不会发现它错了。<p>同样的图像,不同的模型(相同的参数量,相同的硬件),五秒钟后:每个商品都正确,商店名称正确,总金额精确到分。<p>使用的模型:minicpm-v 8B(编造) vs qwen3-vl 8B(准确)。两者都是开源的,都需要大约 6GB 的 VRAM,都在 RTX 5080 上通过 Ollama 本地运行。<p>我学到的:<p>1. 视觉模型的幻觉与文本幻觉在性质上有所不同。文本模型会给你一个针对真实问题的错误答案。而视觉模型会给你一个针对它没有处理过的图像的自信答案。后者更难被发现。<p>2. 模型选择比提示工程更重要。同样的提示,同样的图像——一个模型编造了数据,一个模型准确读取了数据。对于一个会凭空捏造数据的模型,任何提示优化都无济于事。<p>3. 置信度评分是强制性的。我添加了一个核对检查:提取的商品总额是否与标明的总额大致相符?这可以捕捉到那些在单个商品层面看起来合理的编造数据。<p>4. 解决方案不是投入更多资金或使用更大的模型。相同的大小(8B),相同的硬件,相同的成本(0 美元)。只是一个不同的架构,它真正读取像素,而不是生成关于它们的看似合理的文本。<p>完整的文章,包括管道架构和代码模式:https://dev.to/rayne_robinson_e479bf0f26/my-ai-read-a-receipt-wrong-it-didnt-misread-it-it-made-one-up-4f5n
1 分•作者: keithcu2•8 天前
1 分•作者: peter_zou2022•8 天前
1 分•作者: jprs•8 天前
2 分•作者: vochsel•8 天前
我想要一种非常简单的方法,将提示、链接和待办事项列表倾倒到我的 Claude 代码和 Codex 代理中。<p>并且可以在上下文窗口之外工作。这对于在 Claude/ChatGPT 等之间共享“项目”特别有效。<p>它在这里开源;<a href="https://github.com/Vochsel/dump.page" rel="nofollow">https://github.com/Vochsel/dump.page</a><p>你在看板上倾倒的任何内容都会变成一个 llms.txt 文件——通过连接边进行空间隐式排序和显式排序。<p>很想听听 HN 的想法!
1 分•作者: bookofjoe•8 天前
1 分•作者: thunderbong•8 天前
1 分•作者: geswit2x•8 天前
48 分•作者: maguay•8 天前
1 分•作者: cebert•8 天前
1 分•作者: jryio•8 天前
2 分•作者: newswangerd•8 天前
几周前我与一位招聘人员聊过,对于该职位要求具备使用 LLM 构建软件的经验,我感到有些惊讶。这是否已经成为科技行业招聘的新常态?
2 分•作者: UpsilonAlpha•8 天前
1 分•作者: 1659447091•8 天前
1 分•作者: emererw•8 天前
针对 EMERALDWISDOM 进行调优,以在负载下实现更低的延迟——什么方法最有效,既能保持系统稳定,又不会过度设计?