返回首页

一周热榜

9作者: todience5 天前
我一直都有让我的两台MacBook互联互通的冲动。 一台闲置,而另一台在工作,感觉像是资源没有得到充分利用。 所以我开发了Loopsy。 最初的目标是通过局域网进行文件传输,然后是运行命令。 后来我尝试从一台机器运行代码代理到另一台机器,并且成功了。<p>后来我意识到,应该有一种更好的方式,可以在健身房用手机远程继续我的Claude会话。 所以我做了一个Cloudflare Worker,它连接到我的本地机器。 我只需要确保笔记本电脑插着电源。<p>我知道我可能是在重复造轮子,但我喜欢它就是能用。 仍在开发端到端加密。 iOS应用仍在审核中。<p>请告诉我你的想法。
9作者: ge96大约 22 小时前
我感觉我别无选择,只能接受它。如果我想保住工作,就得用它。我曾为用代码创造东西而自豪,但现在只要在提示框里输入文字,代码就出来了,这让我感到空虚。用这种方式写代码,再也找不到乐趣了。 我知道在我的个人爱好中,我可以这样做……但问题是我需要钱,现在还不能离开,但如果每个工作都变成这样,我想我会离开的。 我并没有否认它的能力,就像今天,我需要做一个能实现HFP功能的蓝牙安卓应用,而且是现在,立刻。凭我现在的知识,我做不到,但AI可以……而且任何会打字的人都能用它,所以我就像是在问,为什么还需要我呢? 所以,是的,现在我的计划是利用这些工具混日子,做我喜欢做的事情,然后赚足够的钱离开。我会为自己的乐趣编写自己的代码。 我从2013年开始就从事开发/编写代码了。 我不是说我反对这项技术让其他人也能写代码,我是说,如果我必须使用它,而且我不再需要写代码了,我会为此感到难过。没有任何成就感。 还有一件事是,如果你抵制它,就会被看作是消极的人/卢德分子,就像“大家都这么做”一样。
8作者: khurdula7 天前
在构建依赖于 LLM 的工作流程时,我们通常使用结构化输出,以用于程序化用例,例如将发票转换为行,或将会议记录转换为工单,甚至将复杂的 PDF 转换为数据库条目。 模型可能会返回你想要的模式,但会产生幻觉值,例如 `invoice_date` 偏差 2 个月,或者转录数组排序错误。JSON 是有效的,但值不对。 如今,结构化输出是使用 LLM 的重要组成部分,尤其是在构建确定性工作流程时。 当前的结构化输出基准测试(例如,JSONSchemaBench)仅验证 JSON 模式和类型的通过率,而不验证生成的 JSON 中的实际值。 因此,我们设计了结构化输出基准测试(SOB),通过衡量 JSON 模式通过率、类型以及文本、图像和音频这三种模态的数值准确性来解决这个问题。 对于我们的测试集,每个记录都与一个 JSON 模式和一个真实答案配对,该答案由人类和 LLM 交叉检查手动验证,以针对源上下文进行验证,因此缺失或幻觉值将被视为错误。 开源模型表现良好,GLM 4.7 紧随 GPT 5.4 之后排名第二。 我们注意到排名在不同模态之间有所变化:GLM-4.7 领先文本,Gemma-4-31B 领先图像,Gemini-2.5-Flash 领先音频。 例如,GPT-5.4 在文本方面排名第 3,但在图像方面排名第 9。 模型大小也不是一个预测因素:Qwen3.5-35B 和 GLM-4.7 在数值准确性方面击败了 GPT-5 和 Claude-Sonnet-4.6。Phi-4 (14B) 在文本方面击败了 GPT-5 和 GPT-5-mini。 结构化幻觉是最难解决的错误。这些值在类型上是正确的,模式上是有效的,并且是合理的,因此它们会逃过大多数防护措施。例如,在一个音频记录中,真实值是 "target_market_age": "15 to 35 years",而模型返回 "25 to 35"。如果没有字段级检查,这是不可见的。 我们的目标是成为确定性任务的最佳通用模型,而确定性的一个关键方面是可控且一致的输出结构。改进结构化输出的第一步是衡量它,并以最佳标准来要求自己。
8作者: moomoo117 天前
我很想知道,我现在的看法是否会改变。直到 2019/2020 年,我还是个十足的科技迷,热衷于各种小玩意,紧跟潮流。 但在过去的 5-6 年里,我几乎对科技采取了“退出”的态度。 我就是提不起兴趣了,而且我不认为这是因为我老了…… 我在 20 多岁中期/后期才开始接触科技,不像你们大多数人那样从小就摆弄这些东西,天生就是个“极客”。 产品/服务的“垃圾化”速度越来越快,我使用的大多数产品/服务都存在很多问题,需要变通方法、黑科技,或者只能忍受糟糕的用户体验。 以前我会在科技上花掉数万美元,比如最新的软件和硬件。 现在,我只用 Verizon 免费提供的智能手机,用个 2-3 年。当我翻看旧照片时,我真的分不清我的 iPhone 7 和 iPhone 15(或者是什么型号,我都不记得了)拍的照片有什么区别。 我买了一台二手的 M1 Max,花了 950 美元,现在还在用,我觉得还能用 3-5 年。我仍然在使用我的高性能游戏/工作站,配备 5950x 处理器和 128GB 内存。以前我买个新 Mac 就要花 5000 美元…… 我以前有特斯拉和很酷的车,现在都卖了,就走路。我买了更好的鞋子。 我以前的家充满了智能家居技术和其他东西,现在我住在一个完全模拟的旧房子里,感觉不错(而且小很多!)。 我现在唯一的订阅就是 Prime 和 YouTube。 我用掉了 10 亿以上的 token 来捣鼓 AI,构建了大量很酷的东西,但说实话,我觉得我现在知道了它的局限性和好处。我不再觉得它那么有趣了,因为它在图像生成方面做得太烂了(这正是我真正想要的,不管迭代次数和花费的时间),在可靠地整理笔记等方面也差强人意。它作为代码奴隶很棒,但当它不起作用时,又会变得很无聊…… 那么接下来呢?或者我会在某个时候像现在这样完全退出吗?
8作者: dakiol2 天前
所以,如果因为其他任何原因丢掉工作,我都无所谓。市场不好、公司转型,甚至是我自己犯的蠢… 没关系,这就是生活。但如果因为我投入到开源项目中的热爱而丢掉工作?拜托,这真的让我火大。 我像其他人一样,周末做一些好玩的副业项目,凌晨两点为素未谋面的陌生人解答 Stack Overflow 上的问题,还有一些没人给我钱的仓库… 说实话,这种文化氛围是作为一名开发人员最棒的地方,而现在它却成了训练集。我讨厌 OpenAI/谷歌/Anthropic 等公司抓取了所有这些内容,从中学习,然后把我们的热爱当作产品卖给我们。当然,我明白,这就是资本主义,随便吧,但我觉得自己像个最大的傻瓜。我想我只能接受它,埋头苦干。但我最不喜欢的是:周围那些美化 AI/LLM 的人。高层迟早会因为 AI 而进一步裁员,我们 90% 的人都会受到影响。人们,不是所有事情都只关乎技术细节!