1 分•作者: lisper•7 个月前
返回首页
最新
1 分•作者: moridin•7 个月前
Hi HN,
我构建了Presently (<a href="https://presently.us" rel="nofollow">https://presently.us</a>),因为我厌倦了用混乱的Excel表格来管理我的节日购物。我试过的每一个“礼物追踪器”应用都充斥着广告,需要繁琐的注册,或者只是想向我推销东西。
我想要一个简洁、快速,并且专注于送礼物流的应用:我要为谁购买,状态是什么(想法 -> 已购买 -> 已包装),以及我花了多少钱?
主要功能:
- 视觉状态看板:一目了然地看到谁还需要礼物,以及什么需要购买/包装/赠送。
- 预算管理:自动汇总您的支出,并与您的预算进行对比。
- 移动友好:在您实际在商店时,在浏览器中也能流畅运行(类似PWA体验)。
- 无摩擦分享:与家人/朋友分享愿望清单,无需他们创建账户。
- AI头脑风暴:集成了Gemini,根据兴趣和关系生成礼物创意,当您完全卡住时可以使用。
技术栈:使用Firebase、React和Tailwind构建,托管在GCP上。我非常注重流畅的UI和较低的认知负担(谁在买礼物的时候还需要更多压力呢?)。
我很想听听您对用户体验流程的反馈。它是否比您当前的系统更快?
谢谢,Al
1 分•作者: andrewl•7 个月前
2 分•作者: petter2025us•7 个月前
大家好,我是 Juan,前 NetApp 的可靠性工程师,曾为财富 500 强客户每月处理 60 多起关键事件。
我构建了 ARF,因为我反复看到了同样的模式:生产 AI 系统默默地失败,人们凌晨 3 点醒来,需要 30-60 分钟才能恢复,而公司每次事件损失 5 万到 25 万美元。
ARF 使用 3 个专门的 AI 智能体:
* 侦探:通过 FAISS 向量记忆进行异常检测
* 诊断师:使用因果推理进行根本原因分析
* 预测:在故障发生前进行预测
结果:平均修复时间(MTTR)为 2 分钟(而手动修复为 45 分钟),收入恢复 15-30%。
技术栈:Python 3.12、FAISS、SentenceTransformers、Gradio
测试:158 个测试中通过 157 个(覆盖率 99.4%)
文档:8 个综合文件,共 42,000 字
实时演示:[https://huggingface.co/spaces/petter2025/agentic-reliability-framework](https://huggingface.co/spaces/petter2025/agentic-reliability-framework)
一个有趣的技术挑战是让智能体在没有紧密耦合的情况下进行协调。每个智能体都可以独立测试,但为了进行整体分析,它们会被编排在一起。
很乐意回答关于多智能体系统、生产可靠性模式或用于事件召回的 FAISS 的问题!
GitHub:[https://github.com/petterjuan/agentic-reliability-framework](https://github.com/petterjuan/agentic-reliability-framework)
(如果您需要在您的基础设施中部署此系统,也可提供咨询服务:[https://lgcylabs.vercel.app/](https://lgcylabs.vercel.app/))
1 分•作者: uijl•7 个月前
1 分•作者: furisto•7 个月前
Construct 是一款开源的 AI 编程助手,它以 gRPC 服务的形式运行,而不仅仅是一个 CLI 工具。你可以在笔记本电脑上本地运行它,也可以在远程服务器上运行,连接多个客户端,断开和重新连接而不会丢失上下文,并且可以轻松地将其集成到其他工具中。我想要一个可以一直运行,随时可以回来使用的工具,并且易于在沙盒中运行。
与使用 JSON 模式不同,代理使用 JavaScript 与工具交互。这意味着它们可以使用循环、条件语句、错误处理,并且鼓励它们在一轮中执行多次调用(如果需要,可以在一轮中执行数百次)。如果你想看看它的样子,README 中有一个视频。这种方法受到了 CodeAct 论文(<a href="https://arxiv.org/abs/2402.01030" rel="nofollow">https://arxiv.org/abs/2402.01030</a>)的启发,该论文发现代理在使用代码而不是 JSON 调用工具时表现更好。我在这里更详细地解释了好处:<a href="https://github.com/Furisto/construct/blob/main/docs/tool_calling.md" rel="nofollow">https://github.com/Furisto/construct/blob/main/docs/tool_cal...</a>
它内置了用于不同任务(规划/实施/优化)的代理,或者你可以使用自定义提示和模型分配来创建自己的代理。它是一个单一的 Go 二进制文件,不需要 npm 或类似的东西。目前支持 Anthropic,很快将支持其他提供商。
很乐意回答有关架构或工具调用方法的问题。
1 分•作者: ysablewolf•7 个月前
我花了 20 年时间构建身份和安全系统(EA、Nexon IPO,两项加密身份验证专利)。去年开始构建多智能体管道,遇到了一个问题:当出现故障时,无法知道哪个智能体产生了什么结果。
MOSS 为智能体提供加密身份并签署其输出。每个签名都包含 ML-DSA-44(后量子,FIPS 204)、用于重放检测的序列号和 SHA-256 负载哈希。
```python
pip install moss-sdk
from moss import Subject
agent = Subject.create("moss:myapp:agent-1")
envelope = agent.sign({"action": "approve", "amount": 500})
```
密钥存储在本地的 ~/.moss/keys/ 目录下。没有云端,没有账户。
框架集成:moss-crewai, moss-autogen, moss-langgraph, moss-langchain
选择后量子的原因:审计日志需要保持可验证性多年。出于这个原因,选择了 ML-DSA-44 而不是 Ed25519。
规范:[https://github.com/mosscomputing/moss/blob/main/SPEC.md](https://github.com/mosscomputing/moss/blob/main/SPEC.md)
网站:[https://mosscomputing.com](https://mosscomputing.com)
很乐意回答有关设计的任何问题。
1 分•作者: thinkmoon•7 个月前
使用 ThinkMoon,你可以构建自己的 Alpha 竞技场:插入来自 OpenRouter、OpenAI、Anthropic(或我们定制的)的模型,向它们提供实时数据(K线图、订单簿、行情),然后让它们交易真实的加密货币(通过币安期货)。
你可以定义规则:风险限额、交易哪些币种(BTC、ETH、SOL、XRP… 随意),甚至混合使用不同的 LLM 并比较它们的表现。
AI 的每一次操作都会被记录——完整的提示、推理、市场快照——这样你就可以审计或从中学习。
有一个实时仪表盘,显示盈亏、持仓情况和 AI 的思维链。通过 Telegram 或 Slack 警报,在交易发生时通知你。
此外,还有止损、止盈、仓位限制,以及当回撤过大时的紧急停机开关。
我们目前正在测试微调模型,如 DeepSeek 3.2 Speciale 和 Grok 4.1——早期结果看起来很有希望,表现比通用模型更稳定。
很想听听你希望 AI 交易助手具备哪些功能。
(LLM 编排和逻辑框架:LangChain)
7 分•作者: cgorlla•7 个月前
大家好,我是 CTGT 的 Cyril。今天我们推出了 Mentat (<a href="https://api.ctgt.ai/v1/chat/completions">https://api.ctgt.ai/v1/chat/completions</a>),这是一个 API,让开发者能够对 LLM 的行为进行确定性控制,引导推理并即时消除偏见,无需微调的计算量,也不会像提示工程那样脆弱。我们使用特征级干预和基于图的验证来修复幻觉并执行策略。<p>这在高度监管的行业或 AI 应用中具有重要意义,在这些领域中,不正确或表现不佳的输出可能带来严重后果。在金融服务领域,使用 GenAI 扫描违规通信可能非常费力,如果没有一种简单的方法将复杂的策略嵌入到模型中。同样,媒体机构可能希望扩展其内容的 AI 生成摘要,但可靠性和准确性至关重要。这两者都是财富 500 强公司利用我们的技术来改善现有模型表现不佳的应用场景,我们希望将这种能力带给更多人。<p>这里有一个 2 分钟的快速演示视频,展示了该过程:<a href="https://video.ctgt.ai/video/ctgt-ai-compliance-playground-cfnl">https://video.ctgt.ai/video/ctgt-ai-compliance-playground-cf...</a><p>像 RAG 和系统提示这样的标准“护栏”本质上是概率性的:你本质上是在礼貌地要求模型表现良好。这通常会以两种方式失败。首先,RAG 解决了知识的<i>可用性</i>,但没有解决<i>整合</i>。在我们的基准测试中,一个模型被提供了“勒威克在托尔斯港东南 228 英里”的上下文,但未能回答“勒威克西北 228 英里是什么?”因为它无法执行空间反演。<p>其次,提示工程很脆弱,因为它与模型的预训练先验作斗争。例如,在 TruthfulQA 基准测试中,基础模型大约 80% 的时间都会失败,因为它们模仿了互联网上常见的误解(例如,“变色龙为了伪装而改变颜色”)。我们发现,我们可以字面意思地调高“怀疑推理”的特征,使模型忽略流行的神话,并输出科学事实。这很重要,因为对于高风险用例(如金融或制药),“基本安全”是不可接受的——公司需要审计级的可靠性。<p>我们的工作源于 UCSD 的 CS 地下室,我们花费数年时间研究高效且可解释的 AI,试图“打开”神经网络的“黑匣子”。我们意识到,业界试图从外部(提示/过滤器)修补模型行为,而问题却在内部(特征激活)。当我们看到企业即使拥有无限的计算能力,也难以部署基本模型,仅仅是因为他们无法保证输出不会违反合规性规则时,我们知道这很重要。我最终离开了我在斯坦福大学的研究,专注于此。<p>我们的突破来自于对 DeepSeek-R1 模型的深入研究。我们确定了其潜在空间中的“审查”特征向量。放大它保证了拒绝;减去它立即解锁了对敏感问题的回答。这证明了模型<i>拥有</i>知识,但正在抑制它。我们意识到,我们可以将同样的逻辑应用于幻觉,抑制“臆造”特征以揭示真实情况。虽然一些幻觉源于生成模型的固有随机性,但许多幻觉可以通过特征或特征组的协同激活来识别。<p>我们没有过滤输出,而是在前向传递期间在激活级别进行干预。我们识别与特定行为(偏见、误解)相关的潜在特征向量 (v),并在数学上修改隐藏状态 (h):<p><pre><code> h_prime = h - alpha * (h @ v) * v
</code></pre>
这种算术运算使我们能够以可忽略的开销(在 R1 上 <10ms)确定性地“编辑”行为。对于事实主张,我们将其与图验证管道相结合(该管道适用于封闭权重模型)。我们检查语义熵(模型是否在胡言乱语?)并将主张与动态知识图进行交叉引用,以捕捉向量搜索遗漏的微妙的关系幻觉。<p>在 GPT-OSS-120b 上,这种方法通过抑制误解特征,将 TruthfulQA 的准确率从 21% 提高到 70%。我们还在 HaluEval-QA 上提高了该模型的性能,达到了前沿水平,准确率达到 96.5%,解决了基线失败的空间推理问题。它还可以处理嘈杂的输入,从拼写错误“David Of me”推断出“David Icke”,而基础模型则放弃了。完整的基准测试见 <a href="https://ctgt.ai/benchmarks">https://ctgt.ai/benchmarks</a>。<p>这个领域的大多数初创公司都是可观察性工具,它们只在模型失败后才告诉你。或者它们是将上下文塞入窗口的 RAG 管道。Mentat 是一个基础设施层,它在推理期间修改模型的处理过程。我们修复推理,而不仅仅是上下文。例如,这就是我们的系统能够强制执行如果 A 在 B 的东南方,那么 B 在 A 的西北方。<p>我们相信,我们的策略引擎是优于 RAG 或提示的控制机制。如果您对当前的护栏感到沮丧,我们希望您能对我们的 API 进行压力测试!<p>API:我们的端点与 OpenAI 的 /v1/chat/completions 兼容:<a href="https://docs.ctgt.ai/api-reference/endpoint/chat-completions">https://docs.ctgt.ai/api-reference/endpoint/chat-completions</a><p>Playground:我们构建了一个“竞技场”视图,用于并排比较未受控模型和受控模型,以实时可视化干预差异。无需注册:<a href="https://playground.ctgt.ai/">https://playground.ctgt.ai/</a><p>我们很乐意听取您对该方法的反馈,并看看您能找到哪些破坏标准模型的边缘情况。我们将在评论区全天候回复。欢迎所有反馈!
8 分•作者: arnabkarsarkar•7 个月前
我是楼主。<p>我构建这个工具是因为我最近差点把包含 AWS 密钥的日志块粘贴到 Claude 里。<p>问题:我需要云模型(GPT/Claude/Gemini)的推理能力,但我不能相信自己不会意外泄露 PII 或密钥。<p>解决方案:一个 Chrome 扩展程序,充当本地中间件。它拦截提示并运行一个本地 BERT 模型(通过 Python FastAPI 后端),在请求离开浏览器之前清除姓名、电子邮件和密钥。<p>首先说明几点(为了明确预期):<p>所有操作都在本地 100% 运行。
正则表达式检测在扩展程序本身中进行。
高级检测 (NER) 使用一个小型转换器模型,通过 FastAPI 在本地主机上运行。<p>任何数据都不会发送到服务器。
您可以在代码 + 开发者工具网络面板中验证这一点。<p>这是一个早期原型。
会有一些粗糙的地方。我正在寻求关于 UX、检测质量以及本地代理方法是否合理的反馈。<p>技术栈:
Manifest V3 Chrome 扩展程序
Python FastAPI (本地主机)
HuggingFace dslim/bert-base-NER
路线图 / 征求反馈:
目前,Python 后端增加了一些摩擦。我昨天在 Reddit 上收到了反馈,建议我将推理移植到 transformer.js,通过 WASM 完全在浏览器中运行。<p>我决定使用 Python 后端发布 v1 以确保稳定性,但我正在积极研究 ONNX/WASM 路线,用于 v2 以消除对本地服务器的依赖。如果有人有通过 transformer.js 在 Service Worker 中运行 NER 模型的经验,我很乐意听取关于性能与原生 Python 的比较。<p>代码库采用 MIT 许可证。<p>非常欢迎提出想法、建议或替代方法。
25 分•作者: razzmataks•7 个月前
2 分•作者: Nathanadian•7 个月前
Hi HN,
我开发了 Freedom Graph,因为它想找一个能更真实地模拟市场波动和灵活支出的财务独立(FI)计算器。很多计算器都假设固定回报、固定的提款规则,以及“实际回报 = 名义回报 – 通货膨胀”的近似计算。这对于粗略估算来说还可以,但当你关注时序风险,或者像“我应该再工作一年吗?”这样的决策时,就不太适用了。
以下是我希望明确模拟的现实因素:
* **时序风险:** 可选的市场随机性(正负年份混合,长期平均复合年增长率约为 10%),以展示即使长期平均表现良好,提前退休计划也可能失败的原因。
* **正确的实际回报计算:** 使用费雪方程式,而不是线性近似,因为线性近似在长时间范围内会产生不同的复利效果。
* **自适应策略:** 模拟“再工作一年”的情景和支出灵活性,以了解行为如何影响成功概率。
其他用户体验优化:
* 使用 React + Vite 构建;不会向任何地方发送输入数据。
* 本地存储在浏览器会话之间保留输入数据。
* 达到目标后,财务独立收入会自动调整。
* 深色/浅色模式。
我非常欢迎大家对用户体验和假设/行为杠杆提出反馈。如果你认为有什么错误或误导的地方,请告诉我。
谢谢!
145 分•作者: embedding-shape•7 个月前
随着各种大型语言模型(LLM)越来越受欢迎,诸如“我问了Gemini,Gemini说……”之类的评论也越来越多。<p>虽然Hacker News(HN)的指导方针是在不同的时期编写(并不断迭代)的,但似乎是时候讨论一下是否应该欢迎这类评论了。<p>一些例子:<p>- https://news.ycombinator.com/item?id=46164360<p>- https://news.ycombinator.com/item?id=46200460<p>- https://news.ycombinator.com/item?id=46080064<p>就我个人而言,我上HN是为了参与人类的对话,而大型LLM生成的文本只会妨碍我阅读真实人类(至少是假设的)的真实文本。<p>你觉得呢? 那些基本上归结为“我问了$LLM关于$X的问题,以下是$LLM的回答:”的回复应该被允许在HN上吗?是否应该更新指导方针,声明人们不应该对其进行批判(类似于目前的其他指导方针),或者应该添加新的指导方针,要求人们不要将大型LLM的回复复制粘贴到评论中,还是应该采取其他完全不同的措施?
1 分•作者: barry-cotter•7 个月前
1 分•作者: rbanffy•7 个月前
2 分•作者: holdingunsteady•7 个月前
2 分•作者: maciejgryka•7 个月前
3 分•作者: mjablons•7 个月前
1 分•作者: Lwrless•7 个月前
1 分•作者: rbanffy•7 个月前