1 分•作者: justvugg•19 天前

大家好，我为 PolyMCP 添加了一个技能系统，以解决大规模 MCP 服务器的常见问题。当工具数量增加时： * 代理会消耗大量 token 来加载原始模式 * 工具发现变得嘈杂 * 不同的代理需要不同的工具子集 * 编排逻辑会泄漏到提示中技能是经过整理、结构化的 MCP 工具集，并附带文档。代理仅加载他们需要的技能，而不是完整的工具模式。技能通过从 MCP 服务器发现工具并自动分类来生成。示例：从 Playwright MCP 服务器生成技能： ``` polymcp skills generate --servers "npx @playwright/mcp@latest" ``` HTTP MCP 服务器： ``` polymcp skills generate \ --servers "http://localhost:8000/mcp" \ --output ./mcp_skills ``` Stdio MCP 服务器： ``` polymcp skills generate \ --stdio \ --servers "npx -y @playwright/mcp@latest" \ --output ./mcp_skills ``` 在代理中启用技能： ```python agent = UnifiedPolyAgent( llm_provider=llm, skills_enabled=True, skills_dir="./mcp_skills", ) ``` 优点： * 更小的代理上下文 * 可扩展到大型工具集 * 跨代理的可重用功能 * 无需更改提示即可进行工具访问控制 * 适用于 HTTP 和 stdio MCP 服务器仓库：[https://github.com/poly-mcp/Polymcp](https://github.com/poly-mcp/Polymcp)

持续自回归语言模型 (Calm)：一种新型 LLM 架构 [视频]

1 分•作者: znpy•19 天前

福村医生的三种投射（2009）

2 分•作者: measurablefunc•19 天前

金价首次突破5000美元

1 分•作者: bookofjoe•19 天前

抖动 – 第二部分：有序抖动

36 分•作者: ChrisArchitect•19 天前

现在，ChatGPT 容器可以运行 Bash 命令、使用 pip/npm 安装软件包以及下载文件了。

19 分•作者: simonw•19 天前

Show HN: 混合 Markdown 编辑

2 分•作者: eropatori•19 天前

显示未聚焦行的渲染预览，以及正在编辑的行或代码块的原始 Markdown 文本。

Human Native 加入 Cloudflare

3 分•作者: yawnxyz•19 天前

当 AI“构建浏览器”时，在相信炒作之前，先查阅代码库

1 分•作者: CrankyBear•19 天前

问 HN：高斯喷溅技术对分析普雷蒂之死有用吗？

2 分•作者: mdnahas•19 天前

现在，多个人用智能手机同时拍摄同一事件的情况已经很常见。我想到 Pretti 和 Good 的枪击案。我听说过高斯溅射技术，它能从多个摄像头的视频中构建 3D 场景。这项技术对分析这类事件有用吗？如果有用，有人能开发一个易于使用的开源工具吗？我推测，这项技术可能对以下方面有用：（1）同步视频，（2）获取比单个摄像头更详细的信息，（3）追踪物体（比如 Pretti 的枪），这些物体能被多个摄像头捕捉到，以及（4）识别 AI 生成的视频。对我来说，最后一点最重要。存在 AI 生成或修改事件视频的风险。在我看来，利用 N 个视频进行高斯溅射，应该能够检测出第 N+1 个视频与场景是否一致。这有可能实现吗？

在 Discord 上和人争论 CBR/CBZ 格式有多低效

2 分•作者: Breadmaker•19 天前

Show HN: GlobalWatch – 全球流媒体影视搜索

3 分•作者: saheb37•19 天前

系统开发生命周期如何塑造成功的软件项目？

1 分•作者: Andrew0416•19 天前

Anthropic 的 Claude 新增交互式 Apps 支持

1 分•作者: Eldodi•19 天前

Show HN: Ideon - 你的项目分段的开源无限画布

1 分•作者: expyth0n•19 天前

问题：我想用我的工具，你想用你的工具，我们雇的承包商又用另一套工具。这给所有参与者带来了不必要的摩擦。 Ideon 是一个自托管的可视化工作区，旨在弥合这一差距。它不会取代您现有的工具栈（GitHub、Figma、Notion 等），而是在一个无限画布上提供一个共享的上下文，将所有这些工具整合在一起。我们构建它的原因在于，项目常常因为碎片化而夭折——代码在一个地方，决策在聊天记录里，视觉元素在设计工具中。Ideon 旨在让所有参与者都能在心理上“轻松导航”项目。主要功能： * 可视化区块：以空间方式组织代码库、笔记、链接、文件和人员。 * 状态历史：通过工作区快照跟踪决策的演变过程。 * 多人协作：实时协作。 * 自托管：基于 Docker，采用 AGPLv3 许可证。技术栈：Next.js、PostgreSQL、Docker。很想听听您对这种方法的反馈！

代码文档

2 分•作者: omegastick•19 天前

Supercomp.app 正在出售

1 分•作者: smiru•19 天前

Show HN: TetrisBench – Gemini Flash 在俄罗斯方块游戏中对战 Opus，胜率达 66%

14 分•作者: ykhli•19 天前

Show HN: Ourguide – 全局任务指引系统，告诉你该点击哪里

4 分•作者: eshaangulati•19 天前

嘿！我是 eshaan，我正在开发 Ourguide——一个屏幕上的任务指导系统，可以在你需要帮助时，逐步地告诉你该点击哪里。我开始构建这个是因为，每当我在电脑上遇到不会做的事情时，我总是需要在聊天机器人和应用程序之间来回切换，粘贴截图，然后问“下一步该怎么做？” Ourguide 通过两种模式解决了这个问题。在“引导模式”下，应用程序会覆盖你的屏幕，并突出显示下一步需要点击的特定元素，这样就无需离开当前窗口了。还有一个“提问模式”，它是一个视觉集成的聊天功能，可以捕捉你的屏幕上下文——你可以随时打开和关闭它——这样你就可以问“我该如何修复这个错误？”而无需解释“这个”是什么。它是一个 Electron 应用程序，可以在整个操作系统上运行，基于视觉，并且不限于浏览器。弄清楚如何向用户显示点击位置是整个过程中最难的部分。我最初使用 2300 张截图训练了一个计算机视觉模型，用于识别和分割屏幕上的所有 UI 元素，并使用 VLM 来找到要突出显示的正确图标。虽然这效果非常好——比 UI Tars 等 SOTA 基础模型更好——但延迟太高了。我很快就会将那个 CV+VLM 管道开源，但现在，我采用了更简单的实现方式，实现了 <1 秒的延迟。你可能会问：如果我可以告诉你点击哪里，为什么我不能直接点击呢？在帕洛阿尔托工作期间，我试图构建计算机使用代理，遇到了当今计算机使用模型的核心限制，其基准测试徘徊在 50% 左右（OSWorld）。 VLM 经常知道该做什么，但不知道它看起来像什么；如果没有可靠的视觉基础，代理就会误点击并停滞不前。所以，我构建了计算机使用——没有“使用”。它提供了代理的视觉基础，但让用户参与实际执行，以防止误点击。我个人使用它来处理 AWS 控制台的“寻宝” UI，例如创建具有特定 CORS 规则的公共 S3 存储桶。它对非技术性任务也出乎意料地有帮助，比如在 Gradescope 或 Spotify 中导航晦涩的设置。当你遇到困难或不知道该做什么时，Ourguide 确实适用于任何任务。你可以在这里下载并测试 Ourguide：<a href="https://ourguide.ai/downloads" rel="nofollow">https://ourguide.ai/downloads</a>该项目还处于早期阶段，我非常希望收到你关于它在哪里失败、你认为它在哪里表现良好以及你认为 Ourguide 最有用的特定领域的反馈。

通义千问3.5-Max-思考：36万亿 tokens

2 分•作者: SilasYee•19 天前

阿里巴巴正式发布了 Qwen3-Max-Thinking，这是一个基于 36 万亿 tokens 预训练的万亿参数 MoE 旗舰大语言模型，其训练数据量是 Qwen 2.5 的两倍，并且在 19 项权威基准测试中，其表现已经与 GPT-5.2-Thinking、Claude-Opus-4.5 和 Gemini 3 Pro 等顶级模型持平甚至超越。它真正脱颖而出的关键在于其两大核心技术突破。首先，自适应工具调用：无需手动提示，它就能根据任务需求自主调用搜索引擎、记忆工具和代码解释器。这减少了幻觉，并提升了实时问题解决能力；例如，编码任务会触发自动的错误修正循环，而研究任务则结合了搜索和上下文合成。其次，测试时缩放 (TTS)：它通过迭代洞察来优化推理，从而超越了标准的并行采样，并在关键基准测试中实现了可衡量的提升——GPQA 从 90.3 提升至 92.8，LiveCodeBench v6 从 88.0 提升至 91.4，IMO-AnswerBench 从 89.5 提升至 91.5。值得注意的是，其预览版甚至在 AIME 25 和 HMMT 25 等高难度数学竞赛中实现了 100% 的准确率。该模型在网页/桌面演示中运行流畅，其 API 已可用于生产环境，并具有可调节的思考预算（默认高达 8 万 tokens），以平衡深度和速度。这不仅仅是一次增量更新——这是一次飞跃，缩小了其在推理和工具集成方面的差距，从而更好地服务于现实世界的学术和工程任务。了解更多：https://chat.qwen.ai/

上一页 1...287 288 289 290 291...3484 下一页

最新