1作者: justvugg19 天前
大家好, 我为 PolyMCP 添加了一个技能系统,以解决大规模 MCP 服务器的常见问题。 当工具数量增加时: * 代理会消耗大量 token 来加载原始模式 * 工具发现变得嘈杂 * 不同的代理需要不同的工具子集 * 编排逻辑会泄漏到提示中 技能是经过整理、结构化的 MCP 工具集,并附带文档。 代理仅加载他们需要的技能,而不是完整的工具模式。 技能通过从 MCP 服务器发现工具并自动分类来生成。 示例:从 Playwright MCP 服务器生成技能: ``` polymcp skills generate --servers "npx @playwright/mcp@latest" ``` HTTP MCP 服务器: ``` polymcp skills generate \ --servers "http://localhost:8000/mcp" \ --output ./mcp_skills ``` Stdio MCP 服务器: ``` polymcp skills generate \ --stdio \ --servers "npx -y @playwright/mcp@latest" \ --output ./mcp_skills ``` 在代理中启用技能: ```python agent = UnifiedPolyAgent( llm_provider=llm, skills_enabled=True, skills_dir="./mcp_skills", ) ``` 优点: * 更小的代理上下文 * 可扩展到大型工具集 * 跨代理的可重用功能 * 无需更改提示即可进行工具访问控制 * 适用于 HTTP 和 stdio MCP 服务器 仓库:[https://github.com/poly-mcp/Polymcp](https://github.com/poly-mcp/Polymcp)
2作者: eropatori19 天前
显示未聚焦行的渲染预览,以及正在编辑的行或代码块的原始 Markdown 文本。
2作者: mdnahas19 天前
现在,多个人用智能手机同时拍摄同一事件的情况已经很常见。我想到 Pretti 和 Good 的枪击案。我听说过高斯溅射技术,它能从多个摄像头的视频中构建 3D 场景。这项技术对分析这类事件有用吗?如果有用,有人能开发一个易于使用的开源工具吗? 我推测,这项技术可能对以下方面有用:(1)同步视频,(2)获取比单个摄像头更详细的信息,(3)追踪物体(比如 Pretti 的枪),这些物体能被多个摄像头捕捉到,以及(4)识别 AI 生成的视频。 对我来说,最后一点最重要。存在 AI 生成或修改事件视频的风险。在我看来,利用 N 个视频进行高斯溅射,应该能够检测出第 N+1 个视频与场景是否一致。 这有可能实现吗?
1作者: expyth0n19 天前
问题:我想用我的工具,你想用你的工具,我们雇的承包商又用另一套工具。这给所有参与者带来了不必要的摩擦。 Ideon 是一个自托管的可视化工作区,旨在弥合这一差距。它不会取代您现有的工具栈(GitHub、Figma、Notion 等),而是在一个无限画布上提供一个共享的上下文,将所有这些工具整合在一起。 我们构建它的原因在于,项目常常因为碎片化而夭折——代码在一个地方,决策在聊天记录里,视觉元素在设计工具中。Ideon 旨在让所有参与者都能在心理上“轻松导航”项目。 主要功能: * 可视化区块:以空间方式组织代码库、笔记、链接、文件和人员。 * 状态历史:通过工作区快照跟踪决策的演变过程。 * 多人协作:实时协作。 * 自托管:基于 Docker,采用 AGPLv3 许可证。 技术栈:Next.js、PostgreSQL、Docker。 很想听听您对这种方法的反馈!
4作者: eshaangulati19 天前
嘿!我是 eshaan,我正在开发 Ourguide——一个屏幕上的任务指导系统,可以在你需要帮助时,逐步地告诉你该点击哪里。<p>我开始构建这个是因为,每当我在电脑上遇到不会做的事情时,我总是需要在聊天机器人和应用程序之间来回切换,粘贴截图,然后问“下一步该怎么做?” Ourguide 通过两种模式解决了这个问题。在“引导模式”下,应用程序会覆盖你的屏幕,并突出显示下一步需要点击的特定元素,这样就无需离开当前窗口了。还有一个“提问模式”,它是一个视觉集成的聊天功能,可以捕捉你的屏幕上下文——你可以随时打开和关闭它——这样你就可以问“我该如何修复这个错误?”而无需解释“这个”是什么。<p>它是一个 Electron 应用程序,可以在整个操作系统上运行,基于视觉,并且不限于浏览器。<p>弄清楚如何向用户显示点击位置是整个过程中最难的部分。我最初使用 2300 张截图训练了一个计算机视觉模型,用于识别和分割屏幕上的所有 UI 元素,并使用 VLM 来找到要突出显示的正确图标。虽然这效果非常好——比 UI Tars 等 SOTA 基础模型更好——但延迟太高了。我很快就会将那个 CV+VLM 管道开源,但现在,我采用了更简单的实现方式,实现了 &lt;1 秒的延迟。<p>你可能会问:如果我可以告诉你点击哪里,为什么我不能直接点击呢? 在帕洛阿尔托工作期间,我试图构建计算机使用代理,遇到了当今计算机使用模型的核心限制,其基准测试徘徊在 50% 左右(OSWorld)。 VLM 经常知道该做什么,但不知道它看起来像什么;如果没有可靠的视觉基础,代理就会误点击并停滞不前。所以,我构建了计算机使用——没有“使用”。它提供了代理的视觉基础,但让用户参与实际执行,以防止误点击。<p>我个人使用它来处理 AWS 控制台的“寻宝” UI,例如创建具有特定 CORS 规则的公共 S3 存储桶。它对非技术性任务也出乎意料地有帮助,比如在 Gradescope 或 Spotify 中导航晦涩的设置。当你遇到困难或不知道该做什么时,Ourguide 确实适用于任何任务。<p>你可以在这里下载并测试 Ourguide:<a href="https:&#x2F;&#x2F;ourguide.ai&#x2F;downloads" rel="nofollow">https:&#x2F;&#x2F;ourguide.ai&#x2F;downloads</a><p>该项目还处于早期阶段,我非常希望收到你关于它在哪里失败、你认为它在哪里表现良好以及你认为 Ourguide 最有用的特定领域的反馈。
2作者: SilasYee19 天前
阿里巴巴正式发布了 Qwen3-Max-Thinking,这是一个基于 36 万亿 tokens 预训练的万亿参数 MoE 旗舰大语言模型,其训练数据量是 Qwen 2.5 的两倍,并且在 19 项权威基准测试中,其表现已经与 GPT-5.2-Thinking、Claude-Opus-4.5 和 Gemini 3 Pro 等顶级模型持平甚至超越。它真正脱颖而出的关键在于其两大核心技术突破。 首先,自适应工具调用:无需手动提示,它就能根据任务需求自主调用搜索引擎、记忆工具和代码解释器。这减少了幻觉,并提升了实时问题解决能力;例如,编码任务会触发自动的错误修正循环,而研究任务则结合了搜索和上下文合成。其次,测试时缩放 (TTS):它通过迭代洞察来优化推理,从而超越了标准的并行采样,并在关键基准测试中实现了可衡量的提升——GPQA 从 90.3 提升至 92.8,LiveCodeBench v6 从 88.0 提升至 91.4,IMO-AnswerBench 从 89.5 提升至 91.5。 值得注意的是,其预览版甚至在 AIME 25 和 HMMT 25 等高难度数学竞赛中实现了 100% 的准确率。该模型在网页/桌面演示中运行流畅,其 API 已可用于生产环境,并具有可调节的思考预算(默认高达 8 万 tokens),以平衡深度和速度。这不仅仅是一次增量更新——这是一次飞跃,缩小了其在推理和工具集成方面的差距,从而更好地服务于现实世界的学术和工程任务。 了解更多:https://chat.qwen.ai/