5作者: Eastra7 天前
八个月前,我看到一个朋友为了跨境电商业务,要管理三面墙的手机——充电、更换IP、还要时刻担心被封。 我问自己:人们真正需要的是这些手机盒子,还是里面的安卓环境? 我们为此构建了 QCCBot 来解答这个问题。它在 ARM 服务器上运行完整的安卓实例,然后将画面流式传输到浏览器。打开一个标签页,你就能获得一部手机。无需硬件,无需线缆,无需轮流给 100 台机器充电。 我们现在已经有了真正的用户——跨境电商、TikTok 运营、应用测试、远程办公。说实话,我们的用户比我们自己更早发现了这些用例。 我们接下来要构建的是: AI 智能体,它们不仅能查看安卓环境,还能在其中操作。打开应用、执行任务、监控状态、反馈报告。日常操作无需人工干预。 我们刚刚发布的底层基础设施: • 任务执行 API (OpenAPI) • 脚本模板库 (~30 个模板,选择一个行为并部署) • AgentV2 在私有部署中运行 • 基于 ADB 的智能体控制,通过 OpenClaw 集成 目前的真实局限性: • 流媒体延迟仍在改进中 • 指纹模拟不够完美 • 完全自主操作仍在构建中 • 我们在重新设计用户界面时被高级用户吐槽了(应该的) 我们获得的“伤痕”比功能还要多。还处于早期阶段。但真实用户每天都在告诉我们哪些地方不好用——这比赞美更有价值。 试用一下:qccbot.com 很乐意深入探讨 ARM 虚拟化方法、智能体控制层或流媒体架构。也真诚地想知道,是否有正在构建 AI 智能体的人遇到了“需要一个持久的移动环境”的问题。
1作者: oujiangping7 天前
大家好,我是 QuickSummarize 的开发者。我开发了一个开源的 Chrome 扩展程序,可以通过字幕来处理 YouTube 视频。 核心理念是让视频问答以字幕为先,而不是把一次性的摘要当作全部记忆。 目前的工作流程包括: * 摘要 * 以字幕为先的聊天 * 时间轴浏览 * 字幕导出 它在 Chrome 侧边栏运行,目前主要针对 YouTube。 我比较关注的几个实现选择: * 字幕是后续提问的主要信息来源 * 支持自带 API,而不是另一个付费订阅服务 * 同时支持兼容 OpenAI 的 API 和 Anthropic 风格的 API * 英文/中文界面 虽然还处于早期阶段,但对我来说,它已经比通常的“总结这个视频”流程更有用了。 特别希望得到以下方面的反馈: * 以字幕为先的聊天是否真的是正确的用户体验 * 大家如何看待长视频的记忆/检索 * 字幕可靠性的边缘情况
1作者: pratik2277 天前
构建了一个轻量级的 Vue 3 OTP 输入组件。 Composition API 自动聚焦 + 退格键处理 完全可定制 小巧的 bundle 体积 简单易用,旨在干净利落地处理常见的边缘情况。 仓库:<a href="https:&#x2F;&#x2F;github.com&#x2F;pratik227&#x2F;vue-otp-pro" rel="nofollow">https:&#x2F;&#x2F;github.com&#x2F;pratik227&#x2F;vue-otp-pro</a>
1作者: redhanuman7 天前
我构建这个工具是因为我厌倦了所有 AI 工具都把我的数据发送到别人的服务器。n0x 通过 WebGPU 运行全栈 LLM 推理,包括自主 ReAct 智能体、基于你自己的文档的 RAG,以及通过 Pyodide 进行沙盒化的 Python 执行,所有这些都在一个浏览器标签页内完成。 无需账户,无需密钥,无需后端。模型只需下载一次,永久缓存在 IndexedDB 中。 最大的挑战是为智能体循环进行上下文窗口预算,以及使 WASM 向量搜索无阻塞。 欢迎讨论架构。 GitHub: <a href="https:&#x2F;&#x2F;github.com&#x2F;ixchio&#x2F;n0x" rel="nofollow">https:&#x2F;&#x2F;github.com&#x2F;ixchio&#x2F;n0x</a> | 演示: <a href="https:&#x2F;&#x2F;n0x-three.vercel.app" rel="nofollow">https:&#x2F;&#x2F;n0x-three.vercel.app</a>