1 分•作者: airhangerf15•11 天前
返回首页
最新
2 分•作者: 59nadir•11 天前
1 分•作者: eggrain•11 天前
1 分•作者: balasvce2026•11 天前
2 分•作者: momentmaker•11 天前
1 分•作者: mantcz•11 天前
3 分•作者: AG342•11 天前
我是 Trace 的开发者,Trace 是一款非侵入式、通过快捷键驱动的 Mac 应用,可在设备上录制和转录您的会议。我知道,又一个会议转录应用。但请您耐心听我说,我相信这款应用至少有一点新意。
我主要为自己开发了 Trace。我之前一直在使用 MacWhisper,但在每次会议开始前都需要进行一些繁琐的操作,以至于我经常忘记启动它,然后从一个小时的会议中一无所获地出来。因此,我最关心的是它能够快速激活并且不干扰我的工作流程。您可以通过按下全局快捷键(可配置)来激活 Trace,这会在屏幕底部显示一个小的条形区域(如果您不想看到它,也可以选择隐藏它)。
在开发过程中,我想将一些我在其他转录应用中希望拥有的工作流程融入其中。
1. 在会议进行中,您可以按下另一个全局快捷键来标记一个“关键时刻”并输入笔记。笔记会以时间戳的形式内嵌在生成的转录文本中。我添加这个功能是因为我经常在会议中想到“等等,这一点很重要”,然后伸手去单独的应用程序(如 Obsidian)中记录下来,而我之后还需要为这些笔记添加上下文,这会让我分心。我一直在使用它。如果我之后将转录文本粘贴到 LLM 中(我发现如今我越来越频繁地这样做),重要的时刻会被标记出来,这样它就不会忽略它们。在包含许多主题的长会议中,这一点尤为明显。
2. 通过另一个键盘快捷键,您可以调出实时的粗略回顾(基本上是字幕),快速回顾刚才所说的内容。
Trace 使用标准的 macOS 麦克风和系统录音 API 来捕获对话双方的音频,并将它们作为两个独立的音轨进行处理,然后对系统音轨进行设备上的说话人分离,以识别说话人。目前我们只将他们标记为“说话人 1”、“说话人 2”等,但未来有计划进行说话人标记。您也可以在通话进行时显示“实时回顾”,以回顾某人刚才所说的话。
所有转录模型都在您的机器上运行。需要明确的是,Trace 本身不进行任何总结,它只生成 Markdown 格式的转录文本,所以如果您需要总结,则需要将输出传递给 AI。
该应用程序是沙盒化的,您的音频/转录文本永远不会被上传到任何地方——它们只以音频文件和 Markdown 的形式存储在磁盘上。Trace 唯一需要进行的网络调用是在首次运行时从 Hugging Face 下载语音和说话人模型(约 500MB),之后就可以完全离线使用。如果启用,Google 日历集成可以自动命名会话,但这需要网络连接。
该应用程序在 macOS App Store 上的售价为 9.99 英镑。我几个月来每天都在使用它,并且对它如何改善我的工作流程感到非常满意。非常欢迎您提供反馈。
1 分•作者: thunderbong•11 天前
1 分•作者: throw-the-towel•11 天前
2 分•作者: austinallegro•11 天前
2 分•作者: __natty__•11 天前
1 分•作者: marksie1988•11 天前
2 分•作者: sermakarevich•11 天前
1. 无头模式
无头模式允许您将 AI 用作命令行实用程序,用于自动化和脚本编写。在 Claude Code 中,您可以使用 `-p` 标志运行它:`claude -p`,在 codex 中是 `- exec`,在 opencode 中是 `- run`。
2. 询问人类
在无头模式下,与操作员的传统通信渠道将无法正常工作——我们需要实现一个专用工具。以下是如何实现这一目标的示例:[https://github.com/sermakarevich/claude/tree/main/mcp/ask_human](https://github.com/sermakarevich/claude/tree/main/mcp/ask_human)
3. 任务队列
Beads 是一个轻量级的分布式图问题跟踪器,专为 AI 代理设计,由 Dolt 提供支持。您可以创建任务,定义任务之间的依赖关系,并设置状态、优先级和层级。Beads 有助于防止多个任务被一个以上的 worker 认领。
4. Worker 工件
我们希望能够监控 worker 的运行情况、所处阶段,并在重启后恢复它。对于每个任务,我们可以使用 beads 任务 ID 创建一个专用文件夹,并将所需内容放入其中。我放入了:
- 计划和状态 md
- 知识 md
- events.jsonl
- stderr
worker 在其提示中被指示检查工件是否存在,这允许它从作业中断处继续。
5. Worker 隔离
为了准备运行多个 worker,我们需要隔离它们。可以使用 Git worktree。我正在测试这种方法:
- worker 获取任务并执行它
- 下一个自动生成的 worker 验证任务是否完成,对其进行测试,合并 worktree,关闭 ticket,并在需要时创建另一个 ticket 进行修复
6. 多个 Worker
为了能够运行多个 worker,我们需要一个简单的协调器。一个无限循环不断检查 beads/config,并在需要时触发新的 worker。
7. Coder 不可知
一个 worker 基本上可以是任何 coder。我从 Claude 开始,然后添加了 Codex 和 Agy。最后添加了 Opencode。
8. 订阅限制。
即使切换到 Sonnet 4.6,3 个编码代理也可能在 30 分钟内耗尽 Claude 200 美元的订阅额度。API 令牌的价格是订阅内令牌的 40 倍——这太贵了。我正在测试的想法是:
- 使用最强大的模型进行分析/设计并添加任务
- 使用本地模型作为 worker
- 使用更强大的模型来验证 worker 并添加新任务以修复潜在的错误实现
我正在使用 Ollama 部署的 qwen3.6:36B 本地模型,该模型部署在 2 个 GPU 卡上,总共 36GB,具有 256K 上下文窗口。这速度较慢,但免费。令人惊讶的是,它的效果比我预期的要好得多。Fable 5 在创建清晰简单的 ticket 方面表现出色,直到它不再是这样。
我曾考虑过的另一种方法是 Bedrock qwen,按 token 付费,或者每月租用一个 96GB 的 GPU,费用为 1400 美元。
我发现同时运行 3 个 worker 是最优的,尽管 Ollama 一次只处理 1 个请求。原因是 ask_human 工具。如果一个 worker 在晚上向我提问——它必须等到早上才能做任何事情。运行三个 worker 大致上可以保证 GPU 负载达到 100%。
9. 良好的集成
UI - 用于观察任务/beads/config/chat/analytics
模型提出问题时很容易错过。它在 UI 中可见——聊天旁边有一个绿色的圆圈,但仅此而已。所以我添加了 Telegram 集成——现在我可以在 Telegram 上接收来自 worker 的问题并回复,获取任务状态,创建新任务等。
我当然是在为我的 PoC 项目做这件事:
- 改进 fleet
- 构建一个数据收集和分析相关的应用程序
我看到的是,24x7 的 coder 比我想象的要近。即使是较弱的模型,当任务简单且定义明确时,也能取得良好的成果。构建这些系统的所有组件都已具备。
仓库:[https://github.com/sermakarevich/fleet](https://github.com/sermakarevich/fleet)
1 分•作者: simonebrunozzi•11 天前
1 分•作者: hn_acker•11 天前
1 分•作者: NexAIGuy•11 天前
1 分•作者: paulpauper•11 天前
15 分•作者: zeristor•11 天前
4 分•作者: yassros16•11 天前
1 分•作者: badgerino•11 天前