2作者: marshalla26 天前
在过去的七个月里,我一直在开发一款我希望在之前的工作岗位上就能拥有的工具。MimicScribe 是一款 macOS 菜单栏应用程序,属于“AI 笔记助手”类别。它具备准确的设备端说话人识别(可能是首创?),为探索性通话提供实时会议要点,以及一个完全由键盘和语音驱动的界面。 我相信说话人 ID 系统的准确性是其最大的优势。我以 fluid audio 对 Pyannote 社区版 1 的移植 (https://github.com/fluidInference/FluidAudio) 为基础。为了提高准确性,该系统利用 Parakeet STT 的语法结构线索,按句子进行掩码处理。通过在掩码内获取第二组样本进行聚类分配,它利用了大多数人在商务会议中不会互相抢话的事实。它倾向于轻微过度分割,因为我发现合并片段或重新分配说话人比解开错误的合并要容易得多。 该应用程序使用针对探索性通话优化的提示,提供会议中的要点。它可以建议探究性问题,帮助您提取更多细节,或者通过“魔术棒”式问题(例如,“您理想的系统将如何工作”)帮助您重新聚焦于大局。让低延迟模型提供新颖、相关且完全没有虚构的信息有点困难,它倾向于频繁地重述转录内容,但有时也会从中提炼出一些精华,所以最好将其视为灵感来源,并保持警惕。 它的设置方式是,可以通过按住键盘快捷键来开始和结束录音,而不是连接到您的日历服务。我更喜欢这种方式,以保护隐私并避免转录历史变得混乱。点击快捷键会显示或隐藏一个始终置顶的覆盖层,无论您是否有其他应用程序全屏,它都会显示在您的活动屏幕上。除了简单的导航,您还可以使用语音命令进行会议后修正或添加,例如,您可以简单地说“将此说话人与那个说话人合并”来清理转录内容。 它还具有一键通话/听写功能,并带有 LLM 清理功能——虽然这曾是该应用程序的初衷,但这类工具对开发者来说就像猫薄荷,实在太多了。 一位在金融领域工作的朋友审查了该网站,他说他会放弃,因为隐私方面的说明不够充分,所以我添加了一个完全设备端模式和一个自带密钥选项。使用云模型确实能极大地提升体验,包括上下文感知的说话人合并和片段清理、会议中的摘要项、归属的行动项等。设备端模式完全免费,并且说话人识别仍然非常有用。 隐私方面是我对这款应用程序最大的担忧,尤其是考虑到它的目标用户是更具技术性的人群。我非常希望听到大家对此的看法,任何反馈都将非常有帮助。
14作者: guanming071726 天前
大家好,我是来自 General Instinct 的 Guanming 和 Bill(<a href="https://general-instinct.com/">https://general-instinct.com/</a>)。 在机器人领域工作多年后,我们一直遇到同一个问题:最优秀的模型总是无法适配我们实际拥有的硬件。 性能最好的模型通常是基于数据中心环境设计的:拥有大型 GPU、充足的内存带宽和可靠的网络连接。然而,大多数物理系统面临的则是相反的限制。 这促使我们开始探索如何最大程度地保留前沿模型的能力,同时使其能够在边缘硬件上实际运行。 作为这项工作的一部分,我们最近开源了 InstinctRazor(<a href="https://github.com/General-Instinct/InstinctRazor">https://github.com/General-Instinct/InstinctRazor</a>)。 我们激动地宣布,我们已将一个约 245 GB 的 BF16 MoE 模型 Qwen3.5-122B-A10B 压缩成了一个 48 GiB 的 GGUF 模型。这个模型实际上比 Gemma-4-26B-A4B 更小,但在 MMLU-Pro 和 GPQA-D 等基准测试中的表现却优于后者。我们保留了始终活跃的部分(如路由器、归一化层、Gated-DeltaNet/SSM 层、视觉通路等),并对路由过的专家进行了更激进的量化。然后,我们使用 on-policy distillation 来恢复量化过程中损失的能力。 该模型还可以配置为“小型 GPU”模式运行,此时专家模型将从系统内存中流式传输。在 8k 上下文窗口下,峰值显存使用量约为 7.6–8 GB。 如果您对技术细节感兴趣,我们在此处详细介绍了我们的方法(<a href="https://general-instinct.com/blog/frontier-moe-sub-4-bit">https://general-instinct.com/blog/frontier-moe-sub-4-bit</a>)。 我们特别希望听到那些将模型部署到机器人或其他边缘设备上的用户的声音。您目前正在尝试在本地运行哪些模型?在将它们投入生产的过程中,最大的瓶颈是什么?
2作者: bohdanstefaniuk26 天前
我是一名后端开发者,但我也对许多其他领域感兴趣:前端、人工智能、基础设施、架构和系统设计。我想跟上所有这些领域的新想法和进展。 我的问题是,大多数更新日志和新闻来源会给我提供过多的原始信息。我需要花费大量精力去筛选,才能弄清楚什么才是真正重要的。过一段时间我就会感到信息过载,然后放弃并取消订阅所有内容。 所以现在我正在寻找更精选的内容。也许是一份新闻通讯,或者是一些对软件工程和特定技术有独到见解的人。我想关注那些能过滤掉噪音并能很好地解释有趣部分的人。 目前我的列表很短: - Hacker Newsletter - Platformer - The Pragmatic Engineer 你们都看什么?订阅了哪些报纸?
5作者: aronowb1426 天前
一家 YC 公司以 10 亿美元的估值融资了 2 亿美元。https://www.starcloud.com/starcloud-4。此外,随着 SpaceX IPO 即将到来,这似乎是一个重点。 有没有物理学背景更强的人能解释一下为什么会有人认为这是个好主意?