1作者: colesantiago26 天前
下周6月12日,SpaceX将开启一段由华尔街控股的旅程。 这将最终导致“enshittification”(一种指代平台在生命周期中逐渐变质的现象),因为SpaceX正在亏损数十亿美元,而新投资者期望定期发布收益报告,这将给SpaceX带来无尽增长的压力,使其偏离最初的使命。 不幸的是,这次IPO只是对散户投资者、养老金等群体的一次巨大抛售,目的是迫使全球所有资本都投资于SpaceX。 我认为最好开始着手开发一个非华尔街控股的开源版SpaceX。 您希望看到一个由社区拥有的开源SpaceX具备哪些特性?
2作者: marshalla26 天前
在过去的七个月里,我一直在开发一款我希望在之前的工作岗位上就能拥有的工具。MimicScribe 是一款 macOS 菜单栏应用程序,属于“AI 笔记助手”类别。它具备准确的设备端说话人识别(可能是首创?),为探索性通话提供实时会议要点,以及一个完全由键盘和语音驱动的界面。 我相信说话人 ID 系统的准确性是其最大的优势。我以 fluid audio 对 Pyannote 社区版 1 的移植 (https://github.com/fluidInference/FluidAudio) 为基础。为了提高准确性,该系统利用 Parakeet STT 的语法结构线索,按句子进行掩码处理。通过在掩码内获取第二组样本进行聚类分配,它利用了大多数人在商务会议中不会互相抢话的事实。它倾向于轻微过度分割,因为我发现合并片段或重新分配说话人比解开错误的合并要容易得多。 该应用程序使用针对探索性通话优化的提示,提供会议中的要点。它可以建议探究性问题,帮助您提取更多细节,或者通过“魔术棒”式问题(例如,“您理想的系统将如何工作”)帮助您重新聚焦于大局。让低延迟模型提供新颖、相关且完全没有虚构的信息有点困难,它倾向于频繁地重述转录内容,但有时也会从中提炼出一些精华,所以最好将其视为灵感来源,并保持警惕。 它的设置方式是,可以通过按住键盘快捷键来开始和结束录音,而不是连接到您的日历服务。我更喜欢这种方式,以保护隐私并避免转录历史变得混乱。点击快捷键会显示或隐藏一个始终置顶的覆盖层,无论您是否有其他应用程序全屏,它都会显示在您的活动屏幕上。除了简单的导航,您还可以使用语音命令进行会议后修正或添加,例如,您可以简单地说“将此说话人与那个说话人合并”来清理转录内容。 它还具有一键通话/听写功能,并带有 LLM 清理功能——虽然这曾是该应用程序的初衷,但这类工具对开发者来说就像猫薄荷,实在太多了。 一位在金融领域工作的朋友审查了该网站,他说他会放弃,因为隐私方面的说明不够充分,所以我添加了一个完全设备端模式和一个自带密钥选项。使用云模型确实能极大地提升体验,包括上下文感知的说话人合并和片段清理、会议中的摘要项、归属的行动项等。设备端模式完全免费,并且说话人识别仍然非常有用。 隐私方面是我对这款应用程序最大的担忧,尤其是考虑到它的目标用户是更具技术性的人群。我非常希望听到大家对此的看法,任何反馈都将非常有帮助。