2 分•作者: traceml-ai•16 天前
返回首页
最新
2 分•作者: karamalaskar•16 天前
嗨,HN,
我想分享一个我一直在开发的项目,名为 Convoxa。它是一个原生 iOS 转录器/摘要器。我主要有两个目标:保持效率和保护隐私。
技术栈
100% Swift & SwiftUI:没有繁重的跨平台封装器或臃肿的依赖项。
二进制大小:最终构建包仅为 4.8 MB。
转录:使用 Apple 最新的语音 API,以实现最大的隐私和效率。
挑战:绕过 4K 上下文限制
最大的技术障碍是使用 Apple 的基础模型。默认的上下文窗口限制为 4096 个 token,这对于超过 10 分钟的会议记录来说几乎无用。
我最终构建了一种递归分块方法,可以在不丢失对话全局上下文的情况下“喂给”模型长篇数据。我使用滑动窗口方法,其中每个分块的摘要都会影响下一个分块,确保最终输出不会在分块连接处“幻觉”。它现在已经足够稳定,可以处理长篇音频,同时在支持的硬件上完全在设备端运行。
隐私和 AI 模式
设备端:(需要 Apple Intelligence)- 完全本地处理。
云端:具有智能洞察力的推理(零数据保留)。
我目前正处于预订阶段(2 月 3 日发布),希望从社区获得关于性能和分块逻辑的反馈。
App Store:<a href="https://apps.apple.com/us/app/convoxa-ai-meeting-minutes/id6755150446">https://apps.apple.com/us/app/convoxa-ai-meeting-minutes/id6...</a>
1 分•作者: akyuu•16 天前
2 分•作者: proposal•16 天前
<a href="https://archive.is/mi308" rel="nofollow">https://archive.is/mi308</a>
1 分•作者: auraham•16 天前
1 分•作者: malshe•16 天前
1 分•作者: gmays•16 天前
2 分•作者: akyuu•16 天前
1 分•作者: coloneltcb•16 天前
1 分•作者: DustinEchoes•16 天前
1 分•作者: weinzierl•16 天前
3 分•作者: janpio•16 天前
15 分•作者: wkaisertexas•16 天前
4 分•作者: oxqbldpxo•16 天前
因为他用光了所有缓存。
2 分•作者: AIFairy•16 天前
萨蒂亚·纳德拉等人曾宣扬,生成式人工智能(GenAI)将取代各种 SaaS 服务的“业务逻辑”或“中间层”。他们的设想是,用户通过聊天界面与 GenAI 模型交互,然后模型直接与数据库交互。这将显然会使几乎所有 SaaS 应用程序的需求变得多余。
然而,实际情况是,GenAI 一直在向“堆栈”的上层移动,离数据库越来越远。现在没有人再谈论取代 SaaS 了。相反,GenAI 已经变成了一种点缀,你可以将其“叠加”在现有的 SaaS 应用程序之上,而无需真正取代它们任何预先存在的功能。
这种“向上移动”的变化充分说明了我们当前模型的无能为力。它们如此无能且不可靠,甚至无法取代 Excel 的任何一个部分。相反,微软所做的只是“将 GenAI 叠加其上”,将重担放在用户身上,让他们“弄清楚”如何使用它。我们从“用聊天代理取代它”变成了“直接在上面添加一个聊天代理,并寄希望于最好结果”。换句话说,我们实际上让我们的 SaaS 应用程序变得更加复杂,而不是整合它们的功能,从而简化它们。
21 分•作者: linolevan•16 天前
3 分•作者: dstamp•16 天前
2 分•作者: amadeuswoo•16 天前
不使用 API,而是从头开始训练一个模型,即使是很小的模型。<p>关于数据、训练过程或输出,你有什么感到惊讶的地方吗?
1 分•作者: pixelpoet•16 天前
1 分•作者: 01-_-•16 天前