1作者: spruce_tips7 个月前
和你们许多人一样,我正在使用服务器发送事件(SSE)从大型语言模型(LLM)那里逐个token地流式传输响应。<p>通过页面刷新来维持SSE连接的最佳方法是什么?<p>我没有看到很多关于这方面的文档或示例。在我使用过的大多数支持LLM的应用程序中,如果token正在流式传输,并且页面刷新/更改,流就会中断。<p>我有一个想法是将流式传输的token写入某种队列或Kafka主题,然后将我的UI连接到队列,并从那里流式传输token。但这似乎需要大量工作。<p>大多数人都是怎么做的呢?
4作者: akyshnik7 个月前
大家好,我是 Leaping AI 的 Arkadiy (<a href="https://leapingai.com">https://leapingai.com</a>)。Leaping 让你以多阶段、类似图的形式构建语音 AI 助手,这使得测试和改进变得更容易。通过评估通话的每个阶段,我们可以将错误和回归追溯到特定阶段。然后,我们自主地改变该阶段的提示并进行 A/B 测试,从而使助手能够随着时间的推移自我改进。<p>你可以在 <a href="https://leapingai.com">https://leapingai.com</a> 上直接与我们的一个机器人对话,并且有一个演示视频,网址是 <a href="https://www.youtube.com/watch?v=xSajXYJmxW4" rel="nofollow">https://www.youtube.com/watch?v=xSajXYJmxW4</a>。<p>大型公司对于让 AI 开始接听他们的电话犹豫不决——这项技术勉强可用,但通常效果不佳。如果他们真的冒险一试,往往需要花费数月的时间来调整单个用例的提示,有时甚至最终从未发布语音机器人。<p>这个问题是双方面的:用纯粹的语言来明确指定机器人应该如何行为并非易事,并且要确保 LLM 始终按照你期望的方式执行你的指令也很繁琐。<p>现有的语音 AI 解决方案对于复杂的用例来说设置起来很痛苦。它们需要数月的时间来提示所有边缘情况,然后才能上线,然后还需要数月的时间来监控和改进提示。我们通过运行一个持续的分析 + 测试循环,比人类提示工程师做得更好,而且速度更快。<p>我们的技术大致分为三个子组件:核心库、语音服务器和自我改进逻辑。核心库对多阶段(类似于 n8n)语音助手进行建模和执行。对于语音服务器,我们使用可靠的级联方式 STT-&gt;LLM-&gt;TTS。我们试用了语音到语音模型,尽管与它们对话感觉很好,但函数调用性能却出乎意料地差很多,所以我们仍在等待它们变得更好。<p>自我改进的工作原理是首先获取对话指标和评估结果,以产生“反馈”,即关于如何改进语音助手设置的具体想法。在收集到足够的反馈后,我们触发一个专门的自我改进助手的运行。它是一个类似光标的 AI,可以访问各种工具来更改主要的语音助手。它可以重写提示、配置一个阶段以使用总结的对话而不是完整的对话等等。每次迭代都会产生助手的快照,使我们能够将一小部分流量路由到它,并在一切正常的情况下将其推广到生产环境。这个循环可以设置为在没有任何人工干预的情况下运行,从而使助手能够自我改进。<p>Leaping 与用例无关,但我们目前专注于入站客户支持(旅游、零售、房地产等)和潜在客户预筛选(医疗保险、家庭服务、效果营销),因为我们在这些领域有很多成功案例。<p>我们最初在德国起步,因为我们当时在大学,但最初的增长具有挑战性。我们决定立即瞄准企业客户,他们表现出不愿意采用语音 AI 作为他们公司的“门面”。此外,对于每天有数千个电话的企业来说,监控所有电话并手动调整助手是不可行的。为了解决他们非常合理的担忧,我们投入了所有精力来提高可靠性——并且仍然没有提供自助访问,这也是我们还没有固定价格的原因之一。(此外,对于一些客户,我们有基于结果的定价,即对于没有转化潜在客户的电话,你无需支付任何费用,只需支付那些转化的电话。)<p>自从我们进入 YC 并搬到美国后,事情开始加速发展,但如果你试图向大型企业销售,这里也存在谨慎情绪。我们相信,做好评估、模拟和 A/B 测试是我们的竞争优势,并将使我们能够解决大型、敏感的用例。<p>我们很乐意听取你的想法和反馈!
51作者: felarof7 个月前
嘿,HN,我们是一家 YC 创业公司,正在构建一个开源、注重隐私的 Perplexity Comet 替代品。<p>不像其他一些产品,我们没有邀请系统——今天就可以从我们的网站或 GitHub 下载:<a href="https://github.com/browseros-ai/BrowserOS">https://github.com/browseros-ai/BrowserOS</a><p>--- 为什么要构建替代品?我们认为浏览器将成为新的操作系统,我们将把大量工作转移给 AI 代理。但这些代理将能够访问你所有敏感数据——电子邮件、文档,以及你的浏览器历史记录。因此,需要有开源、注重隐私的替代品。<p>我们不是搜索或广告公司,所以没有奇怪的激励措施。你的数据保存在你的机器上。<i>你可以使用 Ollama 的本地 LLM</i>。我们也支持 BYOK(自带密钥),所以没有每月 200 美元的套餐。<p>与 Perplexity Comet 的另一个重大区别是:我们的代理在你的浏览器中本地运行(而不是在他们的服务器上)。你实际上可以看着它点击和操作,这非常酷!这里有一个简短的演示:<a href="https://bit.ly/browserOS-demo" rel="nofollow">https://bit.ly/browserOS-demo</a><p>--- 我们是如何构建的?我们使用自己的修改来修补 Chromium 的 C++ 源代码,因此我们拥有与 Google Chrome 相同的安全性。我们还有一个自动更新程序,用于安全补丁和常规更新。<p>使用 Chromium 的 1500 万行 C++ 代码是另一个有趣的冒险,我正在写一篇关于它的博文。Cursor/VSCode 在这个规模下会崩溃,所以我们又开始使用 grep 来查找东西并进行更改。Claude 代码也出人意料地好用。<p>在我们的 M4 Max MacBook 上构建二进制文件大约需要 3 个小时。<p>--- 接下来?我们只有 2 个人,还有很多工作要做(Firefox 最初由 3 个黑客创建,历史总是惊人的相似!)。但我们坚信,一个支持本地 LLM 的、注重隐私的浏览器比以往任何时候都更重要——因为代理将能够访问如此多的敏感数据。<p>期待任何和所有的评论!
3作者: ebukao7 个月前
去年冬天,我女朋友正在写她的大学论文,需要手动转录数小时的采访录音。最后我帮了她一把,运行了一个本地的 Whisper 模型。几个月后,我决定以此为基础开发一个产品。这是一个简单的人工智能转录工具,可以让你上传音频或视频,并获得清晰、可读的文字稿。它非常适用于论文访谈、讲座、播客——任何有语音的内容。 * 每月免费套餐,时长可达 30 分钟。 * 支持音频和视频文件 * 说话人识别和标注。 * 人工智能洞察和摘要。 * 使用彩色标签整理和筛选你的文字稿 * 上传自定义词汇表,帮助改进转录效果 * 导出为与研究工具兼容的格式,如 NVivo、Atlas.ti、MAXQDA、R / RStudio 和 SPSS * 注重隐私保护(不会对你的数据进行训练),以及许多其他功能 该应用程序可在 www.verbatimly.com 上获取 我很乐意听取你的想法——无论你是学生、研究人员,还是只是曾经手动打字录入过冗长采访的人。请告诉我哪些功能好用,哪些不好用,以及哪些可以改进。 此外,我们很自豪地在德国制造。 很乐意回答问题或帮助任何人开始使用!