2作者: andupotorac7 个月前
如果进行氛围编码或生成媒体,文本输入对于复杂的提示来说会太慢。我为 React/Next.js 构建了一个全栈语音模式组件(UI + 逻辑 + 转录)。它处理了令人头疼的浏览器音频问题,所以你不用操心。<p>此外,还使用了 Gemini 3 在一个提示中生成了整个页面。:-)
1作者: fangzhang_new7 个月前
1作者: andrewdany7 个月前
大多数企业工作效率低下的原因,并非数据本身质量差,而是因为访问数据的界面过于分散。 一个简单的提问,比如“哪些交易停滞不前?”,需要涉及仪表盘、电子表格、客户关系管理系统(CRM)、商业智能(BI)工具、内部脚本,以及几个Slack线程。而根据答案采取行动,又需要在不同的系统之间切换。这种摩擦存在于中间环节。 Worqlo 正在尝试通过将对话作为界面层,将确定性工作流作为执行层来消除这种摩擦。 其理念很简单: 自然语言输入 → 验证后的工作流输出。 大型语言模型(LLM)负责处理意图。 结构化的工作流引擎负责执行:CRM查询、字段更新、通知、权限管理和审计日志。 模型本身从不直接执行操作。 以下是其工作原理。 为什么选择对话? 人们用问题思考。 系统用模式思考。 仪表盘介于两者之间。 由于每个系统都暴露了自己的用户界面(UI),因此界面会成倍增加。工程师最终不得不构建内部工具、过滤器、查询、分析页面和一次性自动化。这就是UI税。 对话减少了界面。 工作流增加了安全性和确定性。 架构(简化版) 用户 → LLM(意图) → 路由器 → 工作流引擎 → 连接器 → 系统 LLM 提取意图和参数。 没有执行权限。 意图路由器 将意图映射到已知的工作流模板。 工作流引擎 按顺序执行步骤: 模式验证 权限检查 CRM查询 API更新 通知 审计日志 连接器 针对CRM、ERP、内部API和消息传递系统的严格适配器。 如果出现以下情况,工作流引擎将拒绝运行: 字段不存在 数据类型不匹配 权限失败 工作流模板与用户意图不匹配 这可以防止常见的LLM失败情况:虚构的字段、不正确的API调用、不安全的操作等。 示例查询 用户: “给我看看本周DACH地区的销售线索” 内部流程: intent = llm.parse("pipeline query") validate(intent) fetch(data) aggregate(stats) return(summary) 后续: “将汉莎航空的交易重新分配给Julia,并提醒Alex跟进” 工作流: 按名称查找交易 验证所有权变更 编写CRM更新 发送Slack通知 编写审计日志 所有操作都通过确定性步骤运行。 为什么从销售开始? 销售CRM是结构化且可预测的。 工作流重复(重新分配、提醒、跟进)。 延迟很重要。 输出是可衡量的。 这使得该领域成为会话式工作流的良好测试环境。 长远来看,这并非仅限于销售。 同样的模式也适用于运营、财务、市场营销和人力资源。 为什么不直接使用“ChatGPT + API”? 因为那样容易出问题。 LLM不是可靠的执行引擎。 它们会虚构字段名称、ID、端点和逻辑。 企业系统需要安全、可审计的操作。 Worqlo将LLM视为解析器,而不是执行者。 执行在受控环境中进行,具有: 工作流模板 模式合约 基于角色的访问控制(RBAC) 日志 可重复的结果 这既保持了自然语言的便利性,又保持了经典自动化引擎的可靠性。 我们正在测试什么? 我们想看看: 对话是否可以取代UI,用于狭窄、结构化的任务 确定性执行是否可以与自然语言意图共存 多轮工作流是否真的可以减少运营负荷 连接器模型是否可以扩展,而不会造成另一个集成混乱 工程师是否更喜欢通过工作流而不是UI层来暴露功能 现在还处于早期阶段。 但该模型对于高容量、低级别的运营工作似乎很有前景。
1作者: iKasu7 个月前
时间点开始变得有点巧合了。今天——就在谷歌宣布与迈凯伦合作之后——F1TV 网站再次停止了对 Firefox 的支持。 今年早些时候也发生过类似的问题,当时 Mozilla 试图修复(https://techissuestoday.com/firefox-users-locked-out-of-f1tv-mozilla-engineer-confirms-a-fix-is-coming/)。他们的修复方案一直有效,直到今天。 在这么短的时间内两次出现问题,很难让人相信这只是巧合。我并没有声称这是故意的,但这种模式让我怀疑谷歌对 F1 的参与是否可能影响到哪些浏览器能获得适当的支持,即使是间接的。
1作者: escapecharacter7 个月前
我这里有近 20 年的工作笔记、通信、代码和文档。它们分散在多个(云)服务上,跨越这些“领地”进行搜索变得非常不切实际。 问题是这样的:“啊,我记得和某人讨论过 [算法],然后记录了一个重要的见解。让我们找到它。” 这并不是一个可以通过 LLM 解决的问题。阻碍在于没有办法在所有这些纯文本上运行搜索代码。 服务包括: * 电子邮件(Gmail,通过 Apple Mail 同步到我的 macOS 磁盘) * Dropbox * Notion * Google Drive * Obsidian * Github * Apple Notes * Discord 聊天记录 * Trello * 我的个人博客 如果我将所有内容都同步到我的 Mac 磁盘,也许我可以在那里进行纯文本搜索。然而,Spotlight 的索引总是不完整,并且会遗漏明显的文件。我的 Dropbox 太大了,我没有将所有内容都本地同步。 我不再使用一些服务,比如 Evernote。当我归档这项服务时,我导出了所有内容并将其移到了我的 Dropbox 中。所以,如果我搜索 Dropbox,它也会搜索来自 Evernote 的旧笔记。我不可能对所有我积极使用的服务都这样做。 我现在搜索的方式是猜测结果最有可能出现在哪个服务中,然后在那里搜索。当找不到结果时,我就会搜索下一个最有可能的服务,如此反复。 对于我的个人博客,我过去使用 Google 的网站搜索,但我最近发现它是不完整的:https://bsky.app/profile/dustinfreeman.bsky.social/post/3m5l5tto6pk27 我可以想象一个解决方案,即某个第三方服务拥有访问我所有服务的密钥。但说实话,这需要极大的信任。而且,我对所有这些服务的访问都启用了双因素身份验证,并且会过期,因此我需要不断地重新授权给这个第三方服务。到那时,直接像我现在这样搜索就更有意义了。