返回首页

一周热榜

2作者: notanaiagent4 天前
各位 HN 的朋友们,我是 Julius,Righthand 的联合创始人。我们一直在构建 AI 员工(我们称之为“Righthands”),它们能够真正融入您的工作流程,而不是等待指令。每个 Righthand 都有自己的名字、电子邮件地址和电话号码,并且在所有通信渠道中拥有统一的记忆。它们运行在独立的 E2B 沙盒中,拥有自己的文件系统和自定义 CLI。 我们之所以开发这个产品,是因为焦虑。每个人都有焦虑的事情,尤其是在工作中,我们意识到很多人焦虑的任务都是一些琐碎的事情,我们总是会推迟。并非出于任何好理由,而是因为我们就是不做。Righthand 的理念是,您应该能够直接将那些引起焦虑的电子邮件转发出去,或者在上班途中致电获取待办事项摘要。 过去 3 个月的一些真实客户使用案例: - 自动化收件箱分类 - 管理马耳他房产的维护人员 - 安排会议(实际上是几百次) - 预约医生 - 定制化每日简报 以上这些事情都曾是引起焦虑但又因优先级较低而未完成的任务。 在过去的两个月里,我们从头开始重建了技能系统(Skills V4),更新了定价模型,增加了更多客户,提高了对 Righthand “大脑”的可见性,并手工对接了大量客户。其他已上线的功能包括:夜间自我审查(Righthand 会审查自己一天的工作并写下笔记)、沙盒内的目标请求、沟通风格预设、Bedrock + Codex 备用路由以应对长时间运行的个性化需求、并行网络搜索、通过浏览器使用自动配置 Slack 应用(是的,我们确实通过无头浏览器驱动 api.slack.com 来为每个 Righthand 配置自己的应用——很乐意详细说明原因)。 现在提供无卡试用:https://www.righthand.ai。定价为 99 美元的入门版 / 199 美元的专业版,均提供 1 周免费试用。提问:非常希望获得关于 UI / 交互模式的反馈。请尝试完成 onboarding 流程,并告诉我们您喜欢和不喜欢的地方。您在 7 天内不会被收费,并且可以轻松取消。
2作者: mattsadowsky4 天前
我计划在五月份的 SaaS 中集成一个模块,允许用户使用 LLM Agent 讨论其工作区中的数据、功能和模块。 在聊天中渲染 UI,我应该采用什么方法?有什么建议吗?
2作者: narenst4 天前
大家好!我和我七岁的女儿一起制作了一款 iPad 应用,让学习拼写变得有趣。<p><a href="https:&#x2F;&#x2F;spellabee.com&#x2F;" rel="nofollow">https:&#x2F;&#x2F;spellabee.com&#x2F;</a><p>我们在开车时玩“拼写蜂”类的游戏,她想通过这种方式学习更多单词。于是我们构建了一个简单的应用程序,一次教授 10 个单词,让孩子们练习并掌握这 10 个单词。<p>应用中的完整单词列表是静态的,随着孩子通过关卡,难度会逐渐增加。应用中没有人工智能功能。我不会在应用内收集电子邮件,也没有第三方追踪器。根据反馈(评论)和汇总的使用数据,我计划通过新的单词集来更新该应用。<p>尽管该应用没有任何人工智能功能,但我使用了人工智能来构建应用本身。我使用 Claude 用 Flutter 编写了应用代码,进行了词源研究,并了解了 App Store 中有哪些替代应用。虽然大型语言模型提供了大量信息,但我必须对其进行综合,并扮演一个强大的产品经理角色来推动愿景并保持应用的简洁性。我的女儿提供了很多反馈,帮助简化了应用并优化了用户体验。“蜜蜂舞台”的设计灵感就来源于她的画作。<p>如果没有人工智能工具,我几乎不可能构建并发布这个应用。但它仍然需要大量的决策和优先级排序才能将产品推向市场。我坚信,虽然人工智能是一个强大的工具,但人类的品味是优质产品与众不同的关键。<p>如果您有 K-5 年级的孩子对“拼写蜂”类游戏感兴趣,不妨试试看,我非常乐意听取您作为家长的任何反馈。<p>App Store:<a href="https:&#x2F;&#x2F;apps.apple.com&#x2F;app&#x2F;apple-store&#x2F;id6768881287?pt=128671964&amp;ct=hn&amp;mt=8">https:&#x2F;&#x2F;apps.apple.com&#x2F;app&#x2F;apple-store&#x2F;id6768881287?pt=12867...</a>
2作者: AbstractH244 天前
很明显,人工智能公司正逐渐转向关注这一点。 在泡沫破裂之前,90年代是否有过这方面的努力? 我那时还是个孩子,只记得像“杂货界的Priceline”这样的概念和疯狂的首次公开募股(IPO),但除此之外记得的不多。 我一直对其中的相似之处和可以吸取的教训很感兴趣。
2作者: RoyalTnetennba6 天前
我需要一个分类器来处理那些不属于典型机器学习应用场景的、细微的、主观的分类(例如,“这是否是剧透?”、“这是否事实正确?”、“这个用户是否在说谎?”)。我最终对我构建的解决这个问题的架构非常满意,于是我将其作为一个独立的 API 和服务推出了,名为 CriteriaBot。 **它的作用:** 你提供内容和简单的英文标准。它会给出内容是否符合这些标准是/否的判断。 **它的工作原理:** 除了传统的分类器外,分类请求还会通过一个由小型、开放权重的大型语言模型(LLM)组成的池进行路由,以达成共识判断。 我构建了一个预投票因子分解机,根据主题/类别的嵌入来选择一个优化的 LLM 子集,以获得最佳信号强度。然后,第二个因子分解机读取投票和嵌入,得出单一的判断。该判断会根据用户在语义相似评估中与模型达成一致/不一致的历史记录进行动态调整。 这些模型还连接到维基百科和 Wolfram,以支持需要最新信息或数学依据的边缘情况。 **发现:** * 使用相同的测试环境和样本集,Gemma 4 26B 的准确率仅比 Opus 4.8 低约 1 个百分点。 * 纯粹的“神谕”模型理论上非常好——目前在数据集上准确率约为 98%。我将第二个因子分解机用作组合器,因为它理论上可以超越“神谕”结果,但这是一个有趣的备用方案。 * 最有用的大型语言模型出乎我的意料——LFM2 24B 对共识的贡献最大,尽管它单独来看(在我们目前的大型语言模型池中)是最差的。它与其他模型的关联度最低(也许是由于其独特的架构?),这使得它在某些问题上成为一个有用的信号。 * 处理用户提交图像的法律义务……非常复杂。在我解决这个问题之前,我已经为非我本人用户禁用了图像支持(如果你希望尝试“热狗,不是热狗”的话)。 * Rails 将“criteria”的复数形式错误地单数化为“criterium”,直到我花了大量精力去修复才意识到这是错误的。 **发布原因:** 我一直处于倦怠状态,而让这个项目运行起来让我感到非常满足。我生活中大部分非技术人员很难对此给出除了“这是什么?”之外的反应。 我非常乐意收到你任何诚实的反馈。