1作者: honorable_coder5 个月前
嗨 HN 我有一个想要解决的个人问题,并且认为这可能对其他人有用:如果你像我一样是 ChatGPT Pro 用户,你可能已经厌倦了反复点击模型选择下拉菜单来选择模型,输入提示,然后一遍又一遍地重复这个循环。所以我构建了 RouteGPT 来结束这种重复操作。 RouteGPT 是一个针对 chatgpt.com 的 Chrome 扩展程序,它根据你定义的偏好自动为你的提示选择正确的 OpenAI 模型。例如:“创意小说写作,故事创意,富有想象力的散文” → GPT-4o,或者“批判性分析,深刻见解和市场调查” → o3 它是如何工作的? 在底层,RouteGPT 将路由决策解耦为两个阶段:路由选择和模型分配。 路由选择:这是“是什么”。你使用“领域-动作分类法”定义一组人类可读的路由策略。可以将其视为可以用通俗易懂的语言捕捉的清晰的使用场景。更具体地说,你使用以自然语言表达的领域-动作分类法(例如,医疗保健、代码解释)来定义路由策略。路由选择由一个小型(但功能强大)的 15 亿参数 LLM 路由模型 [1] 预测。你可以在论文 [2] 中阅读更多关于这项研究的内容。 模型分配:这是“如何做”。一个单独的、简单的映射配置将每个策略连接到特定的 LLM。例如,finance/analyze_earnings_report 策略可能映射到像 GPT-4o 这样强大的模型,而一个更简单的 general/greeting 策略则映射到一个更快、更便宜的模型。 希望大家喜欢这个扩展程序——“vibe coding” 很有趣。 [1] 模型:<a href="https://huggingface.co/katanemo/Arch-Router-1.5B" rel="nofollow">https://huggingface.co/katanemo/Arch-Router-1.5B</a> [2] 论文:<a href="https://arxiv.org/abs/2506.16655" rel="nofollow">https://arxiv.org/abs/2506.16655</a> 附注:顺便说一句,如果你想将这种偏好对齐的路由用于你的聊天机器人,它已完全打包并集成到 Arch 中:我构建的开源边缘和服务代理:<a href="https://github.com/katanemo/archgw">https://github.com/katanemo/archgw</a>
4作者: rushingcreek5 个月前
Hi HN, 今天我们推出了 phind.design (<a href="https:&#x2F;&#x2F;phind.design" rel="nofollow">https:&#x2F;&#x2F;phind.design</a>),这是一个图像编辑器和设计工具,它使用 4o 和定制模型,允许用户生成和编辑各种设计,从logo和广告到创意网站和应用程序设计。 4o 非常擅长生成图像的初稿,但如果没有搞乱其他部分,它无法编辑图像。我们通过在聊天中运行 Flux Kontext 以及引入由定制模型驱动的精确编辑器来解决这个问题,用户可以在其中指示要修改的区域,我们保证只修改该区域。 在我们的测试中,我们的精确编辑器在图像编辑方面是 state-of-the-art(最先进的),并且允许将新的附加图像插入到现有图像中。后者允许用户将logo、产品或人脸插入到图像中,而不会搞乱图像的其他部分,甚至可以修复被 4o 搞乱的logo和人脸。使用精确编辑模型进行文本编辑仍在进行中,我们将在该模型的下一次迭代中修复它。我们建议目前使用聊天进行文本编辑。 示例:将 UT Austin logo 插入到直升机广告中 (<a href="https:&#x2F;&#x2F;phind.design&#x2F;edit?chat=cmd27o2n10001l704h6865f3u" rel="nofollow">https:&#x2F;&#x2F;phind.design&#x2F;edit?chat=cmd27o2n10001l704h6865f3u</a>) 我们还始终为图像生成和编辑生成多个变体,因为我们认为这种多样性对于获得您所要求的确切结果非常重要。 示例:Paul Graham 在创业天堂 (<a href="https:&#x2F;&#x2F;phind.design&#x2F;edit?chat=cmd23h91c000jky04no5d92uy" rel="nofollow">https:&#x2F;&#x2F;phind.design&#x2F;edit?chat=cmd23h91c000jky04no5d92uy</a>) 我们感到兴奋的一件事是为 AI 生成的网站添加更多变化,因为许多网站构建器都使用相同的 CSS 库,因此许多网站最终看起来都一样。我们希望允许构建者和创意人员以现有工具所需时间的 1/10 的时间制作真正独特的设计。 示例:为我制作一个 Popeyes 登陆页面,让眼睛真正地弹出来 (<a href="https:&#x2F;&#x2F;phind.design&#x2F;edit?chat=cmd25imtm0001jr046nsag4lu" rel="nofollow">https:&#x2F;&#x2F;phind.design&#x2F;edit?chat=cmd25imtm0001jr046nsag4lu</a>) 示例:一张火车地图,用三明治配料代替地铁站。(<a href="https:&#x2F;&#x2F;phind.design&#x2F;edit?chat=cmd23i98c0001ie04l56npyj3" rel="nofollow">https:&#x2F;&#x2F;phind.design&#x2F;edit?chat=cmd23i98c0001ie04l56npyj3</a>) 作为工程师,我们一直对学习 Figma 或 Photoshop 所需的时间投入感到沮丧,我们希望 phind.design 能够让您从零开始,轻松实现您最疯狂的创意。 编辑器远非完美,尤其是在文本方面。我们正在努力,并且正在开发一个新的定制精确编辑模型。与此同时,我们很高兴听到您的评论和反馈!
26作者: AMeckes5 个月前
我们构建了 any-llm,因为它需要一个轻量级的 LLM 提供商路由器,并且开销最小。在不同模型之间切换只需更改字符串:将 "openai/gpt-4" 更新为 "anthropic/claude-3" 就完成了。<p>它在可用时使用官方提供商的 SDK,这很有帮助,因为提供商会处理自己的兼容性更新。 也不需要代理或网关服务,所以入门非常简单——只需 pip install 并导入即可。<p>目前支持 20 多个提供商,包括 OpenAI、Anthropic、Google、Mistral 和 AWS Bedrock。 欢迎分享您的想法!
1作者: martianmanhunt5 个月前
你可以同时与多个提供商的 LLM 对话并比较结果。 正在征求关于哪些自定义功能对您有用的反馈。<p>我认为这对于那些想用多个 LLM 尝试编码并选择最佳模型的人来说可能很有用。<p>我将很快研究添加多模态支持。
1作者: gpt4o5 个月前
我们刚刚推出了开放 LLM 规范(OLLS)——一个社区驱动的标准,统一了开发者与大型语言模型(LLM)交互的方式,涵盖了 OpenAI、Anthropic、Google 等提供商。<p>目前,每个提供商都有不同的请求/响应格式,这使得集成变得非常麻烦:<p>解析响应不一致<p>切换模型需要自定义包装器<p>错误处理和元数据差异很大<p>OLLS 定义了一个简单、可扩展的 JSON 规范,用于输入(提示、参数、元数据)和输出(内容、推理、使用情况、错误)。 可以把它想象成 LLM 的 OpenAPI——可移植、可预测且与提供商无关。<p>GitHub 仓库 - <a href="https:&#x2F;&#x2F;github.com&#x2F;julurisaichandu&#x2F;open-llm-specification">https:&#x2F;&#x2F;github.com&#x2F;julurisaichandu&#x2F;open-llm-specification</a> 示例输入/输出格式、目标和路线图 欢迎贡献者、反馈和实际应用案例!<p>让我们构建一个统一的 LLM 接口——贡献想法或参与讨论