最新

里根宣布患阿尔茨海默病的信（1994年）

2 分•作者: kamaraju•10 个月前

4 分•作者: infoseekadvice•10 个月前

我最近在申请了针对我残疾的合理便利措施后被解雇了。我有自闭症，我要求如果我因为直接上司对我大喊大叫而需要退到会议室放松时，不要因为我的表现而受到惩罚——其他要求都很基本，比如未经允许不要碰我，因为人们习惯于从我身后突然出现吓我一跳，而不是发Teams消息。（如果你有感官问题，这就会是个问题）这实际上不是我第一次在工作场所遇到歧视。不幸的是，我从事一个相对专业的领域（信息安全）。尽管我比上次找分析师职位时更有经验，其中一些经验是在家庭实验室里无法学到的，比如SIEM，并且有书面的渗透测试经验，但我连一个电话面试或面试都没收到。由于最近的地缘政治，“进入联邦政府”似乎不是一个选择。你会如何处理上述情况？我应该扩大我的搜索范围到其他职位吗？也许从事销售或其他什么工作？在我上次找工作时，障碍似乎是我无法记录我的经验，因为我主要是自学成才，但我至少能得到面试机会，而且人们似乎尊重我在技能方面诚实，并且对这个主题有真正的兴趣。（这实际上是我的“特殊兴趣”——我每天都会阅读Hacker News和一个我创建的自定义multireddit，以了解信息安全领域的最新发展）我感到非常沮丧——我放弃了从事科技政策的梦想，想“回归本源”，作为一名黑客回到我的家乡，而我在当地政府担任的职位很有意义，而且福利很好。（养老金、休假等）我可以接受不适应华盛顿特区的文化，但我觉得我的家乡虐待了我。抛开情绪不谈，从实际角度来看……我需要收入。还有人遇到过类似的情况吗？你们是如何设法获得面试机会并最终找到工作的？我能做些什么项目来帮助提高我的市场竞争力？（过去我做过一些事情，比如飞到Defcon去建立人脉，但由于我的经济状况，今年无法做到。）

少年一项重大量子计算突破被宣告过时

5 分•作者: kwie•10 个月前

没人真正懂人工智能

127 分•作者: RickJWagner•10 个月前

兰斯，数据一览

1 分•作者: LAsteNERD•10 个月前

为 AMD MI300 创建自定义内核

1 分•作者: skidrow•10 个月前

在 Ada 架构上实现快速 Tensor Core 矩阵乘法

2 分•作者: skidrow•10 个月前

2025年的客户服务糟透了（手机）

1 分•作者: morpheos137•10 个月前

去支付我的手机费（按月套餐）。网站上的“支付”按钮无法使用，也没有任何明显的错误提示。网站提供了一个聊天功能。通过聊天机器人联系客服。转到人工客服。被要求重复我已经向机器人报告过的信息（他看不到完整的聊天记录吗？）。被要求提供我的电子邮件地址和电话号码（而我已登录与该电子邮件地址和电话号码关联的帐户，为什么他看不到？）。这对我来说是典型的在线支付服务体验，但在手机支付方面尤其糟糕。为什么公司要花钱雇佣人工客服来提问客户已经向他们的机器人回答过的问题，或者这些问题本应从他们数据库中应该拥有的客户详细信息中自动填充？如果一个愚蠢的机器人什么有用的事情都做不了，比如完成支付，然后还要求客户两次输入相同的信息，那要它干什么？我在实体店也看到了这种情况。我住在乡下。这里有一家加油站/便利店连锁店。一天中的任何时候，收银台前都排着队，柜台后面有三个店员，但只有一个收银台是开着的。这是一种令人沮丧的客户体验。另外两个店员在摆弄热狗或其他东西。这家加油站真的卖这么多热狗来雇佣第三个店员吗？同时开放两个收银台来服务顾客难道不是更好吗？或者你去沃尔玛。收银员不知道怎么装袋。排在前面的顾客总是试图用无效/未激活/透支的信用卡付款，收银员并没有引导他们去客户服务台，而是花了5分钟尝试解决这个问题，同时刷了他们的破卡片好几次。他们最终拿出另一张卡支付了订单，与此同时，现在已经排了六个人了。或者你去了商店，想在关门前5-10分钟买点东西，而员工已经锁上了门。这对我来说在疫情前从来都不是问题。以前企业都想做生意！在我这个脑子不太灵光的客服处理我的手机支付时，我写完了这整个帖子。

埃涅阿斯改变了历史学家连接过去的方式

1 分•作者: world2vec•10 个月前

她赢了，第三部分：魔鬼藏在数据里

1 分•作者: rbanffy•10 个月前

AMD Threadripper 处理器，由宝马 M4 散热器和丰田汉兰达风扇散热

1 分•作者: speckx•10 个月前

中国警告公民警惕存在后门设备的风险，建议购买国产技术产品

1 分•作者: rntn•10 个月前

共同任务：通往人文主义未来的路线图

2 分•作者: durakot•10 个月前

专为审计日志、时间旅行和可重放工作流而构建的数据库

1 分•作者: goloroden•10 个月前

每分钟800字的软件开发

30 分•作者: ClawsOnPaws•10 个月前

当滑动取代剪刀：触摸屏的隐形成本

22 分•作者: SLHamlet•10 个月前

没有线程安全，就没有内存安全。

31 分•作者: tavianator•10 个月前

Show HN: 现阶段，LLM 编写集成代码很糟糕

10 分•作者: sfaist•10 个月前

大家好，我是 superglue 的 Stefan。今天我想分享我们刚刚开源的一个新基准测试：Agent-API 基准测试，我们用它来测试 LLM 处理 API 的能力。我们向 LLM 提供了 API 文档，并要求它们编写代码来实际调用 API。例如“创建 Stripe 客户”或“发送 Slack 消息”。我们不是在测试它们是否可以使用 SDK；我们测试的是它们是否可以编写原始 HTTP 请求（具有适当的身份验证、标头、正文格式），这些请求在针对真实的 API 端点执行时确实有效，并且可以从响应中提取相关信息。总结：LLM 在编写使用 API 的代码方面很糟糕。我们使用 6 种不同的 LLM 运行了 630 个集成测试，涵盖了 21 个常用 API（Stripe、Slack、GitHub 等）。以下是我们的主要发现：- 最佳通用 LLM：成功率为 68%。这意味着每 3 次 API 调用中就有 1 次失败，大多数人认为这在生产环境中是不可行的- 我们的集成层获得了 91% 的成功率，这表明仅仅依靠更大/更好的 LLM 无法解决这个问题。- 只有 21 个 API 中的 6 个 API 始终有效，其他每个 API 都有失败的情况。- Anthropic 的模型在构建 API 集成方面明显优于其他提供商。以下是结果图表：<a href="https://superglue.ai/files/performance.png">https://superglue.ai/files/performance.png</a>导致 LLM 失败的原因：- 缺乏上下文（LLM 并不擅长理解存在哪些 API 端点以及它们的作用，即使你向它们提供了文档，我们也这样做了）- 多步骤工作流程（链接 API 调用）- 复杂的 API 设计：像 Square、PostHog、Asana 这样的 API（强制选择项目等会使 LLM 崩溃）我们已经开源了该基准测试，因此你可以测试任何 API 并查看其排名：<a href="https://github.com/superglue-ai/superglue/tree/main/packages/core/eval/api-ranking">https://github.com/superglue-ai/superglue/tree/main/packages...</a>查看该存储库，考虑点个星，或在 <a href="https://superglue.ai/api-ranking/">https://superglue.ai/api-ranking/</a> 处查看完整排名。如果你正在构建需要可靠 API 访问的 Agent，我们很乐意听取你的方法，或者你可以在 superglue.ai 尝试我们的集成层。接下来：基准测试 MCP。

其他所有内容

22 分•作者: speckx•10 个月前

Blender：鼠标键盘之外的操控

19 分•作者: dagmx•10 个月前

上一页 1...4413 4414 4415 4416 4417...4877 下一页