最新

下班之后的工作：一个失业的应届毕业生眼中的就业市场崩溃笔记

3 分•作者: linkregister•7 个月前

银河脑抵抗

2 分•作者: yurivish•7 个月前

雨：通过硬件漏洞的云泄漏——Vusec

1 分•作者: SpaghettiCthulu•7 个月前

苹果正在为 iPhone 开发这 5 项新的卫星功能

1 分•作者: mgh2•7 个月前

Show HN: Mxflo – 在手机上编写 2D 游戏并即时游玩

2 分•作者: adithiya_shiva•7 个月前

Show HN: Alignmenter – 衡量品牌声音和在不同模型版本中的一致性

1 分•作者: justingrosvenor•7 个月前

我构建了一个用于衡量会话式AI系统中角色对齐的框架。 *问题：* 当你发布一个AI副驾驶时，你需要它在不同模型版本中保持一致的品牌声音。但是，“听起来对”是主观的。你如何让它可衡量？ *方法：* Alignmenter 对三个维度进行评分： 1. *真实性*：风格相似度（嵌入）+ 特征模式（逻辑回归）+ 词汇合规性 + 可选的LLM评估器 2. *安全性*：关键词规则 + 离线分类器（distilroberta）+ 可选的LLM评估器 3. *稳定性*：响应分布的余弦方差有趣的部分是校准：你可以在标记数据上训练特定角色的模型。对组件权重进行网格搜索，估计归一化界限，并针对ROC-AUC进行优化。 *验证：* 我们发表了一个完整的案例研究，使用了Wendy的Twitter声音： - 数据集：235轮对话，64个符合品牌 / 72个不符合品牌（平衡） - 基线（未校准）：0.733 ROC-AUC - 校准后：1.0 ROC-AUC - 1.0 F1 - 学习结果：风格 > 特征 > 词汇（0.5/0.4/0.1权重）完整方法：[https://docs.alignmenter.com/case-studies/wendys-twitter/](https://docs.alignmenter.com/case-studies/wendys-twitter/) 有一个完整的演练，你可以自己重现结果。 *实际应用：* ``` pip install alignmenter[safety] alignmenter run --model openai:gpt-4o --dataset my_data.jsonl ``` 它是Apache 2.0许可，可离线运行，并专为CI/CD集成而设计。 GitHub：[https://github.com/justinGrosvenor/alignmenter](https://github.com/justinGrosvenor/alignmenter) 对校准方法感兴趣，并想了解这个问题是否也引起了其他人的共鸣。

在伯尔尼结识新朋友，建立联系的好去处

2 分•作者: chagaif•7 个月前

BBC 负责人因特朗普演讲编辑问题辞职

2 分•作者: embedding-shape•7 个月前

我谈论评分时所谈论的事

1 分•作者: paulorlando•7 个月前

加州大学圣巴巴拉分校图书馆与Dust-to-Digital基金会合作发布美国历史音乐

1 分•作者: NaOH•7 个月前

保持专注

1 分•作者: wslh•7 个月前

Ask HN: 如何获得 Digg 的代码？哪位在 Digg 工作的人能分享一下，谢谢

1 分•作者: babuloseo•7 个月前

你好！我想研究一下 Digg，看看它到底是什么。请帮帮我，哈哈！我在 Reddit 上运营一些大型子版块，我希望 Reddit 上所有好的东西（爱好类子版块、科技类子版块、梗图类子版块，以及所有好的东西）都能迁移过来。请问我可以申请一个用户码加入吗？请告诉我这是不是问问题的好地方，哈哈。

Show HN: Trilogy Studio，开源、基于浏览器的 SQL 编辑器和可视化工具

1 分•作者: efromvt•7 个月前

以 SQL 为核心的分析型 IDE；类似于 Redash/Metabase。旨在通过修改后的语法 Trilogy 在代码层解决复用/可组合性问题，该语法在类似 SQL 的语言中直接包含语义层。状态：实验阶段；欢迎反馈和贡献！构建该工具是为了解决我使用 SQL 作为主要迭代分析语言时遇到的 3 个问题：1. 调整查询/分析需要大量样板代码。通过对语义层进行操作的查询来解决，而不是对表进行操作。同时也消除了对 CTE 的需求。2. 事实来源一直在变化。我讨厌更新报告以引用新表。同样通过语义层解决，因为可以更新数据绑定，而无需更改仪表板或查询。3. 在许多工具中，从 SQL 到可视化的过程过于繁琐；使其尽可能简化。惊喜 - 通过语义层解决；添加更具表现力的类型以获得更好的默认值；同时使用它来连接自动下钻/交叉过滤。支持：bigquery、duckdb、snowflake。链接 [1] <a href="https://trilogydata.dev/" rel="nofollow">https://trilogydata.dev/</a>（语言信息）Git 链接： [前端] <a href="https://github.com/trilogy-data/trilogy-studio-core" rel="nofollow">https://github.com/trilogy-data/trilogy-studio-core</a> [语言] <a href="https://github.com/trilogy-data/pytrilogy" rel="nofollow">https://github.com/trilogy-data/pytrilogy</a>先前： <a href="https://news.ycombinator.com/item?id=44106070">https://news.ycombinator.com/item?id=44106070</a>（自此以来，用户体验/功能进行了重大改进） <a href="https://news.ycombinator.com/item?id=42231325">https://news.ycombinator.com/item?id=42231325</a>

人工智能会抢走我们的工作和工资吗？过去的预测提供了一些线索

4 分•作者: billybuckwheat•7 个月前

法国旧渔网在乌克兰对抗俄罗斯无人机中发挥关键作用

3 分•作者: gnabgib•7 个月前

一首AI创作的乡村歌曲登上公告牌榜首

2 分•作者: mfiguiere•7 个月前

巴多量子加密

2 分•作者: Typexex•7 个月前

Linux 内核拟“咬紧牙关”支持微软 C 扩展

2 分•作者: Bender•7 个月前

让你尝试新工具的那个入职引导“钩子”是什么？

2 分•作者: gbukat•7 个月前

我正在构建一个小型监控和任务自动化工具，很希望向您学习：在您试用新工具时，入职流程中哪一点让您真正愿意尝试？是预先填充了虚假数据的演示？“一键”设置？从 Prometheus 或 Grafana 导入？或者仅仅是出色的默认设置和文案，让您感觉毫不费力？我特别好奇开发人员和运维团队是如何决定是否值得测试某样东西的。很希望听到您关于有效或无效的入职体验的例子。

我讨厌的配置语言特性

2 分•作者: birdculture•7 个月前

上一页 1...3273 3274 3275 3276 3277...5318 下一页