3 分•作者: linkregister•7 个月前
返回首页
最新
2 分•作者: yurivish•7 个月前
1 分•作者: SpaghettiCthulu•7 个月前
1 分•作者: mgh2•7 个月前
2 分•作者: adithiya_shiva•7 个月前
1 分•作者: justingrosvenor•7 个月前
我构建了一个用于衡量会话式AI系统中角色对齐的框架。
*问题:*
当你发布一个AI副驾驶时,你需要它在不同模型版本中保持一致的品牌声音。但是,“听起来对”是主观的。你如何让它可衡量?
*方法:* Alignmenter 对三个维度进行评分:
1. *真实性*:风格相似度(嵌入)+ 特征模式(逻辑回归)+ 词汇合规性 + 可选的LLM评估器
2. *安全性*:关键词规则 + 离线分类器(distilroberta)+ 可选的LLM评估器
3. *稳定性*:响应分布的余弦方差
有趣的部分是校准:你可以在标记数据上训练特定角色的模型。对组件权重进行网格搜索,估计归一化界限,并针对ROC-AUC进行优化。
*验证:* 我们发表了一个完整的案例研究,使用了Wendy的Twitter声音:
- 数据集:235轮对话,64个符合品牌 / 72个不符合品牌(平衡)
- 基线(未校准):0.733 ROC-AUC
- 校准后:1.0 ROC-AUC - 1.0 F1
- 学习结果:风格 > 特征 > 词汇(0.5/0.4/0.1权重)
完整方法:[https://docs.alignmenter.com/case-studies/wendys-twitter/](https://docs.alignmenter.com/case-studies/wendys-twitter/)
有一个完整的演练,你可以自己重现结果。
*实际应用:*
```
pip install alignmenter[safety]
alignmenter run --model openai:gpt-4o --dataset my_data.jsonl
```
它是Apache 2.0许可,可离线运行,并专为CI/CD集成而设计。
GitHub:[https://github.com/justinGrosvenor/alignmenter](https://github.com/justinGrosvenor/alignmenter)
对校准方法感兴趣,并想了解这个问题是否也引起了其他人的共鸣。
2 分•作者: chagaif•7 个月前
2 分•作者: embedding-shape•7 个月前
1 分•作者: paulorlando•7 个月前
1 分•作者: NaOH•7 个月前
1 分•作者: wslh•7 个月前
1 分•作者: babuloseo•7 个月前
你好!我想研究一下 Digg,看看它到底是什么。请帮帮我,哈哈!我在 Reddit 上运营一些大型子版块,我希望 Reddit 上所有好的东西(爱好类子版块、科技类子版块、梗图类子版块,以及所有好的东西)都能迁移过来。请问我可以申请一个用户码加入吗?请告诉我这是不是问问题的好地方,哈哈。
1 分•作者: efromvt•7 个月前
以 SQL 为核心的分析型 IDE;类似于 Redash/Metabase。旨在通过修改后的语法 Trilogy 在代码层解决复用/可组合性问题,该语法在类似 SQL 的语言中直接包含语义层。<p>状态:实验阶段;欢迎反馈和贡献!<p>构建该工具是为了解决我使用 SQL 作为主要迭代分析语言时遇到的 3 个问题:<p>1. 调整查询/分析需要大量样板代码。通过对语义层进行操作的查询来解决,而不是对表进行操作。同时也消除了对 CTE 的需求。<p>2. 事实来源一直在变化。我讨厌更新报告以引用新表。同样通过语义层解决,因为可以更新数据绑定,而无需更改仪表板或查询。<p>3. 在许多工具中,从 SQL 到可视化的过程过于繁琐;使其尽可能简化。惊喜 - 通过语义层解决;添加更具表现力的类型以获得更好的默认值;同时使用它来连接自动下钻/交叉过滤。<p>支持:bigquery、duckdb、snowflake。<p>链接
[1] <a href="https://trilogydata.dev/" rel="nofollow">https://trilogydata.dev/</a>(语言信息)<p>Git 链接:
[前端] <a href="https://github.com/trilogy-data/trilogy-studio-core" rel="nofollow">https://github.com/trilogy-data/trilogy-studio-core</a>
[语言] <a href="https://github.com/trilogy-data/pytrilogy" rel="nofollow">https://github.com/trilogy-data/pytrilogy</a><p>先前:
<a href="https://news.ycombinator.com/item?id=44106070">https://news.ycombinator.com/item?id=44106070</a>(自此以来,用户体验/功能进行了重大改进)
<a href="https://news.ycombinator.com/item?id=42231325">https://news.ycombinator.com/item?id=42231325</a>
4 分•作者: billybuckwheat•7 个月前
3 分•作者: gnabgib•7 个月前
2 分•作者: mfiguiere•7 个月前
2 分•作者: Typexex•7 个月前
2 分•作者: Bender•7 个月前
2 分•作者: gbukat•7 个月前
我正在构建一个小型监控和任务自动化工具,很希望向您学习:
在您试用新工具时,入职流程中哪一点让您真正愿意尝试?
是预先填充了虚假数据的演示?“一键”设置?从 Prometheus 或 Grafana 导入?或者仅仅是出色的默认设置和文案,让您感觉毫不费力?
我特别好奇开发人员和运维团队是如何决定是否值得测试某样东西的。
很希望听到您关于有效或无效的入职体验的例子。
2 分•作者: birdculture•7 个月前