1 分•作者: mrdosija•6 个月前
返回首页
最新
1 分•作者: seinecle•6 个月前
1 分•作者: tomccc•6 个月前
1 分•作者: marvel_boy•6 个月前
1 分•作者: quick_brown_fox•6 个月前
1 分•作者: shouldweshipit•6 个月前
1 分•作者: akshatjiwan•6 个月前
6 分•作者: tjruesch•6 个月前
嗨,HN,
我是 Bridge Anonymization 的维护者之一。我们构建这个工具是因为现有的敏感用户内容翻译解决方案对于我们许多注重隐私的客户(政府、银行、医疗保健等)来说是不够的。
我们无法将 PII(个人身份信息)发送给第三方 API,但标准的编辑会破坏翻译质量。如果你将“John”替换为“[PERSON]”,翻译引擎会丢失性别语境(通常默认为男性),这会破坏法语或德语等语言的语法一致性。
因此,我们为 Node.js/Bun 构建了一个可逆的、本地优先的管道。以下是我们实现棘手部分的方法:
0. 映射
我们使用类似 XML 的标签,带有唯一标识 PII 的 ID,例如 `<PII type=”PERSON” id=”1”>`。翻译模型及其周围的系统从计算机辅助翻译工具诞生之日起就使用 XML 数据结构,因此这提高了与现有工作流程和系统的兼容性。`PIIMap` 在本地存储,用于翻译后的重新水化(默认情况下使用 AES-256-GCM 加密)。
1. 混合检测引擎
显然,单独使用正则表达式或 NER(命名实体识别)是不够的。
* 结构化 PII:我们对 IBAN(Mod-97)和信用卡(Luhn)等内容使用严格的正则表达式和验证校验和。
* 软 PII:对于姓名和地点,我们通过 `onnxruntime-node` 在进程中直接运行量化的 `xlm-roberta` 模型。这使我们能够避免使用 Python 辅助程序,同时保持软件包“轻量级”(对于量化模型来说仍然约为 280MB,但对于桌面环境来说是可以接受的)。
2. “幻觉”防护(模糊重新水化)
LLM 经常在翻译过程中“篡改” XML 占位符(例如,将 `<PII id=”1”/>` 变成 `< PII id = « 1 » >`)。
我们实现了一个模糊标签匹配器,它使用灵活的正则表达式模式来检测这些伪影。即使属性被重新排序或引号被更改,它也能识别标签,确保我们始终可以将标记映射回原始加密值。
3. 语义掩蔽
我们目前正在研究“语义掩蔽”——向 PII 标签添加上下文(例如 `<PII type=”PERSON” gender=”female” id=”1” />`),以保留翻译的(性别)上下文。目前,我们依赖于轻量级的查找表方法,以避免第二个机器学习模型的开销或微调的麻烦。到目前为止,这在大多数用例中效果很好。
代码采用 MIT 许可证。我很想听听其他人如何处理隐私保护 NLP 管道中的“上下文丢失”问题!我认为这也很容易推广到其他 LLM 应用中。
2 分•作者: pedrodelfino•6 个月前
2 分•作者: saghm•6 个月前
2 分•作者: bcjordan•6 个月前
3 分•作者: pgedge_postgres•6 个月前
1 分•作者: todsacerdoti•6 个月前
1 分•作者: ascorbic•6 个月前
查询 -t LOC santa.mk.gg 的主机记录
1 分•作者: codenameaustin•6 个月前
嗨,HN!
我是一个交易期权的独立创始人,我厌倦了为各种不同的工具每月支付 100-300 美元:一个用于 GEX,一个用于回测,一个用于扫描,另一个用于交易想法,还有一个用于波动率……感觉就像被无数订阅“凌迟处死”。
所以我建立了一个网站,取代了所有这些工具,并且完全免费。
对于任何交易期权的人来说,它基本上是你最喜欢的赚钱工具的集合,并提供超级慷慨的免费套餐,这样你就不需要付费,除非你是一个疯狂的超级用户。
<i>目前包括:</i>
- 期权回测器
- GEX(伽马敞口)可视化
- 交易想法和资金流向 - 异常期权活动扫描器
- 概率计算器和 DTE 分析
- 策略模型和优势工具
- ……以及我过去在 10 多个不同网站上付费使用的更多功能
<i>我为什么建立它</i>
在过去的几年里,我发现自己为了有效地进行交易,不得不同时使用太多昂贵的订阅。
有些工具每月 150 美元,有些每月 80 美元,还有一些将基本功能锁定在付费墙后面。这给新交易者——正是那些最需要这些工具的人——造成了巨大的经济障碍。
因此,在过去的 3 个月里,我专注于每一个细节,构建了一个简洁、快速的工具箱,它在一个地方为交易者提供了一切,而无需痛苦的订阅堆叠。
<i>数据透明度</i>
该工具箱使用 ORATS 机构数据,这通常要花费我每月 600 美元。
没有可疑的数据抓取。没有可疑的聚合器。
只是一个使用高质量期权数据的干净界面。
<i>它适用于谁</i>
- 期权卖方
- 趋势交易者
- 收益交易者
- 学习期权的人
- 以及任何厌倦了 5-10 个订阅来做基本研究的人
<i>在这里试用</i>
<a href="https://optionstradingtoolbox.com" rel="nofollow">https://optionstradingtoolbox.com</a>
问我任何问题!我会在评论中保持活跃!
感谢您的阅读
圣诞快乐,奥斯汀(独立创始人)
1 分•作者: meetpateltech•6 个月前
1 分•作者: grodola•6 个月前
1 分•作者: williamjsdavis•6 个月前
1 分•作者: karma_daemon•6 个月前
2 分•作者: recvonline•6 个月前