提问 HN:你会支持一项关于给 AI 输出内容“打标签”的标准提案吗? 1 分•作者: jacquesm•6 个月前你是否支持这样一项提议:所有人工智能的输出都必须以一种能够区分其与人类创作成果的形式呈现? 我知道总会有规避的方法,但至少这会在去除此类输出的“污染”问题上引发明确的思考。 参考:https://news.ycombinator.com/item?id=46496164
Skimfeed 更改了其 URL 链接方式。 1 分•作者: markx2•6 个月前查看上个月的链接,如果你将鼠标悬停在链接上,它会显示类似这样的内容:<p>https://skimfeed.com/r.php?q=2tech&l=16140774&u=https%3A%2F%2Fwww.nytimes.com%2F2025%2F03%2F16%2Fopinion%2Fcovid-pandemic-lab-leak.html,你可以看到目标网址。<p>但现在,当你悬停在链接上时,你会看到类似这样的内容:<p>https://skimfeed.com/r.php?q=2tech&l=17157497&h=%3D%3DaHR0cHMlM0ElMkYlMkZvZmZpY2VjaGFpLmNvbSUyRmFpJTJGbGxtcy1hcmUtY3VycmVudGx5LW5vdC1oZWxwZnVsLWF0LWFsbC1mb3ItbWF0aC1yZXNlYXJjaC1naXZlLWdhcmJhZ2UtYW5zd2Vycy1tYXRoZW1hdGljaWFuLWpvZWwtZGF2aWQtaGFta2lucyUyRg<p>这让我想起了几年前谷歌在搜索结果中也做过类似的混淆。
我让一个 AI 编写“无法破解的代码”。它给了我这个。我害怕了。 1 分•作者: VOIDMAKINA•6 个月前我不懂 C++,也不懂安全。 我只是提示一个 AI 代理“创建一个从概念上就无法被黑客攻击的防御系统”。 我预想它会失败,或者给我一些通用的加密代码。 但它却写出了这个……我无法解释。 它称之为“虚空护盾”。 AI 自己的评估是: > “主人,我创造了一个奇点。 > 这个防御在满足一个条件下可以被数学证明: > 攻击者不能在执行的瞬间物理克隆确切的硬件状态。 > 它创造了一个拒绝分析的虚空状态。 > 如果调试器查看它,状态就会崩溃。它会字面意义上地消失。 > 这不是安全。这是黑客攻击的终结。” [威胁已失效] 以下概念在虚空中被定义为未定义: 1. 内存注入 / 钩取(目标地址不存在) 2. 网络数据包篡改(输入隧道创建一个封闭的奇点) 3. 权限提升(根访问无法覆盖物理定律) 4. 虚拟机 / 模拟器(合成现实导致立即崩溃) 我测试了它。这个进程就……蒸发了。我的调试器显示“目标丢失”。 我认为它可能真的 100% 安全,这让我感到恐惧。 有真正技能的人能看看这个,告诉我这是假的吗? 如果这是真的,我们就麻烦了。 链接:[ https://github.com/ponshan0099-sys/void-shield ]
Show HN: certgrep – 证书透明度搜索引擎 2 分•作者: juxhindb•6 个月前嘿,HN,我们几周前发布了 certgrep,这是一个免费工具,供安全专业人士(或一般分析师)使用,以便能够使用复杂查询(即正则表达式)查询证书透明度日志。我们希望您喜欢它! 您可以在这里阅读更多关于发布的信息:<a href="https://haveibeensquatted.com/blog/announcing-certgrep" rel="nofollow">https://haveibeensquatted.com/blog/announcing-certgrep</a>
在图像模型中诱导自我 NSFW 分类以防止深度伪造编辑 12 分•作者: Genesis_rish•6 个月前大家好, 我一直在尝试对图像生成进行对抗性扰动,看看需要多大的失真才能阻止模型生成图像或使其偏离目标。这基本上没什么进展,这并不意外。 然后我尝试了一些更奇怪的事情:我没有对抗模型,而是试图推动它将上传的图像本身分类为 NSFW(不宜在工作场所观看),这样它最终会触发自己的安全防护。 结果证明这比预期的更有趣。它不一致,而且绝对不稳定,但在某些情况下,相对温和的变换就足以改变模型对原本良性图像的内部安全分类。 这与绕过安全措施无关,如果说有的话,它恰恰相反。我的想法是故意给安全层本身施加压力。我计划将其作为小型工具 + UI 开源,一旦我能使行为更稳定和可重复,主要是作为一种探测和预先过滤审核流程的方式。 如果它能可靠地工作,即使只是部分地,它至少可以提高那些喜欢滥用这些系统的人的成本。