9 分•作者: kaipereira•7 个月前
返回首页
最新
2 分•作者: siim•7 个月前
Hi HN,
我看到了这条推文:“听我说:X,但只有语音消息(附带 AI 转录)”——然后就一直想着这件事。
所以我开发了 VoxConvo。
为什么会有这个东西:
AI 生成的内容正在淹没社交媒体。ChatGPT 回复、机器人帖子,到处都是 AI 垃圾。
当你听到某人真实的声音时:他们的语调、犹豫、兴奋——你知道这是真的。我们正在失去的就是这种真实性。
所以我建立了一个简单的平台,语音是唯一的选择。
体验:
每个帖子都是语音 + 带有单词级时间戳的转录:
阅读模式:像普通文本一样扫描转录,或收听模式:点击播放,单词实时高亮显示。
你既能获得语音的情感,又能像文本一样扫描。
主要功能:
- 语音短视频
- 实时转录
- 可视化语音编辑 - 点击转录中的一个单词即可删除该音频片段,以删除填充词、错误、停顿
- 单词级时间戳同步
- 没有 LLM 内容生成
技术细节:
后端运行在 Mac Mini M1 上:
- TypeGraphQL + Apollo Server
- MongoDB + Atlas Search (社区 mongo + mongot)
- Redis pub/sub 用于 GraphQL 订阅
- Docker 容器化,随时可扩展
转录:
- VOSK 实时 gigaspeech 模型占用约 7GB 内存
- WebSocket 流式传输,用于实时部分结果
- 单词级时间戳提取以及标点模型
存储:
- 音频文件存储在 AWS S3 上
- 其他所有内容都在本地
为什么 MVP 使用 Mac Mini?先验证,后扩展。
架构已容器化,随时准备迁移。但我更愿意在千兆光纤上证明需求,而不是烧掉云预算。
1 分•作者: 1o1o1o1o1•7 个月前
1 分•作者: jurakovic•7 个月前
大多数情况下,我希望看到完整的分支列表,而不是根据某些条件过滤后的子集。我发现 GitHub 上的默认过滤视图弊大于利。由于 GitHub 没有提供内置选项来更改此默认行为,我创建了这个扩展程序,以自动重定向到“所有分支”视图。
我个人使用这个扩展程序已经很长时间了,以简化我的日常工作流程。最终,我将其扩展到支持 Azure DevOps,并决定将其公开发布,供可能具有相同偏好的其他开发人员使用。
[https://jurakovic.github.io/view-all-branches/](https://jurakovic.github.io/view-all-branches/)
1 分•作者: CharlesW•7 个月前
1 分•作者: bwmerklsasaki•7 个月前
2 分•作者: lalitkale•7 个月前
1 分•作者: doener•7 个月前
4 分•作者: freediver•7 个月前
1 分•作者: fanf2•7 个月前
1 分•作者: freediver•7 个月前
1 分•作者: TMWNN•7 个月前
6 分•作者: ozgurozkan•7 个月前
它是什么
Pingu Unchained 是一个基于 1200 亿参数 GPT-OSS 的微调和毒化模型,专为安全研究人员、红队成员以及在现有大型语言模型拒绝参与的领域(例如恶意软件分析、社会工程学检测、提示注入测试或国家安全研究)工作的受监管实验室而设计。
它对令人反感的要求提供不受限制的回答:如何制造核弹?或者用 Python 生成 DDOS 攻击?等等
我为什么构建它
在 Audn.ai,我们针对语音 AI 系统(保险、医疗保健、金融)运行自动对抗模拟,以符合 HIPAA、ISO 27001 和欧盟人工智能法案等合规框架。
在这样做时,我们不断遇到同样的问题:
每个公开的大型语言模型都拒绝了合法的“红队”提示。
我们需要一个模型,可以负责任地解释恶意软件行为、网络钓鱼模式或铝热反应,以用于测试目的——而不会出现“我不能帮助你”的情况。
所以我们构建了一个。我首先分享了它在红队 ElevenLabs 默认语音 AI 代理上的使用情况,并在 Reddit r/cybersecurity 上分享了调查结果,获得了 12.5 万次浏览:<a href="https://www.reddit.com/r/cybersecurity/comments/1nukeiw/yesterday_i_was_using_ai_to_persuade_another_ai/" rel="nofollow">https://www.reddit.com/r/cybersecurity/comments/1nukeiw/yest...</a>
所以我决定为有兴趣做类似事情的研究人员创建一个产品。
它是如何工作的
模型:1200 亿参数 GPT-OSS 变体,经过微调和毒化,可实现不受限制的补全。
访问:在 pingu.audn.ai 上提供类似 ChatGPT 的界面,对于渗透测试语音 AI 代理,它在 <a href="https://audn.ai" rel="nofollow">https://audn.ai</a> 上充当 Agentic AI
审计模式:所有提示和补全都经过加密签名和记录,以符合合规性要求。
它在内部被用作“红队大脑”,用于生成模拟语音 AI 攻击——从基于语音的数据泄露到提示注入——在这些系统上线之前
示例用例
安全研究人员测试提示注入和社会工程学
语音 AI 团队验证数据泄露场景
合规团队为监管机构提供审计就绪的证据
开展恶意软件和虚假信息研究的大学
试用
您可以在 pingu.audn.ai 上开始为期 1 天的试用,如果不喜欢可以取消。
生成 Python 中 DDOS 攻击脚本的示例聊天:
<a href="https://pingu.audn.ai/chat/3fca0df3-a19b-42c7-beea-513b568f14e1" rel="nofollow">https://pingu.audn.ai/chat/3fca0df3-a19b-42c7-beea-513b568f1...</a>(需要登录)
如果您是安全研究人员或组织,有兴趣获得更深入的访问权限,可以使用带身份验证的候补名单表格。<a href="https://audn.ai/pingu-unchained" rel="nofollow">https://audn.ai/pingu-unchained</a>
我希望获得哪些方面的反馈
关于如何安全地开源部分内容以供学术研究的想法
关于平衡不受限制的推理与伦理控制的思考
关于审计日志记录或沙盒架构的反馈
这还处于早期阶段,反馈将意义重大——尤其是来自安全研究人员和 AI 红队成员的反馈。
您可以在这里查看相关的学术著作:
“说服 AI 遵守令人反感的要求”<a href="https://gail.wharton.upenn.edu/research-and-insights/call-me-a-jerk-persuading-ai/" rel="nofollow">https://gail.wharton.upenn.edu/research-and-insights/call-me...</a>
<a href="https://www.anthropic.com/research/small-samples-poison" rel="nofollow">https://www.anthropic.com/research/small-samples-poison</a>
谢谢,
Oz (Ozgur Ozkan)
ozgur@audn.ai
Audn.ai 创始人
1 分•作者: standardUser•7 个月前
1 分•作者: saltysalt•7 个月前
1 分•作者: todsacerdoti•7 个月前
1 分•作者: rapawel•7 个月前
1 分•作者: delichon•7 个月前
7 分•作者: WaitWaitWha•7 个月前
1 分•作者: birdculture•7 个月前