返回首页

24小时热榜

2作者: octave12大约 22 小时前
一个全掌控的云平台,助您更快地部署、管理和交付项目。没有厂商锁定,没有不必要的复杂性——只有对您的部署和工作流程的完全掌控。
2作者: 2dogsanerd大约 23 小时前
过去几个月,我一直在为受监管环境设计一个 RAG 系统。我不是专业开发人员,但我以严格的“系统工程”和审计思维来构建它。 虽然大多数教程止步于“LangChain + VectorDB”,但我发现,要使其在法律上站得住脚并在运营上保持稳定,需要大约 40 多个额外的组件。 我们从一个简单的摄取脚本转移到“多车道共识引擎”(灵感来自六西格玛),因为标准的 OCR/提取对于我们的用例来说,太容易产生幻觉了。 我们不得不构建广泛的审计、细化到文档级别的 RBAC,以及混合图数据库+向量检索,以获得可接受的准确性。 目前的架构包括: 摄取:4 个并行提取车道(视觉、布局、文本、法律),带有一个共识引擎(“Solomon”),该引擎仅索引由多个来源确认的数据 检索:混合 Neo4j(图数据库)+ ChromaDB(向量数据库),采用互易秩融合 性能:语义缓存(Redis),专门用于含义相似的查询(加速 40 倍) 安全性:完整的 RBAC、对每个提示/检索的审计日志记录以及 PII 屏蔽。 我记录了完整的功能列表和差距分析 [https://gist.github.com/2dogsandanerd/2a3d54085b2daaccbb1125601945ceeb](https://gist.github.com/2dogsandanerd/2a3d54085b2daaccbb1125601945ceeb) 我向社区提出的问题是: 看看这个列表——“稳健的生产工程”和“过度工程”之间的界限在哪里? 对于那些从事金融科技/医疗科技 RAG 的人来说:我还在这个列表中遗漏了哪些关键的失效模式?
2作者: BleedingXiko大约 23 小时前
Hi HN, 我在开发自托管媒体服务器时,希望找到一种简单的方法,将视频转码任务分流到网络上可用的硬件,于是构建了 GhostStream。 GhostStream 是一个开源视频转码服务器,具有以下特点: * 零配置启动 * 自动 GPU / 编码器检测(NVENC, QuickSync, AMF, VideoToolbox) * 实时 HLS 流媒体、ABR 和批量模式 * 如果硬件编码失败,自动回退到 CPU * 一个用于进度更新的小型 HTTP + WebSocket API 它设计为在本地运行(无云依赖),并且非常适合作为轻量级媒体服务器的伴侣。 如果你想快速看到它的运行效果,仓库中包含一个演示,该演示从公共视频 URL 开始转码,并自动打开播放: ```python python examples/demo.py ``` 我主要对 API 接口、硬件检测和实际转码的边缘情况感兴趣,欢迎大家提出反馈。
1作者: timeproofs29 分钟前
我经常在许多领域(文档、AI输出、数据集、代码、日志)遇到同样的问题。<p>存储告诉我我现在有什么。版本控制告诉我发生了什么变化。<p>但当发生争议时,真正的问题往往更简单: 这些数据到底是什么时候存在的?<p>截图、PDF、仪表盘、电子邮件…… 它们大多依赖于对系统或平台的信任。<p>在许多情况下,存储或共享原始数据甚至不可行(隐私、合规性、规模)。<p>我很好奇其他人今天是如何处理这个问题的。 你见过哪些方法在实践中有效?