4作者: kodomonocch18 个月前
问题 JSON/NDJSON 在数据平台中无处不在,但压缩通常会破坏可搜索性。你只能选择保留可查询的原始存储(高 I/O/出口)或压缩成 gz/zstd blob(存储便宜,探测痛苦)。“云税”体现为浪费的读取。<p>我构建的内容(SEE — 语义熵编码) 一种面向 JSON 的、可搜索的、感知模式的压缩编解码器,在保持压缩的同时,使 exists/pos 查找保持快速。内部结构:结构感知 delta + 字典,一个 PageDir + mini-index 用于跳转到相关页面,以及一个经过调整的 Bloom 过滤器,可以跳过大约 99% 的页面。AutoPage (131/262 KiB) 平衡了查找与吞吐量。<p>基准测试(完全一致,FULL) - 压缩比:str ≈ 0.168–0.170,组合 ≈ 0.194–0.196 - Bloom 密度 ≈ 0.30;跳过:存在 ≈ 0.99,不存在 ≈ 0.992 - 查找 (ms):存在 p50/p95/p99 ≈ 0.18/0.28/0.37;不存在 ≈ 1.16–1.88/1.36–2.11/1.58–2.41 这些数字在普通台式机(i7-13700K/96GB/Windows)上是稳定的。<p>10 分钟内试用(无需构建) 1) pip install see_proto 2) python samples/quick_demo.py 它会打印压缩比、Bloom 密度、跳过百分比以及打包样本上的查找 p50/p95/p99。<p>为什么不“直接使用 zstd”? 我们有时会输给单独使用 zstd 的纯压缩比。优势在于可搜索的压缩:Bloom + PageDir 避免了接触大多数页面,因此选择性探测的 I/O/出口更少,完成速度更快。在大型日志扫描中,即使原始压缩比相似,这通常也能在 TCO 上胜出。<p>链接(README + 快速演示 + 一页纸) <a href="https://github.com/kodomonocch1/see_proto" rel="nofollow">https://github.com/kodomonocch1/see_proto</a>
3作者: numcap8 个月前
我是一名软件工程专业大三学生,现在是继续从头开始构建项目,还是直接使用 AI(比如 Claude、ChatGPT、Lovable 等)来帮我构建项目呢?我之前已经从头构建了许多项目,试图深入了解各种语言和框架的内部运作,但现在似乎每个人都在用 AI 来构建东西。所以,现在继续学习还有价值吗?还是我应该直接成为一名提示工程师?
3作者: vinhnx8 个月前
VT Code 是一个基于 Rust 的 CLI/TUI 编码助手,用于进行 AST 感知编辑(Tree-sitter, ast-grep)。它支持多供应商路由,并具备故障转移和缓存功能(OpenAI, Anthropic, Gemini, DeepSeek, xAI, OpenRouter, Z.AI, Moonshot;本地 Ollama)。该工具具有策略控制的工具、工作区边界以及 Zed ACP 集成。通过 vtcode.toml 进行配置优先;在代码库中实现可复现的模型/常量元数据。 试用方法:cargo install vtcode; vtcode 代码:[https://github.com/vinhnx/vtcode](https://github.com/vinhnx/vtcode)
1作者: olek8 个月前
嘿! 我开发了 Arete (<a href="https:&#x2F;&#x2F;getarete.app" rel="nofollow">https:&#x2F;&#x2F;getarete.app</a>),因为我总想对我在网上找到的随机文本提出问题。一个我不认识的单词,我想简化的一段话,我想核实引用的内容。每次我都会复制它,打开一个新标签页,粘贴它,然后再回来。这变得很繁琐。 Arete 让你可以在任何网页上选择任何文本,并立即将其发送到有用的地方。翻译它,用 5 岁小孩能听懂的方式解释它,用来源核实它的事实,或者在维基百科、YouTube、Stack Overflow 上搜索它——对该文本有意义的任何操作都可以。 你可以设置你想要的操作。有些人用它来研究(Perplexity),其他人用来获得代码帮助(Stack Overflow),翻译,在亚马逊上购物,在 Spotify 上找音乐。它只是一个轻量级的工具提示,出现在文本选择上。 这是一个副业项目。这个扩展程序已经可以使用了,欢迎试用。很乐意回答问题,并获得关于这是否能为人们解决实际问题的反馈。 <a href="https:&#x2F;&#x2F;getarete.app" rel="nofollow">https:&#x2F;&#x2F;getarete.app</a>