1作者: ZacharyZZ大约 6 小时前
嗨 HN, 我开发这个工具是因为我对现有的 Markdown 转 PDF 转换器感到沮丧。 它们中的大多数依赖于 HTML/CSS (puppeteer),这经常搞乱分页和表格,或者它们需要将数据上传到服务器(涉及隐私问题)。 MDXport 是一个纯客户端工具。 技术栈: - 核心:Typst(一种现代的 LaTeX 替代方案),编译为 WebAssembly。 - 隐私:零数据离开您的浏览器。所有渲染都通过 WASM 在本地进行。 - 特性:它比标准的 CSS 打印驱动程序更好地处理分页符和复杂的表格。 我还添加了一些启发式方法,以自动修复 LLM 生成的 markdown 中常见的格式错误(例如,损坏的嵌套列表或表格溢出)。 它目前是一个 MVP(最小可行产品)。无需注册,免费使用。 我很乐意听取您对渲染质量与 Pandoc/LaTeX 相比的反馈。 链接:<a href="https://www.mdxport.com" rel="nofollow">https://www.mdxport.com</a>
2作者: xinghaohuang大约 7 小时前
Hi HN, 在构建 RAG 代理时,我注意到很多 token 预算都浪费在了格式化开销上(HTML 标签、JSON 结构、空格)。现有的解决方案感觉太笨重了(通常需要 torch/transformers),所以我编写了这个轻量级、零依赖的库来解决这个问题。 它包括上下文打包、PII(个人身份信息)编辑和工具输出压缩等策略。基准测试表明,它可以节省约 15% 的 token,并且延迟开销可以忽略不计(<0.5ms)。 欢迎提问!