2 分•作者: jarusll•7 天前
返回首页
最新
2 分•作者: andrelinhk•7 天前
大家好,HN!我们是来自新加坡国立大学(本科生 + 博士生)的小团队。PaperDebugger 最初是一个研究项目,后来发展成一个开源工具,可以直接集成到 Overleaf 中,作为学术写作助手。它提供 LaTeX 感知的调试、审稿人风格的反馈和有针对性的修订建议,无需离开编辑器,非常适合已经在 Overleaf 上撰写和协作项目的用户。
在上周,一个小规模的 Beta 版本获得了超出我们预期的关注。它远非完美,但由于已经有人开始试用,我们决定更广泛地分享它,并优先考虑稳定性和可靠性,以及比原计划更早地收集反馈。
无需注册:安装 Chrome 扩展程序后,它会立即附加到您的 Overleaf 项目。您可以突出显示任何部分并接收特定建议、问题报告或多步骤修订过程。在后台,它会读取您的项目结构,并由我们基于自定义 MCP 的编排引擎提供支持,该引擎模拟“研究 → 批判 → 修订”的工作流程,而不是单个聊天提示。
试用一下:
Chrome 扩展程序(Overleaf 集成):
[https://chromewebstore.google.com/detail/paperdebugger/dfkedikhakpapbfcnbpmfhpklndgiaog](https://chromewebstore.google.com/detail/paperdebugger/dfkedikhakpapbfcnbpmfhpklndgiaog)
登陆页面(演示 + 概述):
[https://www.paperdebugger.com/](https://www.paperdebugger.com/)
我们正在寻找什么:
* Overleaf 嵌入式工作流程是否真的比复制/粘贴 LLM 编辑更有用
* 关于 Overleaf 编辑器内 UX 和交互的看法
* 任何担忧,例如关于隐私或扩展行为(我们已发布相关政策)
* 有助于会议/期刊投稿的功能请求(我们目前正在开发格式化程序、引用验证器)
对于对促使该系统产生的技术细节和研究背景感兴趣的读者,这里是论文的链接:[https://arxiv.org/abs/2512.02589](https://arxiv.org/abs/2512.02589)
很乐意回答有关架构、MCP 设计、提示或任何其他问题的提问。
1 分•作者: qmarchi•7 天前
我和朋友 (@finnvoid) 聊了聊,想看看怎么能让他们在日本更容易地练习平假名和片假名的阅读。在用 Gemini 快速构思了一些基本想法后,他们就着手行动,构建了“Jordle”,一个类似 Wordle 的工具,来帮助他们(以及你)学习你的注音假名。<p>玩法很简单,你的目标是将显示的字符音译成罗马字(罗马拼音)。可以选择两种字符集(平假名和片假名)或同时选择两者进行练习。<p>数据保存在本地设备上,所以速度很快,而且在技术上可以离线使用。<p>如果大家有任何问题或评论,我们可能会在评论区里待一会儿!
1 分•作者: hakunin•7 天前
2 分•作者: kaizenb•7 天前
16 分•作者: fokdelafons•7 天前
大家好,我是 Jacek,这个项目(Lustra)的独立创始人。<p>问题:95% 的立法无人问津,因为原始法律文本难以理解。媒体报道侧重于煽动情绪,而非深入分析。<p>解决方案:我构建了一个数字公共基础设施,它:<p>1. 摄取 & 净化:从美国和波兰的 API 解析原始法案(PDF/XML)。使用 LLM(Vertex AI,temp=0,严格的 JSON)来去除政治色彩。<p>2. 公民算法:主信息流不是由编辑委员会排序的,而是由用户投票(“影子议会”)排序的。社区关注的内容会排在前面。<p>3. 公民项目:一个公民立法的孵化器。用户提交草案(例如我们的《人类保护法》),这些草案会经过 AI 评分,并与政府法案并排显示,视觉上保持一致。<p>技术栈:<p>前端:Flutter(Web & 移动端 Monorepo),<p>后端:Firebase + Google Cloud Run,<p>AI:Vertex AI (Gemini 2.5 Flash),<p>许可证:PolyForm 非商业许可——源代码可供检查、学习和非商业公民使用。商业用途需要单独的协议。<p>我正在寻找贡献者。目前已上线美国和波兰,欧盟、英国、法国、德国正在开发中,部分可用。我需要帮助为其他议会构建数据适配器(核心逻辑与国家无关)。如果您想帮助审计代码或添加国家/地区,请查看存储库。目标是在现有资金的支持下尽可能完善数据库。<p>应用链接:<a href="https://lustra.news" rel="nofollow">https://lustra.news</a><p>代码库:<a href="https://github.com/fokdelafons/lustra" rel="nofollow">https://github.com/fokdelafons/lustra</a><p>开发日志:<a href="https://lustrainitiative.substack.com" rel="nofollow">https://lustrainitiative.substack.com</a>
9 分•作者: rasinmuhammed•7 天前
嘿,HN,我是作者。<p>我构建 Misata 是因为现有的工具(Faker,Mimesis)虽然擅长生成随机行,但在处理关系完整性或时间完整性方面却表现不佳。我需要为仪表盘生成数据,其中“工时表”必须发生在“项目开始日期”之后,并且我希望通过自然语言来定义这些规则。<p>工作原理:
LLM 层:使用 Groq/Llama-3.3 将“故事”解析成 JSON 模式约束配置。<p>模拟层:使用向量化 NumPy(无循环)生成数据。它构建了一个表组成的 DAG(有向无环图),以确保子行在父行存在之前不会被创建(引用完整性)。<p>性能:在我的 M1 Air 上,每秒生成约 25 万行数据。<p>目前还处于早期 Alpha 阶段。“图表逆向工程”(描述一个图表 -> 获取数据)功能还在实验阶段,但对于简单的曲线图已经可以工作了。<p>pip install misata<p>我非常希望得到关于 simulator.py 架构的反馈——目前我将数据保存在内存中(Pandas),这在生成约 1000 万行数据时会达到上限。 正在考虑下一步转移到 DuckDB 进行外核生成。有什么想法吗?
6 分•作者: vishal-ds•7 天前
我们正在构建 Largemem (<a href="https://largemem.com" rel="nofollow">https://largemem.com</a>),这是一个共享知识库,供团队上传和维护一组通用文档(PDF、扫描件、音频),并通过对话方式进行查询。<p>每个团队都有自己的持久性知识库。我们将内容解析成块,提取实体,并将向量搜索与轻量级知识图谱相结合,以便答案能够跨多个文档以及团队的共享上下文综合信息,而不仅仅是检索孤立的片段。<p>我们非常希望听到您的反馈!
1 分•作者: talonx•7 天前
2 分•作者: enz•7 天前
1 分•作者: xavierxwang•7 天前
1 分•作者: terabytest•7 天前
我目前用 gpt-5.1-codex-max 编写代码,用起来很顺手,有时候会达到每周的额度上限(但通常用一些额外的额度就能解决)。
我听说 Opus 4.5 在代码编写方面可能更好。SWE-bench 测试显示它有 8% 的提升,但我很难想象这在实际应用中会带来什么影响。对于已经切换到 Opus 4.5 的人来说,你们看到了哪些变化?它对你们的工作有什么影响?每月 100 美元的升级值得吗?
2 分•作者: doener•7 天前
4 分•作者: recvonline•7 天前
2 分•作者: Avalaxy•7 天前
2 分•作者: mox111•7 天前
您好,
我创建了 weekinpapers.com,旨在解决我所看到的计算机科学领域 arXiv 论文的“可发现性”问题。
随着日历周的推进,主页将更新,以显示新发表的论文。这个过程将在下周重新开始。
每个条目都包含一个 AI 生成的“通俗易懂”的摘要,旨在消除神秘感,并明确任何关键词或假设的知识。我认为这是 LLM 的一个有效用例。希望尖端研究能够被更广泛的受众所接受。
Matt
3 分•作者: whynotmaybe•7 天前
1 分•作者: weliveagain•7 天前
8 分•作者: ThailandJohn•7 天前
我是一名曾经的系统架构师(思科/VMware),现在在泰国从事构建工作。TheAuditor v2.0是对我三个月前发布的原型进行的一次全面架构重写(800+次提交)。
对我来说,“顿悟”时刻并非来自成功,而是源于一次巨大的失败。我曾尝试使用AI来重构一个复杂的模式更改(从“Products”到“ProductsVariants”的基础性更改),但由于其范围之大,最终彻底失败。我意识到两件事:
* **上下文崩溃:** AI无法在其上下文窗口中保留足够多的文件,以理解重构的全部范围,因此开始产生幻觉,"修复"一些表面问题。如果我继续施压,它会直接陷入恐慌,编造问题“以便能够解决它们”,这只会导致情况陷入恶性循环。这就是这个工具的“反派起源故事”。:D
* **知识陈旧:** 它一直试图在一个Node 22项目中实现Node 16的模式,或者默认使用过时的库(比如glob v7而不是v11),因为它训练的数据已经过时。
我意识到,AI代理在输出可运行的代码方面非常出色,但它们对代码一无所知。它们优化的是“不惜一切代价让它运行”——通常通过引入安全漏洞或技术债务来绕过错误。这是一个有趣的悖论,因为当被“逼到墙角/被迫”使用前沿版本、语法和最佳实践时,它在执行或编写代码方面没有任何问题。然而,它对周围环境的认知是如此可笑地缺乏,除非受到明确的看护,否则它会做任何其他事情。
我构建了v2,使其成为解决许多这些问题的“健全性检查”,并旨在继续解决我面临的相同和类似问题。TheAuditor没有让AI去猜测,而是将整个代码库索引到一个本地SQLite图数据库中。这为AI提供了一个可查询的现实地图,允许它验证依赖关系和导入,而无需将“所有”文件加载到上下文中。
A/B演示:[https://www.youtube.com/watch?v=512uqMaZlTg](https://www.youtube.com/watch?v=512uqMaZlTg)
正如在演示视频中看到的那样,它现在可以运行“aud explain”并获得500行确定性的“仅事实”信息,而不是试图读取10多个完整文件和/或使用grep来弥补幻觉。它只获取它需要查看的内容,而不是读取10多个文件,试图将它们保留在上下文中,找到它正在寻找的内容,并试图记住它最初为什么要寻找。
我还了解到,正则表达式/字符串/启发式方法根本无法扩展,而且非常缓慢(数小时 vs 数分钟)。我尝试了基于正则表达式的规则/解析器方法,但它们在复杂文件上总是默默地失败,并且受到持续的限制(最糟糕的问题是必须为每组规则读取所有文件)。我放弃了这种方法,并构建了一个“三重录入保真度”系统。
现在,该工具就像一个账本:解析器发出清单,数据库发出收据。如果它们不匹配,系统会故意崩溃。
它不再仅仅是一个扫描器;它是一个护栏。在我的日常工作流程中,在AI(我选择的是CC/Codex)针对我目前面临的任何问题陈述运行预先调查之前,我不会让AI编写一行代码。这确保了它基于事实,而不是推断假设,或者更糟的是,幻觉。
话虽如此,我的工具并不完美。为了支持这一切,我不得不为Python/JS/TS构建一个伪编译器,这意味着为每个框架、每个语法——实际上是所有内容——准备提取器。有时我无法正确处理,有时我可能没有足够的时间来构建它以支持所有内容。
因此,我的建议是将该工具与您选择的AI代理集成,而不是将其视为您(人类)的工具。我喜欢将该工具用作“确认或否认”,其中AI运行该工具,在源代码中进行验证,并提供预实施审计。基于该审计,我将创建一个“aud planning”。
v2.0中的一些主要里程碑
* **混合污点:** 我扩展了Oracle Labs的IFDS研究,以跟踪跨微服务边界的数据流(例如,React fetch → Express中间件 → 控制器)。
* **三重录入保真度:** 这适用于每一层(索引器 -> 提取器 -> 解析器 -> 存储)。每个步骤都有协同工作的保真度检查。如果管道中的任何地方出现静默数据丢失,该工具会故意崩溃。
* **图数据库:** 从基于文件的解析迁移到SQLite图数据库,以处理正则表达式遗漏的复杂关系。
* **范围:** 增加了对Rust、Go、Bash、AWS CDK和Terraform的支持(v1仅支持Python/JS)。
* **代理功能:** 增加了规划和重构引擎,允许AI代理不仅扫描代码,而且安全地规划和执行架构更改。
15 分•作者: geox•7 天前