2作者: hardiksondagar10 天前
嘿,HN!我开发了这个工具,起因是我的婚礼留下了 5000 张照片需要整理。<p>关键的发现是:照片整理的大部分时间都花在审查近似重复的照片上。专业摄影师会连拍,所以你可能会得到同一个瞬间的 10 多张照片。<p>PicPick 使用 CLIP 嵌入来聚类视觉上相似的照片,然后加入人脸识别以保持分组的连贯性(这样你就不会因为“新娘和父母”与“新娘和朋友”看起来相似而混淆)。<p>技术栈: - CLIP 用于语义相似度(不仅仅是感知哈希) - face_recognition (dlib) 用于人物检测 - 在组合特征上使用 DBSCAN 聚类 - FastAPI + 原生 JS 用于 UI - SQLite 用于所有数据<p>它将我的审查集从 5000 张减少到大约 1000 个聚类,然后我在几个小时内将其筛选到 300 张,用于相册,而不是几天。<p>聚类参数是可调的 - 对于有许多重复的专业拍摄,可以设置得更紧凑,对于休闲照片,可以设置得更宽松。<p>欢迎反馈!特别是关于: 1. 更好的聚类算法(目前是基于 CLIP 嵌入 + 时间戳 + 人脸向量的 DBSCAN) 2. 用于快速审查的 UI 改进 3. 处理没有脸的照片(风景、食物等)<p>完全离线工作,无需上传到云端。
1作者: thatsoulyguy10 天前
Hi HN, 我一直在开发一种名为 XXML 的实验性编程语言。这个项目源于我在系统语言中反复遇到的一个困境: * 具有强所有权的语言往往避免运行时反射。 * 具有丰富反射功能的语言通常依赖于垃圾回收,或者放弃内存保证。 * 编译时代码生成通常需要一个单独的宏语言。 我想探索一下,这些权衡是否真的有必要。 **XXML 的目标** XXML 是一种静态类型的原生语言,它: * 使用显式所有权和借用(没有垃圾回收器) * 支持运行时反射,同时遵守所有权规则 * 允许使用普通语言结构进行编译时代码生成,而不是宏 * 编译成 LLVM IR 并生成原生二进制文件 反射 API 受到约束,因此不安全的所有权操作会在编译时被拒绝。目标不是“不惜一切代价追求动态性”,而是在不失去安全性的前提下进行内省。 **它有什么用处(目前)** 我正在探索一些具体的用例: * 原生应用程序的安全插件/模块系统 * 自动生成的序列化(例如,JSON/RPC),无需宏 * 可以推断用户类型的调试和检查工具 * 受益于结构化语法的声明式领域(UI/布局/资源图) **它不是什么** 这还处于早期阶段,绝对不适合生产环境: * 生态系统很小 * 语言仍在发展 * 文档和工具不完整 我主要对以下人员的反馈感兴趣: * 编译器开发者 * 语言运行时开发者 * 处理大量序列化或插件边界的系统开发者 **代码** GitHub 仓库: [https://github.com/ThatSoulyGuy/XXMLCompiler](https://github.com/ThatSoulyGuy/XXMLCompiler) 或 [https://xxml-language.com](https://xxml-language.com) 我特别欢迎关于以下方面的批评: * 所有权模型 * 反射安全边界 * 这个设计在哪些方面存在根本性缺陷 感谢您的阅读——很乐意回答问题。
1作者: PaperWeekly10 天前
ElasticMM 是一个新发布的开源服务系统,专为现代多模态大型语言模型(MLLM)设计。该研究成果被选为 NeurIPS 2025 的口头报告。 与主要针对纯文本工作负载优化的现有服务栈(如 vLLM)不同,ElasticMM 引入了弹性多模态并行(EMP),这是一种新的执行范式,可在不同的推理阶段和模态之间调整并行度。 论文的主要发现: * TTFT(首次令牌时间)降低高达 4.2 倍 * 在混合多模态工作负载下,吞吐量提高 3.2 倍至 4.5 倍 * 模态感知调度、弹性阶段划分、统一前缀缓存和非阻塞编码 论文(OpenReview PDF): [https://openreview.net/pdf?id=Zd6VyjmN1S](https://openreview.net/pdf?id=Zd6VyjmN1S) GitHub 仓库: [https://github.com/hpdps-group/ElasticMM](https://github.com/hpdps-group/ElasticMM) 很想听听 HN 社区的看法,特别是那些构建 LLM/MLLM 推理栈或处理生产环境中多模态服务的用户。