2 分•作者: spzx•6 个月前
返回首页
最新
31 分•作者: domofutu•6 个月前
1 分•作者: austinallegro•6 个月前
1 分•作者: simonebrunozzi•6 个月前
1 分•作者: mpweiher•6 个月前
1 分•作者: gnabgib•6 个月前
1 分•作者: kristianp•6 个月前
1 分•作者: mackenziebowes•6 个月前
我制作了这个本地工具,用于快速刷新我所参与的 UI 的调色板。
它接受一个包含 16 个元素的 JSON 文件(color0-color15),类似于 ANSI 转义码规范,并将其扩展为 Tailwind 颜色覆盖和语义别名。<p>
用它来让网页变得更加古怪和多彩吧 :)
4 分•作者: andrewstetsenko•6 个月前
1 分•作者: g7r•6 个月前
1 分•作者: jason_lee_lamp•6 个月前
我创建了 Platter,旨在帮助独立创始人和小开发者们在 X/Twitter 上扩大受众,无需花费数小时手动滚动和回复。<p>这个想法很简单:<p>它会构建你的声音、产品和兴趣的数字档案<p>它会找到你可以添加价值的高质量推文<p>它能帮助你用你的语气,一键撰写有深度的回复<p>它不是一个 Chrome 扩展程序。你可以在任何地方参与互动,甚至在手机上。我之所以开发它,是因为我发现社交增长是必要的,但也很耗精力。<p>非常希望得到社区的反馈,特别是来自任何正在努力发展业务的人。
3 分•作者: gametorch•6 个月前
3 分•作者: wmolino•6 个月前
Hi HN,
我一直在开发一个名为 QSS(量化相似性搜索)的向量搜索引擎。它用 C 语言编写,探索了将嵌入向量积极量化为每维度 1 位的想法。它使用 XOR + popcount 进行快速近似搜索,然后使用原始向量的余弦相似度进行重新排序。
主要目标是看看在不牺牲太多搜索质量的前提下,量化能做到什么程度——同时在内存使用和速度方面获得显著提升。
工作原理
嵌入被量化为每维度 1 位(例如,300D → 300 位 → ~40 字节)。
搜索使用按位 XOR 和 popcount(汉明距离)完成。
使用原始(浮点)嵌入的余弦相似度对短列表进行重新排序。
支持 GloVe、Word2Vec 和 fastText 格式。
目标
分析量化和搜索精度之间的权衡。
衡量潜在的速度和内存增益。
探索这种方法如何随更大的数据集扩展。
初步测试
到目前为止,我只运行了几个小规模的测试,但初步迹象令人鼓舞:
对于某些查询(例如“hello”、“italy”),前 30 个结果与全精度余弦搜索匹配。
在 Word2Vec 嵌入上,量化管道的速度比标准余弦相似度循环快 18 倍。
这些结果目前只是个例——我会在深入基准测试之前分享该项目,以获得反馈。
其他说明
目前,单词查找是线性的,并且未优化——重点是相似性搜索逻辑。
测试是在 2018 年的 iMac(3.6 GHz Intel i3)上单线程进行的。
如果您对向量搜索、量化或低级性能技巧感兴趣,我很乐意听取您的想法:
您认为这种激进的量化可以在大规模应用中发挥作用吗?
您是否推荐其他值得探索的快速近似搜索技术?
代码库在这里:https://github.com/buddyspencer/QSS
感谢您的阅读!
35 分•作者: exists•6 个月前
15 分•作者: caned•6 个月前
1 分•作者: petabyt•6 个月前
1 分•作者: PaulHoule•6 个月前
1 分•作者: abawany•6 个月前
1 分•作者: Bluestein•6 个月前
1 分•作者: dctoedt•6 个月前