Show HN: 我搭建了一个 20 亿页面的搜索引擎,独立于 Google/Bing 之外
4 分•作者: Chief_Searcha•5 个月前
大家好,
在过去的 18 个月里,我独自一人从零开始构建了一个完全独立的搜索引擎。今天,我开放了它的 Beta 测试,非常希望得到大家的反馈。
该项目基于同一个 20 亿页的索引,支持两个公开网站:
Searcha.Page:一个具有会话感知功能的搜索引擎,使用持久的浏览器密钥(而非 Cookie)来提供更好的上下文。
Seek.Ninja:一个 100% 无状态、注重隐私的版本,完全不使用任何标识符。
整个技术栈都自托管在我洗衣房里的一台价值约 4000 美元的裸金属 EPYC 服务器上(没有云服务,也没有风险投资)。搜索管道是一个混合模型,使用传统的词汇索引来完成繁重的工作,并使用轻量级的 LLM 来执行特定任务,如查询扩展和重新排序。这是一个关于资本效率和数字主权的实验——证明你不需要大型科技公司的 API 也能参与竞争。
我希望得到关于搜索结果相关性、速度和隐私模型清晰度的反馈。请试用一下,告诉我您的想法。
链接:
[https://searcha.page](https://searcha.page)
[https://seek.ninja](https://seek.ninja)
谢谢,
Ryan
查看原文
Hi HN,
For the last 18 months, I've been working solo on building a completely independent search engine from scratch. Today, I'm opening it up for beta testing and would love to get your feedback.
The project powers two public sites from the same 2-billion-page index:
Searcha.Page: A session-aware search engine that uses a persistent browser key (not a cookie) for better context.
Seek.Ninja: A 100% stateless, privacy-first version with no identifiers at all.
The entire stack is self-hosted on a single ~$4k bare-metal EPYC server in my laundry room (no cloud, no VC funding). The search pipeline is a hybrid model, using a traditional lexical index for the heavy lifting and lightweight LLMs for specific tasks like query expansion and re-ranking. It's an experiment in capital efficiency and digital sovereignty—proving you don't need Big Tech APIs to compete.
I’m looking for feedback on search result relevance, speed, and the clarity of the privacy models. Please try it out and let me know what you think.
Links:
<a href="https://searcha.page" rel="nofollow">https://searcha.page</a>
<a href="https://seek.ninja" rel="nofollow">https://seek.ninja</a>
Thanks,
Ryan