1 分•作者: soroucsh•6 个月前
大家好,HN,我开发了 VectorVid,因为我反复看到团队将 Whisper + 向量数据库拼凑在一起,用于搜索网络研讨会和演示视频。<p>问题:您有 100 多个小时的视频。您希望为 RAG 建立索引。但流程很混乱——转录、帧采样、OCR、分块、嵌入,然后插入您自己的向量数据库。<p>VectorVid 只做一件事:视频 → RAG 就绪的 JSON。<p>输入:视频 URL(网络研讨会、讲座、演示)
输出:{ chunks: [{ start_sec, end_sec, text, scene_description, ocr_text, embedding }] }<p>工作原理:<p>转录 + 说话人分割(Whisper/Deepgram)<p>帧采样(1/5 秒)+ OCR(EasyOCR/Claude)<p>场景描述,用于视觉上下文<p>包含嵌入(OpenAI)<p>MVP 是一个实时演示——您可以在 2007 年的 iPhone 主题演讲中进行搜索,并查看确切的 JSON API 输出。<p>技术:Next.js 前端,异步处理,Supabase pgvector,部署在 Vercel 上。<p>我看到的应用场景:<p>SaaS 团队:“搜索我们的帮助视频” → 驱动内部搜索/聊天<p>教育科技:“学生找到特定的幻灯片” → 直接跳转到图表<p>销售:“定价幻灯片出现了吗?” → 自动化演示审计<p>需要早期反馈。试用演示,告诉我您会在此基础上构建什么。