2作者: umeshmr大约 7 小时前
launchreel.dev 作为一名专注于产品开发的独立创始人,内容创作和推广并非易事。制作视频需要截屏、撰写字幕、将文本转换为语音旁白,并将它们组合成画面,这需要花费数小时。由于这是一个重复性的工作,它成为了一个瓶颈。 于是我构建了 launchreel。 工作原理: 您粘贴一个 URL(最多 3 个,外加最多 6 张图片/视频)。 它会应用视觉 API 来提取视觉参考,文本和 LLM 编织一个故事。它会撰写字幕和旁白文本。LLM 提供带有画面视觉效果、画面时长、字幕和旁白文本的视频计划。 然后,AI 代理将该计划组装成视频,并添加音乐、语音和字幕。 它会调整视频尺寸以匹配平台 - HackerNews、X、ProductHunt、博客、Instagram、Facebook 和 IndieHackers。它还会撰写帖子内容,并且视频可供下载。 它遵循每个平台的惯例(例如,HN 不使用夸大的词语),但不能保证版主行为。旁白是 TTS(男/女温暖声音,或无)。文件大小限制:图片 ≤5MB,视频 ≤25MB,总计 60MB,时长约 30 秒 - 5 分钟。 希望您能就平台语气模型以及元素提取在您的页面上的效果提供反馈。founder@deepship.dev 免费试用。
1作者: kartik0001大约 7 小时前
开发了一个使用多行光标来可视化音频的 VSCode 扩展。它同时支持系统音频和麦克风音频输入。 在编程和听音乐时,我有一个习惯,就是来回移动多行光标。由于代码行的宽度不同,在我看来,这就像一个音乐可视化器。于是,我将这个想法变成了 VSCode 扩展。 演示视频:<a href="https://www.youtube.com/watch?v=WM2GeKBBX5E" rel="nofollow">https://www.youtube.com/watch?v=WM2GeKBBX5E</a> 声明:虽然从我开始编程的那天起,我就一直痴迷于音频可视化器,并从头开始用 Processing 和 C++/OpenGL 分别构建了一个,但这次的开发过程有一部分是随性而为(vibe coded)。
1作者: -Zero大约 7 小时前
我观察到,录制音乐的出现类似于玻色-爱因斯坦凝聚。 在录制音乐出现之前,现场表演就像一种高熵的流体气相。每一次表演都是一个局域的、不可重复的波函数——每一次表演都根本上是动态且独特的。 录音技术的出现充当了一种量子冷却机制。它将声波捕获到一个固定的状态,将无限的流体变化坍缩成单一的、固定的、相同的数字格式。当全球数百万听众收听完全相同的音频文件时,他们都在同时体验一个固定的、同步的波函数。录制音乐有效地将流动的瀑布变成了一个永久的、反熵的常数。 我期待听到其他人对此想法的看法。这是我第一次在这个论坛上发帖。我打算很快再发一些。