1作者: throwaway2908 个月前
我有时在谷歌搜索 Yarn 相关问题时,会看到 yarnpkg.cn 的结果。这是个什么网站?顺便说一下,它的页脚有一个指向某个 .gov.cn 网站的链接。 我从未见过其他类似的 Yarn 本地化网站。
4作者: lgats8 个月前
我一直在与一个来自 AWS 新加坡的机器人——“Mozilla/5.0 (compatible; crawler)”——作斗争,它向我的一个域名发送了大量请求,几个月来平均每秒超过 700 个请求。 值得庆幸的是,CloudFlare 能够通过一个简单的 WAF 规则和 444 响应来处理流量,从而减少了出站流量。 我已经向 AWS 提交了几份投诉,要求停止这种流量,他们通常的回复是: 我们已经与我们的客户进行了沟通,并根据这次沟通确定,报告的活动目前不需要 AWS 采取进一步行动。 我尝试了各种 4XX 响应,看看机器人是否会停止,我也尝试了 30X 重定向(它会跟随),但都无济于事。 流量达到了需要我与 CloudFlare 重新协商合同的程度,并且在查看分析/日志时也造成了干扰。 我曾考虑将所有流量重定向到 aws 滥用报告页面,但以这种规模来看,它本质上是一个小型 DDoS 网络,将其发送到任何地方都可能被视为滥用行为。 其他人有类似的经历吗?
4作者: bra1ndump8 个月前
我看到 ChatGPT 尝试数到 100 万时失败了,还找了各种奇葩借口,用户也没能成功绕过这个问题 <a href="https://www.youtube.com/watch?v=djZVWc1PkIo" rel="nofollow">https://www.youtube.com/watch?v=djZVWc1PkIo</a>。<p>我和我的朋友试了几个方法,想让它开始数到 100 万,都失败了。所以我们决定试试看它能数到的最大数是多少。<p>我们尝试的方法有:<p>- 把它框定成一个实验,与其它 LLM 或它之前的运行结果进行对比,在取得小成功后给予鼓励<p>- 循序渐进法 - 先数到 10,20,30,50 等 - 这种方法稍微成功了一点,记录到了 110<p>最终的赢家是:<p>- 我们自己先数到 140,然后让它重复 - 成功了!但后续尝试就彻底失败了。还没试过数到更大的数,就遇到了每日使用限制 : D<p>有没有人试过这个,你们数到了多少?我们目前在 YouTube / Google 上还没找到谁能数到超过 140 的。<p>来打破我们的记录吧。
1作者: Franklinjobs6178 个月前
大家好,Hacker News!我们上线了! 我非常激动终于推出了 YTVidHub,这是一个旨在解决许多人共同面临的巨大时间消耗的工具:从大型 YouTube 语料库中手动下载字幕,用于研究和数据分析,这个过程非常痛苦。 问题:如果你需要 50、100 个或更多视频的字幕,目前复制-粘贴-下载-重复的工作流程既慢又痛苦。 我们的解决方案(核心功能):YTVidHub 专为真正的批量处理而设计。你可以在一个简洁的界面中粘贴数十个 YouTube 链接(或播放列表/频道链接),系统会提取所有可用的字幕(包括多语言 ASR),并将它们打包成一个单一的、有组织的 ZIP 文件,只需一键即可下载。 架构见解:我们的设计优先考虑“可用于研究”的数据,并参考了 Hacker News 上的讨论。我们特别优化了纯文本 (TXT) 输出——去除所有时间戳和格式——使其立即干净,可用于 RAG 系统和 LLM 摄取。 商业模式:YTVidHub 免费提供单次下载。批量操作每天可获得 5 个免费积分,以确保公平使用并管理我们的处理成本。专业计划适用于高容量数据需求。 未来重点:我们知道 ASR 准确性是下一个重大挑战。我们已经在开发 Pro AI 转录层,以提供高精度、LLM 驱动的转录,以解决特定内容并解决数据质量问题。 请试用批量下载器并测试系统。对于 TXT 输出的速度和整洁度,您的任何反馈对我们的工程路线图都非常有价值! [https://ytvidhub.com](https://ytvidhub.com) 感谢与我们一起构建。