1作者: rokumar5107 个月前
我厌倦了等待安全团队批准 Kubecost/CastAI 代理,这一过程需要 3 个月。所以我构建了这个。<p>这是一个 Bash 脚本,它封装了 kubectl top 命令。它在本地计算资源浪费情况,并在你的终端中生成报告。<p>无需 Helm chart。<p>无需 DaemonSet。<p>不会上传数据(除非你希望分享)。<p>开源(MIT 许可证)。欢迎吐槽我的 Bash 技能:<a href="https://github.com/WozzHQ/wozz" rel="nofollow">https://github.com/WozzHQ/wozz</a>
3作者: ten-fold7 个月前
大家好,HN, 我最近离开了 Uber,此前在那里担任了十年资深工程师,后来晋升为技术骨干工程师。<p>我来自一家小型初创公司,花了数年时间才学会如何在科技行业取得成功。 离职时,我决定写下你很少从管理者那里听到的、未经修饰的建议。<p>这是一篇有趣、快速的阅读,涵盖了 7 个策略。<p>在接下来的 48 小时内,您可以免费获取 PDF 文件。<p>欢迎提问!:)
2作者: MartyD7 个月前
我创建 CoThou 的初衷是看到搜索引擎和 AI 问答引擎对我的公司给出了完全错误的信息。事实证明,它们优先考虑结构化、可引用的内容,所以我逆向工程了它们选择信息来源的方式,并构建了 CoThou,旨在成为事实的来源。 **工作原理** * **面向企业:** 创建公司资料。当搜索引擎和 AI 问答引擎被问及您的公司时,它们会引用您的公司资料及其内容,而不是维基百科或过时的信息。 * **面向出版商和知识工作者:** 在您的个人资料中发布内容,并附上适当的引用(已收录 3 亿多篇学术论文)。当有人向搜索引擎和 AI 问答引擎询问您的主题时,它会引用您的作品,链接到您的个人资料并允许跟踪引用。 **立即试用(Beta 期间无限使用):** → <a href="https:&#x2F;&#x2F;cothou.com" rel="nofollow">https:&#x2F;&#x2F;cothou.com</a> 目前是 v0.01 版本,还有些粗糙。欢迎试用并告诉我哪里出了问题。 **下一步计划:** 目前正在训练一个定制的 320 亿参数 MoE(专家混合)LLM,其中有 30 亿个活动参数,计划于 2026 年第一季度上线。关键的区别在于:它将复杂的查询分解为并行子任务,这些子任务在无限画布上实时执行。您将看到代理实时规划和构建,而不是等待进度条。 **示例:** * “写一本关于计算历史的 300 页的书” * “为我的 SaaS 创建一个 60 秒的 TikTok 广告” 它可以同时处理研究、大纲、故事板、资产生成、配音和音乐。 由于每个 token 只有大约 30 亿个参数处于活动状态,因此它的运行成本比密集的 320 亿参数模型低 8-10 倍,速度也更快,同时在推理、编码和长上下文任务方面仍然可以与高级模型相媲美甚至超越。 正在通过与 NVIDIA Inception 和微软创业公司的合作进行构建。 **欢迎在 Hacker News 上提供反馈,内容包括:** * 提高引用准确性 * 与 AI 解析器建立信任 * 接下来添加哪些信息来源(目前有 1 亿家公司 + 3 亿篇学术论文) * 其他任何建议 Marty(创始人)
9作者: nallana7 个月前
大家好,我是 Nabeel。今年八月,我发布了 RunMat,这是一个用于 MATLAB 代码的开源运行时,在我尝试的工作负载上,它已经比 GNU Octave 快很多了。 <a href="https:&#x2F;&#x2F;news.ycombinator.com&#x2F;item?id=44972919">https:&#x2F;&#x2F;news.ycombinator.com&#x2F;item?id=44972919</a> 从那时起,我用 RunMat Accelerate 进一步改进了它:该运行时现在可以自动融合操作并在 CPU 和 GPU 之间分配工作。你编写 MATLAB 风格的代码,RunMat 就会在 CPU 和 GPU 上运行你的计算以提高速度。无需 CUDA,无需内核代码。 在底层,它会构建你的数组运算的计算图,将长链融合到几个内核中,在有帮助时将数据保存在 GPU 上,并在小规模情况下回退到 CPU JIT / BLAS。 在 Apple M2 Max (32 GB) 上,以下是一些当前的基准测试(多次运行的中位数): * 500 万路径蒙特卡洛模拟 * RunMat ≈ 0.61 秒 * PyTorch ≈ 1.70 秒 * NumPy ≈ 79.9 秒 → 在此测试中,比 PyTorch 快约 2.8 倍,比 NumPy 快约 130 倍。 * 64 × 4K 图像预处理流程 (均值/标准差,归一化,增益/偏置,伽马,均方误差) * RunMat ≈ 0.68 秒 * PyTorch ≈ 1.20 秒 * NumPy ≈ 7.0 秒 → 比 PyTorch 快约 1.8 倍,比 NumPy 快约 10 倍。 * 10 亿点逐元素链式运算(sin / exp / cos / tanh 混合) * RunMat ≈ 0.14 秒 * PyTorch ≈ 20.8 秒 * NumPy ≈ 11.9 秒 → 比 PyTorch 快约 140 倍,比 NumPy 快约 80 倍。 如果你想了解更多关于融合和 CPU/GPU 路由工作原理的细节,我在这里写了一篇更长的文章: <a href="https:&#x2F;&#x2F;runmat.org&#x2F;blog&#x2F;runmat-accel-intro-blog" rel="nofollow">https:&#x2F;&#x2F;runmat.org&#x2F;blog&#x2F;runmat-accel-intro-blog</a> 你可以从主要的 HN 链接中的 GitHub 仓库中自己运行相同的基准测试。非常欢迎反馈、错误报告和“在这里它崩溃或运行缓慢”的示例。