3作者: yansoki8 个月前
我是一个独立开发者,正在开发一款新工具,需要听听各位运维和基础设施专家的意见。 我的背景是软件开发,而非 SRE(站点可靠性工程师)。在我看来,从基础设施冒出来的监控警报一直以来都是一个巨大的干扰。我经常会收到关于某个服务“CPU 负载过高”的页面通知,然后花一个小时翻阅日志和仪表盘,最后却发现这仅仅是短暂的流量峰值,根本不是什么真正的问题。这感觉是对开发者时间的巨大浪费。 我的假设是,我们使用的工具过于关注静态阈值(例如,“CPU > 80%”),而缺乏足够的上下文来告诉我们什么才是真正的异常。我一直在探索一种基于同行组比较的不同方法(例如,api-server-5 的行为是否与其他同行 api-server-1 到 4 不同?)。 但我从开发者的角度出发,并且非常清楚我可能忽略了更全面的情况。我很乐意向那些每天都接触这些东西的人学习。 贵公司有多少开发时间浪费在调查“误报”的基础设施警报上? 您认为目前的工具(Datadog、Prometheus 等)是否给开发团队带来了沉重的负担? “同行组上下文”这个想法是否可行,或者是否有更好的方法来解决这个问题,而我没有看到? 我还没有构建太多东西,因为我致力于解决一个真正的问题。任何严厉的反馈或见解都将非常有价值。
1作者: vcast8 个月前
《纽约时报》有一个很受欢迎的租房 vs 买房计算器(<a href="https:&#x2F;&#x2F;www.nytimes.com&#x2F;interactive&#x2F;2024&#x2F;upshot&#x2F;buy-rent-calculator.html" rel="nofollow">https:&#x2F;&#x2F;www.nytimes.com&#x2F;interactive&#x2F;2024&#x2F;upshot&#x2F;buy-rent-cal...</a>),但它被设置了付费墙,所以我决定用 Replit 自己写一个。<p>Replit 对于我这个非开发者来说,部署应用程序非常简单。然而,我很快就发现 Replit 在迭代阶段相当贵。一个典型的 bug 修复或设计更改大约需要 1 分钟的工作时间和 0.50 美元。这很快就累积到一个月大约 300 美元的账单。我花了很长时间才了解到 Replit 支持 SSH 连接到 VS Code,所以我现在使用 VS Code 的 Claude 扩展来进行所有更改。我仍然使用 Replit 进行托管和部署,但不会超过每月费用中包含的额度(25 美元)。<p>我构建的网站:<a href="https:&#x2F;&#x2F;housecalculators.com&#x2F;rent-vs-buy-calculator" rel="nofollow">https:&#x2F;&#x2F;housecalculators.com&#x2F;rent-vs-buy-calculator</a>