1 分•作者: AlonsoGP•5 天前
返回首页
一周热榜
1 分•作者: nr378•5 天前
1 分•作者: chriskanan•5 天前
1 分•作者: hnmouse•5 天前
1 分•作者: scottndecker•5 天前
1 分•作者: BlackPearl02•5 天前
我一直以来都在处理一个令人沮丧的问题:我的 cron 作业返回退出码 0,但结果却是错误的。
例如:
* 备份脚本成功完成,但创建了空的备份文件
* 数据处理作业完成,但只处理了 10% 的记录
* 报表生成器运行没有错误,但输出了不完整的数据
* 数据库同步完成,但计数不匹配
日志显示“成功”——退出码 0,没有异常——但实际结果是错误的。错误可能埋藏在日志中,但我不会每天主动检查日志。
我尝试过:
* 在脚本中添加验证检查(例如,如果计数 < 100: 退出 1)——有效,但你必须修改每个脚本,并且更改阈值需要更改代码
* Webhook 警报——需要为每个脚本编写连接器
* 错误监控工具(Sentry 等)——它们捕获异常,而不是错误的结果
* 手动抽查——不可扩展
脚本内验证的方法适用于简单情况,但它不够灵活。如果你需要更改阈值怎么办?如果文件存在但来自昨天怎么办?如果你需要检查多个条件怎么办?最终你会将监控逻辑与业务逻辑混在一起。
我构建了一个简单的监控工具,它监视作业结果,而不仅仅是执行状态。你向它发送实际结果(文件大小、记录计数、状态等),如果出现问题,它会发出警报。无需翻阅日志,你可以调整阈值,而无需部署代码。
你是如何处理这个问题的?你是在每个脚本中添加验证,主动检查日志,还是使用在结果与预期不符时发出警报的工具?你处理这些“静默失败”的方法是什么?
1 分•作者: SlavojsChef•5 天前
1 分•作者: dylancollins•5 天前
1 分•作者: jaksa•5 天前
1 分•作者: _____k•5 天前
1 分•作者: tanin•5 天前
1 分•作者: rbanffy•5 天前
1 分•作者: rubyn00bie•5 天前
1 分•作者: teleforce•5 天前
1 分•作者: teleforce•5 天前
1 分•作者: onurkanbkrc•5 天前
1 分•作者: Nir-Complex•5 天前
1 分•作者: hhs•5 天前
1 分•作者: PaulHoule•5 天前
1 分•作者: GreenSalem•5 天前