1 分•作者: jpgerek•8 个月前
作为一名数据工程师,我经常纳闷为什么这么多公司不对他们的 Spark 作业进行单元测试。
根据我的经验,主要原因有:
- 创建 DataFrame 夹具(数据和模式)耗时太长
- 跨多个表进行调试很复杂
- 样板代码冗长且重复
为了解决这些痛点,我构建了 PyBujia,一个框架,它:
- 允许你使用 Markdown 定义表夹具,以促进 DataFrame 的创建、调试和可读性。
- 泛化了样板代码,节省了设置时间
它让我的 Spark 作业测试变得容易多了,现在我使用 TDD(测试驱动开发),我希望它也能帮助其他数据工程师。
欢迎提供反馈!