线上问题分析模板
XXX线上问题分析
1 问题描述
2 问题分析
3 解决方案
3.1 尝试方案1
3.2 尝试方案2
3.3 最终解决方案
4 总结复盘
- 故障处理的整个过程:
- 什么时候拿到故障
- 什么时候开始分析
- 什么时候开始尝试解决
- 什么时候解决了
- 什么时候发版、上线
- 故障原因分析
- 故障是怎么发生和分析报告
- 几个why
- 开发为什么会犯这样的错误
- 为什么code review阶段没有发现这个问题
- 为什么没有压测阶段发现
- 为什么定位这个问题花了很长时间
- 整改计划
- 增强开发人员并发代码能力
- 严格要求owner review代码的过程
- 对测试要求压测尽可能接近生产环境
5 经验分享
- 优化获取故障、定位故障的时间
- 最快的速度获取故障,不要等到客户投诉了,这个已经很被动了。
- 优化开发过程
- 提供开发人员对并发代码的严谨性
- 充分发挥code review的价值,做到review的最大效率
- 测试点药覆盖全面,压测药尽可能得接近生产数据、环境
- 几时修复代码的技术债
- 优化团队能力
- 提高团队合作能力
- 提高团队的技术水平
- 严谨的工程意识
总的来说,对于生产问题,反应迅速,快速处理,举一反三,减少类似问题的发生。
License:
CC BY 4.0