线上问题分析模板
研发 研发 11

XXX线上问题分析

1 问题描述

2 问题分析

3 解决方案

3.1 尝试方案1

3.2 尝试方案2

3.3 最终解决方案

4 总结复盘

  • 故障处理的整个过程:
    • 什么时候拿到故障
    • 什么时候开始分析
    • 什么时候开始尝试解决
    • 什么时候解决了
    • 什么时候发版、上线
  • 故障原因分析
    • 故障是怎么发生和分析报告
  • 几个why
    • 开发为什么会犯这样的错误
    • 为什么code review阶段没有发现这个问题
    • 为什么没有压测阶段发现
    • 为什么定位这个问题花了很长时间
  • 整改计划
    • 增强开发人员并发代码能力
    • 严格要求owner review代码的过程
    • 对测试要求压测尽可能接近生产环境

5 经验分享

  • 优化获取故障、定位故障的时间
    • 最快的速度获取故障,不要等到客户投诉了,这个已经很被动了。
  • 优化开发过程
    • 提供开发人员对并发代码的严谨性
    • 充分发挥code review的价值,做到review的最大效率
    • 测试点药覆盖全面,压测药尽可能得接近生产数据、环境
    • 几时修复代码的技术债
  • 优化团队能力
    • 提高团队合作能力
    • 提高团队的技术水平
    • 严谨的工程意识

总的来说,对于生产问题,反应迅速,快速处理,举一反三,减少类似问题的发生。

线上问题分析模板
https://blog.xiqi.site/archives/1693709137085
作者
管理员
发布于
更新于
许可