👌线上问题处理方法论

方法论都是精华，希望各位鸡友们，理解其中深邃之处。

当产生线上问题的时候，如果没有一套方法处理机制，很容易就陷入慌乱，思路不清晰，会导致损失越来越大，反馈越来越多，耗时越老越长。基于经验，可以沉淀出一些操作步骤。

问题发生反馈

当收到问题发生反馈的时候，第一个思路！！！止损，止损，止损！可能工作经验少，或者没有工作经验的人体会不到。记住，不是去追究问题是什么原理发生的，问题是谁造成的，就一个目地，任何方案，快速止损，立马恢复系统。涉及金钱、损失之类的线上问题，立马向上升级，切忌闷头自己处理，不上报。老板们的资源比你多，经验多，说不定可以快速帮到你！

立马根据自己经验评估，是否非常熟悉，可快速解决，如果不可以，立马拉群，寻求其他小伙伴帮助！

在止损的过程中，尽可能保留线上的证据，比如日志、dump、异常流量情况等等。方便后面复盘。

心态稳住，事情已经发生，我们在这个阶段要做的是解决问题，而不是思考之后会不会挨骂，等等等。心态要平和，专注到当前事件的解决上。

如果你是旁观者，或者来帮忙的，不要打扰主解决者的思路，问一些奇奇怪怪的，不了解情况的问题。

问题定位思路

收集问题产生现象，定位入口，定位日志，定位报错信息。

收集要保证尽可能的多汲取信息，不仅仅是日志，还可能是用户的表达，用户的操作行为，手机机型，网络等等。

第一反应：快速确认今天是否有上线操作影响。如果有立马切流量，或回滚。

开始观察日志分析，确认实际的报错信息。

观察报错后，依据自身经验开始排查，是否是调用量暴增，还是有明显的报错日志。抓取错误流量参数。服务器是否正常。

基于以上，联想问题点。

检查流量问题，服务调用异常问题，网络问题，服务器问题，数据库问题等等。

同时测试同学快速复现，看是否可以产生其他有价值的信息。

最终综合多信息找到异常点，定位故障。一定要不慌，保证准确的同时，迅速！

问题后复盘

评估影响级别，用户量，gmv 受损等等业务重视的指标。

基于规则，来判定，p0，p1，p2 等等各级别的事故级别。

同时认真仔细的回顾当时问题产生的时候，大家的状态和操作是否变形，找到可以优化的地方，比如有一个什么角色去并行做什么东西可以提高整体的效率等等。

复盘不是为了追责，喷人，只是为了让大家都知悉问题发生的过程，后续不再踩坑。
比如后续的报警措施啊，异常处理措施啊，优化思路啊，这次排查效率还有什么要优化的呀。沉淀思路啊。知识库沉淀，问题归档。

同时分析出问题产生的根本原因。开发阶段不行还是测试不行，还是产品流程问题，还是上线问题！

同时查看其他需求是否也有此问题。

铭记

海恩法则，也被称为海恩法则或海因里希法则，是由德国飞机涡轮机的发明者帕布斯·海恩提出的。这一法则主要应用于航空界，强调飞行安全，但也被广泛应用于企业生产管理、安全管理和人力资源管理等领域。海恩法则的核心思想是，每一起严重事故的背后，必然有29次轻微事故和300起未遂先兆以及1000起事故隐患。