👌线上问题处理?

👌线上问题处理方法论

方法论都是精华,希望各位鸡友们,理解其中深邃之处。

当产生线上问题的时候,如果没有一套方法处理机制,很容易就陷入慌乱,思路不清晰,会导致损失越来越大,反馈越来越多,耗时越老越长。基于经验,可以沉淀出一些操作步骤。

问题发生反馈

当收到问题发生反馈的时候,第一个思路!!!止损,止损,止损!可能工作经验少,或者没有工作经验的人体会不到。记住,不是去追究问题是什么原理发生的,问题是谁造成的,就一个目地,任何方案,快速止损,立马恢复系统。涉及金钱、损失之类的线上问题,立马向上升级,切忌闷头自己处理,不上报。老板们的资源比你多,经验多,说不定可以快速帮到你!

立马根据自己经验评估,是否非常熟悉,可快速解决,如果不可以,立马拉群,寻求其他小伙伴帮助!

在止损的过程中,尽可能保留线上的证据,比如日志、dump、异常流量情况 等等。方便后面复盘。

心态稳住,事情已经发生,我们在这个阶段要做的是解决问题,而不是思考之后会不会挨骂,等等等。心态要平和,专注到当前事件的解决上。

如果你是旁观者,或者来帮忙的,不要打扰主解决者的思路,问一些奇奇怪怪的,不了解情况的问题。

问题定位思路

收集问题产生现象,定位入口,定位日志,定位报错信息。

收集要保证尽可能的多汲取信息,不仅仅是日志,还可能是用户的表达,用户的操作行为,手机机型,网络等等。

第一反应:快速确认今天是否有上线操作影响。如果有立马切流量,或回滚。

开始观察日志分析,确认实际的报错信息。

观察报错后,依据自身经验开始排查,是否是调用量暴增,还是有明显的报错日志。抓取错误流量参数。服务器是否正常。

基于以上,联想问题点。

检查流量问题,服务调用异常问题,网络问题,服务器问题,数据库问题等等。

同时测试同学快速复现,看是否可以产生其他有价值的信息。

最终综合多信息找到异常点,定位故障。一定要不慌,保证准确的同时,迅速!

问题后复盘

评估影响级别,用户量,gmv 受损等等业务重视的指标。

基于规则,来判定,p0,p1,p2 等等各级别的事故级别。

同时认真仔细的回顾当时问题产生的时候,大家的状态和操作是否变形,找到可以优化的地方,比如有一个什么角色去并行做什么东西可以提高整体的效率等等。

复盘不是为了追责,喷人,只是为了让大家都知悉问题发生的过程,后续不再踩坑。
比如后续的报警措施啊,异常处理措施啊,优化思路啊,这次排查效率还有什么要优化的呀。沉淀思路啊。知识库沉淀,问题归档。

同时分析出问题产生的根本原因。开发阶段不行还是测试不行,还是产品流程问题,还是上线问题!

同时查看其他需求是否也有此问题。

铭记

海恩法则,也被称为海恩法则或海因里希法则,是由德国飞机涡轮机的发明者帕布斯·海恩提出的。这一法则主要应用于航空界,强调飞行安全,但也被广泛应用于企业生产管理、安全管理和人力资源管理等领域。海恩法则的核心思想是,每一起严重事故的背后,必然有29次轻微事故和300起未遂先兆以及1000起事故隐患。

 wechat
天生我才必有用