2022 年 4 月 5 日您的第一项业务是什么?运行一个脚本,用于从客户的服务实例中删除特定的旧版应用。该脚本经过同行评审和交叉检查,因此,尽管您知道自己正在处理生产环境,但心跳仍有些加快,但您对团队的成果充满信心。您按下 Enter 键。
不到 10 分钟后
客户发送了一张支持单,声称他们无法访问任何数据 — 不仅仅是您 意大利电话号码数据 意大利电话号码数据想要删除的特定旧版应用程序。当您意识到您的脚本托管的不只是您服务的一个实例,而是代表 775 位个人客户的近 900 个实例时,这很快就变成了由事件管理团队领导的全员参与的工作。
完整的恢复需要数天、每天 24 小时的努力,但即便如此,工作尚未完成——您的团队仍然需要承担责任,撰写详细的事后分析报告。
如果您在 Atlassian 这样的组织工作,他们在臭名昭著的 2022 年中断中处理过这个确切的 改进大文件发送功能的其他技巧 问题,事后反思那么他们可以出色地完成这项任务 – 他们不仅因创立了技术领域一些最复杂的事件管理流程而备受尊敬,而且还与他人分享了他们的许多知识。
您永远无法为事故或中断做好准备,尤其是那些涉及数据丢失的事故,但您是否更无法描述 甘肃手机号码一览表 实际发生的情况?
什么是尸检?
事后分析是一种结构化文档,在影响客户或其他最终用户的重大事故或中断发生后生成,用于分析发生了什么、为什么会发生以及如何防止再次发生。
这是至关重要的一步,因为太多成熟公司的人才会产生偏见,认为特定问题根本不存在,这使得主动实施解决方案看起来像是在浪费时间。
关于这种现象,Dan Luu 写道:“我发现这些故障模式令人好奇的一点是,当我与其他人讨论我的发现时,至少有一个人告诉我,我发现的每个流程问题都是显而易见的。但这些‘显而易见’的事情仍然会导致很多故障。有一次,有人告诉我,我告诉他们的事情是显而易见的,而几乎与此同时,他们的公司正面临价值数十亿美元的全球服务中断,而这正是由我们正在谈论的确切原因造成的。仅仅因为某件事显而易见并不意味着它正在被做。”
事后分析是持续改进的“号召”——承诺有人已经分析了问题所在,通过透明度和问责制,您可以承认错误并加强数据保护措施。这是一种践行价值观、留住忧心忡忡的客户,甚至可能展示您团队解决问题能力的方式。