找回密码
 注册

Sign in with Twitter

It's what's happening?

微信登录

微信扫一扫,快速登录

萍聚头条

查看: 126|回复: 0

AI故障时代:事件管理新范式

[复制链接]
发表于 2026-2-15 19:45 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?注册 微信登录

×
作者:微信文章

w1.jpg

AI普及加速,预示2026年将迎来AI事故高峰。组织需将AI事故视为独立类别,重塑跨职能团队,并优化沟通策略。主动、智能驱动的运维是AI时代运营韧性的关键。

译自:When AI fails: The new reality of incident management[1]

作者:Kat Gaines

如果2025年是AI普及之年,88% 的组织[2]已将AI应用于至少一项业务功能,那么2026年很可能成为AI事故之年。随着AI系统高速部署,治理、监督和韧性方面的漏洞正在浮现。在这种环境下,IT运维(ITOps)团队必须为AI事故做好准备,并重新思考传统的运维管理流程,以反映风险性质的变化。

在未来一年,三个转变将重新定义组织管理、响应和围绕AI事故进行沟通[3]的方式。
AI事故将成为独立类别

随着AI更深入地融入业务运营,组织将把AI事故视为一个独立的类别,需要特定的补救[4]流程。更广泛的采用引入了新的故障模式,尤其是在第三方AI工具被授予访问安全数据和内部系统的权限时。

当AI系统出现故障时,造成的损害可能非常严重。IBM的一项调查[5]发现,63% 的组织缺乏正式的治理政策来管理AI或阻止影子AI的蔓延,这凸显了许多组织对AI相关的运营风险毫无准备。为此,组织必须优先考虑负责任的AI采纳,并在事故发生前制定保障措施。

为了应对新的故障模式,组织开始将AI可靠性作为一项运营指标来衡量。这使得团队能够评估AI工具完成任务的有效性,并确定何时需要干预。关键指标可能包括幻觉率、偏差和模型漂移。我们可以预期,针对这些风险,以及像提示注入攻击这样的安全威胁,AI专属的运行手册将会出现。

尽管AI和自动化在运维管理中的作用[6]将继续演变,但AI事故的风险意味着组织必须保留人工干预作为关键保障,并应确保AI工具对高风险操作请求批准。这在自动化流程失败时提供了一个手动覆盖选项,并确保人工主导的质量控制得以保留,以监控和管理AI可靠性。
团队构成将发生转变

AI事故跨越团队和业务功能,迫使ITOps团队重新思考事件管理的组织方式[7]。实际上,这意味着优先进行跨职能培训,扩大参与事件补救的角色范围,并减少对少数专家响应者的依赖。随着时间的推移,这一转变将打破传统的运营孤岛[8],更均匀地分配团队责任。

因为AI事故很少局限于单个系统,其影响通常会跨越多个业务部门,并影响内部团队和客户。因此,事件补救将越来越多地涉及非技术背景的领域专家,他们通常不会参与解决过程。组织在设计事件管理培训和响应流程时,应考虑这个更广泛的群体。

这一转变也对值班结构产生了影响。结合深度技术专长和更广泛、多团队参与的轮班至关重要,因为这种团队设置确保机器学习(ML)工程师和数据科学家与理解客户影响和业务背景的非技术角色一同在岗。这些群体可以协作在非工作时间解决AI事故,最大限度地减少对系统和客户的干扰。
沟通策略将日趋成熟

鉴于AI事故更加复杂和交叉,沟通需要相应地改变。事件沟通必须超越静态状态更新,提供及时、准确的影响解释和后续步骤,尤其是在客户和利益相关者受到影响时。

当事故发生时,客户期望清楚地了解他们如何受到影响以及解决过程的可见性,而不仅仅是一个变红的状态页面。

AI辅助的沟通使组织能够超越被动通知,主动实时解释影响和后续步骤。这种及时性和精确性使客户能够采取行动,最大限度地减少对其自身服务的下游影响。

利用AI和自动化来提高事件沟通速度和准确性的组织,可以将侵蚀信任的事件转化为建立信任的透明时刻。通过这种方式,它们不是通过完全避免事故来区分自己,而是在发生故障时通过展示责任和清晰的沟通来脱颖而出。
适应事故不断变化的面貌

AI的快速普及标志着运维管理进入一个新阶段,重塑了事故的识别、管理和沟通方式。组织必须适应才能生存,因为那些拥有缓慢、被动事件管理流程的组织将在AI事故时代举步维艰。

转向主动的、智能驱动的运营的组织最能跟上这一变化。AI和自动化支持的工具帮助团队预测事故并预知未来事件,从而抢先应用修复措施。那些使其运维管理实践现代化的组织将更好地管理AI相关风险并维护信任。

在AI时代,运营韧性不再是可选项,而是一种决定性的能力。
引用链接

[1] When AI fails: The new reality of incident management:https://thenewstack.io/when-ai-fails-the-new-reality-of-incident-management/
[2]88% 的组织:https://www.mckinsey.com/capabilities/quantumblack/our-insights/the-state-of-ai
[3]围绕AI事故进行沟通:https://thenewstack.io/how-to-streamline-communication-during-incidents/
[4]AI事故视为一个独立的类别,需要特定的补救:https://thenewstack.io/5-ways-to-supercharge-incident-remediation-with-automation/
[5]IBM的一项调查:https://www.ibm.com/reports/data-breach#:~:text=The%20AI%20oversight%20gap,Risks%2C%20Shadow%20AI%2C%20&%20Solutions
[6]AI和自动化在运维管理中的作用:https://thenewstack.io/how-ai-and-automation-can-improve-operational-resiliency/
[7]重新思考事件管理的组织方式:https://thenewstack.io/what-can-incident-teams-learn-from-crisis-management/
[8]打破传统的运营孤岛:https://thenewstack.io/breaking-down-the-barriers-to-operational-innovation/
Die von den Nutzern eingestellten Information und Meinungen sind nicht eigene Informationen und Meinungen der DOLC GmbH.
您需要登录后才可以回帖 登录 | 注册 微信登录

本版积分规则

Archiver|手机版|AGB|Impressum|Datenschutzerklärung|萍聚社区-德国热线-德国实用信息网

GMT+1, 2026-2-17 23:31 , Processed in 0.086926 second(s), 30 queries .

Powered by Discuz! X3.5 Licensed

© 2001-2026 Discuz! Team.

快速回复 返回顶部 返回列表