• 全部
  • 产业
  • Web 3.0
  • DAO
  • DeFi
  • 符文
  • 空投再质押
  • 以太坊
  • Meme
  • 比特币L2
  • 以太坊L2
  • 研报
  • 头条
  • 投资

免责声明:内容不构成买卖依据,投资有风险,入市需谨慎!

AI代理“正常运行”引发基础设施故障…监控标准即将改变

2026-05-08 05:42:20
收藏

凌晨2点17分,当数据库延迟警报响起时,多个AI代理同时启动响应的场景已不再是虚构情节。关键在于,每个代理都可能做出正确判断,但当这些决策产生冲突的瞬间,整个基础设施便可能崩溃。

思科系统平台保障部门副总裁乔·瓦卡罗在专栏中指出,下一代基础设施故障的形态可能不再是"某个部件损坏",而是"所有部件都按设计运行"所导致。例如:性能管理代理试图增加数据库容量,成本管理代理却判定资源过剩而缩减实例,流量路由代理同时设置了迂回路径。每项决策单独看都合乎逻辑,但最终可能导致数据库层在短短两分钟内瘫痪。

预设机制中的隐性风险

这类风险在AI代理全面普及前就已显露端倪。某云数据库DNS事故的起因,是两个独立系统各自正常执行配置更新时产生时序冲突:一方延迟应用了旧配置,另一方却已按新配置启动清理程序。当延迟的系统突然覆盖新配置时,故障随即爆发——核心问题并非系统错误,而是"时机巧合"。

另一起广域网故障同样发人深省:控制平面生成了错误的元数据,自动化系统按规则将其正常拦截。后续清理流程也符合预期,却意外触发了第三方组件的隐蔽漏洞。某内容分发网络的机器人管理事故也是如此:权限变更产生重复查询结果,配置系统将其作为正常数据生成超大文件,而代理服务器则严格依照尺寸限制拒绝该文件。每个系统都恪守规则,组合起来却导致全局失败。

复合决策的连锁效应

这些案例的共性是:仅查看单一系统内部日志很难发现异常征兆。当数十个代理以机器速度同步决策时,同类故障将以更频繁、更复杂的形式出现。

自动扩缩容、容器编排、智能运维等自动化技术已广泛应用,但这些系统大多在预设的有限规则内运作。而代理驱动的基础设施能够观察环境,权衡成本与性能等矛盾因素,并以机器速度做出判断。问题在于,企业往往同时部署数十个代理在相同基础设施上运行,此时故障可能朝三个维度放大:

首先,多个代理尝试解决同一问题时可能形成恶性循环。例如代理甲将队列A的过载任务转移至队列B,代理乙却判定队列B过载而将任务回传至队列A,两者各自正确却构成死循环。

其次,代理难以区分其他代理的行为属于"决策"还是"失误"。当一方扩容时,另一方可能为节约成本而缩容,引发持续的策略冲突。从外部观察,这看似基础设施故障,实则是协调失效。

最后,局部决策可能引发系统性崩溃。服务A代理的操作影响服务B,服务B代理又波及服务C。待运维团队介入调查时,初始条件早已消失,根本原因追溯将异常困难。

从监控状态到洞察交互

传统监控体系擅长捕捉CPU使用率、内存、请求延迟、错误率等单体指标。但在代理时代,所有系统均显示"正常"的状态下,仍可能因交互作用产生故障。因此核心问题应从"服务A是否健康"转变为"A的变更将如何触发B、C、D的连锁反应"。

我们不仅需要关注代理执行了哪些操作,更需理解它们依据何种数据做出决策。这要求建立跨越网络、计算、应用、数据层的全域可观测性。仅靠组件级指标已不足够,必须能够追踪依赖关系、时序逻辑以及实时决策链。

与机器速度赛跑

资深站点可靠性工程师早已通过变更冻结、渐进式部署、故障隔离等手段管理部分风险。但在代理决策速度面前,人工干预的时间窗口被急剧压缩。看不见的交互,注定无法被有效协调。

瓦卡罗强调,不应将代理驱动的基础设施本身视为威胁,其在响应速度、优化效率、运维负担等方面的优势显而易见。但未来的故障很可能并非源于代理失效,而是由于"所有代理都过于完美地执行了既定目标"。

企业需要改变依赖事后监控补漏的模式,在代理投入运行前就将交互架构纳入设计约束。否则,当某天凌晨2点17分来临,日志一切正常而系统全面停滞的场景,或将不再只是假设。

免责声明:

本网站、超链接、相关应用程序、论坛、博客等媒体账户以及其他平台和用户发布的所有内容均来源于第三方平台及平台用户。百亿财经对于网站及其内容不作任何类型的保证,网站所有区块链相关数据以及其他内容资料仅供用户学习及研究之用,不构成任何投资、法律等其他领域的建议和依据。百亿财经用户以及其他第三方平台在本网站发布的任何内容均由其个人负责,与百亿财经无关。百亿财经不对任何因使用本网站信息而导致的任何损失负责。您需谨慎使用相关数据及内容,并自行承担所带来的一切风险。强烈建议您独自对内容进行研究、审查、分析和验证。

展开阅读全文
更多新闻
自选
我的自选
查看全部
市值 价格 24h%