OpenAI归因大规模ChatGPT中断于“新遥测服务”故障
1 周前 / 阅读约3分钟
来源:TechCrunch
OpenAI遭遇了历史上最长的宕机之一,原因是新部署的遥测服务出错,影响了Kubernetes操作,导致大多数大型Kubernetes集群的控制平面瘫痪,服务约三小时后恢复。

图片来源:Bryce Durbin / TechCrunch

OpenAI将其历史上持续时间最长的一次服务中断归咎于新部署的“遥测服务”出现故障。

周三,OpenAI的AI聊天机器人平台ChatGPT、视频生成器Sora及其面向开发者的API从太平洋时间下午3点左右开始出现严重中断。OpenAI迅速承认了问题并开始着手修复,但耗时约三小时才全面恢复服务。

在周四晚些时候发布的事后报告中,OpenAI指出,此次中断并非由安全事件或近期产品发布引起,而是周三部署的用于收集Kubernetes指标的新遥测服务所致。Kubernetes是一个开源系统,用于管理容器,即在隔离环境中运行软件的应用包及相关文件。

“由于遥测服务覆盖范围广泛,新服务的配置不慎导致了资源密集型的Kubernetes API操作,”OpenAI在报告中写道,“这使得[我们的]Kubernetes API服务器不堪重负,进而导致大多数大型[Kubernetes]集群的控制平面瘫痪。”

这些术语虽显专业,但简而言之,新遥测服务影响了OpenAI的Kubernetes操作,包括公司多项服务所依赖的DNS解析资源。DNS解析负责将IP地址转换为域名,例如将“Google.com”转换为“142.250.191.78”,从而使访问更加便捷。

OpenAI使用的DNS缓存存储了先前查询过的域名(如网站地址)及其对应的IP地址信息,这通过“延迟可见性”加剧了问题的复杂性,OpenAI指出,并“在问题范围完全明确前允许[遥测服务]继续部署”。

OpenAI表示,它能够在客户最终受到影响“几分钟前”检测到问题,但由于必须绕过超负荷的Kubernetes服务器,因此无法迅速实施修复。

“这是多个系统和进程同时失效并以意外方式相互作用的综合结果,”公司写道,“我们的测试未能捕捉到变更对Kubernetes控制平面的影响,且由于锁定效应,修复进程极为缓慢。”

OpenAI承诺将采取多项措施预防未来类似事件的发生,包括改进分阶段部署策略、加强基础设施变更监控,以及建立新机制以确保OpenAI工程师在任何情况下都能访问公司的Kubernetes API服务器。

“我们对此次事件给所有客户造成的影响深表歉意——无论是ChatGPT用户、开发者,还是依赖OpenAI产品的企业,”OpenAI写道,“我们未能达到自己的期望。”