OpenAI归因大规模ChatGPT中断于“新遥测服务”故障 - AI

7 x 24跟踪全球科技动态

热门话题

白天

搜索

资讯

OpenAI归因大规模ChatGPT中断于“新遥测服务”故障

1 周前 / 阅读约3分钟

来源：TechCrunch

OpenAI遭遇了历史上最长的宕机之一，原因是新部署的遥测服务出错，影响了Kubernetes操作，导致大多数大型Kubernetes集群的控制平面瘫痪，服务约三小时后恢复。

图片来源：Bryce Durbin / TechCrunch

OpenAI将其历史上持续时间最长的一次服务中断归咎于新部署的“遥测服务”出现故障。

周三，OpenAI的AI聊天机器人平台ChatGPT、视频生成器Sora及其面向开发者的API从太平洋时间下午3点左右开始出现严重中断。OpenAI迅速承认了问题并开始着手修复，但耗时约三小时才全面恢复服务。

在周四晚些时候发布的事后报告中，OpenAI指出，此次中断并非由安全事件或近期产品发布引起，而是周三部署的用于收集Kubernetes指标的新遥测服务所致。Kubernetes是一个开源系统，用于管理容器，即在隔离环境中运行软件的应用包及相关文件。

“由于遥测服务覆盖范围广泛，新服务的配置不慎导致了资源密集型的Kubernetes API操作，”OpenAI在报告中写道，“这使得[我们的]Kubernetes API服务器不堪重负，进而导致大多数大型[Kubernetes]集群的控制平面瘫痪。”

这些术语虽显专业，但简而言之，新遥测服务影响了OpenAI的Kubernetes操作，包括公司多项服务所依赖的DNS解析资源。DNS解析负责将IP地址转换为域名，例如将“Google.com”转换为“142.250.191.78”，从而使访问更加便捷。

OpenAI使用的DNS缓存存储了先前查询过的域名（如网站地址）及其对应的IP地址信息，这通过“延迟可见性”加剧了问题的复杂性，OpenAI指出，并“在问题范围完全明确前允许[遥测服务]继续部署”。

OpenAI表示，它能够在客户最终受到影响“几分钟前”检测到问题，但由于必须绕过超负荷的Kubernetes服务器，因此无法迅速实施修复。

“这是多个系统和进程同时失效并以意外方式相互作用的综合结果，”公司写道，“我们的测试未能捕捉到变更对Kubernetes控制平面的影响，且由于锁定效应，修复进程极为缓慢。”

OpenAI承诺将采取多项措施预防未来类似事件的发生，包括改进分阶段部署策略、加强基础设施变更监控，以及建立新机制以确保OpenAI工程师在任何情况下都能访问公司的Kubernetes API服务器。

“我们对此次事件给所有客户造成的影响深表歉意——无论是ChatGPT用户、开发者，还是依赖OpenAI产品的企业，”OpenAI写道，“我们未能达到自己的期望。”

上一篇：打造海外UP主的AI助理，「一触互动OneTouch」完成百万美元天使轮融资 | 36氪首发

下一篇：Google推出NotebookLM企业版

返回列表

热文阅读

2 天前

美国政府对中国成熟芯片展开301调查

2 天前

星闪产品品类今年突破 100 款，预计明年起进入该技术 3.0 阶段

2 天前

捷捷微电“一种纵向变掺杂的IGBT结构及制备方法”专利公布

2 天前

产业观察：新思科技收购Ansys或在英国即将获批

1 天前

【热点】产业观察:新思科技收购Ansys或在英国即将获批；荣耀投资成立4家新公司涉及移动终端、可穿戴设备销售等

2 天前

派恩杰“一种碳化硅晶圆衬底的制备方法及碳化硅晶圆衬底”专利公布

1 天前

【收入】机构:2024年前三季度半导体市场总收入达4940亿美元；工业和信息化部公布2024年国家高新区评价结果

1 天前

【收购】晶华微拟收购SoC设计公司智芯微100%股权以拓展MCU产品；至纯科技：南通至远基金合伙人出资结构发生变更

1 天前

【成立】传英伟达拟在中国台湾设立海外总部；继三星之后，德州仪器与安靠也获美国补助16.1亿与4.07亿美元

1 天前

【发放】三星宣布将向存储业务部门发放基本工资200%的绩效奖金；韩国2025年将豪掷25.5万亿韩元投资半导体、显示器等先进产业

上一篇：打造海外UP主的AI助理，「一触互动OneTouch」完成百万美元天使轮融资 | 36氪首发

下一篇：Google推出NotebookLM企业版

C114通信网
通信人家园

7 X 24跟踪全球科技动态

发现

资讯话题

热门话题

7 x 24跟踪全球科技动态

快讯

资讯

视频

关于我们

C114通信网

通信人家园