人工智能时代的致命风险,芝商所数据中心停运
芝加哥商品交易所(CME)的交易中断让数据中心散热问题进入公众视野。 11月27日,全球最大期货交易所运营商芝商所集团的交易平台遭遇数小时宕机,股票、外汇、债券和大宗商品等领域数万亿美元合约受到影响。此次事件的直接原因是其位于伊利诺伊州奥罗拉市的数据中心的冷却系统出现故障。该数据中心由私募股权公司 KKR Co 和全球基础设施合作伙伴旗下运营商 Cyrusone 所有。 Cyrusone 表示,其工厂的一台冷却器发生故障,影响了多个冷却装置。 “简单”的物理故障引发了全球市场的混乱。为了防止设备过热,冷却系统的资本支出通常高达数据中心项目总投资的15%。这一事件不仅仅是一个孤立的技术故障。在人工智能浪潮的背景下,随着英伟达推上全球最重要公司的宝座,数据中心的散热问题也日益凸显。热量从哪里来?数据中心是充满服务器的建筑物,这些服务器由芯片堆栈组成,这些芯片一起工作来处理和存储数据。处理能力(通常称为“计算”)已成为人工智能公司训练模型所需的关键要素。数据中心通过向其他公司出租计算能力来赚钱,这意味着运营商有动力将尽可能多的服务器塞进两个空间以最大化容量。所有这些服务器都消耗大量电力。由于能耗高、全天候运行,数据中心每平方英尺的能耗是普通办公楼的 50 倍。他们消耗的大部分能量最终都以废热的形式排放出去。它就像个人笔记本电脑或手机在执行复杂任务时会变热。冷却技术和权衡 Trad一般来说,服务器是用冷空气冷却的,其工作原理与家用空调类似。风扇将冷空气吹向服务器,然后将热空气排出房间。然而,随着用于人工智能的数据中心产生更多热量,从 2022 年左右开始,液体冷却系统将变得更加普遍。液体冷却可以采取多种形式,例如将冷液体输送到芯片旁边的散热器,或者将整个服务器浸入装满冷却剂的容器中。其他系统使用低温流体,当它们与高温芯片接触时,低温流体会吸收热量并蒸发,然后这些流体被破坏以进行回收。液体每单位体积可以比空气携带更多的热能,因此效率更高。但这些系统安装起来复杂且昂贵,如果出现问题就会很困难。没有人愿意将昂贵的薯片浸泡在液体中。无论使用空气还是液体,从芯片传递的热量最终都传递到d 冷却水循环系统,其中冷却塔或工业冷水机将热量释放到外部环境。这正是数据中心消耗大量水的原因,并引发了人们对水资源紧张地区水资源压力加剧的担忧。数据中心过热的成本可能导致数据丢失、服务器内部昂贵芯片的损坏,并导致客户服务中断。其后果类似于最近许多数字基础设施提供商因技术故障而导致的服务中断。例如,网络安全公司 CloudFlare Inc. 在 11 月份遭遇了一次重大网络中断,导致从 Social Platform X 到 Chatgpt 的许多网站无法访问。亚马逊、Crowdstrike 和 Microsoftt 的云服务也出现了类似的问题。通常,数据中心在冗余方面投入巨资,包括提供备用发电机、额外的冷却装置,甚至复制整个设施,以减少停电的可能性s。但随着系统变得越来越复杂,尽管有裁员,但中断可能是不可避免的。 CME 事件回顾 CME 的交易平台位于芝加哥郊区奥罗拉 (Aurora) 的一个园区,由数据中心运营商 Cyrusone 所有。据 Cyrusone 称,11 月 27 日 Aurora 工厂的冷水机故障影响了多个冷却装置,最终导致交易中断。事件发生后,Cyrusone 表示,它部署了临时冷却设备来补充永久系统,同时努力恢复全部冷却能力。不过,据kum官网介绍,奥罗拉校区拥有“先进的冷却技术”,采用风冷式冷水机,当气温降至30华氏度(约-1摄氏度)以下时,使用自然冷空气或水进行冷却。据天气预报数据显示,11月28日上午10时40分,奥罗拉当地气温约为28华氏度。有趣的是,Cyrusone 的网站还声称其 Aurora facility 拥有额外的冷却装置,以防风冷式冷水机组发生故障。目前还不清楚冗余系统是否在这次事件中发挥了应有的作用。
特别声明:以上内容(如有则包括照片或视频)由自媒体平台“网易号”用户上传发布。本平台仅提供信息存储服务。
注:以上内容(包括图片、视频,如有)由网易HAO用户上传发布,网易HAO为社交媒体平台,仅提供信息存储服务。