新闻资讯
新闻资讯

万卡星团会去天堂吗?中国硬核企业正在打造太

来自奥飞斯量子比特的 Cressy |公众号Qbitai的算力落地“参与”,终于打破了环境的壁垒。率先搭载Nvidia H100的StarCloud-1卫星搭乘SpaceX的Falcon 9火箭成功进入轨道,为“太空超级计算机”的发展迈出了重要一步。谷歌紧随其后,很快公布了其部署 TPU 卫星集群的“Project Suncatcher”计划。 “太空超级计算”的概念正在迅速从科幻小说走向工程现实,计算能力基础设施的物理位置正在发生巨大的变化。在这条切轨上,中国的科研实力确实是经过多年培育的。 2019年以来,中科院计算技术研究所、武汉大学、北京邮电大学等研究机构开始了空间智能计算的探索和行动。乌廷。中国科学院计算技术研究所是国家级算力研究团队。超前开展天基计算基础研究工作,牵头研制Aurora Pops级星载智能计算有效载荷和大型天基模型及智能体,并已开展应用工作。武汉大学牵头研制的“东方之眼”智能遥感星座,采用“光学+雷达+高光谱”观测系统协同,突破星上智能处理、高效图像压缩等关键技术。北京邮电大学牵头研制“天算星座”,通过“北邮一号”、“北邮2/3号”等卫星验证了在轨星地IP网络、星间激光通信等技术。浙江省实验室成功今年5月成功发射“三体星座”卫星,并开始空间计算星座网络验证。与此同时,中国商业航天中科天算也在该领域展开布局。中科天算是国内最早从事“天基计算”的团队之一。团队核心成员来自中科院计算技术研究所、航天部、之江实验室等有用单位。他们同时拥有“互联网”和“航天”基因。他们不仅继承了地面超级计算的成功经验,也继承了严谨的航天工程风格。他们自2019年起深度涉足空间智能计算,先后在星载高算力、在轨协作、天基大模型等关键技术上取得突破。他们将完成在轨注入和部署2024年大规模模型落地,构建从感知到决策的“空间智能链”。重点突破“超算天上”、“人工智能太空”核心技术,建立智能计算软硬件系统和应用服务生态圈。如今,他们启动“天拴计划”,试图在近地轨道建造真正的“太空超级计算机”,在真空和辐射的绝境中研制出人类“第二大脑”。空间计算新范式:空间互联网应用生态系统随着遥感精度的提高和通信需求的爆发,传统的“天基地基计算”模式面临物理瓶颈——长期以来,卫星主要扮演“传感器”和“路由器”的角色,而真正的“大脑”始终留在地面。中科天算首席执行官刘耀奇介绍说,目前的天基基础设施类似于地面互联网1G时代,价格昂贵,功能单一。随着地面互联网的发展,当算力的演进为智能化提供了基础时,互联网应用生态在4G时代迎来爆发,各种APP应用如雨后春笋般出现。在建设天基网络基础设施方面,2G时代太空是引领者,人人都可以拨打卫星电话、发送卫星短信。然而,这还不足以支持整个太空经济。空间算力的应用将推动空间互联网4G时代的出现,构建整个天基互联网生态系统。通过将算力推向数据源,直接在赛道侧完成“感知-理解-决策”的闭环,其应用价值将实现合格的飞跃。以远洋渔业为例。如果在轨d决策可以实现,未来的渔民通过天基基础设施提供的“上帝之眼”,可以随时随地知道哪里鱼多。高光谱卫星实时观测海洋环境,卫星卫星提供定位。经过数据整合和分析,太空中的大AI模型直接将“半小时内将有一群金枪鱼经过东北20海里”的决策参考驱动到用户终端。地面超级计算受到物理延迟和星地带宽瓶颈的限制,难以满足对时间敏感的服务的过度需求。只有去掉轨道侧的算力,才能做到即时响应。中科天算认为,“天数-天网-天算”的演化过程——从海量空间数据的诞生,到空间互联网的编织,再到空间智能决策的出现是技术发展的必然路径。正是在这种理念的推动下,“天拴计划”诞生了。该计划旨在建设真正的太空超级计算中心,目标是实现基于万卡超级智能的集群在轨部署,计算能力高达10eops。集群由三个主要模块组成,具有模块化组装、扩容和更换能力——100MW能量舱采用柔性光伏阵列和模块化储能系统,利用无限昼夜空间限制,实现无限绿色能源供应; 10TBPS通信舱可容纳100多束100Gbit激光链路,实现空间节点和地空节点之间的按需互联,形成高速数据传输网络; Power Power 10EOPS级计算模块将高性能电源集群送入轨道,集成数千块高性能计算卡,突破e 能源消耗和地球散热限制。通过这一计划,中科天双正试图开启“自然辐射冷却、无限绿色能源供应、全球电力共享”的空间计算新范式。然而,在绝望的物理情况下,一项工程突破是将地球超级计算机的巨大计算能力直接带入太空。这并不意味着简单的物理拆除,而是针对极端物理环境的系统重构。在距地球500公里的轨道上,工程师必须应对两大物理挑战——一是高能粒子辐射对精密芯片的微观轰击,这关系到速率计算的准确性和安全性。其次是真空环境下的极限热管理,这决定了大功率芯片能否继续运行而不烧毁。这两个主要问题就像两座大山,矗立在高性能之间计算能力和空间的要求,迫使研究人员在架构层面寻找突破。在辐射防护方面,太空和地面超级计算的环境存在重要差异。天空中的高能粒子会带来两种完全不同的后果——一种是“错误”,比如总剂量效应或者闩锁效应,高能粒子会导致电流增大,直接物理烧毁芯片;另一种是“内伤”,即单个粒子。即使硬件完好,逻辑电平跳变,导致计算结果不正确或系统“崩溃”。传统航天工程长期依赖“抗辐射强化”芯片。这类芯片通过加固电路等物理手段提高安全性,但代价是制造工艺落后、计算能力差,完全不支持现代AI模型。为了打破这个为了打破僵局,中科天算团队在研究中利用了半导体物理的一个特性。实验结果表明,即使是具有先进映射工艺sktura的芯片也极易受到“单晶翻转”的影响,从而导致逻辑跳变和计算错误,“烧毁”的概率也较低。只要剩下芯片,就不用担心计算不准确。针对“不能死,但常出错”的这一特点,工程团队提出了软硬件互补容错的思路。它们采用多模块冗余架构,允许多个计算单元相互备份并实时比较。他们用计算架构的冗余来换取商业先进工艺芯片在轨应用的可行性。传统的航空航天计算机只能使用十年,而地面芯片的性能每 18 个月就会翻一番。这个想法允许航空太空计算系统摆脱研发的漫长过程,让地球上最先进的芯片快速适应太空环境。相比于辐射引起的软错误,真空环境下的散热问题是更具杀伤力的硬约束。在地面上,芯片产生的热量可以通过空气对流或液体冷却循环释放到环境中。但在真空的太空中,由于没有空气,热对流机制完全失效,热量只能以效率较低的传导形式传递。对于功耗非常高的先进芯片,热流密度超出了传统航天器依靠固体结构或均温板所能处理的极限。当芯片表面热量积聚时,可能会瞬间导致停机甚至物理损坏。中科天算为此PU开发了混合式主被动冷却架构rpose,利用液体回路主动散发大功率芯片的热量,取代陆地上使用的空气冷却方法。它还结合了散热结构和辐射防热技术,实现了微重力环境下的高效散热。该设计能够成功解决微重力和剧烈温差下工作流体的循环和相变问题,支撑高密度算力的稳定运行。智能基础设施进入深空 太空超级计算的重要性不仅仅是商业竞争。也是人类未来利用太空、甚至进入深空的关键基础设施。很多人担心卫星距离地球太远,会导致太空计算能力出现较大延迟。事实是,相比覆盖数千公里的地面跨区域算力调度项目,近地轨道500公里就物理距离而言,地球上方的人更具优势。此外,太空算力中心具有全球广域覆盖的优势,更容易为偏远地区的汽车、无人机等单位提供持续的算力支持,为自动驾驶和低空经济提供强劲的发展动力。而且,地球上的算力中心面临着台风、地震等自然灾害。当地球上发生灾难或者设施受损时,天基计算能力自然是隐形的,可以在关键时刻充当后备中心。当太空算力网络成功实现后,它将不仅是地面算力网络的补充。相反,太空将成为计算和网络能力的主要战场。从长远来看,随着人类探索向月球甚至火星迈进,在月球上重建一整套计算设施的成本将越来越高。这些天体表面将令人望而却步。在轨预部署通用算力和通信节点,将成为连接地球和深空的数字桥梁。从天空中AI芯片的验证到目前全尺寸GPU和万卡集群的工程进展,世界在真空和辐射中积累的每一项技术突破都为拓展人类数字文明的边界奠定了基础。在这个远离地球表面的实验领域,计算机科学与航天工程的深度融合正在打破地面算力的物理边界,让算力像阳光一样普照世界。 - 完成 - 特别声明:以上内容(如有则包括照片或视频)由自媒体平台“网易号”用户上传发布。本平台仅提供信息存储服务。 注:以上内容(包括图像和视频(如有)由网易HAO用户上传和发布,网易HAO是一个社交媒体平台,仅提供信息存储服务。