
“2023年初,一些巨头表示世界上只会有几台大型机,就像1943年IBM董事长说世界上不需要超过5台大型机一样。”程曼琪今年11月,清华大学、开源组织OpenBMB和面壁智能的联合研究登上《自然·学习学习》封面——LLMS的密度定律(《大模型的密度定律》):每月3.5个,模型的密度能力翻倍。密度是功率/计算能力单位下模型能力的指标。近年来,大型模型演变的明显路线是“缩放定律”带来的能力飞跃。大型模型在编程、图形等方面已经达到甚至超过了人类水平。另一方面,模型性能的竞争也带来了巨大的资源消耗,即使在OpenAi中也是如此。也有因实力不足而产生矛盾的情况资源。密度定律关注的是如何用更少的计算和数据资源更有效地获得更多的智能。对密度目标的追求,将加速手机、汽车、机器人等终端智能的发展,将推动分布式智能和“万物皆大模型”。本期《深聊》,我们与密度定律研究员、清华大学计算机系副教授、面墙智能首席科学家刘志远,以及清华大学博士后、面墙智能MiniCPM系列文本模型负责人肖朝军进行了探讨:密度定律的背景和核心见解; - 提高模型能力密度的具体方法; - 强化研究中尚未出现缩放定律,导致自主学习和分布式智能的未来;结尾。到2023年,全国端侧算力(主要是手机)将占数据中心算力的12%。小时。信息化在过去的几十年里本质上已经是分布式计算能力和分布式信息的结构。刘志远认为,在这个过程中,以密度定律为指导的效率提升尤为重要。 2023年初,一位巨头表示“世界只需要几台大型机型”,这与1943年IBM董事长所说的“世界只需要五台计算机”类似。 Itor 完全一样。但未来,情报很可能是分布式的,每个人都有自己的代理人。如果模型具备自主学习的能力,那么终端上的模型就可以根据用户的个人数据不断成长,最终形成“个人大模型”,成为你的助手。大模型时代的“摩尔定律”被推迟:近期中美新模型密集发布尤其是Gemini 3的受欢迎程度非常高;从这些新进展中您看到了哪些亮点?肖朝军:我感觉到两个明显的趋势。首先,各大车型都在增强“智能代理”能力。直观的演示是,每当一个模型发布时,大家都会测试代码,模型在代理任务中的性能得到显着提升。ti。其次,从Nano Banana Pro可以看出,Google的多模态模型的文本生成精度非常高,这在以前的扩散模型中很难看到,只有在OpenAi的GPT-4O中才能看到。这让我看到了一个新的扩展方向:过去我们谈论更多的数据、更大的模型、更强大的能力,但多模态数据并没有真正带来“智能的飞跃”。但现在“统一自回归”视觉语言生成可以带来突破。当然,Gemini 3型号的详细信息还没有公开,不可能充分判断当前的能力是来自产品优化还是真正的架构整合。我们可能还得看看后续版本。刘志远:现在几乎每周的进步相当于我读研时一年的进步。总结起来有两条主线:一是能力不断增长,对应“规模法则”:自2018年预训练模型出现以来,模型的能力每隔几年就会跳跃一次: - 2022年底,ChATGPT将使用调优指令让模型“听懂人类语音”; ——2024年底到2025年初,大规模的训练后学习研究赋予了模型更深入思考的能力。模型变得更加通用,甚至在某些领域开始接近或超过人类的能力。二是能源效率更高。我们此时提出的“密度定律”本质上是描述“如何不断提高任何技术想要真正改变世界,都必须追求更高的效率,大模型也会同步向成本+成本同一个方向改变。 后期:平时大家关注的是技能的提升。在第二条主线“更高能效”方面,最近有什么进展? 肖朝军:Core AI Lab也在追求效率的提升。开源方面有Qwen 3、Deepseek v3.2、Llama 3、面笔自己的minicpm系列都做了MOE(混合专家系统)、稀疏注意力(稀疏注意力)、高效注意力(更好的注意力机制)等架构优化,Openai在Gemini 3之前也推出了Mini系列;声称文本生成的速度比其他模型快很多很多倍,所以开源还是闭源,大家都在追求“卓越”,因为资源不够——即使是这样。OpenAi,因此可能会出现重大分歧,比如 Ilya 离开时提到的“资源不足”。刘志远:尺度定律和密度定律就像大型模型演化的明暗线。之前的信息革命也是如此:亮点就是设备变得越来越小,大型机→小型机→个人电脑→手机→其他智能终端;暗线就是芯片行业的伟大进化,摩尔定律。我们提出密度定律,是因为我们想在大模型时代找到“摩尔定律”。 Late:模型随着训练和理解而变得越来越好,这不是太晚了吗?为什么要专门做这项研究?刘志远:我们从2023年底就开始了这个研究。当年,包括2024年,全球主导的话语体系是规模法则。一些国际机构表示,只有组织拥有 100,000 个 GPU 的系统有资格训练大型模型。在这种叙述之下,包括政策制定者在内的许多人错误地认为规模法则是唯一的首要原则,这是误导性的。密度定律希望纠正行业内的叙事,让大家看到效率也是底线。当时,大多数团队的目标是复制ChatGPT。一线团队从9月份到2023年10月可以完成复现,80B级别的模型就可以达到ChatGPT的效果。下一个自然选择是追求 GPT-4。我们估计需要140B左右的模型,训练成本上千万元。但按照当时的速度,2024年上半年,国内至少将有5支队伍达到GPT-4级别。那么我们如何收回投资呢?因此我们将重点转向“模型风洞”——系统地评估架构、数据和训练技术的效率提升。第一个结果它带来的是2024年1月的MinICPM-1:2.4B参数,达到了当时LLAMA-2-13B和Mistral-7B的效果。 2.4b是手机可以运行的规模。我们意识到现代技术可以提高模型的效率,因此我们开始eyetag投资“大型设备模型”。我们还要问:这种效率背后是否有规律可循?受摩尔定律的启发,我们提出了“知识密度”,并在2024年对如何改变训练的各个方面来提高技能密度进行了系统研究。至少在城墙内部,“密度定律”是一个明确的目标指引。 Late:从2023年秋天开始,Face Wall就一直在追逐伟大的大机型,但为什么没有像2025年1月的Deepseek R1那样产生同样的影响?刘志远:公众关注谁的模型能力更强,这往往意味着要训练千亿、万亿参数的超大型模型。但大多数公司仍必须考虑商业后果恩斯。 AGI 肯定会在未来五到十年内出现。当然,你可以像互联网时代的谷歌一样。这样,公共服务是在云端提供的,但AGI也发生在客户端。因为终端侧潜力巨大,而且关注的人不多,所以我们早期的布局更适合创业公司的人才和节奏。最近看到一句很好的话:“别人得到的,不一定是你失去的”。这四个环节提高了密度的能力,强化的研究尚未出现后者的标度定律:密度定律的基本观点是什么?肖朝军:我们注意到模型的能力密度“每3.5个月翻一番”,重点不是数字本身,而是一个目标:我们必须追求更多——单位计算带来的智能最大化,而不是一味追求模型规模。尺度定律和密度定律也不互相矛盾。前者是“共后期:提高模型能力密度的具体方法有哪些?刘志远:分为四个部分——模型架构、数据、学习算法、软硬件协同优化。密度定律提出后,我们尝试定量描述这些衡量指标的影响,已经有了一些实证结果。 肖朝军:首先是模型Transformer主要有两个部分:FFN(前馈网络)和attention(注意力机制),现在主要的共识是FNN需要有一个稀疏的MOE架构——即将FNN的大“密集变换矩阵”切割成很多“专家”,每次前向计算只激活一小部分专家,这样消耗的算力更少,也更高效。e 比全局激活更高效。 Deepseek的一个重要贡献是证明了MOE在大型模型上也能取得很好的效果。至于注意力机制,无论是开源还是闭源,今年都做出了各种效率提升:比如Gemini系列中的滑动窗口注意力+密集注意力的混合架构,qwen3-next和kimi Linear使用deltanet(一种线性注意力)混合密集注意力架构,以及最近发布的深度模型DSA等“长模型”,这些都源于对代理和深度思考的需求。代理需要长输入和长输出。长文本肯定会聚焦于深度思考和未来的智能体场景,并且会有更长的输出。然而,目前对长输出的线性注意力的验证还远远不够。那么,为什么来自M1闪电注意力的minimax(注:闪电注意力采用了线性注意力混合全注意力架构)呢?n M2现在使用全注意力吗?我重吗?主要原因是M2想要专注于代理,但直接使用焦点照明在一些更复杂的代理任务中存在性能缺陷。晚:我们年初谈到提高注意力的时候,您已经提到了,在代理任务下,我们要关注长输出。现在这不是共识吗?肖朝军:我注意到人们还是习惯于相当于长文本长输入,但是链式和多步推理的思维确实对长输出有更多的需求。例如,一个代理计划了5步:当你到达第五步时,你不要忘记第一步,然后再回去再做一次。该模型需要记住它之前的输出是什么。这对于长文本来说是一个新的挑战。我们于今年 6 月开源的 INFLLM 2 进行了改进来解决这个问题。主要的变化是“native sparsity”的实现:在 pre-t 中引入了稀疏注意力下雨阶段而不是在第一个版本的识别阶段 tulad 中进行。这带来两个好处:一是训练速度显着加快;其次,稀疏性显着降低——INFLLM 1 在识别阶段大约有 50% 以上的注意力(相比于完全注意力的 50%),而 INFLLM 2 在训练阶段的稀疏性低于 5%,即在 128k 的上下文长度下,只需要关注 4-6K 个 token。我们的运算符还支持长输出。这种方法在代理场景和深度思考中更加实用。后来:架构之后,在数据规模下,业界如何提高模型能力的密度?肖朝军:在数据方面,接下来两点非常关键:一是合成数据,二是更高质量的数据清洗和管理。现在几乎所有的顶级团队都在这两件事上投入,因为它们都不能直接决定模型能力的上限,并确定下一阶段密度是否可以继续增加。刘志远:我们内部有一套分层的管道(流程),从L0到L4,对应不同的处理阶段。 L0采集,通过爬取、购买的方式获取原材料; L1过滤,清理重复数据和垃圾数据; L2筛选,额外筛选我们认可的优质数据; L3合成,不仅处理现有数据,还生成世界上不存在的内容,例如重写、扩展、任务分配等; L4验证,通过正式或手动的方法,证明该级别的数据已达到高质量。例如,我们最近使用这个管道对已知的预训练数据gtaka FineWeb进行提炼,得到了一个容量小于原始数据1/10的版本,称为Ultra-FineWeb。结果用ultra-fineweb训练的模型比直接用FineWeb训练的效果要好,训练成本自然就可以红了上升到十分之一。这只是预训练阶段数据管理的效果。训练后也是如此——无论是SFT(监督微调)还是强化学习,合成数据的质量都会强烈影响模型的上限和效率。例如,交通大学刘鹏飞教授最近创作的“Less is”系列就是利用更少、更准确的数据来达到更强效果的例子。未来我们还会开源一个比较完整的数据管理系统,包括数据样本以及整个pipeline的结构。一个更基本的问题是:要实现一定程度的灵活性,“最小数据集”是什么样的?这个问题也帮助我们质疑智力的本质。后期:算法将随之改进,今年重点将明显转向强化学习。肖朝军:是的,但是到现在为止,强化学习仍然没有明确的标度规律。预缩放定律- 训练非常明确:几十万亿个代币,几十万个训练步骤,有一个稳定的缩放规律。如今,在进行强化学习时,大多数团队只练习几千步;在OpenAi O1技术报告中,一些任务在不到10,000步后就停止了。效果不错,但是距离跑遍RL缩放还很远。换句话说,如何让强化学习可持续、稳健?这仍然是整个行业正在探索的一个方向。 Late:你说“RL 还没有被缩放”,你到底是什么意思?肖朝军:业界所说的“RL扩展”主要指两个方面:环境是否可以扩展,以及奖励(激励)是否得到证明。前OpenAi研究员Jason Wei认为,RL的关键是创造一个“非敌对环境”——一个模型不能投机取巧、能够持续学习的环境。但伊利亚认为,这种环境几乎不存在,人类是不存在的。在这样的环境下,学习本身并没有完成。这也关系到我们如何定义下一阶段的AGI。就奖励而言,当前唯一经过验证的真正奖励是数学和代码。不过Code领域的RL目前在竞赛题上实力较强。真正的软件开发更加复杂,回报也更难获得。这是 RL 扩展的主要瓶颈。然而,强化学习至少已经证明,只要有足够的数据和反馈,它就可以在任何任务上击败最顶尖的 0.1% 甚至 0.01% 的人。许多团队在数学竞赛和编程竞赛中获得了国际水平的金牌。因此,完全可以想象,未来如果一家公司能够在某个垂直场景积累足够的数据,就可以利用强化学习打造该领域的“超级专业模型”。后期:现在,针对真实商业环境的 B 强化学习出现了 RL 趋势。例如,思维机器实验室可以探索这个方向。肖朝军:所以我们以前叫主动工程,现在叫奖励。工程或者环境工程,这些都是RL带来的新产品。但这一步并不是我们真正想要的AGI。由于人类的学习非常高效,因此只需很少的反馈和少量的试验就可以学习新任务。目前强化学习在这项研究中还远未达到精通的地步。接下来可能有两种方法:一是继续扩展强化学习:继续扩大环境规模,增加已证明的奖励,看看随着规模扩大,一般来说更强的能力是否会自然出现,比如预训练。我们正在研究更好的 RL 扩展框架,让 modelo 在 RL 训练时充分利用计算能力,将训练步数增加到足够大的水平,比如数千步,让模型真正体验到更长的思考。更进一步的是强化学习的开放领域——不仅仅是数学和代码,还包括诸如“什么才算是写好论文”和“在计划一项复杂任务时什么才算完成”。目前这个方向还没有成熟的范式。还在探索如何定义开放领域的奖励以及如何加强培训?第二是寻找新的、更好的学习方法:提高样本的效率——使模型更加人性化,能够以更少的反馈学习新的任务,而不是依赖大量的手动标注和与环境的大量交互。后来:我们不能创造一个非常复杂的环境,有很多激励措施吗?这就是人们生活的真实环境,我们面临的任务是不同的。在不同的情况和情况下,我们也会把目标和激励转移到自己身上。肖朝军:这个很难。人类能够在现实世界中很好地学习,因为我们可以从各种微弱且连续的信号中获得反馈。比如说,当我看到你的表情变得严肃时聊天的时候,我自然而然地意识到事情可能不对——这是一种微妙的评论。但在强化学习中,反馈必须离散化为正式奖励,例如“+1或-1”。如何压缩现实世界对奖励的丰富、连续、多维度的评论?这本身就非常困难。这对应于伊利亚提到的价值函数——它提供了一个描述“什么是好、什么是坏”的价值函数模型。但构建这样一个价值函数就像构建一个完整的世界模型一样困难。虽然这是一个“先有鸡还是先有蛋”的悖论:如果我真的能够正确地对世界进行建模,并且有一个足以评估所有行为的奖励模型,那么奖励模型本身将是一定程度的贫困。这就相当于有了一个AGI,然后才能用它来训练AGI。从大型车型到汽车、手机,再到后来的便携式“个人NAS”:更多的是法律的反馈和影响行业密度?刘志远:Deepseek-3发布后,“成本和卡胡能耗”成为整个行业的关键词。一个有趣的现象是,很多嵌入式智能(embodied AI)领域的朋友特别想引用我们的研究成果,因为端侧设备对时延和能耗非常敏感。在这篇关于自然机器学习的论文之前,我们在Nature Nature上发表了另一篇关于MinICPM-V的论文(注:指的是部署到边缘设备的GPT-4V大规模语言模型。里面有一个经典的形象,描述了硬件的演进,使得端到端的模型能够运行在云服务器上。端侧大脑最关心的是达到GPT-4V级别的参数模型的规模随着时间的推移而迅速缩小,而端侧的计算能力当芯片电路密度(摩尔定律)和模型密度c的两条曲线迅速增加时。能力(密度定律)相交,终端设备可以运行过去只能在云端运行的大型模型。 Late:你看到的具体时间表是怎样的?刘志远:结合模型容量密度的提升速度和世界一线大厂的路线图流程,并对端侧芯片的算力、缓存等规格进行预估,我们预测2030年左右,端侧可以部署60B+参数的模型,激活大小可以达到8b+。这是基于当前发展的线性估计,未来可能会有非线性突破。 5年内,端侧大概可以带来具有GPT-4~GPT-5能力的型号。 Late:各种终端设备的发展速度如何?目前,汽车、手机、电脑应该是第一批,也是各家公司抛出端侧AI的重点。刘志远:是的,今年车型量产很快耳朵。汽车的空间大,对计算能力和功耗的限制相对较小。我们已经在与仓安马自达和吉利的部分车型合作,明年将有超过6款车型纳入我们的车型中。后来:大语言模型和多模态模型在当今的汽车中真正能做什么?与之前的语音助手相比,有哪些新的体验?刘志远:主要是智能座舱的多模态通信,包括感知车内外环境、识别和理解坐在不同位置的多个乘客等。不同车企对功能的定义确实不一样。一些高端座舱的功能点超过100个。后期:之前的AI技术应用于汽车等终端需要定制开发。这与这项服务的商业效率和规模能力有关。既然大模型要容纳这么多的功能点,还需要什么进一步的发展?刘志远:主要是适当做一些调整,我们自己来做。我们强调标准化,有一套SFT工具链和数据合成规范,所以效率比较高。 后面:那么在手机旁边,在眼镜这样更小的硬件上,AI和端侧模型会如何发展?刘志远:我们认为2027年是一个关键节点,如果我们能够在手机上实现大规模的强化学习。这意味着每个人都可以利用自己的数据为这个模型提供学习环境,使其逐渐成为个人的“专属大助手模型”。至于眼镜,它们本身并不需要运行大型号,它们更像是手机的外设。换句话说,未来的入口不是手机,而是便携式个人计算终端,类似于便携式家庭NAS(计算和存储服务器);眼镜、耳机、手表或各种新型传感设备可以通过各种方式获取p上的数据,然后提供给个人计算终端,以支持模型的持续学习。智能以分布式方式存在,AGI原型“创造AI”。后期:当前的密度定律描述了现有预训练范式效率的改进。现在业界也在讨论,预训练+RL后训练之后,下一个大的方法改进是什么?您将重点探索哪个方向?肖朝军:我认为是自我学习,也可以说是自我进化、不断学习。今天有很多术语。背景就是我们前面讲的——强化学习在单个任务中可以非常强大,但还不够通用。未来的模型首先必须是一个好学生:放在你的终端或者其他设备上,能够根据你的需求,持续知道你擅长或者需要的任务。这就像雇佣一名国际米兰球员n - 你教它编码、写手稿或研究,并逐渐掌握这些技能。然而目前预训练和强化的研究还不能做到这一点,所以世界模型就会出现,我们要为模型提供一个足够好的反馈环境;强化学习之父里奇·萨顿(Rich Sutton)这才表示,目前的大模型无法走向AGI。从本质上讲,由大量数据驱动的学习可能会阻碍更好地获取新技能。其次,具有自学习能力的模型之间存在协作。例如,有些人训练了你的AI研究专家,有些人训练了Infra专家模型。他们如何合作才能更快地构建模型?继续说,最高层次是创造能力。例如,像爱因斯坦这样的科学家不仅可以从人们定义的符号中学习,而且有能力在符号之间创建新的关系,甚至新的符号系统。所以总结一下就是自主学习→能够自主学习的AI之间的协作→创新。刘志远:它是一条开放的线路,但背后还有一条隐藏的线路,就是智能在设备之间的分配方式。据中国信息通信研究院统计,2023年全国终端侧算力,主要是手机的总和,将是数据中心算力的12倍。云计算的力量看似巨大,但它无法支持全国超过10亿台设备同时运行。因此,近几十年来的信息本质上是分布式计算能力和分布式信息的结构。我认为智力也是如此。 2023年初,有巨头表示“世界只需要几款大机型”,这与1943年IBM董事长所说的“世界只需要五台计算机”如出一辙。但在未来,智力可能会分散受人尊敬,每个人都会有自己的聪明才智。如果模型能够自主学习,那么终端模型就可以基于用户的个人数据不断成长,在kalaunan中创建一个“个人大模型”,成为你懂你的助手。云端将会出现一系列“专家模式”:懂外卖的美团模式、懂出行的滴滴模式、懂内容的抖音模式……客户端与云模式的配合将形成“代理人的互联网”。在这个分布式智能系统中,密度定律将非常关键。它让端侧模型能够以极低的成本运行,而用户几乎不知道,让一切都变得智能化。稍后:明年:您想观察和验证哪些问题?肖朝军:强化学习能走多远?独立研究以什么形式存在?另外,第一个“AGI 形式”会是什么样子?它实际上是一个k问:在学习、协作、创造的前沿,这会属于什么样的模式或产品形态?我的直觉是,AGI的形式可能不是C产品中面向用户的,而是B系统中面向生产的。例如,如果你要求它“构建一个自动驾驶模型”,它可以生成数据、搭建环境、训练模型、优化架构,最后将模型部署到目标算力上。换句话说,第一个AGI不需要知道一切,而是可以“自己创造AI”。刘志远:从历史的角度来看,第一次工业革命的标志是“机器制造机器”。智能时代的本质也是“AI创造AI”。自主学习是“AI造AI”的第一个原型:模型可以在自己的环境中生长。我期待着明年或后年拥有一个真正能够做到这一点的系统。标题图片来源:《黑衣人》(银河在使用 Nano Banana Pro 增强的吊坠中)
特别声明:以上内容(如有则包括照片或视频)由自媒体平台“网易号”用户上传发布。本平台仅提供信息存储服务。
注:以上内容(包括图片和视频,如有)由网易HAO用户上传发布,网易HAO为社交媒体平台,仅提供信息存储服务。