新闻资讯
新闻资讯

新的Meituan模型有要做的事情:我像交付的人一样

有一个| daui电子邮件|[email protected]计算能力,例如骑手,您也应该知道安排。如果您在深夜订购外卖。几分钟后,系统很快将向您发送最近的骑手。他不需要从整个城市派遣的大型军队。只要您在此过程中采取订单,就可以及时向您运送一碗热汤。 Meituan正在将“订单调度逻辑”转移到AI世界。在最新的Longcat-Flash模型中,计算强度不仅受到打击,而且像骑手一样准确地安排了:更多的“专家”被发送到复杂的问题,简单的问题解决了附近,并减少了浪费。 Meituan和竞争环境的最新财务报告需要一个新的故事。 Longcat-Flash是第一个讨价还价的Meituan的筹码:大型模型曲目上的另一场战斗,该曲目将数百万个令牌的成本推向了0.7美元。以下是对longcat-flash技术文档的解释:管理诸如t之类的计算能力骑手的管理1技术创新:计算的力量首先是算法中,关于朗猫闪电的特殊之处不再是“较大”,而是“仔细计算”。其参数的总大小为5600亿,但有了实际的推理,每个令牌只需要拨打一小部分,约为18.6b -31.3b。您可以将其视为一支大型骑手团队。并非所有订单都要求将所有成员运送出来,但是最合适的乘车将根据以下困难发送。这样,可以保证范围并阻止计算的拉卡斯。 SO称为“零计算专家”实际上是处理简单任务的捷径。例如,如果订单只是从下面的舒适店里的一瓶水,则无需复杂的运输到总部,而邻近的男人可以在途中完成它。同样,当longcat-flash遇到一个简单的令牌时,它将直接释放而不会浪费exc计算的精髓,并将资源留给真正复杂的任务。逻辑“按需分布”使模型可以像骑手一样使生活更加合理。 Longcat-Flash的一般体系结构如上图所示:每一层都由长期的潜在关注(MLA) + MOE专家组成,其中一部分是零计算专家,确保“零开销”能够在遇到简单的代币时能够直接直接望远镜。在下图中,曲线表明,在相同的计算强度预算下,添加零计算专家的模型较低,更快地转换。 (b)主动专家的数量稳定约为8,平均约为27b参数; (c)在不同令牌之间分配计算强度的差异很明显,表明该模型实际上“采取订单”。另一个创新的观点称为SCMOE(捷径连接的MOE)。传统模型将必须等待处理一组任务b在进入下一批之前,因为骑手将不得不等待在离开之前发送所有订单。 Scmoe的想法是“发送和交付”:那个时候交付的食物,该系统已开始为他提供预订。通过这种方式,可以同时执行计算和通信能力,并且整体效率自然会提高。图中的三组曲线(不同的模型大小)表明,SCMOE的损失几乎是质量的,但是由于通信和计算可能是重叠的,因此SCMOE显着提高了理解的速度和速度。 1项目能力:为计算强度购买“社会保险”的规模很大,快速速度是第一步。关键是它是否可以牢固工作。 Longcat-Flash的训练方法类似于骑手网络的逐渐扩展:首次试验以较小的规模运行,调整调度和路线计划政策,然后将其提升到更大的范围为Mavoid一旦开始,混乱。为了防止系统崩溃,它设置了“三重保证”。路由器是稳定的,相当于避免将所有订单集中在一条线上。激活是稳定的,这就像防止一些未被分配的骑手和疲劳的骑手一样;优化器是稳定的,可确保整体调度是有节奏的,并且可以长时间运行。正是这种机制正是它在30天内在令牌上完成了20万亿个培训活动。 1性能比较:转录本,朗切尔汉(Longcat-Flash)的稳定性能不仅是迅速理解的,而且在主要基准测试中也稳定:MMLU(89.71)和Ceval(90.44)的一般活动,Longcat-Flash可以达到与第一行国际模型相当的水平。尽管Eval的C标记略低于KIMI-K2(91.26),但总体表现仍在大多数基线模型之前,并且显示出伟大的中国理解能力。复杂的推理是一致的t具有类似的GPQ-Diamond模型(73.23);在诸如滴(79.06),Zebrinalogic(89.30),GraphWalks-128K(51.05)等测试中,它在中间和上层梯队中也稳定。在Math500(96.40)和Aime24(70.42)中,Longcat-Flash与Kimi-K2和DeepSeek有一个小空间,并且保持高水平。尽管Bemonaime(43.00)的下降,但总体上甚至比大多数型号都要好。 Longcat-Flash在HumaneVal+(88.41),MBPP+(79.63)等基准上牢固地表现,略低于KIMI-K2(93.29,79.87),但比Gemini2.5 Flash和Claude Sonnet等对手更好。 1。对Meituan Longcat-Flash的真实测试:实际上,从基准到测试基准,Meituan Longcat-Flash的性能不远,只能被视为模型的主要主流能力。因此,许多常用的测试没有差异,但其中一件事是:Meituan模型确实很快,就像购买守时财富一样。 WRITE python函数is_prime(n),找出n是否是基本数字,并提供10个不同的测试样本。左侧的模型是Longcat-Flash网页,右侧是Kimi 1.5(根据官方网站描述,响应速度更快)。您可以看到相同的直接单词。 Longcat-Flash的思考不多,并且内容一次飞行。经过简短的思考,Kimi 1.5慢慢编写了内容(与Longcat-Flash相比)。在主要代码的一部分中,两者之间的差异。可以说,朗猫 - 弗拉什是快速而良好的。 Longcat-Flash速度和价格优势可能不会立即重写行业的结构。毕竟,在大型市场模型中,生态学和用户习惯通常比性能参数更具粘合性。但它表达了一个信号:Meituan仍然习惯于使用最佳的类方法将复杂的技术问题与“调度骑手”的逻辑翻译成复杂的技术问题,然后以价格剥夺M撬动市场arket。这使问题更加有趣:随着AI巨头谈论模型的大小以及参数的准确性,Meituan谈到了成本的顺序分布和曲线。看似“脚踏实地”的进入点可以是引起模式的变量,例如DeepSeek制作的beses。十年前,Meituan使用补贴来烧毁外卖帝国。十年后,可以依靠另一场价格战将自己送到大扑克模型的桌子上吗?没有人可以给出答案,但是至少一件事是,梅图安给了第一个议价筹码。请爱和离开 特别声明:上面的内容(包括照片或视频(如果有))已由“ NetEase”自助媒体平台的用户上传和发布。该平台仅提供信息存储服务。 注意:上面的内容(包括照片和视频(如果有))已由NetEase Hao用户上传和发布,该用户是社交媒体平台,仅提供Infor合作存储服务。