2025年7月16日,现金资本公司Menloventures最近在X上发布了Google DeepMind刚刚发布了一种新的大型语言模型架构,称为Recursions。但是最令人震惊的话是最后一句话:“有可能杀死变压器。”
本文只有几行,有200,000次观看,并受到了很多赞美,但可能有两个严重的问题!
问题1:Google DeepMind尚未直接参与研究,那么为什么只谈论Google的发布呢?
最重要的是,本文中的原始单词的段落转化为:Google的合着者仅在本文中扮演顾问的角色。
换句话说,Google DeepMind并未直接参与研究和执行,但其名称得到了广泛的提升。
类似于“我杀死自己”的逻辑似乎不合适。
因此,本文的影响可能被迪迪夸大了。
(以上仅表示个人意见)
尽管有风险投资炒作,但我们不应偏向本文的真实水平。让我们阅读以下内容:
2025年7月14日,韩国Kaist,Mila和Google的研究人员提出了MOR Architecture,该建筑通过智能路由器将个性化的处理深度分配给每个文本,以实现参数共享和适应性计算的统一性。在保持模型性能的同时,MOR可显着提高计算效率,以1.35亿至170万参数验证它,并提高推理速度超过2次,从而为建立更高效和智能的语言模型提供了新的想法。
要了解这项研究,我们可以将语言模型视为工厂。有些产品很简单,只需要基本处理;有些产品很复杂,需要重复抛光才能满足标准。如果所有产品都遵循相同的过程,则会造成巨大的浪费。
使MOR创新的原因是创建“智能生产线”系统。关于该系统的聪明之处在于,它配备了一个聪明的“调度器”(路由器),可以观察到进入工厂的每个产品(文本令牌),然后做出决定:处理该产品的几轮将需要获得最佳效果?简单的产品可能只需要一轮复杂的产品,可能需要三轮或更多。
这个智能工厂还可以有效地重复使用设备。传统工厂需要为每个处理步骤配备独立的设备,这很昂贵。 MOR的工厂采用回收设计:可以反复使用相同的高质量处理设备,只要产品需要进一步处理,它将再次通过该设备。这不仅确保了处理的质量,而且大大降低了设备投资的成本。
智能计划的两种策略:专家选择和代币选择
MOR系统的核心是其智能调度机制。研究团队设计了两种不同的调度策略,每个计划策略都具有独特的优势和适用的方案。
第一个策略称为专家选择路线,就像高端餐厅的服务模型一样。在这种模式下,每个处理级别都是挑剔的厨师,他仔细观察所有等待处理的成分(文本令牌),然后仔细选择他们认为最适合处理的成分。例如,负责“基本加工”的厨师可能会选择看起来相对简单的成分,而负责“罚款加工”的厨师将特别选择需要更多技能的复杂成分。
这种方法的最大优点是能够完美控制每个处理级别的工作量,就像确保每个厨师不会超负荷或闲置一样。但是,这种方法也存在一个问题:厨师需要查看所有成分以做出最佳选择,这在实际的装配线运营中带来了一些技术挑战。为了解决这个问题,研究团队介绍了辅助路由器的概念,就像为每个厨师配备助手,他们特别负责预测哪种成分最适合厨师,而无需看到所有食材。
第二个策略称为令牌选择路线,更像是个性化的自定义服务。在此模式下,一旦每种产品(文本令牌)进入工厂,系统将为其量身定制一个完整的处理解决方案:该产品需要进行几轮处理,并且为每轮使用什么强度。该方法的优点是它避免了信息泄漏问题。每种产品的处理计划是独立制定的,并且不依赖其他产品的信息。
但是,这种个性化的定制也带来了新的挑战:如何确保可以合理地分配工厂中的所有处理链接?毕竟,如果所有产品都选择相同的处理方法,则某些链接将被超载,而另一些链接将是空闲的。研究团队为此目的开发了“负载平衡损失”技术,例如智能的工作负载分配系统,该系统鼓励产品通过调整激励机制选择相对繁忙的处理路径。
这两种策略在实际应用中具有自己的优势。专家选择在控制资源消耗方面表现良好的路线,这特别适合对计算预算有严格要求的方案。当处理复杂和可变的任务时,路由的代币选择可以显示出更好的适应性,尽管可能需要其他负载平衡机制来维护系统的稳定操作。
内存管理中的创新:两种缓存策略的巧妙设计
在智能工厂的运营中,还有另一个需要解决的关键问题:如何有效地管理和存储处理过程中产生的中间结果?
处理文本时,传统语言模型需要存储大量的键值对(KV对)信息,就像厨师的备忘录一样,在不同的处理阶段记录每个单词的特征和状态。但是,随着模型变得更大,处理文本越来越长,这些备忘录占据了巨大的存储空间,严重影响了处理速度。
MOR团队为这个问题设计了两种创新的缓存策略。第一个称为递归缓存,就像为每个处理级别设置一个专用储物柜一样。当产品在一定级别处理时,仅在该级别上活跃的产品信息将存储在相应的储物柜中。这样做的优点是大大减少了存储要求,因为每个储物柜只需要存储当前正在处理该级别的产品信息,而不是所有产品信息。
更聪明的是,这种缓存策略还实施了注意力计算的优化。在传统模型中,每个单词都需要专注于文本中的所有其他单词,就像每个厨师都必须同时关注厨房中的所有成分一样。在递归缓存中,每个单词只需要专注于在同一处理级别上活跃的其他单词,从而大大降低了计算复杂性。
第二个策略称为递归共享缓存,该缓存采用了更激进的资源共享方法。在此模式下,系统仅在第一轮处理过程中生成和存储键值对信息,然后在所有后续处理回合中重新使用此信息。就像厨师在开始时仅记录所有成分的基本信息,然后在整个烹饪过程中提到此初始记录。
这种共享策略的最大优势是其非常有效的内存使用情况,尤其是在处理长文本时,可以大大降低存储要求。同时,它还加快了“预填充”过程,就像厨师可以跳过录制成分的重复步骤,然后直接开始烹饪。但是,该策略也有其局限性:由于所有处理回合都使用相同的基础信息,因此在某些需要进行精细调整的情况下,最终效果可能会受到影响。
通过大量实验,研究小组发现,这两种缓存策略在不同的情况下具有自己的优势。递归缓存在需要对每个处理步骤进行精确控制的情况下表现更好,而递归共享的纳维斯在记忆有限或需要大量文本以快速处理的情况下显示出显着的优势。更重要的是,两种策略都与MOR的整体体系结构完美整合在一起,实现了参数共享,自适应计算和有效缓存的三重统一。
实验验证:从理论到实践的全面验证
为了证明MOR系统的实际效果,研究团队设计了一系列实验验证。
在等距计算比较实验中,MOR显示出优势。鉴于相同的计算资源预算,MOR能够处理更多的培训数据,就像智能工厂一样,可以根据相同的电费生产更多的产品。具体而言,当仅使用约有一半的参数量时,MOR不仅达到验证精度的传统方法水平,而且在某些任务中甚至可以更好地表现。在较大的模型中,这种效率提高尤其明显。
更有趣的是实验比较数据量的结果。使用相同数量的培训数据时,MOR可以通过更少的计算资源获得相同甚至更好的结果。这相当于生产相同的时间和电力的产品质量,反映了系统设计的优势。通过这种设置,MOR模型的训练时间减少了19,记忆使用量减少了25,同时保持更好的性能。
实验中最引人注目的发现之一是MOR在不同任务上的一致性。无论是语言理解任务(例如Hellaswag,PIQA)还是常识推理任务(例如ARC,MMLU),MOR都会显示出稳定的改进效果。这种一致性证明了系统设计的多功能性,就像一个出色的智能工厂一样,不仅可以生产单个产品,而且可以灵活地适应各种类型的生产需求。
在推理速度测试中,MOR的优势更为明显。通过实施连续的深层处理技术,系统可以在推理过程中动态调整批处理大小,并充分利用硬件资源。实验结果表明,在最佳配置下,MOR的推理速度比传统方法高的2.06倍,这对实际应用至关重要。
研究团队还进行了详细的消融实验,以系统地验证MOR的每个组成部分的贡献。通过逐渐删除或替换不同的设计选择,他们发现每个组件对最终性能都有重要贡献,并且这些组件之间存在协同作用。特别是在选择参数共享策略中,“中间环”策略在所有测试量表上都表现最佳,这为实际应用提供了明确的指导。
深入分析:智能分配的工作方式
通过对MOR系统工作过程的深入分析,研究团队揭示了许多有趣的现象,这些发现帮助我们更好地了解了智能调度系统如何做出决策。
最引人注目的发现是该系统在处理不同类型单词的处理策略时具有明显的智能模式。通过视觉分析,研究小组发现该系统将自动将更多的计算资源分配给语义上更重要或更复杂的单词。例如,诸如“防御性”,“自信”之类的形容词和诸如“毒品”之类的专有名词之类的副词通常被分配给更深的处理水平。相比之下,诸如“和”,“,”和标点符号之类的功能词通常只需要进行一轮基本处理。
这种智能分配策略反映了系统对语言结构的深刻理解。就像经验丰富的编辑者在校对文章时会花更多的时间在关键字和复杂的句子上,并迅速浏览基本的语法结构。通过学习,MOR系统自动掌握了这种有效的注意力分布策略。
在路由器的决策分析中,研究团队发现了另一个有趣的现象:当使用具有辅助损失的专家选择路线时,该系统可以实现几乎完美的二元分类。选定单词的路由分数将在1.0左右聚集,而未选择单词的得分将在0.0左右聚集,中间几乎没有模糊的区域。这个明确的决策边界表明,该系统已经学会了明确选择标准而不是不确定性。
计算最佳缩放分析揭示了MOR在资源分配中的独特优势。与更喜欢增加培训数据量的传统模型不同,MOR更喜欢在相同的计算预算下增加模型大小。该偏好反映了参数共享体系结构的特征:共享参数块的质量越高,整个系统的性能改进就越明显。这就像投资一套高质量的生产设备一样。尽管初始投资很大,但长期回报将继续增长。
测试过程中扩展功能的分析显示了MOR的另一个重要特征:系统可以在推理过程中动态调整处理深度以实现进一步的性能改善。当允许某些单词进行更多的处理时,系统的整体性能会大大提高。此功能为实用应用提供了灵活性:在具有极高准确性要求的情况下,可以允许系统使用更深入的处理;在具有较高速度要求的情况下,最大处理深度可能受到限制。
到达顶级AI实验室见解
本文的优点和缺点很明显。
因此,我建议将其用于Knovo,以检查纸是否水。纸有多水?这个AI系统可以一目了然:Knovo自动评估学术论文的创新价值。
让我们谈谈优势:最明显的优势是名称是好的,回归(MOR)和颠覆性的Experts(MOE)的混合物完全相同。毕竟,好名字是成功的一半(是的)。
此外,MOR还是一种新的模型架构,反映了对个性化智能制造的转变。每个输入都可以获得定制的处理解决方案,以提高模型效率。在实际应用中,不同的文本片段确实需要不同的理解水平。
MOR为未来的研究方向提供了灵感。参数共享和自适应计算的组合证明了“效率”和“效果”不是零和游戏,并且可以通过巧妙的设计同时改进两者。这个想法可能会激发更具创新性的建筑设计。
毕竟,让子弹飞了一会儿。
纸张地址:https://www.arxiv.org/abs/2507.10524
质量检查
Q1:递归框架的混合物是什么?什么是MOR?
答:MOR是一个结合参数共享和自适应计算以提高语言模型效率的统一框架。它可以重用共享图层堆栈以减少参数数量,同时用轻量级路由器动态分配每个令牌的递归深度。这允许仅在主动令牌上执行注意力计算,并有选择地缓存键值对以优化内存。 MOR还提出了KV共享变体以减少潜伏期,从而改善了模型大小的混淆和吞吐量,例如135m至1.7b参数。
问题2:递归的混合使用哪些路由策略?
答:MOR采用两种路由策略:专家选择和令牌选择。专家选择路线选择在每个递归步骤中进行处理的TOP-K代币,模拟早期退出行为。令牌选择路线在开始时为每个令牌分配了固定的递归深度,从而定义了完整的计算路径。专家选择可确保负载平衡,但可能会泄漏信息。令牌选择避免泄漏,但需要平衡机制。实验表明,专家选择路由的性能通常更好,例如很少的射击具有更高的准确性。
用户评论
予之欢颜
感觉这个 MoR 模型架构还挺新的,有点想了解一下它的具体应用场景。
有7位网友表示赞同!
无所谓
韩国科技院和谷歌联手搞研究,确实很令人期待!
有7位网友表示赞同!
拽年很骚
学术诈骗这种事情还真是让人头疼,尤其是在留学这个环境下更是要格外谨慎。
有7位网友表示赞同!
酒笙倾凉
希望这次的新模型架构能够真正颠覆传统,为人工智能领域带来新的突破。
有19位网友表示赞同!
熟悉看不清
谷歌在这方面经验丰富,韩科院的创新能力也很强,应该能碰撞出不少火花吧?
有8位网友表示赞同!
£烟消云散
看标题里的“颠覆式创新”,感觉这个技术点子很厉害的样子。
有6位网友表示赞同!
七夏i
学习一下这个模型架构,说不定会对我的未来发展有所帮助。
有7位网友表示赞同!
眷恋
韩科院和谷歌联名合作,确实体现了国际学术交流的氛围浓厚。
有17位网友表示赞同!
墨城烟柳
现在人工智能发展的越来越快,总是不断出现新的技术,让人眼花缭乱.
有7位网友表示赞同!
旧事酒浓
这个 MoR 模型架构听起来就很有科技感,很想了解更多细节信息。
有14位网友表示赞同!
何必锁我心
不知道这个模型对人工智能有哪些实际应用,比如在日常生活中能用到吗?
有8位网友表示赞同!
伤离别
学习到这种新的技术理念,对我来说也是一种很大的进步。
有18位网友表示赞同!
红玫瑰。
学术圈的竞争真是越来越激烈了,需要不断提升自己的能力才能跟上时代步伐。
有7位网友表示赞同!
凉话刺骨
希望这个模型能够真正造福人类,为社会发展做出贡献。
有18位网友表示赞同!
心悸╰つ
人工智能的发展前景确实让人充满期待,这种颠覆式创新真的太重要了!
有14位网友表示赞同!
丢了爱情i
感觉韩科院和谷歌这次合作很成功,期待他们的未来成果!
有7位网友表示赞同!
凉笙墨染
学习一下这个模型架构,能让我在科研方面更有能力和视野。
有8位网友表示赞同!
﹏櫻之舞﹏
在这个信息爆炸的时代,我们需要不断学习新的知识才能不被淘汰。
有6位网友表示赞同!
全网暗恋者
我对人工智能的发展非常感兴趣,希望能看到更多创新成果!
有16位网友表示赞同!