RandomLog: 2025.10

2025-10-19

一些猜想

下午偶然翻到篇Google的论文.

大意是能对LLM直接更新某些参数来达到控制输出了.

这个放开了想,大致就相当于能定位到某些功能所实际激活/需要的部分.

医学上的等价理解就是知道脑部的特定区域的作用影响了.

工程上来说,一旦变得实际可行就有可能大规模地减少参数和算力需求.

从这点看,还是蛮promising的.

顺着一些引用往前翻是这篇论文的一个基石.

谈LLM emerging能力的.

理论框架是用来解释LLM为什么能具有context这个东西.

也就是说,比如给定一个prompt/问题.

形如问LLM需要的flops以及电量关系,然后project下需求这种问题.

context在这里的意思就是,LLM不单是能够简单的predicate和填充下一次词进行扩展,还能真大围绕着这个主题不断迭代计算下去.

所以怎么能够解释context的产生/来龙去脉/成因/作用方式,某种程度上是相当有意义的.

这个引用propose的解释框架是存在某种context block.

也就是某些比较关键的参数部分.

context的在这里的作用方式是对上一层的input做一个简单的线性shift,然后project到下一层.

intuition地理解就是类似先cluster到某个当前维度集合,然后再统一project到下一个dimension space.

这样一层层嵌套之后,形式上就类似于做了一个类似决策树的routing.

而每一层的分支理念上就类似于一个context space.

所以后面的那篇就基于这个算是做了某种程度的验证和控制实验.

从结论上来说,貌似是对的.

当然,实际对不对也没去看就是了.

不过如果假设这个是正确的话,这里其实还有个比较有趣的implication.

那就是既然context的演变是某种简单的cascading的线性shift叠加形成的.

那么理论上来说,层数或者说参数量是可以大幅度或者至少相当程度上减少的.

因为这些计算形式上是一个线性的关系.

也就是因为着可能可以以某种形式合并.

这样的话,之前DNN时代关于deep还是wide的争论可能又要拿出来再捋捋了.

凑巧的是刚好这时候看到另一篇谈high dimension calibration的.

初始的出发点看着也是想以某种方式拟合/裁剪模型,以实现较小计算代价的同等能力.

基于这个衍生的另一篇论文是关于这个方式的理论上下限的.

然后得出的结论是某层参数的增加在跟层数相关的一个系数范围内,模型的能力是可以保持不变的.

这个翻译一下其实就是前面说的,在给定条件下,存在增加每层参数,然后减少层数的方式,保持模型的表达能力.

这个在当前transformer的框架下,减少一层就意味着减少大量qkv,从而减少大量的算力需求.

再有一篇也是可能类似结论的.

谈back propagation的,在比较宏观的视角看待forward和backward pass在training过程中,对convergence的影响.

结论看着是forward pass在某种情况下,对最终stationary的影响并不直接.

主要还是backward pass的贡献.

这个初看起来有点废话的感觉,毕竟拟合本身靠的就是backward的gradient decent.

但是它尝试用这个来解释实践中加normalized layer的必要性以防止层数过身深导致的难收敛问题.

这个倒某种形式上跟前面shift的解释对得上了.

因为normalize形式上是把值约束在某个特定范围内.

变相地也就构成了某种cluster作用,使得后一层所需要需要区别开的dimension space的project function数值上可能不需要变得太过于复杂,从而影响收敛的难度.

而且这个结论的另外一个启发就是对于diffusion model.

因为diffusion本质上来说就是类似纯backward驱动的.

所以如果能从控制context block上发展出什么思路,再结合backward pass的这个结论,有可能在training的时候某种形式的去掉forward pass.

直接靠context block diffusion到最终结果.

而不是类似目前transformer的一个个吐的低效形式.

毕竟形式上来说,当前的transformer就是个bubble sort...

不过就目前来说,可能更直接的验证/摸索方式是构造一些相对小的模型充当这种理想化可控可预期的context blcok,然后搞另外一个专门模型去同步地聚合输出生成最终结果.

当然,MoE形式上就是前半部分.

只不过构成上还是传统的大力出奇迹,一步到位的训练.

从这种省事的方式回退到要某种形式的人工拆分结构再训练,可能不管学术还是工业上来说,都有点难度.

毕竟按照目前的算力规模来说,也不是随便给予尝试的.

不过Google既然能发出来,那么根据经验,要么就是已经验证出了下一代/N代架构.

要么这个已经是废案了.

到底是哪个,可能看后面发布模型有没什么特别的地方了.

2025-10-19

一些猜想

在疯狂动物城之后