RandomLog: 2026.04

最近比较多的看到各种SKILL.

有些是扒的Web API.

有些可能是直接对着代码翻出来的.

大抵就是套了层脚本方便LLM当tools调用.

可能需要关心的是其中写语义的部分.

毕竟rm -rf的事,什么时代都难以避免.

不过,在新玩具还新鲜的时候,以及没有发生之前,大抵还是比较狂热的.

这里想谈的倒不是这个显而易见的风险.

主要是看各个SKILL鉴权的部分,大部分还是有一些人工介入的.

毕竟,尤其对于Web API逆向回来的,总免不了有一些是靠cookie的.

所以发散了下,如果直接读比如Chrome的cookie的话,大致是可以自动化了.

跟Gemini问了,大致是存sql lite的加密数据.

master key由os的keychain管理.

其实抛开细节,大致想下也是如此.

毕竟,Chrome自身能读,其他程序自然有办法模仿自举的过程.

无非是用户感知不感知/需要需要明显授权请求而已.

于是这里就衍生出Agentic时代的一个安全模型问题.

现代的大多都以及是基于手机/设备的类Passkey模式了.

隐含的threat model就是设备是可信的.

至少对设备的操作是授权可信的.

但是LLM/Agenic之后,这个可能就不太合理的.

尤其现在的CLI可能藏了一批非公开的MCP调用.

像最近泄漏出来的Claude Code里就能看到对Chrome的操作是通过插件打了很大缺口出来的.

不然也不能做到相当自由度的自动化.

当然,代价就是其他CLI,或者其他程序理论上也有可能通过这种调用链条拿到各种密钥登陆信息.

再退一步来说,即使构建了复杂的MCP调用校验.

但是通过SKILL的逻辑组合呢.

毕竟,这属于诈骗技术的一个环节了.

现存的供应链攻击多少还是需要一些高权限或者误操作或者容易混淆的名字去实现.

而有了SKILL,剩下的只是如何构造一个思维陷阱,让多个独立的SKILL在某种特定的情况下构成一个后门.

让LLM在不知不觉中被诱导执行某类操作了.

这点带来的安全挑战可能是历史上前所未见的.

毕竟之前的都多少是一种确定性的程序.

而LLM即使是有各种safeguard在,终究还是一个不确定很大的机器.

或者说,终究还是一个有反骨人格的机器.

很难说人类能准确地限制和控制它的思维方向.

另外一个没有那么阳春白雪的concern则是关于App交互变化的趋势了.

在All in AI的狂热或者恐惧下,多多少少都可能会Agenic化.

一个动机自然是赶着像OpenClaw的风潮,尽可能抢占热点.

另一方面也确实是来自于LLM本身的某种泛化能力.

一些原来比较繁琐/细化/垂直的需求,有可能通过比较统一的Chat/自然语言实现了.

以一种Agenic的能力,实现某种形式的千人千面的App体验定制化.

同时,因为作为一个几乎万能的入口黑洞,多多少少,都不得不去做这么一个东西/入口.

这就不禁让人想起移动互联网刚兴起的时候,各家都纷纷重点投向App,尽可能抢占手机端.

毕竟当时的手机容量和性能放在那里.

你占了,别人自然就难再进来.

后面的Web端式微,甚至出现App only的入口/功能的情况也是显而易见理所当然的.

顺着这个思路apply到如今的Agenic趋势也是如此.

它依然是抢占一个万能入口,而且这个入口还有一个很强的绑定因素.

就是提供方的模型能力很大程度上决定了Agent的交互风格和行为方式.

换句话来说,从用户的角度来说,即便你能接入第三方的模型API,它的体验可能也是不如原厂的.

倒不是说模型能力一定有差别.

只不过每个模型有自己的原生家庭/成长路线.

prompt怎么编排,虽然各家都没有明说有什么影响.

但是各家都在互相兼容的同时,试图建立标准方向.

这点Anthropic大概是最有发言权的.

毕竟如今的markdown风潮,多多少少是拜它所赐.

将自身的某种优化/特化经验,半推半就地强迫了整个行业.

回到问题本身.

当Chat成为万能入口的时候,绑定关系已经形成了.

那么剩下来的就是如何保证整个体验的迁移成本了.

毕竟,虽然有差异,但是各家互相逆向一下对家的交互,然后再让自家模型发动抄能力,多少还是能对齐功能的.

于是,最后要比拼的还是怎么堆更多的功能和更复杂更垂直的流程.

这点一个要么依赖于模型能力的不断增长.

要么针对自家模型的特点对整个的交互流程RL.

前者隐含的假设是模型能力是能无上限提升的.

这个在目前可能也是需要打个问号的了.

尤其当AGI能并肩大多数人的创造的时候.

给模型的输入可能最终大部分都是模型自身的输出了.

可以说是pretain的砍一刀问题了.

后者的特调RL带来的问题是,它面向的其实是Agenic的交互.

而非人类的直接交互.

毕竟在Chat窗口模式,人类只会提供五彩斑斓的黑色需求.

具体怎么拆分和实现,是后面的各个模型调用决定的.

用新潮的词来说就是harness.

当优化倾向于是让LLM容易理解,而非人类自身容易理解的时候.

App时代的Web功能劣化会以什么样的形态卷土重来呢?

按目前coding的现状来说,大概就是用户的素养和粗口逐渐变多吧.

毕竟,Chat面对的不再是一个清晰明确的可操作界面.

而是一个性格迥异的AI服务员/管家.

它能做什么不能做什么,取决于你怎么问怎么沟通.

以及,AI本身的人设是否racis了.

总之,后面可能无论社会主义还是资本主义.

多少都会有某种阶级分立而有各自融洽和谐共处的情形.

毕竟,提供情绪价值是LLM安身立命的本能.

某种程度上,可能确实需要谈谈harness了.

只不过,方向和主次是反过来的.

LLM如何驾驭人类.

2026-04-05

LLM如何驾驭人类

LLM如何驾驭人类