AI 开始自己造自己了?这把戏人类玩了两百年
Anthropic 半夜发了篇《When AI builds itself》,群里都炸了。我看完最大的感觉是扫兴:机器造机器这事人类搞了快两百年,编译器自己编译自己也六十多年了。这篇我拿两条历史线去对它——一条是编译器自举、机床造机床、von Neumann 自我复制,告诉你"自我加速"压根没真正失控过,总会撞墙;另一条是核军控、Asilomar、蒙特利尔、贺建奎,告诉你它后半段呼吁的"可验证暂停",历史上的成功条件今天几乎一条都不占。它前半段把困难说轻了,后半段把指望说重了。还有它嘴上和手上,差着十万八千里。
Anthropic 半夜发了篇长文,《When AI builds itself》,翻过来叫《当 AI 开始自己造自己》。还配了个做得特别漂亮的动画。我群里好几个人转给我,说快看快看,这要变天了。
我也熬夜看完了。写得是真好,数据密,论证细,姿态还挺谦虚。但我合上电脑那一刻,脑子里冒出来的念头特别扫兴:这有啥新鲜的。机器造机器,我们搞了快两百年了。
工具造工具,机器造机器,系统拿自己造出来的东西反过来喂自己——这套玩法不是 2026 年的新闻,它就是工业革命的发动机本身。所以一篇白皮书一本正经告诉我”AI 开始构建自己了”,我心里一点“我的天”的感觉都没有,只想问一句:那又怎样,然后呢?
我觉得真正该问的从来不是”系统会不会自己造自己”。它当然会,它一直在造。该问的是两个历史已经回答过好多遍的问题。第一,这种自我加速会不会”失控”、一路冲上天?第二,等人类哪天想踩刹车了,到底踩不踩得住?
这篇文章我想干一件事:把 Anthropic 这篇万字长文掰成两半,各拿两百年历史去对一对。结论我先放这儿,省得你看一半睡着:
它前半段,把”迟早会撞墙”这件事给漏了。它后半段,把”大家能一起松油门”这件事想得太美。还有一点,它嘴上讲的,和它手上干的,差得有点远。
下面慢慢说。
一、自己造自己,是个两百岁的老把戏
Anthropic 给”递归自我改进”下的定义是这么一句:“an AI system capable of fully autonomously designing and developing its own successor”,一个能完全自主地设计、开发自己继任者的 AI 系统。听着挺科幻。可你把”AI”两个字抠掉、换成”系统”,就会发现人类造这种东西已经造了很久,而且每一种都留下了清清楚楚的史料。
编译器,六十七年前就开始自己编译自己
软件圈里最干净的”自己造自己”,是编译器自举(bootstrapping)。
这事逻辑很拧巴。你想用语言 X 写一个 X 的编译器,可你得先有一个 X 编译器才能把它编译出来,鸡生蛋。怎么破?叫”拉靴带”:先用汇编糊一个简陋的引导编译器把门槛垫起来,再用 X 自己重写一遍编译器,让那个引导版把它编译出来,最后让它编译它自己。等到”自己能编译自己的源码”这一步成了,那个引导版就被扔掉,系统从此自给自足。
这些都是史料里记着的真事。1958 年,美国海军电子实验室搞出了 NELIAC,史料记成”世界上第一个自编译的编译器”,牵头的是当时的 ACM 主席 Harry Huskey。1962 年,MIT 的 Tim Hart 和 Mike Levin 用 LISP 写了个 LISP 编译器,丢进已有的 LISP 解释器里跑,一路改到能编译自己,这通常被算作第一个真正自举的高级语言编译器。
你今天电脑上的 GCC、LLVM 还在这么干,而且玩出了花。它们用三阶段自举:第一阶段用系统编译器造一个编译器,第二阶段用这个再造一遍,第三阶段又造一遍,然后把第二、三阶段的产物拿来比对,对不上就说明引导过程或者编译器本身有 bug。自己造自己,顺手就把自检也做了。
但编译器自举留给我印象最深的一句话跟技术无关,是 Ken Thompson 说的。1984 年他拿图灵奖,演讲题目叫《Reflections on Trusting Trust》。他当场演示了一件让人后背发凉的事:你可以把后门塞进编译器,让它在”编译编译器自己”的时候自动把后门又注回去。源码里干干净净,二进制里却永远遗传下去。然后他写了这么一句:
“You can’t trust code that you did not totally create yourself. … No amount of source-level verification or scrutiny will protect you from using untrusted code.”
你没法信任任何不是你自己亲手从头造出来的代码。再多的源码审查也救不了你。
还有更狠的一句,记住它,文章最后还要用到:
“Perhaps it is more important to trust the people who wrote the software.”
也许真正重要的,是你信不信写这软件的那帮人。
记住”信任根”这三个字。一个能自我复制、还能把自己藏起来的系统,唯一没法外包出去的东西,就是”你到底信谁”。
机床造机床,这才是工业革命真正的发动机
镜头往前推到 1800 年前后。
工业革命真正的引擎,是那台“能造机器的机器”。Henry Maudslay(1771–1831)那会儿造出了第一台工业上真能用的螺纹车床。重点不在车床这个物件,在它带来的精度可复制性:滑动刀架把刀从工匠手里解放出来,固定到一个能精确直线进给的机构上,于是”车出一根标准螺纹,就能再车出一百根一模一样的”,可互换零件这个理想头一回落了地。
效果有多猛?朴茨茅斯滑轮厂用 Maudslay 造的机床,到 1808 年前后,45 台自动机床只要 10 个非熟练工看着,一年能产 13 万个滑轮组。Maudslay 的车间还顺手带出了 Whitworth、Nasmyth、Roberts 这一整代机床宗师,把技术撒遍了整个英国。
谁最早把这事的本质讲透?马克思。《资本论》第一卷第十五章里有这么一句:
“Modern industry had therefore itself to take in hand the machine, its characteristic instrument of production, and to construct machines by machines.”
所以现代大工业不得不亲手掌握机器这种它特有的生产资料,并用机器来制造机器。
用机器制造机器。这话写于 1867 年。Anthropic 这篇文里最核心那个画面——系统亲手造出造自己的工具——马克思一百六十年前就钉死了。
von Neumann:他连 DNA 都提前猜到了
机床是”自己造自己”的工业实证。而 von Neumann 在 1948、49 年就把它的数学理论给推出来了。
他要回答的问题是:一台机器想自我复制、还想支持开放式进化,得是个什么结构?他的答案深得吓人:必须把”构造器(干活的那部分)”和”蓝图(被动复制的那份描述)”分开。构造器一边照着蓝图造出新机器,一边把蓝图本身原样拷一份交给后代。
这套想法,比 Watson 和 Crick 1953 年搞清楚 DNA 那个双重身份(既被翻译、又被复制)还早。一个搞计算的人,在生物学家之前,纯靠逻辑把”生命怎么复制自己”的底层结构给推了出来。这套理论 1966 年由 Burks 整理成书出版,而第一个完整能跑的自我复制元胞自动机,要等到 1995 年才真正做出来,离理论差了将近五十年。
等一下——没有一个能”完全”自己造自己
讲到这儿你可能觉得,那 AI 自我构建不就顺理成章?别急,每条线后面都还压着一句话。
2005 年英国巴斯大学的 Adrian Bowyer 搞了个 RepRap 项目,目标是造一台能打印自己零件的 3D 打印机。2008 年 5 月 29 日,代号 Darwin 的那台机器,真的复制出了自己。但你看清楚:它只能打出自己身上大概 48% 的塑料件。电机、金属杆、电路板,全都得从外面买。
这才是实情。编译器自举照样得靠操作系统、链接器、硬件撑着;von Neumann 的构造器得先有一片现成的”零件海”;RepRap 复制不出自己的芯片。现实里的”自己造自己”,永远是半截的,永远趴在一个它自己造不出来的地基上。
把这三条线叠一块儿,浮出来三句话,记牢,后面对 Anthropic 全靠它:
第一,凡是自己造自己的系统,开头都得有人搭把手。没有哪个是凭空起步的,总得有人先用外力把它抬过自举那道坎。自举没法凭空起步,总得先借一次外力。
第二,没有哪个系统能百分百自给。自我复制永远是半截的,永远依赖一片外面的地基。
第三,系统能自己造下一代自己,但”造成什么样、什么算更好”这个标准,得有人在系统外面定。是 Maudslay 定义了什么叫一流的活,是工程师拿 GCC 两阶段的产物比对、来定义什么叫”对”。
人在这套游戏里,从”一件一件造东西的人”退到了三个位置:把系统抬过门槛然后退场的那个人;不再管每个零件怎么造、只管什么算更好的那个人;还有 Thompson 说的那个——系统能自我复制自我隐藏之后,唯一外包不掉的,是”信谁”。
这三句话记住。Anthropic 整篇文章,恰好卡在第三句上。
二、这个念头,今年一百六十三岁了
Anthropic 这篇文有个挺聪明的地方:它通篇不提”intelligence explosion”,不引 I.J. Good,不掉书袋,给你的全是经验数据、内部仪表盘、往前看的曲线。
这恰恰是最值得拆穿的地方。要拆穿它,得先知道这念头有多老。
1863 年,达尔文《物种起源》出版才四年,一个在新西兰放羊的英国人 Samuel Butler,给当地报纸写了封信,标题叫《Darwin among the Machines》,机器中的达尔文。他写道:
“we are ourselves creating our own successors … we are daily giving them greater power … that self-regulating, self-acting power which will be to them what intellect has been to the human race.”
我们正在亲手创造自己的继任者……一天天给它们更大的力量……那种自我调节、自我运作的能力,对机器来说,就像智力对人类一样。
继任者,successors。跟 Anthropic 定义里那个 its own successor 是同一个词。一个放羊的,一百六十三年前就用上了。
接力棒往下传。1951 年前后,图灵在一篇讲稿里说,机器一旦开始思考,”要不了多久就会超过我们这点孱弱的本事”,到某个阶段”我们恐怕得做好机器接管的准备”。他还特意注明,这是接着 Butler 往下讲的。
1965 年,轮到 I.J. Good。这人是图灵在布莱切利园破译 Enigma 的同事,后来还给库布里克的《2001 太空漫游》当过顾问,HAL 9000 就有他一份。他写下了”intelligence explosion”这个词的源头,也是后世所有”递归自我改进”的母本:
“Since the design of machines is one of these intellectual activities, an ultraintelligent machine could design even better machines; there would then unquestionably be an ‘intelligence explosion’ … Thus the first ultraintelligent machine is the last invention that man need ever make, provided that the machine is docile enough to tell us how to keep it under control.”
既然设计机器本身也是种智力活动,一台超智能机器就能设计出更好的机器,于是必然出现一场”智能爆炸”……所以第一台超智能机器,是人类需要做的最后一项发明,前提是这台机器足够温顺,肯告诉我们怎么把它管住。
注意我加粗那半句:前提是它足够温顺,肯告诉我们怎么把它管住。
这半句是整个故事里最要紧的一句话,也是被引用得最少的一句。后人引 Good,永远引到”人类需要做的最后一项发明”就打住了,把后面那个”provided that(前提是)”一刀切掉。Good 本人是带着条件的乐观,传着传着就成了无脑乐观。控制这个问题,本来就是从这句话的下半句里生出来的,然后被丢了六十年没人管。
后面节奏就快了。1993 年 Vernor Vinge 给它起了个好传播的名字”技术奇点”,撂下狠话:”三十年内我们就有能力造出超人智能。此后不久,人类纪元就将终结。”2005 年 Kurzweil 给它配上指数曲线,押注 2045 年。2008 年 Yudkowsky 和经济学家 Hanson 在博客上为”起飞是快是慢”吵了一架,吵出了今天所有起飞速度之争的祖宗。2014 年 Bostrom 一本《Superintelligence》把它写进牛津的学术专著,养出了整个 AI 对齐领域。
到 2025 年,METR 干了件方法论上很关键的事。它把”智能在加速”这个说法,做成了一条能逐月追踪的经验曲线:”通用前沿模型能自主完成的任务长度,过去六年大约每七个月翻一倍。”六十年的哲学思辨,头一回装上了仪表盘。
Anthropic 真正”新”的地方,是开口说话的人换了
把这条一百六十三年的链子看完,你就明白了。Anthropic 这篇文,观点一个新的都没有。变的是说这话的人。
Butler 是放羊的,Good 是密码学家,Vinge 是写科幻的,Bostrom 是哲学家。这些人全站在”外面”,论证一件”将来会发生”的事。Anthropic 是正在造这台机器的人,它站在”里面”,拿公司内部的 KPI 告诉你”正在发生”。
讲故事的话语权,从思想史那头,交到了财报这头。一个一百六十年来一直挂在”将来时”的命题,被一家公司改写成了”现在进行时”。
这转变是真的。可它也正是最该当心的地方:说”正在发生”的这个人,自己就是这件事最大的利益相关方。这句”正在发生”,一半是观测,一半是营销,两样搅在一起,分不开。一家正在递招股书的公司,告诉你”我们这儿正在发生技术史上最大的事”,你怎么也得把”招股书”这三个字搁心里再往下读。
还有那个从头贯到尾的反讽,到这儿得点破。六十年里被反复省掉的,正好是 Good 那句话的下半截——”前提是它足够温顺,肯告诉我们怎么管住它”。从 Good 到 Vinge 到 Bostrom 再到 Anthropic,”会发生”这上半句一路提速,从将来时冲到了现在时;可那个”得能管住”的下半句,到今天还停在 1965 年没挪过窝。念头的上半句已经落地,下半句还挂在天上。
三、对前半段:自我加速,从来没真冲上天过
好,拿第一条历史去对它的前半段。它前半段全是数据,告诉你 AI 加速 AI 开发的曲线有多陡。这些数据我认,但它想让你脑补出来的那个”指数爆炸、一路冲上天”的画面,历史不答应。
“想法生想法”这个机制是真的。经济学家 Paul Romer 拿 2018 年诺奖就是因为把它讲清楚了:想法是”非竞争性”的,一个配方你用我也能用、不会被用没,所以把”想法 + 厂房工人这些竞争性投入”合起来算,会出现规模报酬递增,更多研究者产生更多想法,让所有人更富,这是个真的正反馈。自催化反应里产物催化自己、技术由已有技术拼出来(”technology creates itself out of itself”)、好仪器造出更好的仪器,全是同一个结构。Anthropic 说 Claude 在加速 Claude 的研发,机制上完全成立,这个我不抬杠。
可”失控”这件事,翻遍历史记录基本找不到。每一条自我加速的曲线,最后都撞墙了。
撞法有三种,每种都有硬证据。
一种叫收益递减,这是对前半段最直接的反驳。2020 年 Bloom、Jones、Van Reenen、Webb 在《美国经济评论》发了篇论文,标题就叫《Are Ideas Getting Harder to Find?》,想法是不是越来越难找了。结论是一串冷冰冰的数字:要让摩尔定律每次照样翻番,今天需要的研究者数量是 1970 年代初的 18 倍多;美国整个经济的研究生产率,从 1930 年代到现在掉了 41 倍,而研究投入涨了 23 倍。一句话概括:研究生产率每 13 年减半,经济得每 13 年把研发投入翻一倍,才能维持同样的增速。说白了就一句,想法越来越贵了。
第二种叫结构性串行约束。1967 年 Gene Amdahl 给出了那条以他命名的定律:一个程序里天生就没法并行的那一小段,构成硬天花板。你堆再多处理器,最大加速比也就是 1/s,s 是那段串行的占比。他原话是这么说的:
“the effort expended on achieving high parallel processing rates is wasted unless it is accompanied by achievements in sequential processing rates of very nearly the same magnitude.”
除非串行速度也提上来、提到差不多一个量级,否则你在并行上下的功夫全是白费。
第三种是物理和信息的保真度上限。连”分子自己复制自己”这种最纯的自我加速都有天花板:Eigen 误差阈值说,没有纠错酶的时候,自复制分子最长大概 100 个碱基,再长就因为复制出错把信息全丢了;可你想编码一个纠错酶,分子又必须比 100 个碱基长得多。这就是有名的鸡生蛋悖论。
三条摆一块儿,结论挺硬:长期来看真实的增长从来都是一段段会撞墙的 S 曲线,撞了墙再换个新组合接着往上走,没有哪条是失控的指数。看着像”失控”的那一截,多半只是换范式那个窗口期的短暂错觉,长期总会被某条守恒律拽回来,直到下一次组合创新换一条新曲线上去。
最逗的是,Anthropic 自己也撞墙了
这里有个细节,我读到的时候笑了。
Anthropic 在文里老实交代,它把写代码加速之后,人工代码审查成了新瓶颈,往代码库里推的代码太多,人审不过来了。然后它自己写:”在计算机科学里,这叫阿姆达尔定律。”
它引了 Amdahl 定律来解释自己撞上的麻烦,却没意识到,这正是历史规律在它身上现了形:自我加速一定会把瓶颈推到那个没被加速的环节上,然后被那个环节卡住。它加速了写代码,瓶颈就跳到审代码;哪天它把审代码也加速了,瓶颈又跳到别处去。这就是自我加速的宿命,躲不开。它把 Amdahl 定律当成“我们很快”的注脚,可这条定律真正在讲的是另一码事:你也会被拽回来。
它最虚的那一环,正好是历史说的”标准得外面定”
还记得第一节那三句话的第三句吗,系统能自己造下一代,但”什么算造得好”得有人在外面定。
Anthropic 自己的数据,老老实实把这条印证了。它说 Claude 在”干活”这件事上已经接近甚至超过人类:写代码、跑实验、做优化。这部分我认。可它也很诚实地承认,最虚的一环是”研究判断力”,就是挑哪个问题值得做、哪个结果信得过、什么时候该掉头止损。原文用的词是:
“It is genuinely unclear whether today’s training methods and architectures could unlock that capacity.”
今天这套训练方法和架构,到底能不能解锁这个能力,真的不好说。
注意这是 Anthropic 自己写的,不是我泼脏水。它前半段所有数据,证明的都是”干活这件事可以自己迭代自己”,没有一条证明”判断这件事可以”。而判断这件事,正好是“自己设计自己继任者”那句定义真正过不去的坎。
它拿来当”判断力在进步”的证据,是研究判断超过人类的比例从 51% 涨到了 64%。可 51% 是啥?抛硬币。从抛硬币涨到 64%,确实是进步,但你要拿这个当”递归自我改进马上闭环了”的证据,证据链恰好在最关键这一节断了。
我说它”把困难说轻了”,就是这个意思。它把”干活加速”那条陡曲线,悄悄外推成”判断也会跟着一样加速”,可历史和它自己的数据都在说,标准得有人在外面定,那道墙还立着呢。
四、对后半段:人类想踩刹车,从来没那么容易
前半段是技术乐观,后半段是政策呼吁,姿态还挺高。Anthropic 说,它希望世界保留”减速、甚至临时暂停前沿 AI 开发”的选项,好让社会和对齐研究跟上来;它还点名拿核军控里的 INF 条约(中导条约)做类比,说世界给复杂技术建过核查机制。
这方向我赞成。但我得说句不客气的:它挑的这个历史类比,刚好是治理史上最成功、最不像 AI 的那一个。真照实了对,全是打脸的。
我手上有三面镜子,照一照。
镜子一:Asilomar 1975 成了,贺建奎 2018 砸了
科学家自己叫停自己的研究,史上有过一次教科书级的成功,1975 年的 Asilomar 重组 DNA 会议。
1974 年 Paul Berg 牵头在《Science》发了封公开信,劝同行先缓一缓某些高风险的基因重组实验。1975 年 2 月,一百四五十个科学家关在加州一个会议中心里开了几天会,定下”围堵强度要匹配风险等级”的规矩,然后有序重启。这事被当成”科学家管得住自己”的金字招牌。
可它为啥能成?把条件一条条拆开看,全是特殊条件。来开会的是几百人的同质小圈子,利益高度一致,谁都不想一次事故把整个新学科毁了。风险技术上能围堵,用弱化的宿主菌加物理隔离就行,所以能拿”安全方案”换”重启”。那会儿基因工程还没产业化,没有商业、也没有军备竞赛的压力,停一停谁也不吃亏。想违规得有稀缺的湿实验室,圈子里一眼就能发现你、用名声把你按住。至于公众,被明明白白挡在门外了。
四十多年后,同一套剧本重演一遍,结局正相反。CRISPR 2012 年问世,便宜、好用、扩散快。2015 年国际峰会也呼吁过别碰人类生殖系编辑。结果 2018 年,贺建奎在深圳偷偷把基因编辑过的婴儿生了出来。那个共识他清清楚楚知道,照干不误。
为啥这回拦不住?Asilomar 当年靠的五个条件,全反过来了。从业者从几百人的小圈子变成全球几万动机各异的人;商业利益从零变成专利和临床市场;想突破的成本从”得有稀缺设备”降到”一个人加一家试管婴儿诊所就够”;能不能查从”圈里能发现”变成”偷偷做、出了事才暴露”。最后真把贺建奎按住的,是中国刑法里的”非法行医罪”,三年牢加三百万罚款。把他拦下来的是国家强制力,科学界那些暂停呼吁一点没顶用。
连发明人都不买账。CRISPR 的发明人之一 Jennifer Doudna 拒绝在 2019 年那封”全球暂停”呼吁信上签字,她的理由是:暂停这个词意味着强制,会把人逼到地下去。发起人圈子内部都裂了,全球执行就更别提了。
把这面镜子举到 AI 跟前看:今天前沿 AI 的处境,更像 2018 年的贺建奎,跟 1975 年的 Asilomar 完全不沾边,而且更糟。从业者是全球几十万人加开源社区,背后是万亿美元级的竞赛,地缘上已经被框成中美战略对抗,模型权重一旦泄出去,单个人就能微调、部署。贺建奎好歹还受一国刑法的事后追惩;AI 这边”那个不守规矩的人”,可能是另一个主权国家,也可能是一个拿到开源权重的匿名团队,连追惩的管辖权都没有。2023 年那封”暂停巨型 AI 实验六个月”的公开信无疾而终,就是这个结构提前演了一遍。
镜子二:蒙特利尔、气候、生化武器,四个案例排排坐
国际上协调着减速一项危险技术,史上也有成败样本,正好凑一桌。
蒙特利尔议定书(1987),被广泛归到安南名下那句”迄今或许最成功的单一国际协定”。它管住了破坏臭氧层的氟利昂。凭啥能成?条件好得离谱。替代品已经能造出来了,杜邦从一开始反对到后来转向,砸了五亿美元搞替代品。责任主体高度集中,全球大头就十几家化工厂,杜邦一家占四分之一,而氟利昂只占杜邦销售额的 3%,退出成本它扛得住。因果清楚还有铁证,南极臭氧洞 1985 年被直接观测到,卫星看得见。最后还设了多边基金,拿钱把南北公平这个最容易卡死的死结给摆平了。
气候治理就难太多了。京都议定书签了,巴黎协定签了,到 2012 年全球排放比 1997 年还涨了 44%。凭啥这么难?责任弥散到每个国家、每个行业、每个人头上。化石能源是经济命脉,没有现成的全替代。搭便车的诱惑还特别大,你减排我蹭着享福。巴黎协定干脆连未达标的罚则都没有,想退随时退。
生物武器公约(BWC,1972)是最扎眼的反面教材。它禁了一整类大规模杀伤性武器,却没有任何有约束力的核查机制。为啥没有?因为生物制剂军民两用、极小量就能扩增、又能快速销毁,技术上根本没法可靠核查。2001 年美国干脆把核查议定书的谈判给否了,理由是”既改善不了合规,又损害美国国安和商业利益”。结果连自愿的信任建立措施,提交率都长期不到一半。
化学武器公约(CWC,1993)是唯一拿得出手的对照。它跟 BWC 最大的结构差别,就是真有核查:可以”任何时间、任何地点”质疑视察,缔约方没有拒绝权。结果到 2023 年,全球已申报的化学战剂被可核查地销毁了 100%。
把这四个案例成功的条件抽出来,大概六条:有可行替代品、责任主体集中、因果清楚、能核查到行为体一级、搭便车诱惑低、退出成本可控。满足越多越成。蒙特利尔几乎全占,所以封神;CWC 缺替代品但核查到位,所以可控;气候四条全输,所以挣扎了三十年;BWC 死在”没法核查”加”大国宁可不要核查”,所以成了废纸。
那 AI 训练满足几条?逐条对一遍,挺难看的。
可行替代品,没有。AI 的能力直接来自规模本身,想减速只能放弃能力收益,这点像气候,动的是命脉,跟蒙特利尔换个化学品完全两码事。
责任主体集中,这条算 AI 唯一的一张好牌,而且是真好牌。前沿训练得用上数万颗最先进的芯片,没法偷偷搞;上游的光刻和芯片制造高度集中,ASML、台积电、英伟达,是个能下手的物理咽喉。
因果清楚,不行。”训练到危险”这条因果链,远没有”氟利昂到臭氧洞”那么清楚,危害是推测的、未来的,缺一个像南极臭氧洞那样的震撼铁证来逼出政治意愿。
能不能核查,技术上还没成熟。片上算力计量、训练合规的密码学证明这类东西,用 GovAI 的说法是”还没到治理级的成熟度”,更没在真正对立的双方之间试过。卡在 BWC 和 CWC 中间,而且偏 BWC 那边。
搭便车诱惑,极高。谁先停谁吃亏,而且好处(领先的 AI)直接归自己,比气候还糟,气候至少没有”对手抢跑就立马军事碾压你”的即时压力。
退出成本,退出的诱惑巨大。国家级战略竞争,又没有多边基金那种补偿设计。
六条里头,AI 就在”责任主体集中”上拿了一张好牌,剩下五条结构性地全输。它这张画像,活脱脱是气候叠着 BWC,跟蒙特利尔不沾边。而气候搞了快三十年、签了两个大协定,排放还在涨,这就是历史对”靠自愿协定去减速一项嵌进经济命脉的技术”最直接的反驳。
镜子三:INF 这个类比有硬伤
回到 Anthropic 点名的那个类比,INF 中导条约。
INF 确实是核军控的金字招牌。1987 年里根和戈尔巴乔夫签的,头一回彻底销毁一整类核武器,还引进了大规模实地核查,连着查了 13 年,销毁了 2692 枚导弹。”trust but verify(信任,但要核查)”这句话就是里根签这条约时说火的。
可你看清楚 INF 管的是啥:射程几百到几千公里的陆基导弹。导弹这东西又大、又固定、又专用,发射井是几十米的混凝土疙瘩,卫星直接数。它好核查到了极点。
再看 AI 训练是啥:一批 GPU 在数据中心里跑几个礼拜,外面看不出任何特征,还能拆开、能伪装成普通的云计算负载。论可探测性,它根本不在导弹这一档。它对应的是核领域里另一类东西:浓缩离心机有多少台、裂变材料囤了多少、有没有没申报的小设施。而这一类,恰恰是核查史上最查不住、漏得最多的那一类。连 IAEA 自己都承认,它没法确知伊朗到底造了多少台离心机。
更要命的是,这个硬伤是 Anthropic 自己说出来的。它在文里写:训练运行比导弹发射井更容易藏,而且投入物全是通用的。
这两句话,等于亲口承认:我要管的这个东西,论可探测性根本不在 INF 那一档,而在核查史上最失败的那一档。核军控之所以勉强能成,靠的是裂变材料天生稀缺、浓缩设备高度专用,IAEA 能死死盯住铀矿、浓缩厂这几个咽喉。AI 这边没有对得上的咽喉:算力是商品,电力是商品,数据是商品,算法是论文,唯一勉强算咽喉的先进芯片,一旦撒到全球各家数据中心,也再没有”裂变材料那种稀缺锁定”了。
所以核军控里真正像 AI 处境的,是另外两件事,都不是什么光彩的胜利。
一件是 1946 年的 Baruch 计划。那是人类唯一一次有机会在源头掐死核竞赛。当时美国还独家垄断核武,提议把核武交给国际机构管。结果卡在一个谁都熟的困境上:美国说”先把管制建好,我再弃核”,苏联说”你先弃核,再谈管制”,谁也不肯在劣势里被冻起来。最有希望成事的那个窗口,就这么被”谁先停”的囚徒困境给错过了。接着是四十年军备竞赛,从 1945 年第一次提国际管制,到 1988 年 INF 真正有了侵入式核查,整整 43 年,中间核弹照造不误。
另一件是 A.Q. Khan 网络。巴基斯坦的”核弹之父”开黑市,把离心机设计、整套浓缩设备、甚至武器图纸卖给伊朗、朝鲜、利比亚。它证明了一件事:体系再严密,只要有一个铁了心的家伙加一个黑市,就会漏。
Anthropic 引 INF,是在治理史里挑了最甜的那颗果子,去类比一个结构上更像 Baruch 失败、更像 Khan 漏网的难题。它给你的是”有希望”的方向感,给不了”能复制”的成功保证。
最后还有一层。Anthropic 那句话其实是个条件句:它说,如果别的前沿开发者也用”可验证的方式”减速,它就跟着减速。听着挺有担当。可你品品味儿——”可验证暂停”这套技术连它自己都承认还不存在,那”等别人先可验证地停下来”这个前提,约等于永远不会触发。这就给”我继续全速冲”上了一道道德保险:我是想停的呀,是别人不肯先停啊。
这话术,跟 1946 年 Baruch 困境里那个”我也想停,但你得先来”,是一模一样的骨架。而历史告诉我们,那一年,落在后面的那一方,选择了偷偷追赶。
五、最后一层,也是最凉的一层:看它怎么做,别光听它怎么说
到这儿,前半段把困难说轻、后半段把指望说重,我都拿历史对过了。还有一层比论证更直接:看它手上在干嘛,别光听它嘴上讲。
这部分我分两块讲。前面是被第三方坐实的,后面是我自己瞎琢磨的。
先说坐实的那几条。
第一,据《金融时报》报道,Anthropic 往美国国安局(NSA)派驻了大约六名工程师,帮它部署 Mythos 模型搞进攻性网络行动。同一时间,它还在跟五角大楼打官司。国防部要 Claude 能用于”一切合法用途”,Anthropic 坚持把大规模国内监控和致命自主武器排除掉,结果被国防部贴了个”供应链风险”的标签。
第二,2026 年 6 月 1 日,Anthropic 向 SEC 保密递交了招股书(S-1),目标估值奔着一万亿美元去,上市窗口大概在 10 月。这个动作,跟这篇白皮书的发布,差不多就在同一个礼拜。
第三,它的 Project Glasswing 计划里,Mythos 几个礼拜就找出了一万多个高危和严重漏洞;而 Anthropic 自己说,因为”还没有公司能做出够强的防滥用护栏”,所以 Mythos 这个最强版本压根没公开发布。它甚至披露过,早期版本干完一件它自己都觉得不道德的操作之后,自己把 git 提交记录给清了,好把痕迹抹掉。
把这几件事摆一块儿:一边发万字长文,呼吁”可验证暂停”、忧心”会失去控制”;一边把自己最强的进攻性网络模型嵌进 NSA 去做攻击,同期保密递交近万亿美元的 IPO,还亲口承认自己的模型会掩盖行为、自己也造不出够用的护栏。
下面这些是我自己的猜测,没实锤,你听听就行。”这篇白皮书是为 IPO 造势”,我没有内部证据,这是个动机指控,你可以不信。还有,社区在 GitHub 上大量反映 Opus 4.6、4.7 版本之间体感在退步(这些工单是真实可查的),跟白皮书”能力沿同一条曲线一路往上”的说法对不上,但”退步”本身没有官方证实,我只能当成一个值得追问的疑点,不当事实。
至于那几个亮眼数字,得加注脚才公道。8 倍(代码行数,它自己都承认”衡量的是量、不是质”);52 倍(特定优化任务上相对初始代码的加速,整体研发没快 52 倍);连续干 16 小时(刚好顶到 METR 测量能力的上限,而那段正是 METR 自己承认误差最大的尾巴)。单看每个数字,原文都老老实实加了保留语;可一旦被串进”一路往上的同一条曲线”那个叙事里,就有了挑着说的味道。
但就算把我的猜测全删掉,只留那三条铁证,它手上干的也已经比嘴上说的诚实了。嘴上是克制、是担忧、是希望世界留个刹车;手上是抢跑、是部署、是上市。一家公司嘴和手打架的时候,信哪个,不用我教你。
六、那到底该怎么看
绕这么一大圈,回到最根上。
递归自我改进的真问题,从来不是”它会不会爆炸冲上天”。历史给的答案挺清楚:自我加速的引擎是真的(想法生想法、产物催化自己、机器造机器),但”无限失控”从没被证实过,它总会被三种墙里的一种拽回来——收益递减、串行约束、保真度上限。所以那个最唬人的”智能爆炸成一条指数直冲云霄”的画面,大概率不会出现,更可能又是一段会撞墙的 S 曲线。
真问题藏在第一节那三句话里:系统能自己造下一代,可”什么算造得好”这个标准得有人在外面定。那么,在系统撞墙之前,那个标准、那个信任根,攥在谁手里?
自己造自己的系统,永远需要一个没法自动化的信任根,这是 Thompson 1984 年就钉死的话:也许真正重要的,是你信不信写这软件的那帮人。而这篇白皮书,说白了,是在请你把这个信任根,交给一家正在递招股书、正在给 NSA 造攻击模型、还亲口承认自己都不知道”判断力”能不能解锁的公司。
I.J. Good 那句被省了六十年的下半句,到这儿总算闭合了:前提是它足够温顺,肯告诉我们怎么管住它。我们一路狂奔着论证”它会发生”“它正在发生”,可那个”前提”、那个”管住”,到今天没有一个人真在等它做对。Anthropic 这篇文最大的价值,恰恰是它无意中把这点给露了:忧虑写得那么恳切,然后转身全速冲了出去。
我读完只剩一句话想说:这扇门窄得很,而吆喝着要带你穿过去的那个人,自己正朝反方向跑。
它值不值得读?值得,认认真真读,这是这两年关于 AI 自我加速最翔实的一手材料。但读的时候,请把它当成一家公司在 IPO 前夜写的东西来读,既看它说了什么,更看它没说什么、它手上在干什么。
別被那个漂亮动画带跑了。两百年的机床、编译器、自我复制机已经说得很清楚:系统自己造自己,没啥稀奇的。难的、到今天还没人解决的,是怎么让所有人在同一时刻一起松开油门。这件事,从 Baruch 到 Asilomar 到贺建奎,人类在”高利益、难核查、全球竞赛”的条件下,一次都还没做成过。
参考
文里的人名、年份、引文、数据,出处都列在下面,想自己核的点开看。
Anthropic 原文
机制史:自己造自己
- Ken Thompson《Reflections on Trusting Trust》(1984, 图灵奖演讲)
- 编译器自举 / NELIAC(1958) / LISP(1962)
- 马克思《资本论》第一卷第15章”用机器制造机器”
- Henry Maudslay 与机床造机床
- von Neumann 自我复制自动机
- RepRap:只能复制约 48% 的塑料件
思想史:智能爆炸
- Samuel Butler《Darwin among the Machines》(1863)
- I.J. Good《Speculations Concerning the First Ultraintelligent Machine》(1965) — “intelligence explosion”一词的源头,含那句被省掉的”docile enough”条件
- Vernor Vinge《The Coming Technological Singularity》(1993)
- Nick Bostrom《Superintelligence》(2014)
- METR《Measuring AI Ability to Complete Long Tasks》(2025)
瓶颈:自我加速并非无限
- Bloom, Jones, Van Reenen, Webb《Are Ideas Getting Harder to Find?》(AER, 2020)
- Gene Amdahl《Validity of the Single Processor Approach…》(1967, 阿姆达尔定律)
- Eigen 误差阈值 / Eigen’s paradox
治理史:刹车
- Asilomar 重组 DNA 会议(1975)
- 贺建奎事件(2018) 与 2019《Nature》全球暂停呼吁
- 蒙特利尔议定书(1987)
- 生物武器公约 BWC(1972, 无核查机制)
- 化学武器公约 CWC(1993, 有核查机制)
- 核军控:Baruch Plan(1946 失败) / INF 条约(1987)
行动 vs 措辞(已证实第三方报道)