本讲以技术展开为主线,沿「荒芜年代 → 深度学习 → VLA → 世界模型」四个阶段,串起采摘机器人四十年的智能演化。讲稿面向农业工程 / 机器人工程方向本科生,不预设行业背景——所有缩写、人名、概念在首次出现时均口头展开。
下方每页含「画面」(该页幻灯片显示什么)与「讲稿」(教师逐字讲授内容)。全篇约 2 万字,按 100 分钟分配,章节页快、内容页详。
开场与总览
封面:从荒芜年代到世界模型
约 2 分钟画面四代采摘机器人演进全景 + 标题"从荒芜年代到世界模型"。
同学们好。我们现在进入《采摘机器人》系列课程的第二讲——技术发展动态。
先把这一讲放进整门课的坐标里。这门课一共四讲:第一讲讲行业背景,也就是这个产业长什么样、价值在哪;第三讲讲核心技术,把感知、决策、执行三大模块拆开细讲;第四讲讲应用和未来。而今天这第二讲,任务是把一条主线讲清楚——采摘机器人这四十年,技术上到底是怎么一步一步走过来的。
大家看封面这张图,它不是随便配的。从左到右其实是四个时代的采摘机器人:最左边那台又大又笨、液压管线全裸露在外的,是上世纪八九十年代的早期样机;往右那台干净的白色机械臂装在一辆小车上,是深度学习时代的集成式机器人;再往右,是好几条机械臂协同作业、旁边还有屏幕显示人工智能识别结果的平台;最右边那台,机器周围浮着一层半透明的三维网格和预测轨迹线——它代表机器人开始"在脑子里先预演一遍动作,再下手"。这四台机器,正好对应我今天要讲的四个阶段:荒芜年代、深度学习、VLA、世界模型。
这条时间线,从 1985 年一直拉到今天,整整四十年。我希望大家听完能记住一件事:采摘机器人的进步,表面上是机械臂越做越好,本质上是机器"智能"这个底座一次又一次被重新打地基的过程。这一讲我们大约讲 100 分钟。
四讲系列地图:本讲居二,承上启下
约 2 分钟画面四讲流程图,第 2 讲高亮。
这一页把四讲的关系再说细一点,因为知道"我现在站在哪",听课才不会迷路。
第一讲"行业背景",回答的是 why——为什么我们需要采摘机器人。简单说,高价值的鲜食果蔬,比如草莓、苹果、番茄、猕猴桃,采摘环节高度依赖人工,而全球范围的农业劳动力又在老龄化、在变贵。这是这个产业的根本驱动力。
今天第二讲"技术发展动态",回答的是 how it evolved——这套技术是怎么演化到今天的。我会用四个阶段、一条时间线带大家走一遍。
第三讲"核心技术",回答 how it works——把机器人拆成感知(眼睛)、决策(大脑)、执行(手),一个模块一个模块讲透。
第四讲"应用未来",回答 what's next——哪些公司真正把产品卖出去了、部署下去了,未来产业往哪走。
所以四讲是层层递进的:先立全局,再讲历史主线,然后钻进技术细节,最后落到产业未来。今天这一讲是承上启下的关键——它既要承接第一讲的产业图景,又要为第三讲的技术拆解搭好"为什么是这样设计"的历史逻辑。
本讲学习目标:七条目标贯通四阶段
约 2 分钟画面七条学习目标列表。
讲历史最怕变成流水账,所以我先把今天要达成的七个目标摆出来,请大家带着这几个问题听课,最后一页我们回过头来对照。
第一,能复述四个阶段各自叫什么、起讫年份、以及每个阶段的标志性技术节点。这是骨架,必须记住。 第二,能说出第一阶段"荒芜年代"卡在哪几个硬约束上——硬约束的意思是"再聪明也绕不过去的物理或成本限制"。 第三,能解释为什么深度学习是个转折点,但它"必要却不充分"——这八个字是今天的核心判断之一,我后面会反复用到。同时要能举出四家在这个阶段倒下的代表性公司。 第四,能解释 VLA 这个技术是想干什么,以及它目前已经被学术界明确指出的五个局限。VLA 是什么我们到第三阶段细讲,现在先记住这是个缩写。 第五,能梳理出最新阶段的三条技术路线,能举出有真实产品、真实部署证据的代表性企业——注意是"有真实交付证据的",不是只融过资、只发过新闻的。 第六到第七,能填出一张"七个维度 × 四个阶段"的对比表,把零散的史实收进一张结构化的认知地图。
这七条,对应后面七章。听的时候不用紧张记笔记,重点是建立框架感。
四阶段总览:四十年 · 四阶段 · 智能跃迁
约 1.5 分钟画面章节过渡页,"荒芜年代 → 深度学习 → VLA → 世界模型"。
好,正式开始。先给四个阶段一个总览,建立鸟瞰视角,后面再逐阶段俯冲下去看细节。
四个阶段的名字,请大家记牢:荒芜年代、深度学习、VLA、世界模型。
它们的演进逻辑,一句话概括,是从"手工设计特征"一路走到"机器具备物理直觉和具身智能"。这里有两个词先混个脸熟:"手工特征"指的是早期工程师得亲手告诉计算机"红色、圆形、这么大"才算一个果子;"具身智能"指的是智能不再只待在屏幕里,而是装进一个有身体、能在物理世界里动手的机器人里。
时间跨度从上世纪八十年代到今天,四十年。但大家注意一个加速度——后面会看到,前两个阶段各自跨越二三十年、十来年,而到了第三、第四阶段,一个阶段的标志性突破往往就发生在一两年之内。技术演进在显著加速。
发展历程·早期卡点:两类瓶颈
约 2.5 分钟画面左侧示意图,右侧标注"产业链上游不成熟(灵巧性、成本)"与"基础理论和技术方法支撑不足(应对自然的多样性)"。
在正式进入第一阶段之前,我用三页(这一页和后面两页)做一个"发展历程的体检",先告诉大家:早期采摘机器人为什么几十年都走不出实验室?卡点其实就两大类。
第一类,是产业链上游不成熟。这里又分两个具体问题。一个是"灵巧性"——机器人的手不够巧。果实长在枝叶丛里,方向各异、软硬不一,要既准又轻地把它摘下来不碰伤,对机械手的灵活度和力的控制要求极高,而当时的零部件做不到。另一个是"成本"——后面我会给具体数字,一套实验室级的机械臂光硬件就要四万到八万美元,这个价格农场根本买不起。
第二类,是基础理论和技术方法的支撑不足。核心难点我把它概括成一句话:机器要对抗"大自然的多样性"。工厂里的零件是标准化的,位置、形状、光照都固定;可果园里没有两颗一模一样的果子,没有两片一样的光照,风一吹枝叶还在动。早期那套靠人手工写规则的方法,面对这种千变万化,非常脆弱——换一片果园、换一个天气就得重新调试。
记住这两类卡点:一类是"硬件买不到、买不起",一类是"方法不够聪明"。接下来两页,我分别把这两类摊开看。
发展历程·产业链:上游受制于人
约 2 分钟画面电机、减速器、相机、控制器等上游零部件实物图拼贴。
这一页讲第一类卡点——产业链上游。
大家看到的这些零件,是机器人关节里的"硬通货":电机、减速器、伺服驱动、工业相机、控制器。一台采摘机器人能不能精准、稳定地动起来,全靠这些。
问题在于,在早期,这些核心零件几乎全部依赖进口,被少数几个国家的少数几个品牌垄断。我先把名字念一下,后面第十一页还会专门讲:减速器——就是把电机的高转速、小力矩,变成关节需要的低转速、大力矩的那个装置——基本被日本两家公司包圆了;伺服电机和驱动主要来自日本、瑞士、德国。当时国产基本没有能用的替代品。
这意味着什么?意味着早期做采摘机器人的研究者,是在用一套为汽车厂、电子厂、半导体厂定制的工业零件,来硬凑一台农业机器人。没有人专门为农业场景设计便宜、轻巧、防水防尘的零部件。上游不为你服务,你的成本就压不下来,整机就永远停在样机阶段。这是产业链层面最根本的制约。
发展历程·理论技术支撑:徒手建模对抗自然
约 2.5 分钟画面示意图,标注"建模 + 解算(徒手)"、"VS 大自然的多样性"、"数据 + 算力(工具)"。
这一页讲第二类卡点——理论和方法。
请大家看中间这条对照线:"建模加解算"对阵"大自然的多样性"。我来解释这组对抗关系。
所谓"建模加解算",就是早期工程师面对一个采摘任务,得亲手把它翻译成数学:果子大概是个什么颜色范围、什么形状,用公式描述出来;机械臂怎么从当前位置算出每个关节该转多少度才能够到果子,这叫逆运动学解算。注意我反复强调的"徒手"两个字——这一切都是人靠经验一行一行写出来的规则,机器自己不会学。
而它要对抗的,是大自然的多样性:成千上万种果实姿态、无穷无尽的光照和遮挡组合。靠人手工写的有限规则,去覆盖大自然的无限变化,这是一场注定吃力的仗。
那为什么不让机器自己学呢?看右边——因为缺两样"工具":数据和算力。让机器自己学,前提是有海量的标注数据喂给它、有强大的计算芯片去训练它。而在这个年代,这两样都极度匮乏。所以工程师只能退回到"徒手建模"这条笨路上。
把这一页和上一页合起来,就解释了"荒芜"二字:上游硬件买不到买不起,方法上又只能靠人海战术手工调参。这就是我们第一阶段的底色。下一页,我们先跳出来,从一个更高的视角看看——农业机器人这件事的难度,到底该怎么客观评估。
风险分析:技术难度被高估了吗?
约 3 分钟画面二维风险图。横轴"环境复杂度",纵轴"自身复杂度",散布着工业机器人、植保机器人、采摘机器人、自动驾驶 L2–L5、特定场景/通用场景人形机器人,并分低/中/高风险区。
这一页是今天第一个需要大家动脑子的地方,它抛出一个有点反直觉的判断:采摘机器人的技术风险,其实被严重高估了。我们用这张二维图来论证。
先看两个坐标轴。横轴是"环境复杂度"——机器人面对的外部世界有多乱、多不确定。纵轴是"自身复杂度"——机器人自己这套身体和控制系统有多复杂。越往右上角,又乱又复杂,风险越高。
我们把几类机器人放进去对比。左下角是工业机器人,环境固定、自己也相对简单,所以人类早就实现了,低风险。右上角是通用场景的人形机器人——什么环境都要应付、自己又是个高自由度的两条腿身体,这是公认的高风险、十年都未必成熟。
那采摘机器人落在哪?它在中间偏上:环境很复杂(户外、光照多变、枝叶遮挡),但它自身不必是个人形——它通常就是一条或几条机械臂装在移动平台上,自身复杂度可控。
关键论点来了,就是右上角这两条结论。第一,采摘机器人的工程技术难度,确实超过机器人领域几乎任何一个产品;但,它本质上是把一堆"已经被实现过的技术"做跨领域的整合——视觉识别、机械臂控制、移动导航、力控抓取,这些单项技术在别的领域都成熟了,难在"拼到一起、搬到果园里"。第二,它能直接借鉴自动驾驶和人形机器人这两个烧了天量资金的领域里,已经积累下来的工程经验——比如自动驾驶的环境感知、人形机器人的关节和力控。
所以这页的态度是:别被"农业机器人好难"吓住。它难,但难在整合,不难在从零发明。这恰恰说明,当上游技术成熟、经验可借鉴的时候,采摘机器人是有机会快速追上来的。这个判断,会贯穿我们后面三个阶段。
阶段一 · 荒芜年代
阶段一·荒芜年代:技术条件尚未就位的三十年
约 1.5 分钟画面章节分隔页,主标题"技术条件尚未就位的三十年",副标题"阶段一·荒芜年代"。
现在我们正式钻进第一个阶段——荒芜年代。时间跨度很长,从上世纪八十年代一直到 2014 年前后,三十多年。
为什么叫"荒芜"?不是说没人做,恰恰相反,这三十年里全世界有很多优秀团队在做。"荒芜"指的是结出的果实荒芜——三十年下来,几乎没有一台采摘机器人真正走向商业化。它的根源就是我前面铺垫的那两类卡点:硬件昂贵且受制于人、方法上困在手工特征里。
这一阶段我会带大家看五样东西:标志性的早期样机、电机减速器的供应链困境、那个绕不过去的"不可能三角"、视觉用的手工特征方法、以及作物本身的空间约束。看完你会理解,为什么最聪明的人在这三十年里也没能把它做成。
标志性早期工作:四十年前的先驱样机
约 3 分钟画面早期样机时间线,1985 柑橘 / 1993 甜瓜 / 2002 茄子 / 2010–2014 甜椒。
我们从最早的几台样机讲起,它们横跨美国、以色列、日本、欧洲,作物各不相同,却都困在同一个泥潭里。
1985 年,美国佛罗里达大学的 Harrell 教授团队,做出了柑橘采摘的视觉伺服机械臂。"视觉伺服"这个词解释一下,就是"用摄像头看着、实时调整机械臂动作",像我们用眼睛盯着手去够东西。这台机器用的是液压机械臂——靠油压驱动,力气大但笨重——它被认为是美国第一代柑橘采摘机器人。佛罗里达是美国柑橘主产区,所以这件事从那里起步。
1993 年前后,以色列的 Edan 团队做了甜瓜采摘机器人,重点探索怎么用早期的机器视觉给瓜定位。以色列在精准农业上一直很强,记住 Edan 这个名字,他后来还参与了我们待会要讲的那份重要综述。
2002 年,日本的农研机构 NARO、Hayashi 团队,做了温室茄子采摘机器人。它用 CCD 相机做颜色分割来认茄子。我给个数字让大家体会当时的水平:采摘成功率约 62.5%,平均64 秒才摘一个果。六十多秒一个,这个速度离实用差得远。同一年,荷兰瓦赫宁根大学还做了黄瓜采摘机器人,设计目标 10 秒一根,实际要 45 秒。
2010 到 2014 年,欧盟投了一个大项目叫 CROPS,做甜椒采摘,主打多传感器融合——就是把多个摄像头、多种传感器的信息合起来用。
讲到这,必须提一份"判决书"。2014 年,Bac、van Henten 等人发表了一篇综述,盘点了过去三十年里大约 50 台采摘机器人。结论非常冷峻:三十年间技术性能没有实质性提升、没有任何一台实现商业化、平均采摘成功率只有 66% 左右。这篇综述基本上给荒芜年代盖了棺——它告诉整个领域:光靠现在这套办法,路走到头了。也正因如此,它成了下一个阶段的起点。
供应链与不可能三角:部件受制于人
约 3 分钟画面供应链矩阵 + 不可能三角示意(高精度 / 低成本 / 强算法)。
这一页深入讲第一类卡点的硬核细节——零部件供应链,以及一个我希望大家记一辈子的概念:"不可能三角"。
先说供应链。一台机械臂最贵、最关键的两个部件是减速器和伺服电机。减速器我前面说过,是把电机的"快而无力"变成关节的"慢而有力"的装置,它的精度直接决定机械臂准不准。在那个年代,减速器被日本两家公司长期垄断——一家叫哈默纳科(Harmonic Drive,做谐波减速器),一家叫纳博特斯克(Nabtesco,做 RV 减速器)。伺服电机和驱动,则主要来自日本的安川、松下,和瑞士的麦克森。总共大概六个国家、十来个品牌主导整个市场,早期国产几乎没有可用的替代品。
零部件贵到什么程度?给组数字:单是一个谐波减速器就要两三千美元,一个中重负载的 RV 减速器要三千到六千多美元,一个关节的物料成本就六千到一万美元,一条六自由度的机械臂,光硬件就四万到八万美元。"自由度"指机器人能独立运动的方向数,六自由度就是能像人的手臂一样灵活地到达空间任意位置和姿态。
现在讲那个"不可能三角"。看这个三角形的三个顶点:高精度、低成本、强算法(或者说算法简单)。结论是:这三个你最多同时要到两个,不可能三个全要。为什么?你要高精度又想算法简单,就必须上昂贵的减速器,成本就下不来;你想低成本,用便宜的、间隙大的齿轮,那精度就差,只能靠更复杂的算法和传感器去补,算法开销又上去了。早期的论文,几乎全被这个三角钉死在"实验室级硬件加手工标定"的角落里。走不出实验室,本质上就是这个三角的直接后果。
视觉与手工特征:让计算机"看见"果实有多难
约 3 分钟画面左右两张图——传统机器视觉流水线 vs 田间真实复杂场景。
讲完"手",讲"眼睛"。这一页讲早期机器人怎么看见果实,以及为什么这么难。这里会冒出一串缩写,我一个一个拆开讲。
先说相机。当时主力是 CCD 相机。CCD 是 Charge-Coupled Device 的缩写,中文叫"电荷耦合器件",是一种把光信号转成电信号的图像传感器,可以理解成那个年代数码相机的"视网膜"。它分辨率和帧率都有限,而且对光照特别敏感——太阳一动、云一遮,画面就变。
软件方面,有个绕不开的工具叫 OpenCV,全称 Open Source Computer Vision Library,"开源计算机视觉库"。"开源"意思是代码免费公开、谁都能用。它从 2000 年左右由英特尔发起,2006 年正式发布 1.0 版,从此成了全世界做机器视觉的标准工具箱,今天你们做课程设计大概率还会用到它。
但最关键的是"怎么认出果实"。当时用的是手工特征方法——注意"手工"两个字,又来了。我念几个缩写:SIFT,尺度不变特征变换,能在图像放大缩小后还认得出同一个关键点;SURF,加速稳健特征,是 SIFT 的提速版;HOG,方向梯度直方图,专门刻画物体的形状轮廓;还有 HSV 颜色分割,HSV 是一种颜色表示法,按色相、饱和度、明度来分,比如"红番茄"就用红色的色相范围去框。
这些方法的共同问题是什么?它们都需要专家针对每一个场景去手工设计和调参。换句话说,工程师得对着草莓园调一套参数,搬到苹果园又得重调。一旦遇到果实被叶子挡住、果实一簇一簇挤在一起,这套规则立刻失效。它强烈依赖"光照稳定、背景干净"这些假设,泛化能力很弱,所以根本没法规模化推广。这就为下一个阶段——让机器自己学特征——埋下了伏笔。
紧凑作业空间几何:果园根本不给机械臂留地方
约 2.5 分钟画面草莓垄沟、番茄温室、蘑菇菇床、葡萄棚架、柑橘树冠等作业空间剖面图。
前面讲的是"手"和"眼"的问题,这一页讲一个常被忽略、但极其要命的约束——作业空间的几何形状。简单说:作物的种植方式,根本没打算给机械臂留位置。
我们逐个看。草莓种在垄沟里,垄和垄之间只有 60 到 80 厘米宽,机器人得贴着垄、俯下身侧着摘,回旋空间极小。番茄和甜椒在温室里吊蔓种植,行很窄,果实纵向一长串,还被层层叶幕挡着。蘑菇长在多层菇床上,每一层的净空只有 30 到 50 厘米,普通机械臂的"胳膊肘"根本伸不进去。葡萄挂在头顶的棚架上,得仰着头往上够,重力方向反过来了。柑橘和苹果长在球状的树冠里,果实一簇簇深藏在枝叶包裹中。
这些场景的共同点是:窄、挤、遮挡重。而我们前面说的标准工业六自由度机械臂,底座就要四十厘米见方、胳膊一伸展开一米多,它是为宽敞的汽车工厂设计的,塞不进这些紧巴巴的农业空间。所以早期做草莓机器人的,被迫放弃灵活的关节臂,改用龙门式、直角坐标式的笨结构。
这一点请大家记住,因为它是我们第三讲的全部出发点——正是这些独特的空间约束,逼着采摘机器人的每个子系统都不能用通用方案,必须为作物量身定做。
投融资寥寥:资本涌向仓储,农田遇冷
约 2.5 分钟画面左右对比——农业采摘项目的微薄经费 vs 仓储机器人的巨额并购。
前面讲技术,这一页讲钱。技术走不出实验室,资本市场是怎么看的?答案是:基本没人投。
看左边,荒芜年代的采摘机器人,钱主要来自政府的科研拨款,而不是商业风险投资。两个代表项目都是欧盟出钱的:一个是刚提到的 CROPS,属于欧盟"第七框架计划"(缩写 FP7,是欧盟的大型科研资助计划),拨款约 760 万欧元;另一个叫 SWEEPER,属于欧盟的"地平线 2020"计划(Horizon 2020),2015 到 2018 年,预算约 430 万欧元。注意,这些是科研经费,目的是出论文、出样机,不是商业风投,也没有风投跟进。
再看右边的对照,差距会让你吃惊。2012 年,亚马逊花了 7.75 亿美元收购了一家叫 Kiva 的公司。Kiva 做的是仓库里搬货架的机器人。一笔收购 7.75 亿美元,是同年全球所有农业采摘机器人公私经费总和的几十倍。
这个对比说明一个深刻的道理:资本天然偏爱结构化的场景。仓库地面平整、货架规整、光照恒定,机器人好做、回报确定,所以钱蜂拥而入。而农田是非结构化的——乱、变、不确定,机器人难做、回报遥遥无期,资本就避之不及。结构化与非结构化,这一对词请记住,它几乎解释了整个机器人产业的投资偏好。荒芜年代的"荒芜",在资本层面体现得淋漓尽致。
技术积累与历史意义:失败也是遗产
约 2.5 分钟画面五条历史意义列表。
第一阶段我们快讲完了。最后这一页,我想给"荒芜年代"一个公正的评价——它虽然没产业化,但它的历史意义,远远超过它做出来的那几台机器。我总结成五条。
第一,范式遗产。它确立了"感知 → 决策 → 控制"这个三层架构——先看见、再想怎么做、最后控制手去做。这个分层一直沿用到今天,哪怕到了最新的世界模型阶段,骨架还是这个。
第二,问题界定。刚才那篇 2014 年的 Bac 综述,把"非结构化采摘到底难在哪"说清楚了,把五大硬约束摆上了台面。把问题定义清楚,本身就是巨大的贡献——后来人知道该攻哪几个山头了。
第三,数据与方法的沉淀。这三十年攒下了关于各种作物的知识,建立了早期的评测基准——也就是大家比拼成绩时用的统一尺子。
第四,反面教训。它用三十年充分证明了"手工方法的能力上限就到这了"。这个"此路不通"的结论,价值千金,直接把后来者推向了深度学习。
第五,承前启后。它给下一个阶段递上了一份清清楚楚的"问题清单"和"攻关方向"。
所以请大家不要轻视失败的阶段。在科学和工程里,把一条路彻底走到黑、并诚实地告诉后人此路不通,本身就是重大贡献。带着这份遗产,我们进入第二阶段——深度学习时代。
阶段二 · 深度学习
阶段二·深度学习时代:必要而不充分
约 1.5 分钟画面章节分隔页,主标题"深度学习:必要而不充分",副标题"阶段二·深度学习时代"。
第二阶段,深度学习时代,大约从 2014 年到 2022、2023 年,十年左右。
这一阶段的标题,我用了一句需要大家细品的话——深度学习:必要而不充分。这是个逻辑学的说法,我解释一下。"必要"的意思是:没有它绝对不行;"不充分"的意思是:光有它还不够。放到采摘机器人上就是——深度学习让机器的"眼睛"突然变得非常厉害,这是走向实用必须迈过的一道坎;但是,光眼睛好使,并不能保证这个机器人就能在田里干活、就能商业成功。
这一阶段我会讲一个激动人心的技术飞跃,也会讲一个略带苦涩的结局:识别能力突飞猛进,资本疯狂涌入,然后好几家明星公司接连倒下。这一升一落,恰恰印证了"必要而不充分"这六个字。我们开始。
ImageNet 转折点:深度学习的引爆时刻
约 3 分钟画面历年图像识别错误率柱状图,2012 年断崖式下降。
要理解这个阶段,必须从一个跟采摘机器人看似无关、实则改变一切的事件讲起——2012 年的 ImageNet 竞赛。
先说 ImageNet 是什么。它是斯坦福的李飞飞教授团队牵头建立的一个超大规模图像数据库,有上千万张人工标注好的图片。基于它有个年度比赛,叫 ILSVRC,就是"ImageNet 大规模视觉识别挑战赛",相当于计算机视觉界的奥林匹克——看谁的算法能最准地认出图里是猫是狗还是汽车。
衡量成绩用一个指标叫 top-5 错误率:让算法对一张图猜五个答案,只要五个里有一个对,就算认对;猜五个全错,才算错。错误率越低越好。
看这张图。2010、2011 年,冠军的错误率还在 26% 到 28% 徘徊,靠的是我们前面讲的那套手工特征方法,进步很慢。然后 2012 年,发生了断崖式下跌——一个叫 AlexNet 的模型,把错误率一下打到 15.3%,比第二名领先了将近 11 个百分点。这在那种顶级比赛里是不可想象的代差。
AlexNet 是谁做的?三个人:Alex Krizhevsky、Ilya Sutskever,和他们的导师 Geoffrey Hinton。Hinton 被称为"深度学习之父",2018 年拿了图灵奖,2024 年又拿了诺贝尔物理学奖;Sutskever 后来是 OpenAI 的联合创始人和首席科学家。记住这几个名字,他们是这场革命的点火人。
AlexNet 用的是 CNN,卷积神经网络——一种模仿视觉皮层、能自己从数据里学习图像特征的网络。它成功靠四个关键要素:用 GPU(图形处理器,原本打游戏用的芯片,特别适合并行计算)来加速训练;用一个叫 ReLU 的激活函数让网络训练得更快;用 Dropout(随机失活)技术防止"死记硬背";再加上 ImageNet 提供的大规模标注数据。
这件事的革命性在于:感知,从"人来手工设计特征",彻底转向了"机器从数据里自动学特征"。三年后的 2015 年,一个叫 ResNet(残差网络) 的模型把错误率降到 3.57%,首次超过了人类水平。从此,"让机器看懂图像"这件事,不再是瓶颈。这个突破很快外溢到机器人领域——包括我们的采摘机器人。
YOLO 谱系演进:让识别变得又快又便宜
约 3 分钟画面YOLO 各版本时间线 + 采摘应用示例图。
AlexNet 解决了"认得准",但采摘机器人还需要"认得快"——果实在动、机器要实时反应。这就要讲到一个你们以后做项目几乎一定会用到的工具:YOLO。
YOLO 的全称很有意思,叫 You Only Look Once,"你只看一次"。它是一类实时目标检测算法。"目标检测"和前面的"图像分类"不同:分类只回答"这张图里有没有苹果",检测要回答"苹果在图里的哪个位置、有几个",用方框把每个苹果框出来。"你只看一次"是说,它扫一遍图就同时把所有目标的位置和类别都给出来,所以特别快。
YOLO 有一个很长的家族。第一代 YOLOv1 在 2015、2016 年由 Joseph Redmon 提出。这里有个小插曲:Redmon 在 2020 年因为担心自己的技术被用于军事和监控,公开宣布退出计算机视觉研究——这是科技伦理上一个很有名的故事,值得大家记住,技术人是有立场和责任的。
之后社区接力往下做:v2 到 v4 引入了"锚框"、多尺度等技术,精度越来越高。2020 年,一家叫 Ultralytics 的公司推出 YOLOv5,用现在最流行的 PyTorch 框架重写,安装部署极其简单,一下子把使用门槛打到了地板上——本科生在自己电脑上就能跑。到 2023 年的 v8、2024 年的 v11,已经做到去掉冗余步骤、足够轻量,能直接跑在田间机器人那种小算力的边缘设备上。
这对采摘机器人意味着什么?意味着"准确识别果实"这件事,从一个需要博士攻关的难题,变成了几乎免费、开箱即用的标准件。我们 PPT 上列了苹果、番茄、柑橘、茶叶、蓝莓等五项代表性研究,它们的检测主干清一色都是 YOLO 系列。可以说,到这个阶段中后期,"YOLO 加深度相机加协作臂"成了采摘机器人论文的标准模板,感知方案高度趋同。
硬件普及与降本:原型机成本砍掉七成
约 2.5 分钟画面整机物料成本对比柱状图,2015 约 7 万美元 → 2020 约 2 万美元。
算法白菜价了,硬件这边也在同步崩塌——是好的那种崩塌,成本崩塌。这一页讲降本。
第一个降本是深度相机,也叫 RGB-D 相机。RGB 就是普通彩色图像的红绿蓝三通道,D 是 Depth 深度——所以 RGB-D 相机不仅能拍彩色画面,还能测出画面里每个点离相机多远。这对抓取至关重要,机器得知道果子的三维位置才能伸手去够。这类相机有两种主流测距原理:结构光,和 ToF(Time of Flight,飞行时间,靠测量光打出去再返回的时间算距离)。微软的 Kinect、英特尔的 RealSense 把这种相机从上千美元打到了两三百美元。
第二个降本是协作机械臂,简称 cobot。它和传统工业机械臂的区别是:能和人在一起安全工作、碰到人会停。代表是丹麦的 Universal Robots(优傲)和国产的遨博等,价格从早期的三万多美元一路下探。
第三个是边缘算力。"边缘"指的是设备本地,相对于"云端"。英伟达的 Jetson 系列模组,让机器人能在田里本地、实时地跑神经网络推理,不必把画面传回服务器。
三项叠加,效果惊人:看这张图,一台采摘机器人原型的整机物料成本——专业叫 BoM,Bill of Materials,物料清单总价——从 2015 年前后的六到八万美元,砍到了 2020 年前后的一万五到两万五美元,降幅约七成。这个数字的含义是:以前要一个课题组砸钱才能攒出的原型机,现在一个博士生靠自己的项目经费就能搭起来。这就是为什么这个阶段的研究论文数量呈爆发式增长。
集成路线与难点:感知成熟,智能未变
约 2.5 分钟画面典型集成方案堆叠图,副标题"感知成熟,智能未变"。
识别准了、硬件便宜了,于是这个阶段的主流做法,我称之为"集成路线"——把市面上成熟的零件拼装起来。典型配方是:一个成熟的 YOLO 检测器,加一条协作机械臂,加一个标准夹爪,再用一套叫 ROS(Robot Operating System,机器人操作系统)的软件框架把它们串起来。四到八周就能从开箱搭到下田。
但是——请大家记住这一页的副标题:感知成熟,智能未变。这是整个第二阶段最关键、也最容易被忽略的判断。
什么意思?机器人的"眼睛"靠深度学习升级了,可它的"大脑"几乎原地踏步。它的工作方式还是一条开环流水线:先感知、再规划、再执行,一步一步走完,中间不回头、不根据结果在线调整。它缺少"做之前先在脑子里想一下后果"的能力。
所以一旦遇到真实田间的复杂情况,问题立刻暴露。我们 PPT 上列了四类一直没解决的场景:严重遮挡(果实被叶子挡住,看不全);光照剧变(一会儿大太阳一会儿阴影);柔性易损(果实软、一捏就坏,需要精细力控);密集簇生(一串葡萄、一簇荔枝挤在一起,抓一个带下来一串)。
根本原因在于:深度学习只升级了"感知"这一层,决策和操作那两层,还是靠工程师手工写的规则。这就又回到了我们的核心判断——深度学习是必要的,但远不充分。它把眼睛擦亮了,但没给机器人装上一个会思考的大脑。
投融资井喷与关停潮:资本的一次集体误判
约 2.5 分钟画面2017–2021 投融资年表。
技术看起来突飞猛进,资本是什么反应?这一次,钱来了,而且是井喷式地来。但结局,是一堂昂贵的风险教育课。
先看涌入。2017 年,做苹果采摘的 Abundant Robotics 拿到 GV(也就是 Google Ventures,谷歌的风投部门)领投的千万美元级融资。2020 年,做温室自动化的 Iron Ox 拿到 5300 万美元的 C 轮。2021 年,做草莓和葡萄的 Tortuga 拿到 2000 万美元 A 轮;同年,做室内番茄的 AppHarvest 通过 SPAC 上市——SPAC 是"特殊目的收购公司",一种借壳快速上市的方式——估值一度高达约 10 亿美元。注意这些"A 轮、C 轮"是融资阶段的叫法,轮次越往后通常金额越大、公司越成熟。短短几年,资本对采摘机器人的热情见顶。
然后呢?我把后续的结局连起来给大家看,因为这正是上一页那句"感知成熟,智能未变"的代价: Abundant,2019 年还在新西兰完成了全球首次商业化苹果机器人采摘,2021 年就清算关停了。 AppHarvest,2023 年申请破产,债务高达 3.41 亿美元。 Iron Ox,2024 年前后停摆。 Tortuga,2025 年把技术和团队卖给了一家叫 Oishii 的垂直农场公司。
四家明星,全部出局。那么死因是什么?深入分析这四家,会发现一个共性:它们栽在"商业模式"上,而不是单纯栽在技术上。机器确实能摘果,但摘得不够快、不够便宜,单台机器算下来的经济账划不来;而且很多公司把机器人产品和自家重资产的农场运营深度绑定,农场一出问题,机器人跟着陪葬。
这给我们的启示非常深刻:技术指标先进,不等于商业上能活下来。资本在这个阶段,把"识别准了"误读成了"可以规模化赚钱了",为这个误判付出了沉重代价。带着这个教训,我们进入第三阶段——人们开始尝试给机器人装一个真正"会思考"的大脑。
阶段三 · VLA 初探
阶段三·VLA 初探:视觉·语言·动作端到端统一
约 1.5 分钟画面章节分隔页,主标题"视觉·语言·动作 端到端统一",副标题"阶段三·VLA 初探"。
第三阶段,2023 到 2024 年。注意时间尺度——前两个阶段动辄二三十年、十来年,到这里,故事的核心进展压缩到了一两年之内。技术演进的加速度,在这里体现得淋漓尽致。
这一阶段的主角,是一个缩写:VLA,全称 Vision-Language-Action,视觉-语言-动作。它代表一种全新的思路:能不能用一个统一的大模型,同时处理"看见"(视觉)、"听懂指令"(语言)、"动手做"(动作)这三件事?
请注意我给这一章起的副标题里有"初探"两个字,还有阶段名里我特意强调"呈现其局限"。这是一个诚实的态度:VLA 是一次了不起的尝试,它第一次让"通用的具身智能"从论文变成了能演示的样机;但它的局限,也同样清清楚楚地暴露了出来。这一章我们既讲它的雄心,也讲它的短板——而它的短板,恰恰直接指向了第四阶段。
三件大事汇流:范式初成
约 3 分钟画面2023–2024 三事件时间线,RT-2 / GPT-4V / Atlas 全电。
VLA 这个范式不是凭空冒出来的,它是 2023 到 2024 年三件大事汇流的结果。这三件事分别代表"动作""感知""身体"三个方向同时取得突破。
第一件,2023 年 7 月,谷歌发布 RT-2。 RT-2 的全称是 Robotic Transformer 2,第二代机器人 Transformer。它干了一件开创性的事:第一次把"互联网上学来的常识"和"机器人末端的动作"放进了同一个模型。打个比方,以前的机器人不知道"草莓是水果、易腐、要轻拿",RT-2 因为读过海量互联网图文,它"懂"这些常识,并能把常识转成动作。VLA 这个术语,就是从 RT-2 之后成为行业默认叫法的。
第二件,2023 年 9 月,GPT-4V 开放。 大家都熟悉 ChatGPT,GPT-4V 里的 V 是 Vision 视觉——它让大模型不只能读文字,还能"看图"。这类既懂语言又懂图像的模型,专业上叫 VLM,Vision-Language Model,视觉语言模型。它是 VLA 里"V"和"L"那两块的基础。这一时期,谷歌的 Gemini、Anthropic 的 Claude、阿里的通义千问、字节的豆包等多模态模型也密集登场。
第三件,2024 年 4 月,波士顿动力的 Atlas 机器人转为全电动。 Atlas 是全世界最有名的人形机器人,以前用液压驱动——力气大但笨重、漏油、难控制。2024 年它告别液压、转向全电动加 AI 控制。这标志着人形机器人的本体,从"液压重型仿生"走向了"电动加智能控制回路",为后面更精细的智能控制铺了路。
把这三件事连起来看:管动作的模型、管感知的模型、机器人的身体,在同一时期同步突破。软硬件协同到位,VLA 这个范式才得以成形,具身智能的探索正式拉开序幕。
VLA 范式与谱系:从分步流水线到端到端
约 3 分钟画面VLA 范式示意(视觉+指令→单一模型→动作)+ 代表模型谱系。
这一页讲清楚 VLA 到底"新"在哪,再带大家认认这个家族里的代表成员。
先讲范式,也就是它和老方法的根本区别。我们前面说过,传统集成路线是一条分步流水线:检测果实 → 估计位姿 → 规划路径 → 执行抓取,一环扣一环,每一环都是人单独设计的。而 VLA 走的是端到端——"端到端"这个词请记住,英文 end-to-end,意思是从输入这一端,直接到输出那一端,中间不再人为切成一段一段。具体说,VLA 用一个神经网络,把"摄像头看到的图像"和"人下达的语言指令"作为输入,直接输出机器人该做的动作。中间那些分解步骤,都交给网络自己内部消化了。它的期望是:让模型从互联网级的知识里学到的泛化能力,自动迁移到机器人控制上。
再认认这个家族,按时间顺序: - RT-2,2023 年 7 月,谷歌,刚讲过,是开山之作。它之后还有个叫 RT-X 或 Open X-Embodiment 的合作项目,联合了全球 21 个实验室,把 22 种不同机器人、100 多万条真实操作片段汇到一起训练,证明数据可以跨机器人共享。 - OpenVLA,2024 年,斯坦福和伯克利等机构出的,参数量 70 亿(写作 7B,B 是 billion 十亿),关键是它开源,把复现门槛大幅降低,学术界都能上手。有意思的是,它 7B 的规模,效果反而比 RT-2 那个 550 亿参数的版本还好——这说明 VLA 的性能不是单纯靠堆参数堆出来的。 - π0,读作 Pi-Zero,2024 年由一家叫 Physical Intelligence 的明星创业公司做的,用一种新方法生成连续、流畅的动作。 - Gemini Robotics,2025 年谷歌出的,把它强大的 Gemini 多模态模型推进到了物理世界的操作。
短短两年,VLA 从一个想法变成了一个热闹的家族。但热闹背后,问题也来了——这正是下一页的主题。
VLA 的五大局限:为什么它还不够
约 3 分钟画面图主导页,底部条幅"LeCun 的判断:智能需要世界模型"。
这一页是整个第三阶段最重要的一页,请大家集中注意力。我们要客观地讲:VLA 很厉害,但它远远没有解决问题。学术界已经明确指出了它的五大局限。
局限一,反应式,而非预测式。 这是最根本的。主流 VLA 基本上是"看到什么、直接反应做什么",它没有一个内部的"如果我这样做,环境下一步会变成什么样"的模拟器。它不会预演、不会前瞻规划,是个"应激反应型选手"。
局限二,泛化能力有限。 这里有个术语 OOD,Out-of-Distribution,分布外——指的是遇到训练时没见过的情况。VLA 一旦碰到 OOD,比如换个背景、换个光照、换个物体姿态,成功率就会断崖式下跌。
局限三,数据极其昂贵。 大语言模型可以拿几乎免费的互联网文本来训练,量级是万亿级的词。可机器人的动作数据呢?得靠人真机遥控操作一遍一遍地示范录下来,全网能凑到的也就百万条片段,比语言数据少了六到七个数量级——也就是少了上百万倍。这是 VLA 难以快速变强的硬约束。
局限四,不可解释。 端到端是个黑箱,动作直接从网络里输出,中间没有人能读懂的步骤。出了事故没法追溯、没法调试、没法定责。这对要进田、要上保险的工业部署是硬伤。
局限五,物理直觉弱。 VLA 不内置重力、摩擦、碰撞、材质软硬这些物理常识,全靠从数据里碰运气浮现。所以遇到"轻轻捏住软果子别捏破"这种需要物理直觉的精细任务,它很吃力。
看屏幕底部这句话——LeCun 的判断:智能需要世界模型。Yann LeCun(杨立昆) 是 Meta 公司的首席 AI 科学家,2018 年图灵奖得主,深度学习三巨头之一。他一直尖锐地批评:纯粹靠"预测下一个词"的大模型是条死胡同,因为它们没有"世界模型"——不理解物理世界、不会真正地规划。补充一个最新动态:2026 年初,LeCun 离开 Meta,在巴黎创办了一家新机构 AMI Labs,种子轮融资约 10 亿美元,华人科学家谢赛宁加盟担任首席科学家。他的批评不是孤立的,它直接定义了我们下一个阶段要补的课——给机器人装上一个能"想象"的世界模型。
视觉与多模态模型:采摘感知的通用基座
约 2.5 分钟画面CLIP / SAM / DINOv2 / GPT-4o 四个模型卡片。
在讲世界模型之前,这一页补充一类很重要的"通用视觉模型"。它们不是为采摘专门做的,但成了采摘机器人感知能力的通用底座,让"认新东西"不再需要从零标注数据。我介绍四个,每个都展开一下。
CLIP,2021 年 OpenAI 出的,全称是"对比式语言-图像预训练"。它用四亿组"图片配文字"来学习,学会了把图像和文字对齐。最厉害的是零样本识别——"零样本"指的是没专门训练过也能认。你只要用文字说"找出成熟的草莓",它就能去图里找,不需要你先标几千张成熟草莓给它看。
SAM,2023 年 Meta 出的,全称 Segment Anything Model,"分割一切模型"。"分割"是指把目标的轮廓精确地从背景里抠出来。SAM 能在零样本下,按你的提示勾出任意物体的精确边界,对采摘时确定果实的精确形状边缘非常有用。
DINOv2,也是 2023 年 Meta 出的,特点是自监督——不需要人工标注标签,自己看海量图片就能学出强大的视觉特征,迁移到新任务上很好用。
GPT-4o,2024 年 OpenAI 出的,o 是 omni,"全能"的意思,原生地统一处理文字、图像、语音。它可以扮演高层的"指挥官",理解农艺师用自然语言写的复杂采摘策略。
这四个模型对采摘的意义在于:识别新品种、新成熟度,不再需要每次都从零建数据集了。但我必须泼一盆冷水:实验室里能演示,不等于田间能稳定用。光照剧变、风吹叶动、虫害病斑、滴灌水珠,这些都是模型没见过的"分布外噪声",从 demo 到田间稳定,中间还有很长的路。
人形机器人产业链的带动:意外的成本红包
约 2.5 分钟画面产业链传导示意(人形量产 → 关节降本 → 采摘受益)+ 代表企业。
这一页讲一个对采摘机器人非常实在的利好,而且它来自一个看似不相干的领域——人形机器人。
这两年人形机器人非常火。海外有代表性的,比如 Figure 公司的 Figure 02、波士顿动力的全电动 Atlas、特斯拉的 Optimus;国产有代表性的,比如宇树科技的 H1 和 G1、智元的远征系列。这些公司在大规模地造人形机器人。
关键的逻辑链在这里:人形机器人和采摘机器人,共享同一批核心零部件。一台人形机器人有几十个关节,每个关节都要用到减速器、力矩电机、滚柱丝杠、力传感器——而这些,恰恰也是采摘机械臂需要的东西。
于是产业链上发生了一件好事:人形机器人一旦走向量产,对这些零部件的需求暴涨,供应商纷纷扩产,单价就被摊薄、被打下来了。我举个具体的:国产的绿的谐波,是做谐波减速器的龙头,国内市场占有率约 26%、全球第二。在这种规模效应下,谐波减速器的单价从大约三千元降到一千五以下,力传感器、深度相机也都成倍降价。
这对采摘机器人意味着什么?采摘机械臂现在可以直接采购成熟、低价的关节模组,不用自己从头研发,整机成本因此显著下降。这是采摘机器人物料成本下降的一个最直接来源——它搭上了人形机器人产业的便车。这也呼应了我们第八页那个判断:采摘机器人能借力其他领域的成熟经验和供应链。
代表性采摘项目:真正落地的,都没用 VLA
约 3 分钟画面代表性采摘项目案例图(飞行采摘、草莓平台、苹果多臂等),标注"代表性项目均未采用 VLA"。
讲完了 VLA 这么热闹的技术,这一页要给大家一个冷静、甚至有点反差的事实,这也是整个第三阶段我最想让大家记住的结论。
先看这几个真正在田间商用、有真实交付证据的代表性项目: - Tevel,以色列公司,做的是飞行采摘机器人——用缆绳供电的小飞行器去摘苹果、柑橘,已经商用。 - Harvest CROO,美国佛罗里达的,做草莓采摘大平台,机器名叫 Harvey;2025 年 4 月,它公开演示了采摘速率与人工持平的里程碑。 - Advanced Farm,做苹果和草莓采摘,已经被农机巨头约翰迪尔(John Deere)收购——被巨头收购,是商业价值得到认可的强信号。 - FFRobotics,用多条机械臂并行,连续采苹果。
现在揭晓那个反差结论:这些真正商业落地的采摘机器人,几乎没有一个用了 VLA。
它们用的是什么?是我们第二阶段讲的那套经典而成熟的管道——目标检测(很多已经升级用上了 SAM、Grounding DINO 这些新视觉模型)加立体视觉定位,加抓取规划,加力反馈的柔性末端。换句话说,工业界用脚投票,选择了可靠、可控、可调试的成熟方案。
这恰恰印证了我们前面讲的 VLA 五大局限。想想看:采摘是户外作业、是长时序的连续任务、环境动态变化、而且容错率极低——摘坏了就是真金白银的损失。而这些,正好全是 VLA 当前最不擅长的场景。 所以 VLA 再光鲜,目前还进不了果园这个"考场"。
那么,怎么补上 VLA 的短板,让机器人真正学会"思考"和"预判"?这就是我们最后一个阶段——世界模型与空间智能——要回答的问题。
阶段四 · 世界模型
阶段四·世界模型与空间智能:从被动感知到理解物理世界
约 1.5 分钟画面章节分隔页,主标题"从被动感知到理解物理世界",副标题"世界模型与空间智能"。
我们进入最后一个阶段,2024 年到现在,也是当下最前沿、还在进行中的阶段。
这一阶段的核心,用标题这句话概括最准确:从被动感知,到理解物理世界。前几个阶段,机器人都是"被动地看"——看到什么、识别什么、反应什么。而现在,研究者想让机器人真正理解物理世界是怎么运转的,能在脑子里预演"我这么做、世界会怎么变"。
这背后有一个关键概念,叫世界模型,待会儿我会专门给它下定义,现在先记住这个名字。这一阶段不是单一技术,而是三条技术路线同时发力、最后汇到一起。下一页,我们先看这三股力量分别是什么。
三股力量合流:共同指向理解物理世界
约 2.5 分钟画面三线合流示意图(空间智能 / 预测式 / 基座式 → 理解物理世界)。
补齐 VLA 短板的努力,在 2024 到 2026 年逐渐收敛成三条路线。我先把三条线的名字和领军人物给大家,后面三页再逐一展开。
第一条,空间智能,代表人物是李飞飞。她主张:要让 AI 真正聪明,光懂语言和二维图像不够,必须理解三维几何和物理——也就是这个世界的空间结构和动力学。
第二条,预测式世界模型,代表人物是我们刚提过的 LeCun,核心技术叫 JEPA。它的特点是在一个抽象的"表征空间"里预测未来,而不是去生成逼真的像素画面。
第三条,基础世界模型,代表是英伟达和谷歌 DeepMind 这样的大公司。它们走的是"规模化、产品化"的路子,做出能交互、能生成的大型仿真世界。
这三条路线,出发点不同、方法不同,但手指都指向同一个目标——让机器理解物理世界。它们要共同补上 VLA 那两个最大的短板:缺物理直觉、不会预测未来。
落到我们采摘机器人上,这意味着什么具体能力?意味着机器人在动手之前,能预判:这根枝条挡住的后面还有没有果子、这个果子现在是什么三维姿态、我这一夹会不会把旁边那串带下来、会不会碰伤果子。这种"先想后做"的能力,正是前三个阶段一直缺的。
空间智能与李飞飞:AI 的下一个前沿
约 3 分钟画面李飞飞与 World Labs,3D 世界生成示例。
先讲第一条线——空间智能,和它的旗手李飞飞。
李飞飞这个名字,今天其实已经出现过一次了。还记得第二阶段那个引爆深度学习的 ImageNet 吗?正是她主导建立的。她是斯坦福大学教授、斯坦福"以人为本 AI 研究院"的主任,在 AI 学界地位极高,常被称为"AI 教母"。
2024 年 9 月,她创立了一家公司叫 World Labs,专攻空间智能。她的核心论点,在 2024 年那场著名的 TED 演讲里讲得很漂亮,大意是:视觉的本质,是从"看见"走向"理解",再走向"行动"。她认为纯语言模型理解不了三维世界的运转,AI 必须去学习几何、物理和因果关系。
World Labs 要做的,是构建大世界模型,英文缩写 LWM,Large World Model。它的能力听起来很科幻但已经实现了:给它一张图片,它能生成出一个可以走进去探索的三维世界。他们的产品叫 Marble。这对采摘机器人的价值在于:未来或许能从有限的果园照片,重建出完整的三维果园供机器人预演。
还有一项重要的学术工作要讲,因为它揭示了现实差距。李飞飞和华人学者谢赛宁合作做了一个评测基准,叫 VSI-Bench——"视觉空间智能基准",专门测大模型的空间推理能力,比如"这个房间里沙发在桌子的哪一边"。这里出现一个缩写 MLLM,Multimodal Large Language Model,多模态大语言模型,就是前面说的那些能看图能读字的大模型。VSI-Bench 测出来的结论很清醒:当前最强的 MLLM,空间推理能力仍然明显弱于人类。 这说明空间智能这条路,前景巨大,但还在半途。
预测式与 JEPA:在"脑海"里预测,而不是画出来
约 3 分钟画面JEPA 架构示意(上下文 / 目标 → 编码器 → 预测器 → 潜空间预测)。
讲第二条线——LeCun 的预测式世界模型,核心是 JEPA。这个概念有点抽象,我尽量讲得形象。
JEPA 的全称是 Joint-Embedding Predictive Architecture,联合嵌入预测架构。名字记不住没关系,理解它干的事就行。
我们对比一下两种"预测未来"的思路。一种是"生成式"——比如让模型预测下一秒的画面,它得把每一个像素、每一片叶子的纹理都画出来。这非常费劲,而且大部分细节(比如某片叶子的精确纹路)对决策根本没用。
LeCun 说,没必要。他的 JEPA 走的是另一条路:在一个抽象的"潜空间"里做预测。"潜空间"这个词解释一下,英文 latent space,你可以理解成模型对世界的一种精炼的、抽象的内部理解,它只保留有用的信息、扔掉无关的细节。JEPA 预测的是这种抽象表征会怎么变,而不是去重新画像素。这样既省力,又抓住了本质。这是 LeCun 路线和别人最关键的技术分歧。
具体的成果:图像版叫 I-JEPA,视频版叫 V-JEPA。最新的 V-JEPA 2,在超过 100 万小时的网络视频、再加 62 小时真实机器人数据上训练,然后通过一种叫 MPC(Model Predictive Control,模型预测控制——意思是"先用模型预测几步、再选最优动作")的方法,让机器人零样本地完成抓取放置任务,成功率能到六到八成。
还有一个很妙的点:物理直觉是怎么"涌现"出来的。研究者用一个叫 IntPhys 的基准来测——给模型看一些违反物理规律的视频,比如一个球穿墙而过。如果模型"惊讶"了(也就是它的预测误差突然飙升),就说明它内心其实"懂"物理、知道这不该发生。用"惊讶程度"来度量物理直觉,这个思路非常优雅。对采摘来说,这种能预判物理后果的能力,正是精细抓取最需要的。
世界模型前沿:会"造世界"的大模型
约 2.5 分钟画面Genie 3 / Cosmos / Sora 2 三个前沿世界模型。
讲第三条线——大公司主导的"基础世界模型"。这条线最直观,因为它的成果你们可能在新闻里见过。我讲三个标杆。
第一个,谷歌 DeepMind 的 Genie,最新是 2025 年 8 月的 Genie 3。 它是一个实时交互的世界模型:给它一张图或一段描述,它能生成一个你可以实时操控、走进去探索的虚拟环境,而且能保持一分钟级别的画面一致性。"foundation world model(基础世界模型)"这个术语,就是 Genie 系列提出来的。
第二个,英伟达的 Cosmos,2025 年 1 月发布。 英伟达 CEO 黄仁勋在发布时抛出了一个概念叫 "Physical AI"——物理 AI。Cosmos 的定位很明确:它是个"物理世界基础模型",专门为机器人合成训练数据。这一点对我们采摘机器人极其重要,我下面会说。它的训练数据量是天文数字——约 9000 万亿个 token、2000 万小时的真实世界视频。
第三个,OpenAI 的 Sora,2025 年的 Sora 2。 大家可能看过它生成的逼真视频。它最新版本的进步在于物理规律遵循——比如投篮没进,球会按真实的动量从篮板弹回来。OpenAI 内部把它比作"视频领域的 GPT 时刻"。
这三个的共性是:从"被动地生成好看的视频",走向了"动作可控、物理可信的环境模拟"。那对采摘机器人到底有什么用?用处非常实在——还记得 VLA 的死穴是"真实数据太贵太少"吗?现在可以用这些世界模型合成大量多样的果园场景:不同光照、不同风速、不同成熟度、不同栽培架式的虚拟数据,喂给机器人训练。这直接缓解了"农业数据稀缺"这个老大难问题。
定义与对比:策略问"做什么",动力学问"将怎样"
约 2.5 分钟画面VLA 与世界模型对比表。
讲了这么多,我们必须把"世界模型"这个词严格地定义一下,并和上一阶段的 VLA 做个干净的对比。这一页请大家记牢,它是阶段三和阶段四的分水岭。
先给一句话定义:世界模型,就是机器人学到的一个"环境运转规律"的内部模型,让它能在脑子里模拟未来的演变。
然后看这张对比表,核心区别就一句话——VLA 学的是"策略",世界模型学的是"动力学"。
什么叫"策略"?用我们 PPT 上这句话:策略,回答的是"我现在该做什么"。VLA 看一眼当前画面,直接给出动作,是个反应式的"做什么"。
什么叫"动力学"?动力学,回答的是"如果这样,接下来世界会变成什么样"。世界模型不急着出手,它先在内部模拟:"我如果伸这只手,果子会不会掉、枝条会不会弹回来",模拟完、评估好,再规划出最优动作。
这个区别带来三个根本性的好处:第一,VLA 是看一步走一步,世界模型能往前预演好几步,所以长程规划能力强得多。第二,VLA 严重依赖昂贵的真机动作标注,而世界模型很多时候看视频自监督学习就行,数据来源宽得多。第三,VLA 是黑箱,而世界模型的内部模拟状态是可以看、可以检验的——它的预测对不对,拿现实一对照就知道,可解释性强。
一句话收尾:VLA 是"应激反应",世界模型是"深思熟虑"。 这就是阶段四相对阶段三最根本的范式跃迁。
两层架构与大模型:外脑慢规划,内脑快执行
约 2.5 分钟画面双系统架构图(外脑 MLLM → 子目标 → 内脑 VLA → 动作)。
那么实践中,怎么把"深思熟虑"和"快速反应"结合起来?毕竟机器人既要会动脑子长远规划,又要能毫秒级地实时控制手。答案是一种两层架构,业界叫"双系统"。
这个设计其实借鉴了心理学。诺贝尔奖得主卡尼曼提出人有两种思维:慢的、理性的"系统二",和快的、直觉的"系统一"。机器人也照搬了这个思路。
外脑,是"慢系统",由前面讲的多模态大模型 MLLM 担任。它负责慢思考——理解任务、把大任务拆成小目标、做长远规划。比如"把这一行成熟的番茄都摘了",外脑负责想清楚先摘哪个、路线怎么走。
内脑,是"快系统",由 VLA 或经典控制器担任。它负责快执行——拿到外脑给的小目标后,实时地感知、实时地控制机械臂高频闭环动作。
两者解耦:慢脑低频地想大方向,快脑高频地干具体活。产业界一个代表是 Figure 公司的 Helix 系统,正是这种 S1、S2 双系统设计。
那这个"外脑"用什么大模型呢?国际上有 OpenAI 的 GPT-4o、谷歌的 Gemini、Anthropic 的 Claude;国内的进步也非常快,有阿里的通义千问 VL、智谱的 GLM-4V、字节的豆包等等,正在加速本土化落地。所以你看,最前沿的大模型,正在通过"外脑"这个角色,真正走进物理世界、走进机器人。
采摘突破与跃迁:会预测、能想象、善规划
约 2 分钟画面本章小结,四类突破 / 三类局限。
第四阶段我们小结一下,落回采摘机器人。世界模型给采摘带来了哪些可能的突破,又还有哪些坎没迈过去?
四类突破。 第一,遮挡补全——能预测被叶子挡住的部分。第二,物理推演——动手前先算物理后果,避免捏坏果子。第三,长程规划——一整行、一整棵树的采摘顺序统筹安排。第四,视频自监督泛化——靠看视频学习,缓解数据稀缺。
但要诚实地讲清楚三类局限,免得大家以为问题都解决了。第一,算力和数据极其昂贵,像 Cosmos 那种训练量,中小机构玩不起。第二,实时高频控制仍然很难,世界模型想得慢,跟不上手要动得快。第三,有个绕不开的词叫 "仿真到现实的差距"——英文 sim-to-real gap——在虚拟世界里训练得再好,搬到真实果园,风、光、湿度的差异还是会让性能打折。截至目前,甚至还没有公开发布的、专门针对采摘场景的世界模型数据集。
但抛开局限,这一阶段最深刻的意义,是一次认识论的跃迁:机器智能第一次从"感知—反应",走向了"预测—想象—规划"。用一句话总结这四个阶段共同的终点:智能体不再是看到什么就反应什么,而是先在内部把未来预演一遍,再选最优的做。李飞飞、LeCun、还有更早提出世界模型的 Schmidhuber,三派殊途同归,共同主张一个公式——智能 = 预测 + 想象 + 规划。这,就是我们四十年技术长征走到今天的最高点。
收束 · 矩阵与思考
收束·七个维度 × 四个阶段
约 1 分钟画面章节分隔页,主标题"七个维度 × 四个阶段",副标题"七维 × 四阶段矩阵"。
四个阶段我们都走完了。最后这一小节,是把今天讲的东西收一收、织成一张网,方便大家记忆和复习。
我们用一张表来做这件事:用七个维度,横向地去对比四个阶段。这七个维度,是我们一路上反复提到的线索:感知、决策、泛化、数据、成本、投融资、落地。把它们当作七把尺子,每一把都从荒芜年代量到世界模型,你就能清楚地看到每一次能力是怎么跃迁的。我们看下一页这张表。
七维对比矩阵:一张表看懂四十年
约 2.5 分钟画面7 行(维度)× 4 列(阶段)对比矩阵,对角线高亮。
这张表是今天的"认知地图",请大家跟我一起横着读、再竖着读。
先横着读,挑两行最关键的看演进。看"感知"这一行:荒芜年代是手工设计的颜色阈值和特征,到深度学习变成 CNN、YOLO 的自动检测,到 VLA 是多模态语义理解,到世界模型是遮挡补全和三维重建——感知能力一路走高。再看"决策"这一行:从最早的死规则和状态机,到端到端学习,到 VLA 的语言指令反应式,最后到世界模型的"预测—想象—规划"。
再竖着读,每一列其实是一个阶段的"完整画像"。比如看 VLA 那一列:感知是多模态理解、决策是反应式、泛化还很弱、数据极贵、落地是真实产品交付——一竖排下来,这个阶段的长板短板一目了然。
最后请大家特别注意这张表的对角线,从左上到右下。沿着对角线,你看到的正是这门课最想传递的那条主线:机器智能从"感知—反应",一步步迈向"预测—想象—规划"。这条对角线,就是采摘机器人四十年能力跃迁的主轴。如果今天只让你们记住一张图,就记这张表的对角线。
四阶段曲线汇总:四条曲线的不同节奏
约 2 分钟画面四条叠加曲线(识别能力 / 商业化 / 资本流入 / 范式迁移)覆盖四阶段背景色带。
如果说上一页的表是静态的画像,这一页的四条曲线就是动态的节奏。横轴是时间、是四个阶段,纵轴是相对水平。请大家比较这四条线节奏的差异,这里面有大智慧。
第一条,识别能力(绿线):从近乎为零起步,在深度学习期陡然上扬,之后持续走高,是条加速上升的曲线。技术能力,是最稳、最先走高的。
第二条,商业化(青线):从实验室演示,到试点,到真实产品交付,稳步但明显滞后——它总是落在识别能力后面一截。技术行了,不代表生意马上就成。
第三条,资本流入(红线):这条最戏剧化。荒芜期贴着地面,深度学习期急速井喷、冲出一个尖峰,然后随着关停潮明显回落退潮,到 VLA 期又回暖。资本,是起伏最剧烈的。
第四条,范式迁移(紫线):它不是平滑的,而是阶梯状的——在每个阶段的边界上台阶式抬升:规则 → 端到端 → 语言反应 → 预测规划。
把四条线放一起读,结论非常深刻:识别能力先行,资本闻风起舞、大起大落,而商业化总是最后、最慢地才把价值兑现出来。 这三者的错位,恰恰是上一个阶段四家公司倒下的根本原因——资本以为技术行了就能赚钱,但商业化的滞后是规律,急不得。这是留给在座未来要进这个行业的同学,最值钱的一条经验。
要点回顾与预告:回望四阶,下探工程
约 2 分钟画面本讲七条要点小结 + L03 预告。
好,到了回望全程的时候。还记得开头第三页那七个学习目标吗?我们对照着把今天的主线复述一遍。
第一,四个阶段:荒芜年代 → 深度学习 → VLA → 世界模型,能力逐级跃迁,这是骨架。 第二,阶段一"荒芜年代",受困于电机、减速器这些硬件硬约束,以及手工特征方法的天花板,三十年走不出实验室。 第三,阶段二"深度学习"是转折点,但"必要而不充分"——它擦亮了眼睛,却没给大脑升级,结果导致 Abundant、AppHarvest、Iron Ox、Tortuga 等好几家先驱公司,因为商业模式问题接连出局。 第四,阶段三"VLA",第一次引入语言指令、走端到端,很惊艳,但有反应式、泛化弱、数据贵、不可解释、物理直觉弱这五大局限,所以真正落地的采摘机器人,目前都还没用它。 第五,阶段四"世界模型",空间智能、预测式、基础世界模型三条线并进,趋向"预测—想象—规划";这个阶段我们也强调,要看的是有真实交付证据的代表性企业,不是只讲故事的。
最后是预告。今天这一讲,我们站在高空俯瞰了技术演进的主线。下一讲 L03,我们要降落到地面,钻进工程的最后一公里——我们会从采摘场景那"五重环境不规则"出发,一步步推导出机器人六大子系统为什么不能用通用方案、必须为作物量身定做。如果说今天讲的是"为什么",下一讲讲的就是"具体怎么做"。
思考题与阅读:以问启思,以读致远
约 1 分钟画面三道思考题 + 精读 / 拓展阅读清单。
最后,留三道思考题和一份阅读清单,请大家课后琢磨。它们不是为了考试,是为了帮你把今天的框架真正变成自己的。
思考题一:深度学习为什么是转折点,却又不足以保证商业成功?这道题考的是你对"必要而不充分"这六个字的理解。 思考题二:VLA 的五大局限里,你觉得哪一个对"采摘"这个任务最致命?提示一下,想想果园的环境特点。 思考题三:世界模型相比 VLA,到底新增了哪一种关键能力?答对了,你就抓住了阶段三到阶段四的本质。
阅读清单分两档。精读三篇打地基的经典:2012 年的 AlexNet、YOLO 系列、2023 年的 RT-2——这是感知革命和 VLA 的源头。拓展三个面向未来的前沿:李飞飞的 World Labs、英伟达的 Cosmos、LeCun 的 JEPA——这是世界模型的最前线。
今天这一讲就到这里。希望大家记住那条对角线——从"感知—反应"到"预测—想象—规划",那是机器智能四十年走过的路,也是我们这门课的灵魂。谢谢大家,我们下一讲见。