采摘机器人 L02 · 技术发展动态

本讲以技术展开为主线，沿「荒芜年代 → 深度学习 → VLA → 世界模型」四个阶段，串起采摘机器人四十年的智能演化。讲稿面向农业工程 / 机器人工程方向本科生，不预设行业背景——所有缩写、人名、概念在首次出现时均口头展开。

下方每页含「画面」（该页幻灯片显示什么）与「讲稿」（教师逐字讲授内容）。全篇约 2 万字，按 100 分钟分配，章节页快、内容页详。

开场与总览

封面：从荒芜年代到世界模型

约 2 分钟

画面四代采摘机器人演进全景 + 标题"从荒芜年代到世界模型"。

同学们好。我们现在进入《采摘机器人》系列课程的第二讲——技术发展动态。

先把这一讲放进整门课的坐标里。这门课一共四讲：第一讲讲行业背景，也就是这个产业长什么样、价值在哪；第三讲讲核心技术，把感知、决策、执行三大模块拆开细讲；第四讲讲应用和未来。而今天这第二讲，任务是把一条主线讲清楚——采摘机器人这四十年，技术上到底是怎么一步一步走过来的。

大家看封面这张图，它不是随便配的。从左到右其实是四个时代的采摘机器人：最左边那台又大又笨、液压管线全裸露在外的，是上世纪八九十年代的早期样机；往右那台干净的白色机械臂装在一辆小车上，是深度学习时代的集成式机器人；再往右，是好几条机械臂协同作业、旁边还有屏幕显示人工智能识别结果的平台；最右边那台，机器周围浮着一层半透明的三维网格和预测轨迹线——它代表机器人开始"在脑子里先预演一遍动作，再下手"。这四台机器，正好对应我今天要讲的四个阶段：荒芜年代、深度学习、VLA、世界模型。

这条时间线，从 1985 年一直拉到今天，整整四十年。我希望大家听完能记住一件事：采摘机器人的进步，表面上是机械臂越做越好，本质上是机器"智能"这个底座一次又一次被重新打地基的过程。这一讲我们大约讲 100 分钟。

四讲系列地图：本讲居二，承上启下

约 2 分钟

画面四讲流程图，第 2 讲高亮。

这一页把四讲的关系再说细一点，因为知道"我现在站在哪"，听课才不会迷路。

第一讲"行业背景"，回答的是 why——为什么我们需要采摘机器人。简单说，高价值的鲜食果蔬，比如草莓、苹果、番茄、猕猴桃，采摘环节高度依赖人工，而全球范围的农业劳动力又在老龄化、在变贵。这是这个产业的根本驱动力。

今天第二讲"技术发展动态"，回答的是 how it evolved——这套技术是怎么演化到今天的。我会用四个阶段、一条时间线带大家走一遍。

第三讲"核心技术"，回答 how it works——把机器人拆成感知（眼睛）、决策（大脑）、执行（手），一个模块一个模块讲透。

第四讲"应用未来"，回答 what's next——哪些公司真正把产品卖出去了、部署下去了，未来产业往哪走。

所以四讲是层层递进的：先立全局，再讲历史主线，然后钻进技术细节，最后落到产业未来。今天这一讲是承上启下的关键——它既要承接第一讲的产业图景，又要为第三讲的技术拆解搭好"为什么是这样设计"的历史逻辑。

本讲学习目标：七条目标贯通四阶段

约 2 分钟

画面七条学习目标列表。

讲历史最怕变成流水账，所以我先把今天要达成的七个目标摆出来，请大家带着这几个问题听课，最后一页我们回过头来对照。

第一，能复述四个阶段各自叫什么、起讫年份、以及每个阶段的标志性技术节点。这是骨架，必须记住。第二，能说出第一阶段"荒芜年代"卡在哪几个硬约束上——硬约束的意思是"再聪明也绕不过去的物理或成本限制"。第三，能解释为什么深度学习是个转折点，但它"必要却不充分"——这八个字是今天的核心判断之一，我后面会反复用到。同时要能举出四家在这个阶段倒下的代表性公司。第四，能解释 VLA 这个技术是想干什么，以及它目前已经被学术界明确指出的五个局限。VLA 是什么我们到第三阶段细讲，现在先记住这是个缩写。第五，能梳理出最新阶段的三条技术路线，能举出有真实产品、真实部署证据的代表性企业——注意是"有真实交付证据的"，不是只融过资、只发过新闻的。 第六到第七，能填出一张"七个维度 × 四个阶段"的对比表，把零散的史实收进一张结构化的认知地图。

这七条，对应后面七章。听的时候不用紧张记笔记，重点是建立框架感。

四阶段总览：四十年 · 四阶段 · 智能跃迁

约 1.5 分钟

画面章节过渡页，"荒芜年代 → 深度学习 → VLA → 世界模型"。

好，正式开始。先给四个阶段一个总览，建立鸟瞰视角，后面再逐阶段俯冲下去看细节。

四个阶段的名字，请大家记牢：荒芜年代、深度学习、VLA、世界模型。

它们的演进逻辑，一句话概括，是从"手工设计特征"一路走到"机器具备物理直觉和具身智能"。这里有两个词先混个脸熟："手工特征"指的是早期工程师得亲手告诉计算机"红色、圆形、这么大"才算一个果子；"具身智能"指的是智能不再只待在屏幕里,而是装进一个有身体、能在物理世界里动手的机器人里。

时间跨度从上世纪八十年代到今天，四十年。但大家注意一个加速度——后面会看到，前两个阶段各自跨越二三十年、十来年，而到了第三、第四阶段，一个阶段的标志性突破往往就发生在一两年之内。技术演进在显著加速。

发展历程·早期卡点：两类瓶颈

约 2.5 分钟

画面左侧示意图，右侧标注"产业链上游不成熟（灵巧性、成本）"与"基础理论和技术方法支撑不足（应对自然的多样性）"。

在正式进入第一阶段之前，我用三页（这一页和后面两页）做一个"发展历程的体检"，先告诉大家：早期采摘机器人为什么几十年都走不出实验室？卡点其实就两大类。

第一类，是产业链上游不成熟。这里又分两个具体问题。一个是"灵巧性"——机器人的手不够巧。果实长在枝叶丛里，方向各异、软硬不一，要既准又轻地把它摘下来不碰伤，对机械手的灵活度和力的控制要求极高，而当时的零部件做不到。另一个是"成本"——后面我会给具体数字，一套实验室级的机械臂光硬件就要四万到八万美元，这个价格农场根本买不起。

第二类，是基础理论和技术方法的支撑不足。核心难点我把它概括成一句话：机器要对抗"大自然的多样性"。工厂里的零件是标准化的，位置、形状、光照都固定；可果园里没有两颗一模一样的果子，没有两片一样的光照，风一吹枝叶还在动。早期那套靠人手工写规则的方法，面对这种千变万化，非常脆弱——换一片果园、换一个天气就得重新调试。

记住这两类卡点：一类是"硬件买不到、买不起"，一类是"方法不够聪明"。接下来两页，我分别把这两类摊开看。

发展历程·产业链：上游受制于人

约 2 分钟

画面电机、减速器、相机、控制器等上游零部件实物图拼贴。

这一页讲第一类卡点——产业链上游。

大家看到的这些零件，是机器人关节里的"硬通货"：电机、减速器、伺服驱动、工业相机、控制器。一台采摘机器人能不能精准、稳定地动起来，全靠这些。

问题在于，在早期，这些核心零件几乎全部依赖进口，被少数几个国家的少数几个品牌垄断。我先把名字念一下，后面第十一页还会专门讲：减速器——就是把电机的高转速、小力矩，变成关节需要的低转速、大力矩的那个装置——基本被日本两家公司包圆了；伺服电机和驱动主要来自日本、瑞士、德国。当时国产基本没有能用的替代品。

这意味着什么？意味着早期做采摘机器人的研究者，是在用一套为汽车厂、电子厂、半导体厂定制的工业零件，来硬凑一台农业机器人。没有人专门为农业场景设计便宜、轻巧、防水防尘的零部件。上游不为你服务，你的成本就压不下来，整机就永远停在样机阶段。这是产业链层面最根本的制约。

发展历程·理论技术支撑：徒手建模对抗自然

约 2.5 分钟

画面示意图，标注"建模 + 解算（徒手）"、"VS 大自然的多样性"、"数据 + 算力（工具）"。

这一页讲第二类卡点——理论和方法。

请大家看中间这条对照线："建模加解算"对阵"大自然的多样性"。我来解释这组对抗关系。

所谓"建模加解算"，就是早期工程师面对一个采摘任务，得亲手把它翻译成数学：果子大概是个什么颜色范围、什么形状，用公式描述出来；机械臂怎么从当前位置算出每个关节该转多少度才能够到果子，这叫逆运动学解算。注意我反复强调的"徒手"两个字——这一切都是人靠经验一行一行写出来的规则，机器自己不会学。

而它要对抗的，是大自然的多样性：成千上万种果实姿态、无穷无尽的光照和遮挡组合。靠人手工写的有限规则，去覆盖大自然的无限变化，这是一场注定吃力的仗。

那为什么不让机器自己学呢？看右边——因为缺两样"工具"：数据和算力。让机器自己学，前提是有海量的标注数据喂给它、有强大的计算芯片去训练它。而在这个年代，这两样都极度匮乏。所以工程师只能退回到"徒手建模"这条笨路上。

把这一页和上一页合起来，就解释了"荒芜"二字：上游硬件买不到买不起，方法上又只能靠人海战术手工调参。这就是我们第一阶段的底色。下一页，我们先跳出来，从一个更高的视角看看——农业机器人这件事的难度，到底该怎么客观评估。

风险分析：技术难度被高估了吗？

约 3 分钟

画面二维风险图。横轴"环境复杂度"，纵轴"自身复杂度"，散布着工业机器人、植保机器人、采摘机器人、自动驾驶 L2–L5、特定场景/通用场景人形机器人，并分低/中/高风险区。

这一页是今天第一个需要大家动脑子的地方，它抛出一个有点反直觉的判断：采摘机器人的技术风险，其实被严重高估了。我们用这张二维图来论证。

先看两个坐标轴。横轴是"环境复杂度"——机器人面对的外部世界有多乱、多不确定。纵轴是"自身复杂度"——机器人自己这套身体和控制系统有多复杂。越往右上角，又乱又复杂，风险越高。

我们把几类机器人放进去对比。左下角是工业机器人，环境固定、自己也相对简单，所以人类早就实现了，低风险。右上角是通用场景的人形机器人——什么环境都要应付、自己又是个高自由度的两条腿身体，这是公认的高风险、十年都未必成熟。

那采摘机器人落在哪？它在中间偏上：环境很复杂（户外、光照多变、枝叶遮挡），但它自身不必是个人形——它通常就是一条或几条机械臂装在移动平台上，自身复杂度可控。

关键论点来了，就是右上角这两条结论。第一，采摘机器人的工程技术难度，确实超过机器人领域几乎任何一个产品；但，它本质上是把一堆"已经被实现过的技术"做跨领域的整合——视觉识别、机械臂控制、移动导航、力控抓取，这些单项技术在别的领域都成熟了，难在"拼到一起、搬到果园里"。第二，它能直接借鉴自动驾驶和人形机器人这两个烧了天量资金的领域里，已经积累下来的工程经验——比如自动驾驶的环境感知、人形机器人的关节和力控。

所以这页的态度是：别被"农业机器人好难"吓住。它难，但难在整合，不难在从零发明。这恰恰说明，当上游技术成熟、经验可借鉴的时候，采摘机器人是有机会快速追上来的。这个判断，会贯穿我们后面三个阶段。

阶段一 · 荒芜年代

阶段一·荒芜年代：技术条件尚未就位的三十年

约 1.5 分钟

画面章节分隔页，主标题"技术条件尚未就位的三十年"，副标题"阶段一·荒芜年代"。

现在我们正式钻进第一个阶段——荒芜年代。时间跨度很长，从上世纪八十年代一直到 2014 年前后，三十多年。

为什么叫"荒芜"？不是说没人做，恰恰相反，这三十年里全世界有很多优秀团队在做。"荒芜"指的是结出的果实荒芜——三十年下来，几乎没有一台采摘机器人真正走向商业化。它的根源就是我前面铺垫的那两类卡点：硬件昂贵且受制于人、方法上困在手工特征里。

这一阶段我会带大家看五样东西：标志性的早期样机、电机减速器的供应链困境、那个绕不过去的"不可能三角"、视觉用的手工特征方法、以及作物本身的空间约束。看完你会理解，为什么最聪明的人在这三十年里也没能把它做成。

P10

标志性早期工作：四十年前的先驱样机

约 3 分钟

画面早期样机时间线，1985 柑橘 / 1993 甜瓜 / 2002 茄子 / 2010–2014 甜椒。

我们从最早的几台样机讲起，它们横跨美国、以色列、日本、欧洲，作物各不相同，却都困在同一个泥潭里。

1985 年，美国佛罗里达大学的 Harrell 教授团队，做出了柑橘采摘的视觉伺服机械臂。"视觉伺服"这个词解释一下，就是"用摄像头看着、实时调整机械臂动作"，像我们用眼睛盯着手去够东西。这台机器用的是液压机械臂——靠油压驱动，力气大但笨重——它被认为是美国第一代柑橘采摘机器人。佛罗里达是美国柑橘主产区，所以这件事从那里起步。

1993 年前后，以色列的 Edan 团队做了甜瓜采摘机器人，重点探索怎么用早期的机器视觉给瓜定位。以色列在精准农业上一直很强，记住 Edan 这个名字，他后来还参与了我们待会要讲的那份重要综述。

2002 年，日本的农研机构 NARO、Hayashi 团队，做了温室茄子采摘机器人。它用 CCD 相机做颜色分割来认茄子。我给个数字让大家体会当时的水平：采摘成功率约 62.5%，平均64 秒才摘一个果。六十多秒一个，这个速度离实用差得远。同一年，荷兰瓦赫宁根大学还做了黄瓜采摘机器人，设计目标 10 秒一根，实际要 45 秒。

2010 到 2014 年，欧盟投了一个大项目叫 CROPS，做甜椒采摘，主打多传感器融合——就是把多个摄像头、多种传感器的信息合起来用。

讲到这，必须提一份"判决书"。2014 年，Bac、van Henten 等人发表了一篇综述，盘点了过去三十年里大约 50 台采摘机器人。结论非常冷峻：三十年间技术性能没有实质性提升、没有任何一台实现商业化、平均采摘成功率只有 66% 左右。这篇综述基本上给荒芜年代盖了棺——它告诉整个领域：光靠现在这套办法，路走到头了。也正因如此，它成了下一个阶段的起点。

P11

供应链与不可能三角：部件受制于人

约 3 分钟

画面供应链矩阵 + 不可能三角示意（高精度 / 低成本 / 强算法）。

这一页深入讲第一类卡点的硬核细节——零部件供应链，以及一个我希望大家记一辈子的概念："不可能三角"。

先说供应链。一台机械臂最贵、最关键的两个部件是减速器和伺服电机。减速器我前面说过，是把电机的"快而无力"变成关节的"慢而有力"的装置，它的精度直接决定机械臂准不准。在那个年代，减速器被日本两家公司长期垄断——一家叫哈默纳科（Harmonic Drive，做谐波减速器），一家叫纳博特斯克（Nabtesco，做 RV 减速器）。伺服电机和驱动，则主要来自日本的安川、松下，和瑞士的麦克森。总共大概六个国家、十来个品牌主导整个市场，早期国产几乎没有可用的替代品。

零部件贵到什么程度？给组数字：单是一个谐波减速器就要两三千美元，一个中重负载的 RV 减速器要三千到六千多美元，一个关节的物料成本就六千到一万美元，一条六自由度的机械臂，光硬件就四万到八万美元。"自由度"指机器人能独立运动的方向数，六自由度就是能像人的手臂一样灵活地到达空间任意位置和姿态。

现在讲那个"不可能三角"。看这个三角形的三个顶点：高精度、低成本、强算法（或者说算法简单）。结论是：这三个你最多同时要到两个，不可能三个全要。为什么？你要高精度又想算法简单，就必须上昂贵的减速器，成本就下不来；你想低成本，用便宜的、间隙大的齿轮，那精度就差，只能靠更复杂的算法和传感器去补，算法开销又上去了。早期的论文，几乎全被这个三角钉死在"实验室级硬件加手工标定"的角落里。走不出实验室，本质上就是这个三角的直接后果。

P12

视觉与手工特征：让计算机"看见"果实有多难

约 3 分钟

画面左右两张图——传统机器视觉流水线 vs 田间真实复杂场景。

讲完"手"，讲"眼睛"。这一页讲早期机器人怎么看见果实，以及为什么这么难。这里会冒出一串缩写，我一个一个拆开讲。

先说相机。当时主力是 CCD 相机。CCD 是 Charge-Coupled Device 的缩写，中文叫"电荷耦合器件"，是一种把光信号转成电信号的图像传感器，可以理解成那个年代数码相机的"视网膜"。它分辨率和帧率都有限，而且对光照特别敏感——太阳一动、云一遮，画面就变。

软件方面，有个绕不开的工具叫 OpenCV，全称 Open Source Computer Vision Library，"开源计算机视觉库"。"开源"意思是代码免费公开、谁都能用。它从 2000 年左右由英特尔发起，2006 年正式发布 1.0 版，从此成了全世界做机器视觉的标准工具箱，今天你们做课程设计大概率还会用到它。

但最关键的是"怎么认出果实"。当时用的是手工特征方法——注意"手工"两个字，又来了。我念几个缩写：SIFT，尺度不变特征变换，能在图像放大缩小后还认得出同一个关键点；SURF，加速稳健特征，是 SIFT 的提速版；HOG，方向梯度直方图，专门刻画物体的形状轮廓；还有 HSV 颜色分割，HSV 是一种颜色表示法，按色相、饱和度、明度来分，比如"红番茄"就用红色的色相范围去框。

这些方法的共同问题是什么？它们都需要专家针对每一个场景去手工设计和调参。换句话说，工程师得对着草莓园调一套参数，搬到苹果园又得重调。一旦遇到果实被叶子挡住、果实一簇一簇挤在一起，这套规则立刻失效。它强烈依赖"光照稳定、背景干净"这些假设，泛化能力很弱，所以根本没法规模化推广。这就为下一个阶段——让机器自己学特征——埋下了伏笔。

P13

紧凑作业空间几何：果园根本不给机械臂留地方

约 2.5 分钟

画面草莓垄沟、番茄温室、蘑菇菇床、葡萄棚架、柑橘树冠等作业空间剖面图。

前面讲的是"手"和"眼"的问题，这一页讲一个常被忽略、但极其要命的约束——作业空间的几何形状。简单说：作物的种植方式，根本没打算给机械臂留位置。

我们逐个看。草莓种在垄沟里，垄和垄之间只有 60 到 80 厘米宽，机器人得贴着垄、俯下身侧着摘，回旋空间极小。番茄和甜椒在温室里吊蔓种植，行很窄，果实纵向一长串，还被层层叶幕挡着。蘑菇长在多层菇床上，每一层的净空只有 30 到 50 厘米，普通机械臂的"胳膊肘"根本伸不进去。葡萄挂在头顶的棚架上，得仰着头往上够，重力方向反过来了。柑橘和苹果长在球状的树冠里，果实一簇簇深藏在枝叶包裹中。

这些场景的共同点是：窄、挤、遮挡重。而我们前面说的标准工业六自由度机械臂，底座就要四十厘米见方、胳膊一伸展开一米多，它是为宽敞的汽车工厂设计的，塞不进这些紧巴巴的农业空间。所以早期做草莓机器人的，被迫放弃灵活的关节臂，改用龙门式、直角坐标式的笨结构。

这一点请大家记住，因为它是我们第三讲的全部出发点——正是这些独特的空间约束，逼着采摘机器人的每个子系统都不能用通用方案，必须为作物量身定做。

P14

投融资寥寥：资本涌向仓储，农田遇冷

约 2.5 分钟

画面左右对比——农业采摘项目的微薄经费 vs 仓储机器人的巨额并购。

前面讲技术，这一页讲钱。技术走不出实验室，资本市场是怎么看的？答案是：基本没人投。

看左边，荒芜年代的采摘机器人，钱主要来自政府的科研拨款，而不是商业风险投资。两个代表项目都是欧盟出钱的：一个是刚提到的 CROPS，属于欧盟"第七框架计划"（缩写 FP7，是欧盟的大型科研资助计划），拨款约 760 万欧元；另一个叫 SWEEPER，属于欧盟的"地平线 2020"计划（Horizon 2020），2015 到 2018 年，预算约 430 万欧元。注意，这些是科研经费，目的是出论文、出样机，不是商业风投，也没有风投跟进。

再看右边的对照，差距会让你吃惊。2012 年，亚马逊花了 7.75 亿美元收购了一家叫 Kiva 的公司。Kiva 做的是仓库里搬货架的机器人。一笔收购 7.75 亿美元，是同年全球所有农业采摘机器人公私经费总和的几十倍。

这个对比说明一个深刻的道理：资本天然偏爱结构化的场景。仓库地面平整、货架规整、光照恒定，机器人好做、回报确定，所以钱蜂拥而入。而农田是非结构化的——乱、变、不确定，机器人难做、回报遥遥无期，资本就避之不及。结构化与非结构化，这一对词请记住，它几乎解释了整个机器人产业的投资偏好。荒芜年代的"荒芜"，在资本层面体现得淋漓尽致。

P15

技术积累与历史意义：失败也是遗产

约 2.5 分钟

画面五条历史意义列表。

第一阶段我们快讲完了。最后这一页，我想给"荒芜年代"一个公正的评价——它虽然没产业化，但它的历史意义，远远超过它做出来的那几台机器。我总结成五条。

第一，范式遗产。它确立了"感知 → 决策 → 控制"这个三层架构——先看见、再想怎么做、最后控制手去做。这个分层一直沿用到今天，哪怕到了最新的世界模型阶段，骨架还是这个。

第二，问题界定。刚才那篇 2014 年的 Bac 综述，把"非结构化采摘到底难在哪"说清楚了，把五大硬约束摆上了台面。把问题定义清楚，本身就是巨大的贡献——后来人知道该攻哪几个山头了。

第三，数据与方法的沉淀。这三十年攒下了关于各种作物的知识，建立了早期的评测基准——也就是大家比拼成绩时用的统一尺子。

第四，反面教训。它用三十年充分证明了"手工方法的能力上限就到这了"。这个"此路不通"的结论，价值千金，直接把后来者推向了深度学习。

第五，承前启后。它给下一个阶段递上了一份清清楚楚的"问题清单"和"攻关方向"。

所以请大家不要轻视失败的阶段。在科学和工程里，把一条路彻底走到黑、并诚实地告诉后人此路不通，本身就是重大贡献。带着这份遗产，我们进入第二阶段——深度学习时代。

阶段二 · 深度学习

P16

阶段二·深度学习时代：必要而不充分

约 1.5 分钟

画面章节分隔页，主标题"深度学习：必要而不充分"，副标题"阶段二·深度学习时代"。

第二阶段，深度学习时代，大约从 2014 年到 2022、2023 年，十年左右。

这一阶段的标题，我用了一句需要大家细品的话——深度学习：必要而不充分。这是个逻辑学的说法，我解释一下。"必要"的意思是：没有它绝对不行；"不充分"的意思是：光有它还不够。放到采摘机器人上就是——深度学习让机器的"眼睛"突然变得非常厉害，这是走向实用必须迈过的一道坎；但是，光眼睛好使，并不能保证这个机器人就能在田里干活、就能商业成功。

这一阶段我会讲一个激动人心的技术飞跃，也会讲一个略带苦涩的结局：识别能力突飞猛进，资本疯狂涌入，然后好几家明星公司接连倒下。这一升一落，恰恰印证了"必要而不充分"这六个字。我们开始。

P17

ImageNet 转折点：深度学习的引爆时刻

约 3 分钟

画面历年图像识别错误率柱状图，2012 年断崖式下降。

要理解这个阶段，必须从一个跟采摘机器人看似无关、实则改变一切的事件讲起——2012 年的 ImageNet 竞赛。

先说 ImageNet 是什么。它是斯坦福的李飞飞教授团队牵头建立的一个超大规模图像数据库，有上千万张人工标注好的图片。基于它有个年度比赛，叫 ILSVRC，就是"ImageNet 大规模视觉识别挑战赛"，相当于计算机视觉界的奥林匹克——看谁的算法能最准地认出图里是猫是狗还是汽车。

衡量成绩用一个指标叫 top-5 错误率：让算法对一张图猜五个答案，只要五个里有一个对，就算认对；猜五个全错，才算错。错误率越低越好。

看这张图。2010、2011 年，冠军的错误率还在 26% 到 28% 徘徊，靠的是我们前面讲的那套手工特征方法，进步很慢。然后 2012 年，发生了断崖式下跌——一个叫 AlexNet 的模型，把错误率一下打到 15.3%，比第二名领先了将近 11 个百分点。这在那种顶级比赛里是不可想象的代差。

AlexNet 是谁做的？三个人：Alex Krizhevsky、Ilya Sutskever，和他们的导师 Geoffrey Hinton。Hinton 被称为"深度学习之父"，2018 年拿了图灵奖，2024 年又拿了诺贝尔物理学奖；Sutskever 后来是 OpenAI 的联合创始人和首席科学家。记住这几个名字，他们是这场革命的点火人。

AlexNet 用的是 CNN，卷积神经网络——一种模仿视觉皮层、能自己从数据里学习图像特征的网络。它成功靠四个关键要素：用 GPU（图形处理器，原本打游戏用的芯片，特别适合并行计算）来加速训练；用一个叫 ReLU 的激活函数让网络训练得更快；用 Dropout（随机失活）技术防止"死记硬背"；再加上 ImageNet 提供的大规模标注数据。

这件事的革命性在于：感知，从"人来手工设计特征"，彻底转向了"机器从数据里自动学特征"。三年后的 2015 年，一个叫 ResNet（残差网络） 的模型把错误率降到 3.57%，首次超过了人类水平。从此，"让机器看懂图像"这件事，不再是瓶颈。这个突破很快外溢到机器人领域——包括我们的采摘机器人。

P18

YOLO 谱系演进：让识别变得又快又便宜

约 3 分钟

画面YOLO 各版本时间线 + 采摘应用示例图。

AlexNet 解决了"认得准"，但采摘机器人还需要"认得快"——果实在动、机器要实时反应。这就要讲到一个你们以后做项目几乎一定会用到的工具：YOLO。

YOLO 的全称很有意思，叫 You Only Look Once，"你只看一次"。它是一类实时目标检测算法。"目标检测"和前面的"图像分类"不同：分类只回答"这张图里有没有苹果"，检测要回答"苹果在图里的哪个位置、有几个"，用方框把每个苹果框出来。"你只看一次"是说，它扫一遍图就同时把所有目标的位置和类别都给出来，所以特别快。

YOLO 有一个很长的家族。第一代 YOLOv1 在 2015、2016 年由 Joseph Redmon 提出。这里有个小插曲：Redmon 在 2020 年因为担心自己的技术被用于军事和监控，公开宣布退出计算机视觉研究——这是科技伦理上一个很有名的故事，值得大家记住，技术人是有立场和责任的。

之后社区接力往下做：v2 到 v4 引入了"锚框"、多尺度等技术，精度越来越高。2020 年，一家叫 Ultralytics 的公司推出 YOLOv5，用现在最流行的 PyTorch 框架重写，安装部署极其简单，一下子把使用门槛打到了地板上——本科生在自己电脑上就能跑。到 2023 年的 v8、2024 年的 v11，已经做到去掉冗余步骤、足够轻量，能直接跑在田间机器人那种小算力的边缘设备上。

这对采摘机器人意味着什么？意味着"准确识别果实"这件事，从一个需要博士攻关的难题，变成了几乎免费、开箱即用的标准件。我们 PPT 上列了苹果、番茄、柑橘、茶叶、蓝莓等五项代表性研究，它们的检测主干清一色都是 YOLO 系列。可以说，到这个阶段中后期，"YOLO 加深度相机加协作臂"成了采摘机器人论文的标准模板，感知方案高度趋同。

P19

硬件普及与降本：原型机成本砍掉七成

约 2.5 分钟

画面整机物料成本对比柱状图，2015 约 7 万美元 → 2020 约 2 万美元。

算法白菜价了，硬件这边也在同步崩塌——是好的那种崩塌，成本崩塌。这一页讲降本。

第一个降本是深度相机，也叫 RGB-D 相机。RGB 就是普通彩色图像的红绿蓝三通道，D 是 Depth 深度——所以 RGB-D 相机不仅能拍彩色画面，还能测出画面里每个点离相机多远。这对抓取至关重要，机器得知道果子的三维位置才能伸手去够。这类相机有两种主流测距原理：结构光，和 ToF（Time of Flight，飞行时间，靠测量光打出去再返回的时间算距离）。微软的 Kinect、英特尔的 RealSense 把这种相机从上千美元打到了两三百美元。

第二个降本是协作机械臂，简称 cobot。它和传统工业机械臂的区别是：能和人在一起安全工作、碰到人会停。代表是丹麦的 Universal Robots（优傲）和国产的遨博等，价格从早期的三万多美元一路下探。

第三个是边缘算力。"边缘"指的是设备本地，相对于"云端"。英伟达的 Jetson 系列模组，让机器人能在田里本地、实时地跑神经网络推理，不必把画面传回服务器。

三项叠加，效果惊人：看这张图，一台采摘机器人原型的整机物料成本——专业叫 BoM，Bill of Materials，物料清单总价——从 2015 年前后的六到八万美元，砍到了 2020 年前后的一万五到两万五美元，降幅约七成。这个数字的含义是：以前要一个课题组砸钱才能攒出的原型机，现在一个博士生靠自己的项目经费就能搭起来。这就是为什么这个阶段的研究论文数量呈爆发式增长。

P20

集成路线与难点：感知成熟，智能未变

约 2.5 分钟

画面典型集成方案堆叠图，副标题"感知成熟，智能未变"。

识别准了、硬件便宜了，于是这个阶段的主流做法，我称之为"集成路线"——把市面上成熟的零件拼装起来。典型配方是：一个成熟的 YOLO 检测器，加一条协作机械臂，加一个标准夹爪，再用一套叫 ROS（Robot Operating System，机器人操作系统）的软件框架把它们串起来。四到八周就能从开箱搭到下田。

但是——请大家记住这一页的副标题：感知成熟，智能未变。这是整个第二阶段最关键、也最容易被忽略的判断。

什么意思？机器人的"眼睛"靠深度学习升级了，可它的"大脑"几乎原地踏步。它的工作方式还是一条开环流水线：先感知、再规划、再执行，一步一步走完，中间不回头、不根据结果在线调整。它缺少"做之前先在脑子里想一下后果"的能力。

所以一旦遇到真实田间的复杂情况，问题立刻暴露。我们 PPT 上列了四类一直没解决的场景：严重遮挡（果实被叶子挡住，看不全）；光照剧变（一会儿大太阳一会儿阴影）；柔性易损（果实软、一捏就坏，需要精细力控）；密集簇生（一串葡萄、一簇荔枝挤在一起，抓一个带下来一串）。

根本原因在于：深度学习只升级了"感知"这一层，决策和操作那两层，还是靠工程师手工写的规则。这就又回到了我们的核心判断——深度学习是必要的，但远不充分。它把眼睛擦亮了，但没给机器人装上一个会思考的大脑。

P21

投融资井喷与关停潮：资本的一次集体误判

约 2.5 分钟

画面2017–2021 投融资年表。

技术看起来突飞猛进，资本是什么反应？这一次，钱来了，而且是井喷式地来。但结局，是一堂昂贵的风险教育课。

先看涌入。2017 年，做苹果采摘的 Abundant Robotics 拿到 GV（也就是 Google Ventures，谷歌的风投部门）领投的千万美元级融资。2020 年，做温室自动化的 Iron Ox 拿到 5300 万美元的 C 轮。2021 年，做草莓和葡萄的 Tortuga 拿到 2000 万美元 A 轮；同年，做室内番茄的 AppHarvest 通过 SPAC 上市——SPAC 是"特殊目的收购公司"，一种借壳快速上市的方式——估值一度高达约 10 亿美元。注意这些"A 轮、C 轮"是融资阶段的叫法，轮次越往后通常金额越大、公司越成熟。短短几年，资本对采摘机器人的热情见顶。

然后呢？我把后续的结局连起来给大家看，因为这正是上一页那句"感知成熟，智能未变"的代价： Abundant，2019 年还在新西兰完成了全球首次商业化苹果机器人采摘，2021 年就清算关停了。 AppHarvest，2023 年申请破产，债务高达 3.41 亿美元。 Iron Ox，2024 年前后停摆。 Tortuga，2025 年把技术和团队卖给了一家叫 Oishii 的垂直农场公司。

四家明星，全部出局。那么死因是什么？深入分析这四家，会发现一个共性：它们栽在"商业模式"上，而不是单纯栽在技术上。机器确实能摘果，但摘得不够快、不够便宜，单台机器算下来的经济账划不来；而且很多公司把机器人产品和自家重资产的农场运营深度绑定，农场一出问题，机器人跟着陪葬。

这给我们的启示非常深刻：技术指标先进，不等于商业上能活下来。资本在这个阶段，把"识别准了"误读成了"可以规模化赚钱了"，为这个误判付出了沉重代价。带着这个教训，我们进入第三阶段——人们开始尝试给机器人装一个真正"会思考"的大脑。

阶段三 · VLA 初探

P22

阶段三·VLA 初探：视觉·语言·动作端到端统一

约 1.5 分钟

画面章节分隔页，主标题"视觉·语言·动作端到端统一"，副标题"阶段三·VLA 初探"。

第三阶段，2023 到 2024 年。注意时间尺度——前两个阶段动辄二三十年、十来年，到这里，故事的核心进展压缩到了一两年之内。技术演进的加速度，在这里体现得淋漓尽致。

这一阶段的主角，是一个缩写：VLA，全称 Vision-Language-Action，视觉-语言-动作。它代表一种全新的思路：能不能用一个统一的大模型，同时处理"看见"（视觉）、"听懂指令"（语言）、"动手做"（动作）这三件事？

请注意我给这一章起的副标题里有"初探"两个字，还有阶段名里我特意强调"呈现其局限"。这是一个诚实的态度：VLA 是一次了不起的尝试，它第一次让"通用的具身智能"从论文变成了能演示的样机；但它的局限，也同样清清楚楚地暴露了出来。这一章我们既讲它的雄心，也讲它的短板——而它的短板，恰恰直接指向了第四阶段。

P23

三件大事汇流：范式初成

约 3 分钟

画面2023–2024 三事件时间线，RT-2 / GPT-4V / Atlas 全电。

VLA 这个范式不是凭空冒出来的，它是 2023 到 2024 年三件大事汇流的结果。这三件事分别代表"动作""感知""身体"三个方向同时取得突破。

第一件，2023 年 7 月，谷歌发布 RT-2。 RT-2 的全称是 Robotic Transformer 2，第二代机器人 Transformer。它干了一件开创性的事：第一次把"互联网上学来的常识"和"机器人末端的动作"放进了同一个模型。打个比方，以前的机器人不知道"草莓是水果、易腐、要轻拿"，RT-2 因为读过海量互联网图文，它"懂"这些常识，并能把常识转成动作。VLA 这个术语，就是从 RT-2 之后成为行业默认叫法的。

第二件，2023 年 9 月，GPT-4V 开放。 大家都熟悉 ChatGPT，GPT-4V 里的 V 是 Vision 视觉——它让大模型不只能读文字，还能"看图"。这类既懂语言又懂图像的模型，专业上叫 VLM，Vision-Language Model，视觉语言模型。它是 VLA 里"V"和"L"那两块的基础。这一时期，谷歌的 Gemini、Anthropic 的 Claude、阿里的通义千问、字节的豆包等多模态模型也密集登场。

第三件，2024 年 4 月，波士顿动力的 Atlas 机器人转为全电动。 Atlas 是全世界最有名的人形机器人，以前用液压驱动——力气大但笨重、漏油、难控制。2024 年它告别液压、转向全电动加 AI 控制。这标志着人形机器人的本体，从"液压重型仿生"走向了"电动加智能控制回路"，为后面更精细的智能控制铺了路。

把这三件事连起来看：管动作的模型、管感知的模型、机器人的身体，在同一时期同步突破。软硬件协同到位，VLA 这个范式才得以成形，具身智能的探索正式拉开序幕。

P24

VLA 范式与谱系：从分步流水线到端到端

约 3 分钟

画面VLA 范式示意（视觉+指令→单一模型→动作）+ 代表模型谱系。

这一页讲清楚 VLA 到底"新"在哪，再带大家认认这个家族里的代表成员。

先讲范式，也就是它和老方法的根本区别。我们前面说过，传统集成路线是一条分步流水线：检测果实 → 估计位姿 → 规划路径 → 执行抓取，一环扣一环，每一环都是人单独设计的。而 VLA 走的是端到端——"端到端"这个词请记住，英文 end-to-end，意思是从输入这一端，直接到输出那一端，中间不再人为切成一段一段。具体说，VLA 用一个神经网络，把"摄像头看到的图像"和"人下达的语言指令"作为输入，直接输出机器人该做的动作。中间那些分解步骤，都交给网络自己内部消化了。它的期望是：让模型从互联网级的知识里学到的泛化能力，自动迁移到机器人控制上。

再认认这个家族，按时间顺序： - RT-2，2023 年 7 月，谷歌，刚讲过，是开山之作。它之后还有个叫 RT-X 或 Open X-Embodiment 的合作项目，联合了全球 21 个实验室，把 22 种不同机器人、100 多万条真实操作片段汇到一起训练，证明数据可以跨机器人共享。 - OpenVLA，2024 年，斯坦福和伯克利等机构出的，参数量 70 亿（写作 7B，B 是 billion 十亿），关键是它开源，把复现门槛大幅降低，学术界都能上手。有意思的是，它 7B 的规模，效果反而比 RT-2 那个 550 亿参数的版本还好——这说明 VLA 的性能不是单纯靠堆参数堆出来的。 - π0，读作 Pi-Zero，2024 年由一家叫 Physical Intelligence 的明星创业公司做的，用一种新方法生成连续、流畅的动作。 - Gemini Robotics，2025 年谷歌出的，把它强大的 Gemini 多模态模型推进到了物理世界的操作。

短短两年，VLA 从一个想法变成了一个热闹的家族。但热闹背后，问题也来了——这正是下一页的主题。

P25

VLA 的五大局限：为什么它还不够

约 3 分钟

画面图主导页，底部条幅"LeCun 的判断：智能需要世界模型"。

这一页是整个第三阶段最重要的一页，请大家集中注意力。我们要客观地讲：VLA 很厉害，但它远远没有解决问题。学术界已经明确指出了它的五大局限。

局限一，反应式，而非预测式。 这是最根本的。主流 VLA 基本上是"看到什么、直接反应做什么"，它没有一个内部的"如果我这样做，环境下一步会变成什么样"的模拟器。它不会预演、不会前瞻规划，是个"应激反应型选手"。

局限二，泛化能力有限。 这里有个术语 OOD，Out-of-Distribution，分布外——指的是遇到训练时没见过的情况。VLA 一旦碰到 OOD，比如换个背景、换个光照、换个物体姿态，成功率就会断崖式下跌。

局限三，数据极其昂贵。 大语言模型可以拿几乎免费的互联网文本来训练，量级是万亿级的词。可机器人的动作数据呢？得靠人真机遥控操作一遍一遍地示范录下来，全网能凑到的也就百万条片段，比语言数据少了六到七个数量级——也就是少了上百万倍。这是 VLA 难以快速变强的硬约束。

局限四，不可解释。 端到端是个黑箱，动作直接从网络里输出，中间没有人能读懂的步骤。出了事故没法追溯、没法调试、没法定责。这对要进田、要上保险的工业部署是硬伤。

局限五，物理直觉弱。 VLA 不内置重力、摩擦、碰撞、材质软硬这些物理常识，全靠从数据里碰运气浮现。所以遇到"轻轻捏住软果子别捏破"这种需要物理直觉的精细任务，它很吃力。

看屏幕底部这句话——LeCun 的判断：智能需要世界模型。Yann LeCun（杨立昆） 是 Meta 公司的首席 AI 科学家，2018 年图灵奖得主，深度学习三巨头之一。他一直尖锐地批评：纯粹靠"预测下一个词"的大模型是条死胡同，因为它们没有"世界模型"——不理解物理世界、不会真正地规划。补充一个最新动态：2026 年初，LeCun 离开 Meta，在巴黎创办了一家新机构 AMI Labs，种子轮融资约 10 亿美元，华人科学家谢赛宁加盟担任首席科学家。他的批评不是孤立的，它直接定义了我们下一个阶段要补的课——给机器人装上一个能"想象"的世界模型。

P26

视觉与多模态模型：采摘感知的通用基座

约 2.5 分钟

画面CLIP / SAM / DINOv2 / GPT-4o 四个模型卡片。

在讲世界模型之前，这一页补充一类很重要的"通用视觉模型"。它们不是为采摘专门做的，但成了采摘机器人感知能力的通用底座，让"认新东西"不再需要从零标注数据。我介绍四个，每个都展开一下。

CLIP，2021 年 OpenAI 出的，全称是"对比式语言-图像预训练"。它用四亿组"图片配文字"来学习，学会了把图像和文字对齐。最厉害的是零样本识别——"零样本"指的是没专门训练过也能认。你只要用文字说"找出成熟的草莓"，它就能去图里找，不需要你先标几千张成熟草莓给它看。

SAM，2023 年 Meta 出的，全称 Segment Anything Model，"分割一切模型"。"分割"是指把目标的轮廓精确地从背景里抠出来。SAM 能在零样本下，按你的提示勾出任意物体的精确边界，对采摘时确定果实的精确形状边缘非常有用。

DINOv2，也是 2023 年 Meta 出的，特点是自监督——不需要人工标注标签，自己看海量图片就能学出强大的视觉特征，迁移到新任务上很好用。

GPT-4o，2024 年 OpenAI 出的，o 是 omni，"全能"的意思，原生地统一处理文字、图像、语音。它可以扮演高层的"指挥官"，理解农艺师用自然语言写的复杂采摘策略。

这四个模型对采摘的意义在于：识别新品种、新成熟度，不再需要每次都从零建数据集了。但我必须泼一盆冷水：实验室里能演示，不等于田间能稳定用。光照剧变、风吹叶动、虫害病斑、滴灌水珠，这些都是模型没见过的"分布外噪声"，从 demo 到田间稳定，中间还有很长的路。

P27

人形机器人产业链的带动：意外的成本红包

约 2.5 分钟

画面产业链传导示意（人形量产 → 关节降本 → 采摘受益）+ 代表企业。

这一页讲一个对采摘机器人非常实在的利好，而且它来自一个看似不相干的领域——人形机器人。

这两年人形机器人非常火。海外有代表性的，比如 Figure 公司的 Figure 02、波士顿动力的全电动 Atlas、特斯拉的 Optimus；国产有代表性的，比如宇树科技的 H1 和 G1、智元的远征系列。这些公司在大规模地造人形机器人。

关键的逻辑链在这里：人形机器人和采摘机器人，共享同一批核心零部件。一台人形机器人有几十个关节，每个关节都要用到减速器、力矩电机、滚柱丝杠、力传感器——而这些，恰恰也是采摘机械臂需要的东西。

于是产业链上发生了一件好事：人形机器人一旦走向量产，对这些零部件的需求暴涨，供应商纷纷扩产，单价就被摊薄、被打下来了。我举个具体的：国产的绿的谐波，是做谐波减速器的龙头，国内市场占有率约 26%、全球第二。在这种规模效应下，谐波减速器的单价从大约三千元降到一千五以下，力传感器、深度相机也都成倍降价。

这对采摘机器人意味着什么？采摘机械臂现在可以直接采购成熟、低价的关节模组，不用自己从头研发，整机成本因此显著下降。这是采摘机器人物料成本下降的一个最直接来源——它搭上了人形机器人产业的便车。这也呼应了我们第八页那个判断：采摘机器人能借力其他领域的成熟经验和供应链。

P28

代表性采摘项目：真正落地的，都没用 VLA

约 3 分钟

画面代表性采摘项目案例图（飞行采摘、草莓平台、苹果多臂等），标注"代表性项目均未采用 VLA"。

讲完了 VLA 这么热闹的技术，这一页要给大家一个冷静、甚至有点反差的事实，这也是整个第三阶段我最想让大家记住的结论。

先看这几个真正在田间商用、有真实交付证据的代表性项目： - Tevel，以色列公司，做的是飞行采摘机器人——用缆绳供电的小飞行器去摘苹果、柑橘，已经商用。 - Harvest CROO，美国佛罗里达的，做草莓采摘大平台，机器名叫 Harvey；2025 年 4 月，它公开演示了采摘速率与人工持平的里程碑。 - Advanced Farm，做苹果和草莓采摘，已经被农机巨头约翰迪尔（John Deere）收购——被巨头收购，是商业价值得到认可的强信号。 - FFRobotics，用多条机械臂并行，连续采苹果。

现在揭晓那个反差结论：这些真正商业落地的采摘机器人，几乎没有一个用了 VLA。

它们用的是什么？是我们第二阶段讲的那套经典而成熟的管道——目标检测（很多已经升级用上了 SAM、Grounding DINO 这些新视觉模型）加立体视觉定位，加抓取规划，加力反馈的柔性末端。换句话说，工业界用脚投票，选择了可靠、可控、可调试的成熟方案。

这恰恰印证了我们前面讲的 VLA 五大局限。想想看：采摘是户外作业、是长时序的连续任务、环境动态变化、而且容错率极低——摘坏了就是真金白银的损失。而这些，正好全是 VLA 当前最不擅长的场景。 所以 VLA 再光鲜，目前还进不了果园这个"考场"。

那么，怎么补上 VLA 的短板，让机器人真正学会"思考"和"预判"？这就是我们最后一个阶段——世界模型与空间智能——要回答的问题。

阶段四 · 世界模型

P29

阶段四·世界模型与空间智能：从被动感知到理解物理世界

约 1.5 分钟

画面章节分隔页，主标题"从被动感知到理解物理世界"，副标题"世界模型与空间智能"。

我们进入最后一个阶段，2024 年到现在，也是当下最前沿、还在进行中的阶段。

这一阶段的核心，用标题这句话概括最准确：从被动感知，到理解物理世界。前几个阶段，机器人都是"被动地看"——看到什么、识别什么、反应什么。而现在，研究者想让机器人真正理解物理世界是怎么运转的，能在脑子里预演"我这么做、世界会怎么变"。

这背后有一个关键概念，叫世界模型，待会儿我会专门给它下定义，现在先记住这个名字。这一阶段不是单一技术，而是三条技术路线同时发力、最后汇到一起。下一页，我们先看这三股力量分别是什么。

P30

三股力量合流：共同指向理解物理世界

约 2.5 分钟

画面三线合流示意图（空间智能 / 预测式 / 基座式 → 理解物理世界）。

补齐 VLA 短板的努力，在 2024 到 2026 年逐渐收敛成三条路线。我先把三条线的名字和领军人物给大家，后面三页再逐一展开。

第一条，空间智能，代表人物是李飞飞。她主张：要让 AI 真正聪明，光懂语言和二维图像不够，必须理解三维几何和物理——也就是这个世界的空间结构和动力学。

第二条，预测式世界模型，代表人物是我们刚提过的 LeCun，核心技术叫 JEPA。它的特点是在一个抽象的"表征空间"里预测未来，而不是去生成逼真的像素画面。

第三条，基础世界模型，代表是英伟达和谷歌 DeepMind 这样的大公司。它们走的是"规模化、产品化"的路子，做出能交互、能生成的大型仿真世界。

这三条路线，出发点不同、方法不同，但手指都指向同一个目标——让机器理解物理世界。它们要共同补上 VLA 那两个最大的短板：缺物理直觉、不会预测未来。

落到我们采摘机器人上，这意味着什么具体能力？意味着机器人在动手之前，能预判：这根枝条挡住的后面还有没有果子、这个果子现在是什么三维姿态、我这一夹会不会把旁边那串带下来、会不会碰伤果子。这种"先想后做"的能力，正是前三个阶段一直缺的。

P31

空间智能与李飞飞：AI 的下一个前沿

约 3 分钟

画面李飞飞与 World Labs，3D 世界生成示例。

先讲第一条线——空间智能，和它的旗手李飞飞。

李飞飞这个名字，今天其实已经出现过一次了。还记得第二阶段那个引爆深度学习的 ImageNet 吗？正是她主导建立的。她是斯坦福大学教授、斯坦福"以人为本 AI 研究院"的主任，在 AI 学界地位极高，常被称为"AI 教母"。

2024 年 9 月，她创立了一家公司叫 World Labs，专攻空间智能。她的核心论点，在 2024 年那场著名的 TED 演讲里讲得很漂亮，大意是：视觉的本质，是从"看见"走向"理解"，再走向"行动"。她认为纯语言模型理解不了三维世界的运转，AI 必须去学习几何、物理和因果关系。

World Labs 要做的，是构建大世界模型，英文缩写 LWM，Large World Model。它的能力听起来很科幻但已经实现了：给它一张图片，它能生成出一个可以走进去探索的三维世界。他们的产品叫 Marble。这对采摘机器人的价值在于：未来或许能从有限的果园照片，重建出完整的三维果园供机器人预演。

还有一项重要的学术工作要讲，因为它揭示了现实差距。李飞飞和华人学者谢赛宁合作做了一个评测基准，叫 VSI-Bench——"视觉空间智能基准"，专门测大模型的空间推理能力，比如"这个房间里沙发在桌子的哪一边"。这里出现一个缩写 MLLM，Multimodal Large Language Model，多模态大语言模型，就是前面说的那些能看图能读字的大模型。VSI-Bench 测出来的结论很清醒：当前最强的 MLLM，空间推理能力仍然明显弱于人类。 这说明空间智能这条路，前景巨大，但还在半途。

P32

预测式与 JEPA：在"脑海"里预测，而不是画出来

约 3 分钟

画面JEPA 架构示意（上下文 / 目标 → 编码器 → 预测器 → 潜空间预测）。

讲第二条线——LeCun 的预测式世界模型，核心是 JEPA。这个概念有点抽象，我尽量讲得形象。

JEPA 的全称是 Joint-Embedding Predictive Architecture，联合嵌入预测架构。名字记不住没关系，理解它干的事就行。

我们对比一下两种"预测未来"的思路。一种是"生成式"——比如让模型预测下一秒的画面，它得把每一个像素、每一片叶子的纹理都画出来。这非常费劲，而且大部分细节（比如某片叶子的精确纹路）对决策根本没用。

LeCun 说，没必要。他的 JEPA 走的是另一条路：在一个抽象的"潜空间"里做预测。"潜空间"这个词解释一下，英文 latent space，你可以理解成模型对世界的一种精炼的、抽象的内部理解，它只保留有用的信息、扔掉无关的细节。JEPA 预测的是这种抽象表征会怎么变，而不是去重新画像素。这样既省力，又抓住了本质。这是 LeCun 路线和别人最关键的技术分歧。

具体的成果：图像版叫 I-JEPA，视频版叫 V-JEPA。最新的 V-JEPA 2，在超过 100 万小时的网络视频、再加 62 小时真实机器人数据上训练，然后通过一种叫 MPC（Model Predictive Control，模型预测控制——意思是"先用模型预测几步、再选最优动作"）的方法，让机器人零样本地完成抓取放置任务，成功率能到六到八成。

还有一个很妙的点：物理直觉是怎么"涌现"出来的。研究者用一个叫 IntPhys 的基准来测——给模型看一些违反物理规律的视频，比如一个球穿墙而过。如果模型"惊讶"了（也就是它的预测误差突然飙升），就说明它内心其实"懂"物理、知道这不该发生。用"惊讶程度"来度量物理直觉，这个思路非常优雅。对采摘来说，这种能预判物理后果的能力，正是精细抓取最需要的。

P33

世界模型前沿：会"造世界"的大模型

约 2.5 分钟

画面Genie 3 / Cosmos / Sora 2 三个前沿世界模型。

讲第三条线——大公司主导的"基础世界模型"。这条线最直观，因为它的成果你们可能在新闻里见过。我讲三个标杆。

第一个，谷歌 DeepMind 的 Genie，最新是 2025 年 8 月的 Genie 3。 它是一个实时交互的世界模型：给它一张图或一段描述，它能生成一个你可以实时操控、走进去探索的虚拟环境，而且能保持一分钟级别的画面一致性。"foundation world model（基础世界模型）"这个术语，就是 Genie 系列提出来的。

第二个，英伟达的 Cosmos，2025 年 1 月发布。 英伟达 CEO 黄仁勋在发布时抛出了一个概念叫 "Physical AI"——物理 AI。Cosmos 的定位很明确：它是个"物理世界基础模型"，专门为机器人合成训练数据。这一点对我们采摘机器人极其重要，我下面会说。它的训练数据量是天文数字——约 9000 万亿个 token、2000 万小时的真实世界视频。

第三个，OpenAI 的 Sora，2025 年的 Sora 2。 大家可能看过它生成的逼真视频。它最新版本的进步在于物理规律遵循——比如投篮没进，球会按真实的动量从篮板弹回来。OpenAI 内部把它比作"视频领域的 GPT 时刻"。

这三个的共性是：从"被动地生成好看的视频"，走向了"动作可控、物理可信的环境模拟"。那对采摘机器人到底有什么用？用处非常实在——还记得 VLA 的死穴是"真实数据太贵太少"吗？现在可以用这些世界模型合成大量多样的果园场景：不同光照、不同风速、不同成熟度、不同栽培架式的虚拟数据，喂给机器人训练。这直接缓解了"农业数据稀缺"这个老大难问题。

P34

定义与对比：策略问"做什么"，动力学问"将怎样"

约 2.5 分钟

画面VLA 与世界模型对比表。

讲了这么多，我们必须把"世界模型"这个词严格地定义一下，并和上一阶段的 VLA 做个干净的对比。这一页请大家记牢，它是阶段三和阶段四的分水岭。

先给一句话定义：世界模型，就是机器人学到的一个"环境运转规律"的内部模型，让它能在脑子里模拟未来的演变。

然后看这张对比表，核心区别就一句话——VLA 学的是"策略"，世界模型学的是"动力学"。

什么叫"策略"？用我们 PPT 上这句话：策略，回答的是"我现在该做什么"。VLA 看一眼当前画面，直接给出动作，是个反应式的"做什么"。

什么叫"动力学"？动力学，回答的是"如果这样，接下来世界会变成什么样"。世界模型不急着出手，它先在内部模拟："我如果伸这只手，果子会不会掉、枝条会不会弹回来"，模拟完、评估好，再规划出最优动作。

这个区别带来三个根本性的好处：第一，VLA 是看一步走一步，世界模型能往前预演好几步，所以长程规划能力强得多。第二，VLA 严重依赖昂贵的真机动作标注，而世界模型很多时候看视频自监督学习就行，数据来源宽得多。第三，VLA 是黑箱，而世界模型的内部模拟状态是可以看、可以检验的——它的预测对不对，拿现实一对照就知道，可解释性强。

一句话收尾：VLA 是"应激反应",世界模型是"深思熟虑"。 这就是阶段四相对阶段三最根本的范式跃迁。

P35

两层架构与大模型：外脑慢规划，内脑快执行

约 2.5 分钟

画面双系统架构图（外脑 MLLM → 子目标 → 内脑 VLA → 动作）。

那么实践中，怎么把"深思熟虑"和"快速反应"结合起来？毕竟机器人既要会动脑子长远规划，又要能毫秒级地实时控制手。答案是一种两层架构，业界叫"双系统"。

这个设计其实借鉴了心理学。诺贝尔奖得主卡尼曼提出人有两种思维：慢的、理性的"系统二"，和快的、直觉的"系统一"。机器人也照搬了这个思路。

外脑，是"慢系统"，由前面讲的多模态大模型 MLLM 担任。它负责慢思考——理解任务、把大任务拆成小目标、做长远规划。比如"把这一行成熟的番茄都摘了"，外脑负责想清楚先摘哪个、路线怎么走。

内脑，是"快系统"，由 VLA 或经典控制器担任。它负责快执行——拿到外脑给的小目标后，实时地感知、实时地控制机械臂高频闭环动作。

两者解耦：慢脑低频地想大方向，快脑高频地干具体活。产业界一个代表是 Figure 公司的 Helix 系统，正是这种 S1、S2 双系统设计。

那这个"外脑"用什么大模型呢？国际上有 OpenAI 的 GPT-4o、谷歌的 Gemini、Anthropic 的 Claude；国内的进步也非常快，有阿里的通义千问 VL、智谱的 GLM-4V、字节的豆包等等，正在加速本土化落地。所以你看，最前沿的大模型，正在通过"外脑"这个角色，真正走进物理世界、走进机器人。

P36

采摘突破与跃迁：会预测、能想象、善规划

约 2 分钟

画面本章小结，四类突破 / 三类局限。

第四阶段我们小结一下，落回采摘机器人。世界模型给采摘带来了哪些可能的突破，又还有哪些坎没迈过去？

四类突破。 第一，遮挡补全——能预测被叶子挡住的部分。第二，物理推演——动手前先算物理后果，避免捏坏果子。第三，长程规划——一整行、一整棵树的采摘顺序统筹安排。第四，视频自监督泛化——靠看视频学习，缓解数据稀缺。

但要诚实地讲清楚三类局限，免得大家以为问题都解决了。第一，算力和数据极其昂贵，像 Cosmos 那种训练量，中小机构玩不起。第二，实时高频控制仍然很难，世界模型想得慢，跟不上手要动得快。第三，有个绕不开的词叫 "仿真到现实的差距"——英文 sim-to-real gap——在虚拟世界里训练得再好，搬到真实果园，风、光、湿度的差异还是会让性能打折。截至目前，甚至还没有公开发布的、专门针对采摘场景的世界模型数据集。

但抛开局限，这一阶段最深刻的意义，是一次认识论的跃迁：机器智能第一次从"感知—反应"，走向了"预测—想象—规划"。用一句话总结这四个阶段共同的终点：智能体不再是看到什么就反应什么，而是先在内部把未来预演一遍，再选最优的做。李飞飞、LeCun、还有更早提出世界模型的 Schmidhuber，三派殊途同归，共同主张一个公式——智能 = 预测 + 想象 + 规划。这，就是我们四十年技术长征走到今天的最高点。

收束 · 矩阵与思考

P37

收束·七个维度 × 四个阶段

约 1 分钟

画面章节分隔页，主标题"七个维度 × 四个阶段"，副标题"七维 × 四阶段矩阵"。

四个阶段我们都走完了。最后这一小节，是把今天讲的东西收一收、织成一张网，方便大家记忆和复习。

我们用一张表来做这件事：用七个维度，横向地去对比四个阶段。这七个维度，是我们一路上反复提到的线索：感知、决策、泛化、数据、成本、投融资、落地。把它们当作七把尺子，每一把都从荒芜年代量到世界模型，你就能清楚地看到每一次能力是怎么跃迁的。我们看下一页这张表。

P38

七维对比矩阵：一张表看懂四十年

约 2.5 分钟

画面7 行（维度）× 4 列（阶段）对比矩阵，对角线高亮。

这张表是今天的"认知地图"，请大家跟我一起横着读、再竖着读。

先横着读，挑两行最关键的看演进。看"感知"这一行：荒芜年代是手工设计的颜色阈值和特征，到深度学习变成 CNN、YOLO 的自动检测，到 VLA 是多模态语义理解，到世界模型是遮挡补全和三维重建——感知能力一路走高。再看"决策"这一行：从最早的死规则和状态机，到端到端学习，到 VLA 的语言指令反应式，最后到世界模型的"预测—想象—规划"。

再竖着读，每一列其实是一个阶段的"完整画像"。比如看 VLA 那一列：感知是多模态理解、决策是反应式、泛化还很弱、数据极贵、落地是真实产品交付——一竖排下来，这个阶段的长板短板一目了然。

最后请大家特别注意这张表的对角线，从左上到右下。沿着对角线，你看到的正是这门课最想传递的那条主线：机器智能从"感知—反应"，一步步迈向"预测—想象—规划"。这条对角线，就是采摘机器人四十年能力跃迁的主轴。如果今天只让你们记住一张图，就记这张表的对角线。

P39

四阶段曲线汇总：四条曲线的不同节奏

约 2 分钟

画面四条叠加曲线（识别能力 / 商业化 / 资本流入 / 范式迁移）覆盖四阶段背景色带。

如果说上一页的表是静态的画像，这一页的四条曲线就是动态的节奏。横轴是时间、是四个阶段，纵轴是相对水平。请大家比较这四条线节奏的差异，这里面有大智慧。

第一条，识别能力（绿线）：从近乎为零起步，在深度学习期陡然上扬，之后持续走高，是条加速上升的曲线。技术能力，是最稳、最先走高的。

第二条，商业化（青线）：从实验室演示，到试点，到真实产品交付，稳步但明显滞后——它总是落在识别能力后面一截。技术行了，不代表生意马上就成。

第三条，资本流入（红线）：这条最戏剧化。荒芜期贴着地面，深度学习期急速井喷、冲出一个尖峰，然后随着关停潮明显回落退潮，到 VLA 期又回暖。资本，是起伏最剧烈的。

第四条，范式迁移（紫线）：它不是平滑的，而是阶梯状的——在每个阶段的边界上台阶式抬升：规则 → 端到端 → 语言反应 → 预测规划。

把四条线放一起读，结论非常深刻：识别能力先行，资本闻风起舞、大起大落，而商业化总是最后、最慢地才把价值兑现出来。 这三者的错位，恰恰是上一个阶段四家公司倒下的根本原因——资本以为技术行了就能赚钱，但商业化的滞后是规律，急不得。这是留给在座未来要进这个行业的同学，最值钱的一条经验。

P40

要点回顾与预告：回望四阶，下探工程

约 2 分钟

画面本讲七条要点小结 + L03 预告。

好，到了回望全程的时候。还记得开头第三页那七个学习目标吗？我们对照着把今天的主线复述一遍。

第一，四个阶段：荒芜年代 → 深度学习 → VLA → 世界模型，能力逐级跃迁，这是骨架。第二，阶段一"荒芜年代"，受困于电机、减速器这些硬件硬约束，以及手工特征方法的天花板，三十年走不出实验室。第三，阶段二"深度学习"是转折点，但"必要而不充分"——它擦亮了眼睛，却没给大脑升级，结果导致 Abundant、AppHarvest、Iron Ox、Tortuga 等好几家先驱公司，因为商业模式问题接连出局。第四，阶段三"VLA"，第一次引入语言指令、走端到端，很惊艳，但有反应式、泛化弱、数据贵、不可解释、物理直觉弱这五大局限，所以真正落地的采摘机器人，目前都还没用它。第五，阶段四"世界模型"，空间智能、预测式、基础世界模型三条线并进，趋向"预测—想象—规划"；这个阶段我们也强调，要看的是有真实交付证据的代表性企业，不是只讲故事的。

最后是预告。今天这一讲，我们站在高空俯瞰了技术演进的主线。下一讲 L03，我们要降落到地面，钻进工程的最后一公里——我们会从采摘场景那"五重环境不规则"出发，一步步推导出机器人六大子系统为什么不能用通用方案、必须为作物量身定做。如果说今天讲的是"为什么"，下一讲讲的就是"具体怎么做"。

P41

思考题与阅读：以问启思，以读致远

约 1 分钟

画面三道思考题 + 精读 / 拓展阅读清单。

最后，留三道思考题和一份阅读清单，请大家课后琢磨。它们不是为了考试，是为了帮你把今天的框架真正变成自己的。

思考题一：深度学习为什么是转折点，却又不足以保证商业成功？这道题考的是你对"必要而不充分"这六个字的理解。 思考题二：VLA 的五大局限里，你觉得哪一个对"采摘"这个任务最致命？提示一下，想想果园的环境特点。 思考题三：世界模型相比 VLA，到底新增了哪一种关键能力？答对了，你就抓住了阶段三到阶段四的本质。

阅读清单分两档。精读三篇打地基的经典：2012 年的 AlexNet、YOLO 系列、2023 年的 RT-2——这是感知革命和 VLA 的源头。拓展三个面向未来的前沿：李飞飞的 World Labs、英伟达的 Cosmos、LeCun 的 JEPA——这是世界模型的最前线。

今天这一讲就到这里。希望大家记住那条对角线——从"感知—反应"到"预测—想象—规划"，那是机器智能四十年走过的路，也是我们这门课的灵魂。谢谢大家，我们下一讲见。