万亿具身智能赛道，被数据卡住了

如何在硅基“大脑”中重建碳基经验。数据采集是第一步。当前，通用人工智能的讨论逐渐从文本与图像转向物理世界，具身智能——赋予AI以物理身体，使其能感知、理解和交互真实环境，而这些正成为全球科技竞赛的下一个关键战场

然而，与语言模型时代“数据天然存在”的繁荣景象不同，具身智能的“大脑”模型正陷入一场前所未有的“数据饥渴”。训练一个能在复杂、长时序任务中泛化的具身智能大脑，需要的不再是万亿级的文本Token，而是高质量、多模态、时空对齐的“人类行为数据”。这背后，是一场从硬件架构、数据采集到处理范式的系统性革命

资本热追，但仍不“完美”据国务院发展研究中心‌预测，中国具身智能2030年达4000亿元人民币，2035年突破万亿元。与此同时，中国信通院‌《具身智能发展报告（2025年）》中，首次将具身智能纳入国家未来产业重点，2025年全球市场规模195.25亿元人民币

2026年开年仅前三个月，国内具身智能赛道融资规模已近300亿元，融资事件同比增长63%。光轮智能斩获超5亿美元融资，创下国内该领域融资纪录；逐际动力完成2亿美元B轮融资，估值超过10亿美元；星海图再获20亿元B+轮融资——资本正以加速度涌入这条赛道

与赛道火热相对的，具身智能在真正走进生活，走进产业的过程中，却并不是一帆风顺。英特尔研究院副总裁、英特尔中国研究院院长宋继强曾明确指出：“当前具身智能的发展，正处于‘提升能力上限’与‘保障能力下限’的双重攻坚期

大家都在展示机器人的智能能力，但很少有人关注它表现不佳时该怎么办——这正是产业化必须跨越的鸿沟”。虽然我们已经有了诸如宇树科技、银河通用这些具身智能“本体”的制造商，他们造的机器人已经具备了充分的灵活度，能完成翻跟斗、跳舞等“表演”，但这些技术的背后更多的是通过提前预编辑好的程序执行的

换句话说，虽然当前的具身智能“小脑”已经足够发达，但在“大脑”层面，如何能让机器人更具有“活人感”，更像人一样，通过自主思维去执行指令，是接下来产业关注的焦点

对此，简智新创联合创始人朱雁鸣告诉笔者：“今天大家看到的所有具身智能公司，其实它们真正模型化的能力，仍然停留在一些非常短时序的简单任务上，比如叠衣服、倒水、拿杯子。” 这揭示了当前产业的普遍现状：演示惊艳，但实用尚远

这些精心设计的演示任务，往往在受控环境下完成，距离能够应对家庭、工厂、物流等真实场景中复杂、多变、长链条的任务要求，还有巨大差距。朱雁鸣认为，当前具身模型在学术上仍需突破，而在产业化和商业化上的差距更大。这种差距的核心在于，现有模型缺乏对物理世界的深刻理解和鲁棒交互能力

去年行业普遍推崇的VLP（视觉-语言-规划）路径，其底层是语言模型，擅长基于文本指令进行规划，但其生成的行动“本质上只是基于语言规划出的轨迹和行为”，与真实物理世界中“认知-行动-获得物理反馈-产生新认知”的持续闭环相去甚远。因此，产业共识正在转向构建 “世界模型”

世界模型的核心是让AI理解底层的物理规律，如摩擦力、刚体动力学、空间关系等，而不仅仅是进行语言描述下的轨迹规划。这标志着具身智能的发展从“模仿语言逻辑”进入“学习物理法则”的深水区。这个过程中，一个有趣的趋势是：大量智能驾驶（智驾）领域的人才涌入具身智能赛道，简智机器人核心成员便多来自智驾背景

朱雁鸣指出，这种迁移并非偶然，而是因为两者在技术栈（如视觉-语言-动作模型VLA、环境模拟）和产品方法论上存在深刻共鸣。更重要的是，智驾领域所锤炼出的 “数据驱动闭环” 的产品迭代架构，即“通过真实数据持续训练、测试和优化模型”，正是当前具身智能从演示走向实用所亟需的工程化能力

智驾从业者对物理环境交互反馈、系统测试与迭代的实践经验，能够加速具身智能产品的开发进程。然而，无论是追求世界模型的理论突破，还是借鉴智驾的工程经验，都指向同一个核心瓶颈：高质量训练数据的极端匮乏。具身智能的“数据困境”如果说算力是引擎，算法是蓝图，那么数据就是燃料

没有合适的燃料，再强大的引擎和精妙的蓝图也无法驱动具身智能驶向现实的彼岸。这促使一批像简智机器人这样的创业公司，没有选择去“卷”模型本身，而是转向了为行业提供“数据基座”这一更具差异化价值的基础设施赛道

拓斯达具身智能业务线-矩阵智拓CMO王琪也曾表示，数据痛点主要体现在三个方面：一是数据标准不统一，不同企业的机器人本体构型不同，产生的数据难以互通，形成数据壁垒，“比如当前构型产生的数据能用，但是对另外的构型来说是有门槛和壁垒的”；二是数据采集难、成本高，工业场景的复杂性导致数据采集难度大，且采集设备与人力成本高昂，尤其是对于中小企业而言，难以承担大规模数据采集的成本；三是数据隐私与安全问题，企业担心开放产线数据会泄露核心工艺，导致其不愿配合数据采集，“部分头部企业，其核心产线里面一些东西，他们自己人都进不