具身智能数据荒:机器人如何突破训练瓶颈
当大模型在“烧token”时,具身智能却在“无数据可烧”
2026年,AI世界正上演一场荒诞的对比:一边是大语言模型和视频生成模型以万亿级token疯狂“吞食”文本与图像,另一边是具身智能机器人却陷入“无数据可训”的窘境。如果说大模型是“读万卷书”,那具身智能就得“行万里路”——而这条路,正被数据的匮乏死死卡住。
4月16日,智元机器人旗下子公司觅蜂科技发布了一站式物理AI数据服务平台,试图用一场“数据工业革命”打破僵局:让高质量物理交互数据像水电一样即插即用。
数据荒:具身智能的“阿喀琉斯之踵”
“GPT-5用了100万亿tokens的训练语料,相当于一个人连续说话100亿小时。”觅蜂科技董事长兼CEO姚卯青在发布会上指出,“但今天全球高质量的具身智能训练数据,可能连50万小时都不到。”
这背后是根本性的差异:大模型的数据来自互联网上已存在的文本、图像与视频,而具身智能需要的是机器人在真实物理世界中“动手”产生的动作、力觉、位姿、环境反馈等多模态数据。这些数据无法凭空生成,必须通过真实交互采集。
过去,行业主要依赖两种方式:一是用实体机器人进行遥操作采集,成本高、效率低;二是依赖仿真环境生成数据,但“仿真 gap”导致迁移到真实世界时性能大打折扣。两者都难以规模化。
无本体采集:让数据“轻装上阵”
觅蜂提出的解决方案是“无本体采集”(Object-free/Body-less Data Collection)——不依赖昂贵的机器人本体,而是通过人类佩戴轻量化传感器设备,直接记录真实世界中的操作行为。
其核心硬件MEgo系列包括两款设备:
- MEgo Gripper:一款仅重480g的无线夹爪,配备1080P 60fps摄像头,轨迹重建精度达毫米级,能精准还原“拿起一张纸”的力度与动作细节,支持电池快换与亚毫秒级无线同步。
- MEgo View:头戴式采集设备,融合7个高清摄像头与车规级九轴IMU,覆盖超过300度视野,同时捕捉环境全景与手腕操作细节,输出RGB图像、IMU、位姿、音频等全感官数据。
这些设备摆脱了线缆束缚,支持在工厂、商超、家庭等任意场景“边走边采”,极大降低了数据采集的门槛。
从“专业团队”到“众包骑手”:数据生产的范式转移
更关键的是,觅蜂正在推动数据采集模式的变革。姚卯青设想了一种类似“美团骑手”的众包模式:普通人经过短期培训后,即可兼职参与数据采集,“走到哪采到哪”。
这种模式不仅提升了数据获取的广度与速度,也实现了场景的多样化——从厨房切菜到仓库搬运,从超市理货到老人护理,真实世界的复杂动作都能被高效记录。
而这一切的背后,是MEgo Engine数据治理引擎的支撑。它能对采集的原始数据进行自动预处理、多模态对齐、动作语义提取与质量评估,甚至预测该数据在目标机器人上的表现效果,实现“一站式标注与交付”。
数据即服务:构建具身智能的“基础设施”
值得注意的是,尽管觅蜂隶属于智元机器人,但其定位是面向全行业的To B数据服务平台。这意味着,即便是智元的竞争对手,也可以购买其数据服务。
“我们提供‘使用权’和‘所有权’两种交易模式,”姚卯青强调,“所有数据交易都基于严格协议,确保安全与合规。”这种开放策略,意在推动行业共建数据生态,而非陷入“数据孤岛”。
按计划,觅蜂将在2026年实现千万小时级数据产能,2030年迈向百亿小时级——这不仅是量的飞跃,更是具身智能走向规模化落地的关键一步。
当大模型仍在“读万卷书”,具身智能终于迎来了“行万里路”的数据引擎。而这场由觅蜂开启的数据革命,或许将真正让机器人“活”在真实世界里。
标签: 具身智能 数据服务 无本体采集 机器人 AI基础设施