当前位置：首页 > AI资讯 > 正文内容

具身智能数据荒：机器人如何突破训练瓶颈

admin3小时前AI资讯2

当大模型在“烧token”时，具身智能却在“无数据可烧”

2026年，AI世界正上演一场荒诞的对比：一边是大语言模型和视频生成模型以万亿级token疯狂“吞食”文本与图像，另一边是具身智能机器人却陷入“无数据可训”的窘境。如果说大模型是“读万卷书”，那具身智能就得“行万里路”——而这条路，正被数据的匮乏死死卡住。

4月16日，智元机器人旗下子公司觅蜂科技发布了一站式物理AI数据服务平台，试图用一场“数据工业革命”打破僵局：让高质量物理交互数据像水电一样即插即用。

数据荒：具身智能的“阿喀琉斯之踵”

“GPT-5用了100万亿tokens的训练语料，相当于一个人连续说话100亿小时。”觅蜂科技董事长兼CEO姚卯青在发布会上指出，“但今天全球高质量的具身智能训练数据，可能连50万小时都不到。”

这背后是根本性的差异：大模型的数据来自互联网上已存在的文本、图像与视频，而具身智能需要的是机器人在真实物理世界中“动手”产生的动作、力觉、位姿、环境反馈等多模态数据。这些数据无法凭空生成，必须通过真实交互采集。

过去，行业主要依赖两种方式：一是用实体机器人进行遥操作采集，成本高、效率低；二是依赖仿真环境生成数据，但“仿真 gap”导致迁移到真实世界时性能大打折扣。两者都难以规模化。

无本体采集：让数据“轻装上阵”

觅蜂提出的解决方案是“无本体采集”（Object-free/Body-less Data Collection）——不依赖昂贵的机器人本体，而是通过人类佩戴轻量化传感器设备，直接记录真实世界中的操作行为。

其核心硬件MEgo系列包括两款设备：
- MEgo Gripper：一款仅重480g的无线夹爪，配备1080P 60fps摄像头，轨迹重建精度达毫米级，能精准还原“拿起一张纸”的力度与动作细节，支持电池快换与亚毫秒级无线同步。
- MEgo View：头戴式采集设备，融合7个高清摄像头与车规级九轴IMU，覆盖超过300度视野，同时捕捉环境全景与手腕操作细节，输出RGB图像、IMU、位姿、音频等全感官数据。

这些设备摆脱了线缆束缚，支持在工厂、商超、家庭等任意场景“边走边采”，极大降低了数据采集的门槛。

从“专业团队”到“众包骑手”：数据生产的范式转移

更关键的是，觅蜂正在推动数据采集模式的变革。姚卯青设想了一种类似“美团骑手”的众包模式：普通人经过短期培训后，即可兼职参与数据采集，“走到哪采到哪”。

这种模式不仅提升了数据获取的广度与速度，也实现了场景的多样化——从厨房切菜到仓库搬运，从超市理货到老人护理，真实世界的复杂动作都能被高效记录。

而这一切的背后，是MEgo Engine数据治理引擎的支撑。它能对采集的原始数据进行自动预处理、多模态对齐、动作语义提取与质量评估，甚至预测该数据在目标机器人上的表现效果，实现“一站式标注与交付”。

数据即服务：构建具身智能的“基础设施”

值得注意的是，尽管觅蜂隶属于智元机器人，但其定位是面向全行业的To B数据服务平台。这意味着，即便是智元的竞争对手，也可以购买其数据服务。

“我们提供‘使用权’和‘所有权’两种交易模式，”姚卯青强调，“所有数据交易都基于严格协议，确保安全与合规。”这种开放策略，意在推动行业共建数据生态，而非陷入“数据孤岛”。

按计划，觅蜂将在2026年实现千万小时级数据产能，2030年迈向百亿小时级——这不仅是量的飞跃，更是具身智能走向规模化落地的关键一步。

当大模型仍在“读万卷书”，具身智能终于迎来了“行万里路”的数据引擎。而这场由觅蜂开启的数据革命，或许将真正让机器人“活”在真实世界里。

标签： 具身智能 数据服务 无本体采集 机器人 AI基础设施

标签: 具身智能数据荒机器人训练觅蜂科技 AI数据平台

返回列表

上一篇：阿里HappyOyster开启AI世界模型新纪元

下一篇：无人车与机器人重塑物流闭环

玖捌肆贰

具身智能数据荒：机器人如何突破训练瓶颈

当大模型在“烧token”时，具身智能却在“无数据可烧”

数据荒：具身智能的“阿喀琉斯之踵”

无本体采集：让数据“轻装上阵”

从“专业团队”到“众包骑手”：数据生产的范式转移

数据即服务：构建具身智能的“基础设施”

相关文章

AI组队干活时代：Harness成关键引擎

浏览器进化为AI智能代理

智算赋能教育：校企协同培养AI人才新范式

AI语音合成新突破：更自然更可控

VAKRA智能代理的推理与工具能力解析

中国AI日均调用量破140万亿

发表评论

Copyright 玖捌肆贰（9842.cn） Rights Reserved.
豫ICP备06015505号-10

Powered By Z-BlogPHP. Theme by TOYEAN.

玖捌肆贰

具身智能数据荒：机器人如何突破训练瓶颈

当大模型在“烧token”时，具身智能却在“无数据可烧”

数据荒：具身智能的“阿喀琉斯之踵”

无本体采集：让数据“轻装上阵”

从“专业团队”到“众包骑手”：数据生产的范式转移

数据即服务：构建具身智能的“基础设施”

相关文章

AI组队干活时代：Harness成关键引擎

浏览器进化为AI智能代理

智算赋能教育：校企协同培养AI人才新范式

AI语音合成新突破：更自然更可控

VAKRA智能代理的推理与工具能力解析

中国AI日均调用量破140万亿

发表评论取消回复

Copyright 玖捌肆贰（9842.cn） Rights Reserved. 豫ICP备06015505号-10

Powered By Z-BlogPHP. Theme by TOYEAN.

发表评论

Copyright 玖捌肆贰（9842.cn） Rights Reserved.
豫ICP备06015505号-10