当前位置: 厦门雄霸 > 新闻中心 > DeepMind“机器猫”自学成才!具身智能或将引领 AI 下一个浪潮
DeepMind“机器猫”自学成才!具身智能或将引领 AI 下一个浪潮
时间:2023-07-03 15:02:55 点击次数:

机器人正迅速成为我们日常生活的一部分,但它们通常只被编程来完成特定的任务。尽管利用人工智能的最新进展可能会导致机器人在更多方面发挥帮助作用,但构建通用机器人的进展较慢,部分原因是需要收集现实世界的培训数据。

日前谷歌 DeepMind最新的论文介绍了一种自我改进的机器人人工智能代理程序,名为RoboCat,它学习执行不同机械臂上的各种任务,然后自动生成新的训练数据来改善其技术。DeepMind 表示,先前的研究探索了如何开发能够按比例学习多项任务并将语言模型的理解能力与协助机器人的现实能力相结合的机器人。RoboCat 是第一个解决并适应于多个任务,并在不同的真实机器人上完成的代理程序。

RoboCat,可自学的人工智能机器人

整体来看,RoboCat最主要的突破在三个方面:1.DeepMind让一个神经网络能在多个不同的机器人上工作,可以快速操作新的机械臂,解决新的复杂任务。2.RoboCat学习的新任务越多,就越擅长学习和解决额外的新任务。3.RoboCat是通用机器人领域的重要研究进展,能够减少对人类监督训练的需求。

DeepMind“机器猫”自学成才!具身智能或将引领 AI 下一个浪潮

AI智能体可以自己操控机械臂,学习玩套圈、搭积木、抓水果了!效率极高,还不需要多少人力。只需要通过100次左右的演示,RoboCat就可以学会操控机械臂来完成各式各样的任务,并且它还能通过自生成的数据来进行迭代改进。最重要的是,不论是它操控的机械臂还是它要完成的任务,RoboCat之前都从来没见过。

这种“通用性学习能力”是RoboCat的强项,此外,RoboCat最主要的特点就是“学得快”,这种能力对于加快机器人领域的研究有重要意义,因为有了这种能力,人类监督训练的需求就会极大减少,这是创造通用机器人非常重要的一环。在DeepMind演示视频中,RoboCat可以通过自主学习完成“套圈”、“搭积木”、“拿放水果”等任务。目前RoboCat完成一项新任务的成功率已经从初期的36%提升至74%。并且根据DeepMind论文,RoboCat完成现实世界训练任务的成功率要远高于传统基于视觉的模型方案,领先幅度还是比较明显的,这也是DeepMind研究的重要价值所在。

值得一提的是,RoboCat用到的关键技术之一,是一种多模态模型(multimodal model)Gato,而Gato在西班牙语里意为“猫”,也就是“cat”,这也是“RoboCat”这一命名的由来之一。此前研究人员已经在机器人大规模学习多种任务方面进行了探索,并将对语言模型的理解与现实世界的机器人能力相结合。而RoboCat的进步性在于,它是第一个可以解决和适应多种任务的机器人AI智能体。DeepMind认为,RoboCat独立学习技能、快速自我提升的能力,以及对于不同硬件设备的快速适应能力,将对新一代通用机器人AI智能体的发展起到重要推动作用。

一个人工智能模型可用于多个机器人实体

DeepMind 的研究科学家兼 RoboCat 团队成员之一的 Alex Lee 在接受采访时表示:“我们证明了一个单一的大型模型可以在多个真实机器人实体上解决各种不同的任务,并能够快速适应新的任务和实体。”

DeepMind“机器猫”自学成才!具身智能或将引领 AI 下一个浪潮

RoboCat 是受 Gato 启发而开发的,Gato 是 DeepMind 的一个人工智能模型,可以分析和处理文本、图像和事件。RoboCat 使用在模拟和现实生活中收集的图像和行动数据进行训练。Lee 表示,这些数据来自虚拟环境中其他控制机器人模型、人类控制机器人以及之前的 RoboCat 模型的组合。

为了训练 RoboCat,DeepMind 的研究人员首先收集了 100 到 1000 个由人类控制的机器人臂执行任务的示范。然后,他们在该任务上对 RoboCat 进行了微调,创建了一个专门的“分支”模型,平均训练了该任务 1 万次。利用分支模型生成的数据和示范数据,研究人员不断扩充了 RoboCat 的训练数据集,并训练了后续的新版本 RoboCat。RoboCat 的最终版本在模拟和实际世界中的 141 种不同变体的任务集上进行了训练,总共涵盖了 253 个任务。DeepMind 声称,在观察了数小时的人类控制示范后,RoboCat 学会了操作不同的机器人臂。

虽然 RoboCat 在四种带有双爪臂的机器人上进行了训练,但该模型能够适应一个带有三指夹爪和两倍可控输入的更复杂的臂。尽管在 DeepMind 的测试中,RoboCat 在不同任务上的成功率差异很大,从最低13% 到最高99%。这是在训练数据中有 1000 个示范的情况下;当示范数量减少一半时,成功率可预见地较低。然而,在某些场景中,DeepMind 声称 RoboCat 只需 100 个示范就能学会新任务。

Lee 补充说:“通过提供有限数量的示范来进行新任务的微调,RoboCat 可以自动生成更多数据以进一步改进。”未来,研究团队的目标是将 RoboCat 学习完成新任务所需的示范数量降低到 10 个以下。

具身智能将引领 AI 下一个浪潮

目前在机器人领域,包括特斯拉、谷歌、亚马逊、英伟达、腾讯等巨头已经有所布局。然而,正如 DeepMind 上述论文指出,由于训练机器人需要大量的时间,因此智能化水平仍不足,难以实现大规模的商业化。而 RoboCat 的问世或许能解决这一 “痛点”。

DeepMind“机器猫”自学成才!具身智能或将引领 AI 下一个浪潮

其实,DeepMind 的 RoboCat 只是 AI 赋能机器人的主要案例之一。今年以来,已经有数家公司将语言模型运用到了机器人上:2023 年年初,谷歌推出视觉语言模型 PaLM-E,并运用到工业机器人上;4 月,阿里巴巴将千问大模型接入工业机器人;5 月,特斯拉人形机器人 Optimus 展示了精准的控制、感知能力,同月,英伟达发布全新自主移动机器人平台。

得益于此,人工智能加持的机器人化身具身智能(Embodied Intelligence)吸引了全球的广泛关注。

马斯克在特斯拉 2023 年股东大会上便表示,人形机器人将是今后特斯拉主要的长期价值来源," 如果人形机器人和人的比例是 2 比 1 左右,那么人们对机器人的需求量可能是 100 亿乃至 200 亿个,远超电动车的数量 "。英伟达创始人黄仁勋在 ITF World 2023 半导体大会上也表示,AI 下一个浪潮将是 " 具身智能 "。

东吴证券研报指出,具身智能首先需要听懂人类语言,分解任务、规划子任务,移动中识别物体,与环境交互,最终完成任务。东吴证券认为人形机器人很好地契合了具身智能的要求,有望成为标杆应用。" 机器人研究的关键在于让机器人适应人类环境,最终走进千家万户的生活(工业、餐饮、医疗等多领域)。人形机器人有望率先在 B 端上量,最终打开 C 端市场。远期市场空间可观。"

Copyright © 2022-2023 贵州源妙自动化设备有限公司 版权所有     黔ICP备2022007086号-9