首页长安娱乐主管首页ChatGPT引发的人工智能(AI)聊天机器人热潮还没散去,AI产业就迎来了新的发展方向。
在6月29日举行的“2023世界人工智能大会”新闻发布会上,上海市经济和信息化委员会表示,2023世界人工智能大会将进一步围绕产业和技术变革新风口,聚焦具身智能,布局智能机器人先进技术。前不久在ITF World 2023半导体大会上,也有业内大佬放出豪言,AI的下一个浪潮将是具身智能。另外,谷歌、微软、特斯拉等科技公司近日都相继公布了自家的具身智能产品。(参考来源:上海证券报,2023.06.29;科创板日报,2023.05.17;华尔街见闻,2023.05.19;此处不作个股推荐)
果然啊,几天没看新闻,可能就又赶不上热点了。那么咱们今天就来补补课,聊聊「“具身智能”」究竟是什么神奇的新领域~
我们先来了解一下什么是“具身智能”:具身智能,英文名是Embodied Intelligence,简称EI。1950 年,图灵在论文《Computing Machinery and Intelligence》中第一次提出了具身智能的概念,TA是能像人一样能和环境交互感知,自主规划、决策、行动,并具备执行能力的机器人或仿真人,是AI的终极形态。(参考来源:申港证券,2023.06.25)
经过几十年的发展,现在我们是这样定义具身智能的——在机器智能领域中,通过把智能算法和物理实体的感知、行动和环境交互相结合,让机器能够通过更自然、更智能的方式和环境进行交互并解决问题的能力。(参考来源:中国经营报,2023.06.03;华尔街见闻,2023.05.19)
是不是听了但还是不太明白?没关系,咱们可以简单就把它理解成“拥有实体,能够感知并理解周边环境,通过自主学习完成任务的智能体”。
首先,具身智能和传统AI有什么不一样?无论是ChatGPT,还是其它AIGC,都关注于数据处理和符号推理,对物理世界并不能从实际上产生影响;而具身智能则多了一个身体,通过传感器收集环境信息,利用机械执行器进行物理操作,或者通过机器人等具体实体和人类及环境进行实时互动。所以,对具身智能也能理解成是ChatGPT这类大模型有了身体。
第二个问题,具身智能就是人形机器人吗?具身智能强调的是AI系统具备感知、思考、学习、决策等能力,并且能够和环境进行交互;而人形机器人指的具备人类的外形特征和行动能力的智能机器人,可以双腿行走,通过手臂和身体的协调完成一些功能,还可以通过语音和人类交流互动。具身智能相当于把GPT这类大模型技术引入人形机器人,让机器人具备更强的感知和交互能力。所以,人形机器人是具身智能的物理形态之一,但具身智能并不一定就长成人形机器人的样子,根据使用用途和场景的不同,具身智能也可以是动物、汽车、飞行器等等的形态。
具身智能、AI和人形机器人,三者之间既有区别又有着紧密联系,具身智能可能是AI的终极形态,而人形机器人则是实现具身智能的物理形态之一。(参考来源:华尔街见闻,2023.05.19;证券日报,2023.07.01)
当然了,每次聊到这些科技概念,都不可避免要谈到一个问题:能落地吗?距离商业化应用还有多远?最近有关具身智能的分析和报道很多,小夏发现当前业内对于这项技术的落地其实还有比较多的争议和分歧。
乐观派认为,具身智能技术发展的条件目前已经成熟,深度学习给具身智能提供了处理真实世界视觉信号的能力,自然语言处理(NLP)给具身智能带来了和人类通过语音、文字交流并从自然文本中学习的可能,AIGC的快速发展也将为具身智能技术瓶颈突破提供重要驱动力。
但谨慎派则表示,具身智能技术还处于早期孵化阶段,要实现真正的商业化落地,还需要直面诸多困难,包括关键核心技术不成熟、产业链生态尚未形成、安全与伦理挑战突出、相关法律法规和标准体系不健全等等。(参考来源:申港证券,2023.06.25;中国经营报,2023.06.03)
虽然距离实现商业化可能还有一段距离,但作为AI的未来发展方向,具身智能依然给
华夏中证人工智能主题 ETF 联接(A:008585;C:008586)
A类基金认购时一次性收取认购费,无销售服务费;C类无认购费,但收取销售服务费。二者因费用收取、成立时间可能不同等,长期业绩表现可能存在较大差异,具体请详阅产品定期报告。 风险提示:1.本基金为股票基金,其预期风险和预期收益高于混合基金、债券基金 与货币市场基金。具体风险评级结果以基金管理人和销售机构提供的评级结果为准。2.本基金主要投资于标的指数成份股、备选成份股。投资于本基金存在标的指数回报与股票市场平均回报偏离、标的指数波动、基金投资组合回报与标的指数回报偏离等主要风险。为更好地实现投资目标,基金还可投资于非成份股(含中小板、创业板及其他中国证监会注册或核准上市的股票)、债券(包括国债、央行票据、金融债券、企业债券、公司债券、 中期票据、短期融资券、超短期融资券、次级债券、地方政府债券、可转换债券、可交换债券及其他经中国证监会允许投资的债券)、衍 生品(包括股指期货、股票期权、国债期货)、资产支持证券、货币市场工具(含同业存单、债券回购等)、银行存款以及法律法规或中国证监会允许基金投资的其他金融工具。本基金可根据法律法规的规 定参与转融通证券出借业务。本基金投资范围中的股票包含存托凭证。3.投资者在投资本基金之前,请仔细阅读本基金的《基金合同》《招募说明书》和《产品资料概要》等基金法律文件,充分认识本基金的风险收益特征和产品特性,并根据自身的投资目的、投资期限、投资经验、资产状况等因素充分考虑自身的风险承受能力,在了解产品情况及销售适当性意见的基础上,理性判断并谨慎做出投资决策,独立承担投资风险。4.基金管理人不保证本基金一定盈利,也不保证最低收益。本基金的过往业绩及其净值高低并不预示其未来业绩表现,基金管理人管理的其他基金的业绩并不构成对本基金业绩表现的保证。5.基金管理人提醒投资者基金投资的“买者自负”原则,在投资者做出投资决策后,基金运营状况、基金份额上市交易价格波动与基金净值变化引致的投资风险,由投资者自行负责。6.中国证监会对本基金的注册,并不表明其对本基金的投资价值、市场前景和收益作出实质性判断或保证,也不表明投资于本基金没有风险。7.本产品由华夏基金发行与管理,代销机构不承担产品的投资、兑付和风险管理责任。8.本资料不作为任何法律文件,资料中的所有信息或所表达意见不构成投资、法律、会计或税务的最终操作建议,我公司不就资料中的内容对最终操作建议做出任何担保。在任何情况下,本公司不对任何人因使用本资料中的任何内容所引致的任何损失负任何责任。我国基金运作时间较短,不能反映股市发展的所有阶段。市场有风险,投资需谨慎。
具身智能就是一班搞视觉的人想做机器人,又不想承认现在搞机器人那班人,从而使用的一个新词。
黄仁勋在ITF Wold2023半导体大会上表示,人工智能的下一个浪潮是具身智能(Embodied AI),即能理解、推理、并与物理世界互动的智能系统,比如机器人、自动驾驶汽车,甚至聊天机器人,他们都能很好的理解物理世界。同时,黄仁勋公布 Nividia VIMA,一个多模态具身视觉语言模型。据介绍,VIMA 可以通过视觉执行任务,也可以通过文本提示来做任务,比如重新排列这些方块以与场景匹配;它能明白概念,采取适当行动,他可以在演示中学习,并且将行为控制在合理范畴内。
1950年,图灵在他的论文一《Computing Machinery and Intelligence》中首次提出了具身智能的概念。具身智能(Embodied AI)指的是,有身体并支持物理交的智能体,如智能服务机器人、自动驾驶汽车等,具身智能机器人指的是,像人一样能够与环境交互感知、自助规划、决策、行动、执行任务的机器人。
它包含人工智能领域几乎所有的技术,包括机器视觉、自然语言理解、认知和推理、机器人学、博弈伦理、机器学习等,横跨多个学科方向,是人工智能的集大成者。
目前大部分深度学习模型训练使用的数据来自于互联网(Internat AI)而非现实世界第一人称视角只能学习到数据中心的固定模式,但无法在真实世界中直接学习,因此也无法适应真实世界。现实当中的人类是通过对现实世界的观察、互动、反馈等学习,大脑中的部分认知依赖物理身体与世界持续不断的交互,因此学习到越来越多的技能来适应环境。
斯坦福大学的李飞飞教授称“具身的含义不是身体本身,而是与环境交互以及在环境中做事的整体需求和功能。”上海交通大学的卢策吾教授通过猫学习走路来做出形象比喻:“如图中的猫样,主动猫是具身的智能,它可以在环境中自由行动,从而学习行走的能力。被动猫只能被动的观察世界,最终失去了行走能力。”
实践性学习方法与旁观型学方法的不同点在于,实践性学习是机器人像人一样,通过物理身体与环境的互动来学习,可以主动感知或者执行任务的方法来感知世界,对世界进行建模,增强对世界的认知和锻炼行能力。
拆解具身智能的应用过程当人要求机器人完成某一项任务,机器人要经过的步骤包括:能够听懂人类语言 分解任务规划子任务移动中识别物体 与环境交互 最终完成相应任务。这个过程涉及到自然语言理解、逻辑推理、机器视觉、运动控制、机器学习、运动规划、机械控制等。因此要实现完全的具身智能,依然有很长的一段路要走。
今年的 IROS(机器人领域顶级学术会议)将具身智能作为重要主题。目前谷歌、微软等技术团队、众多顶尖研究院所和高校已探索具身智能的发展落地。参考申万TMT 团队的《跨模态:更多应用场景出现,中国公司得到更大机会》、《Meta 发布 SAM 分割模型,或成 CV大模型第一步》,我们对最新的机器人算法模型进行梳理:
PaLM 包括了 40B 语言模型与 22B 视觉 ViT(Vison Transformer)模型,最终参数量达 562E。PaLM-E本身是个多模态的大模型不仅能理解文本,还能理解图片(ViT)可以理解图片中的语义信息。ViT将大模型能力泛化至CV领域,赋予大模型视觉能力。
两相结合,PaLM-E 模型具备多模态能力,能观察物理实体世界的信息,由大模型进行分析理解,再将决策结果反馈至物理世界,由此沟通物理和虚拟两个世界。
1)发现参数扩大有助于提升人机交互中的语言能力:语言模型越大,在视觉语言与机器人任务的训练中,保持的语言能力就越强,5620 亿参数的 PaLM-E 几乎保持了它所有的语言能力。
2)对于机器人的长跨度、长周期任务,以往通常需要人工协助, PaLM-E 通过自主学习全部完成,如下图左。
3)展示了模型的泛化能力,研究人员要求机器人将“绿色色块推到乌龟旁边”的指令,即便机器人之前没有见过这只乌龟摆,也能完成任务。
同时 PaLM-E 通过分析来自机器人摄像头的数据来实现对高级命令的执行,而无需对场景进行预处理。这消除了人类对数据进行预处理或注释的需要,并允许更自主的机器人控制。
SAM 证明,多种多样的分割任务是可以被一个通用大模型涵盖的。SAM 做到的分割切并不是 CV大模型的终点,我们期待一个模型可以无监督完成分割、检测、识别、跟踪等所有 CV 任务,届时视觉大模型应用会得到极大发展。
目前的机器人的应用基础是代码,工程师需要经常编写代码和规范来控制机器人的行为,这个过程缓慢、昂贵且低效,使用场景有限。ChatGPT 带来一种新的机器人应用范例通过大型语言模型(LLM)将人的语言快速转换为代码。在这种情境下,人们不需要学习复杂的编程语言或机器人系统的详细信息,就可以控制机器人来完成各种任务,更轻松的与机器人互动。
目前实验已经能够通过给 ChatGPT的对话框输入指令,让其控制机器人在房间中找到“健康饮料”“有糖和红色标志的东西”(可乐),以及一面供无人机自拍的镜子。
UC Berkeley、波兰华沙大学联合谷歌机器人团队发表论文《LM-Nav:具有大型预训练语言、视觉和动作模型的机器人导航系统》,该模型结合了三种预训练模型,从而无需用户注释即可执行自然语言指令。
其中,大语言模型(LLM)用于完成自然语言处理的任务;视觉和语言模型(VLM )将图像和文本信息进行关联,即用户指令和机器人视觉感知的外部环境进行关联;视觉导航模型(VNM)用于从其观察到的信息中直接进行导航将图像和将要执行的任务按时间进行关联
技术层面,我们认为具身智能最先解决的可能是人机交互问题,现有GPT等多模态大语言模型已经开始应用,让机器人听得懂人的语言指令,其次解决机器人的决策能力,即分析、推理、判断等能力,深度学习、神经网络、强化学习等将是机器人重要的学习手段,最后解决机器人的执行能力,让机器人处理现实中的复杂任务。
考虑到降本周期、应用难度、市场接受度等因素,我们认为最先应用的落地的可能是价格不敏感的、应用难度较低、市场接受度较高的机器人类型,排序如下:
接待机器人、迎宾机器人、服务机器人、导购机器人等,商用场景的价格敏感度较低,应用场景简单,市场接受度高,或成为最先落地的场景;
电力巡检类操作类机器人、轨道交通的检修机器人、矿山里的机器人、农业机器人、建筑机器人等,此类环境危险恶劣,对机器人的需求度高价格不敏感;
家务机器人、陪伴机器人等,toC 场景的价格敏感度较高,并且家庭是非结构化环境,外部环境和任务较为复杂,因此落地进度或慢于toB 场景;
人形机器人具有最完善的具身智能,能够集成各项人工智能技术,也是最为通用的机器人类型,潜在应用空间最为广阔,或成为机器人的终极形态。
具身智能(Embodied Artificial Intelligence,简称Embodied Intelligence或Embodied AI)是一种强调智能体与环境的交互和身体对智能的影响的人工智能研究方向。它强调智能体需要具备感知、认知、决策和行动的能力,以便与环境进行实时互动,并根据环境的变化做出相应的决策和行动。——以上是文心一言答的
我用通俗的话翻译一下: 就是机器人(不一定要人的形态)+ 多模态的大模型的一种技术结合的产物。会让机器人在0样本训练的情况下,听得懂基本的人话,目前让它可以执行很多基本的任务,比如让机器人挑选哪个是垃圾并倒入垃圾桶。
目前ChatGPT和文星一言这类是基于语言和图片模型构建起来的,但是这两个都是在手机上或者电脑上使用,比较局限。
机器人因为是仿真的人类,所以需要眼睛(视觉)、耳朵(听觉)、嘴巴(语言)、大脑(决策)、小脑(控制),是需要多个模型配合的,所以就出现了多模态大模型。
那么多模态大模型(Multimodal Large Model)是一种能够同时处理多种类型数据的模型,包括文本、图像、音频、视频等。
之前的机器人,可以理解,就是人类给他一个规划路径,他直接去执行,或者经过很多样本去训练,让他知道哪个是 残缺的零部件,让视觉机器人可以质检出来。
有了大模型加持之后,机器人则有了一些基本常识,比如知道颜色、知道哪个是花、哪个是狗?
甚至在没有联网的情况下,一些小的大模型可以直接做到端上部署,不联网,机器人也知道一些基础。
另外,有了大模型和现在高算力的加持,机器人的研发速度得到了爆发式的加速。
为啥稚晖君说他们开发智元远征只花了3个月时间?除了本身确实有比较好的技术积累。
主要还是融资比较顺利,有钱,只要有钱现在的仿真平台 是可以直接拉进度条的。
Isaac SDK Engine是一个框架,可以轻松编写模块化应用程序并将它们部署在真实的机器人上;
附带各种示例应用程序,从显示特定功能的基本示例到促进复杂机器人用例的应用程序,可以辅助开发人员快速开发;
结合了多种机器人技术,包括低级硬件驱动程序、安全规划算法、快速准确的计算机视觉、深度神经网络和高级人工智能,以支持复杂的机器人应用;
Isaac SDK与Isaac SIM协同工作,允许在虚拟环境中开发、测试和训练机器人,这可以大大提高开发效率并降低实际环境中的测试风险。
所以在稚晖君发布会的最后,他说他也要发布一款这样的仿真平台,提供给所有的机器人创业者,这故事就大了。
这也就是马斯克在一直追求的,特斯拉的擎天柱,吹的是不到2万美金,当然,马斯克之前吹过的牛基本都能实现。
如果线万美金的量产,你很有可能在未来的马路上,看到一个擎天柱开着特斯拉在给主人当司机。
因为如果只是跑滴滴,不需要擎天柱也能完成,人行机器人主要还能给你搬行李或者遛狗。
稚晖君也想对标擎天柱,所以他的目标是不高于20万人民币,场景是让机器人去当工人,卖给工厂。
20万买个只需要付电费和维修费,不会闹脾气,不会请假的劳动力,我是老板,我也愿意。
所以,我个人觉得国内教育系统还得再大改一次,现在还鼓励什么职业技术教育,以后工厂都是机器人了,而且机器人都会自己修机器人。那这群培养的技工,又去干嘛了?
从放出来的视频看,他基本已经可以适应很多工厂的环境,目测最大的问题,还是在解决成本控制问题。
另外一个玩家,就是 Google和英伟达,但这两个公司,目前感觉都不会直接干一个实物出来,还是平台思维,做工具。
Google目前最大的贡献就是做了一个Open X,是一个用于训练通用机器人策略的大型数据集,可以理解成是个通用模板。
这个数据集包含在22个机器人上采集的能够完成16万个任务的上百万条数据。谷歌在原有RT-1和RT-2的框架上,使用X-Embodiment数据集进行训练,得到的RT-1-X和RT-2-X模型展现出了很强的泛化能力和涌现能力。
谷歌团队开源了所有的X-Embodiment数据集以及RT-1-X的模型,但是论文中表现最好的RT-2-X (55B) 仍未开源,他比RT-1-X模型的鲁棒性和稳定性更好。
这也是美国公司开源的套路,就是表现好的模型留着,可能是要付费,一般的就放给行业上大家一起用用,从而加速整个行业的发展。
目前当红辣子鸡肯定还是智元机器人,就是稚晖君的,最新这一轮,比亚迪和蓝驰都投资了。
这个公司估值已经比较高了,如果是刚毕业几年的学生或者应届生进去我个人觉得都是非常不错的选择。
之前小鹏在深圳搞了一个做机器马的团队,我一直搞不懂是为什么,浪费投资人的钱嘛?
小米的机器人团队应该还是个编外部门,但是起步相对较早,也有点积累,雷布斯的精力可能主要集中在车上面了。
现在打出的口号是人形机器人第一股,终于找到一个比科大讯飞还会吹的公司了。
上海还有一家傅利叶,感觉上海已经把他们和智元机器人打造成一个名片了,既然是名片,钱肯定会来一波,我感觉这两家都不会差。
深圳还有两家比较看好,逐际动力,最近拿了一笔大的,学院派创业,做的四轮机器人,也挺有意思。智平方的郭彦东,前OPPO首席科学家。
但目前依然我觉得还是天使-A轮的风口期,还会有更多优秀的项目冒出来,或者大公司分裂出来。
1、国家支持,投硬件是符合国资胃口的,上市路径也清晰,肯定会有国资基金不断加码,钱相对好拿;
2、大模型的风口,具身智能是 机器人+大模型,大模型公司都融了很多钱了,也在想出路,和硬件结合是一个非常好的故事;
3、成熟的底层支持,英伟达和Google把前站都打好了,现成的工具,而且这个工具也在快速的迭代;
4、国内成熟的硬件供应链,智元机器人开发是在上海,东莞也有个硬件团队,为啥放在东莞,全球最成熟的硬件供应链,没有之一。快速验证,快速试错最好的地方。
可立宝的东西是很好玩,但是目前售价依然很贵,如果价格能够打下来,大概率可以变成下一个乐高。
具身智能通俗地讲就是CV+Robotics,任务包括visual navigation、visual language navigation、等。没记错的话这个词是几年前李飞飞提的,但在机器人届并不认可。不然搞slam的人无端端地被换了个研究领域,这挺扯的。