大模型发力，工业智能化将始于具身智能

科普时报记者陈杰

“当前，智能机器人所取得的进展主要集中在底层建模和控制方面，但传统物理模型难以适应交互环境变化，迫切需要将模型训练与深度学习融合推进。”近日，清华大学访问教授张建伟在首届国际基础科学大会“基础科学与人工智能论坛”上指出，机器人在面临未来动态和非结构环境下的相关研究已成为行业重要话题之一。

诚然，ChatGPT带来的智能化应用，已经让人们对大规模及算法快速进化下的智能机器人有了更高的期待。而在工业领域，机器人的广泛应用让工业自动化成为可能，智能化则成为其下一个目标。

(资料图片)

微亿智造创新系统部负责人马元巍博士告诉记者，工业界传统的自动化方案基本上都是将知识灌入机器人系统，通过编程的形式实现自动批量处理事务的功能。因此诞生了一系列计算机视觉的任务和机器人控制的任务，比如一个完整的抓取分拣操作，包含了3D感知、配准、点云分割、抓取点估计、任务重排、规划、2D校准等任务，通过强大的工业软件将这些技术点耦合在一起，催生了工业上的绝大部分应用。“这样的应用具有可控、重复性高的特点，但是整个方案实施成本高、柔性低、换线复杂，并且每个方案都是独特的，缺乏基准和技术一致性，非常不利于整体技术的进步。”

正因如此，几乎每个行业对自动化的“解决方案”这四个字有锥骨之痛。如何破解这一现象，则成为智能机器人产业发展的重点方向。

“人类经常被物化为工业流水线中最柔性的执行机构，是因为人观察和学习周围的环境，使用自己的大脑充分利用自己的身体完成各种复杂的任务，并且在执行中不断受到更新自己的认知。”马元巍表示，这种模式正是智能化追求的一种理想形式，也是1950年图灵在论文中提到的具身智能。

行业专家普遍认为，工业智能化发展始于具身智能。

具身智能是指具有身体的人工智能，需要与真实世界进行交互。这种交互不仅涉及视觉上的高维特征提取，还包括其他感官信息，例如听觉、嗅觉、味觉和触觉。通过这种交互，智能体可以获取物理世界的真实反馈，并通过反馈来学习并进化，可以帮助机器人更好地完成任务。

具身智能执行步骤一般为多传感器从真实到模拟，然后从模拟到真实的过程，具体的过程就是通过多种感知设备和算法，尽量将现实世界的信息能够还原到虚拟环境中，然后在经过模拟和规划后，将算法和规划应用到实际机器人上。

产业界以前为什么不提具身智能呢？马元巍认为，主要还是因为技术复杂，各个技术点发展不成熟。随着人工智能技术的快速发展，尤其是大语言模型彻底改变了语义理解和顶层规划的困难。“ChatGPT证明了大语言模型具有较强的综合思考、逻辑能力、数理能力，大语言模型越来越被证明，其作为机器人的上层逻辑规划器是非常有希望的，一举改变了机器人系统不智能的缺点。多模态模型的发展，为统一图像、行为理解、语音、动作等提供了技术基础。”

基于当前智能技术的发展，微亿智造提出了独特的工业智能机器人渐进式路线：以“眼手脑云”的实施架构为基础，聚焦于可累积数据场景和通用关键技术，打造虚实结合的应用产品，渐进式地实现机器人智能化。

纵观整个工业智能的发展，之所以远远比不上消费端的发展速度，其根本原因是相关基础元素没有被很好地数字化。有理由相信，随着各种大模型的发展和应用，机器人的感、知、控等技术将飞速发展，实现工业智能化的要素将逐渐齐备。

当然，这肯定需要一个过程。正如张建伟所言，未来的机器人大概率会是通用智能机器人，一个机器人既能够给你端茶倒水，又能到餐馆服务，还能到工厂干活。“这将是智能机器人产业的大目标，也是一个非常艰巨的目标。”

关键词：

相关内容