以生成式AI为代表的新技术浪潮日新月异,正带来一场深刻的技术、商业与社会变革,推动人类社会从信息社会向智能社会转变。全世界热切期待AI到来的同时,也非常关心人工智能将带来哪些新机遇、新挑战。
为此,我们发起了一项《AI & Society 百人百问》研讨,广泛邀请AI技术大咖、AI独角兽创始人、AI投资人,以及社会学家、心理学家、国际关系专家、科幻作家等,用多元视角,深入研讨人工智能技术引发的广泛影响,发掘AI时代的共识和非共识,共同推动人工智能始终朝着“助人发展,与人为善”的方向可持续发展。
本期,我们非常荣幸地邀请到肖仰华老师,为我们开启一次AI的思想远航。
复旦大学计算与智能创新学院教授、博导,上海科学智能研究院AI科学家,上海市数据科学重点实验室主任。长期从事大数据、认知智能研究。 曾荣获ICDE2024十年影响力论文奖、ACL2023杰出论文奖。发表 CCF-A 、B 类等论文 300 余篇。出版学术专著与教材三部。曾获华为、阿里、美团等机构的科研奖项。担任 Applied Intelligence 等多个国际期刊副主编或编委。
精华要点:
1.过去几年人工智能的发展呈现出两条非常清晰的脉络,一条是以AIGC或者叫做生成式人工智能为代表。另一条是以具身智能为特征的发展方向。其中,为什么我们说AGI是一场技术革命,要从三个基本方面去看:一是这个先进技术是不是具有基础性。二是它对生产效率的提升。三是对整个社会上层建筑的影响。
2.具身智能还有下一个阶段,就是身心协同。其实在哲学层面很早就思考过这个问题——人类水平的智能何以诞生?可以想象一下,你身体很舒畅的时候,你的心情就很开心。所以身体是会对大脑有一定的塑造作用,我们运动,跑步到一定程度,大脑就会分泌多巴胺,身体对大脑是有着一定的影响作用的,反过来大脑也会间接的影响身体,因此身体与大脑是双向塑造的。
3.现阶段的AI,数据的质量和训练试错的策略,成为最关键的两个因素。也就是说,数据的规模让位于数据的质量,算力的规模让位于算法的设计。
4.我们业界一直有一个基本的观点就是模型算法或架构是模型的下限,而数据决定模型的上限。从行业来看,央国企等大甲方的主要职责是要能够把自己行业数据整理好和清洗好,这是发展行业AI的关键。
5.具身智能ToC端的应用的核心是感性能力,如果将来机器人真的要走进千家万户,它必须要能够跟我们共情,能够理解我的情感诉求,才有可能真正在 ToC 应用当中发挥作用。
6.某种程度上,我们今天采集的数据离具身智能涌现出泛化性所需达到的临界点,还相差非常大的数量级,相较于语言大模型可能不止两三个数量级的差别。促进具身智能尽快接近临界点有两个思路:一是在数据量不足的情况下可以增加训练量。二是弄清楚人类的泛化机制,包括人的举一反三能力和归纳演绎能力。
7.从人工智能发展的思想源头来讲,我们到现在也没有跳脱上个世纪五六十年代科学家给我们绘制好的三条路线框架——符号主义、连接主义和行为主义。这三个范式仍然是今天我们构建一个完整的人工智能解决方案的最最核心的思路。
8.具身智能机器人,将来一定走的是场景化的路径,一定走的是任务化的路径,可以规模化但集约化要适度,要考虑机器人的身体结构是否切实可行,而不是植入更多能力,这是违背产业逻辑的。
9.人的身体是一种赋能,但同时也是一种禁锢。人的身体能力在某种程度上限制了我们的物理边界。人不可能依靠两条腿跑步到月球,这恰恰是人的身体对自身的限制。将来我们要反过来思考,为了让AI不危害人类,我们要给AI配置身体,通过身体机能的限制,来保障人类安全。
10.有身体的AI确实能在物理层面上消灭人类,但更值得重视的是有智商的AI给人类带来的风险和破坏更大。我们怎么防御AI带来的风险:一是要做好风险评测,进而发展出AI风险监管师这一“拔插头”的职业。二是要在方法上加大AI的对齐,首先要解决人类社会价值观对齐的问题。
11.我们如何在智能时代去防止人的退化,我觉得要做几件事:第一,要建立起人工智能应用的基本准则。其次,要大力发展教育学和心理学。第三,要向外求索,拓展我们的认知边界,建立新的价值体系。
在未来的教育变革当中,我们不能为了未来时代的这种高阶能力而完全丢掉现在的核心技能。未来的工作不再是谋生手段,而是享受工作给你带来的一种体验。
全文实录
AI&Society百人百问:
最近三年AIGC带动了AI技术落地应用的浪潮,但业内也有观点认为具身智能才是AI发展的关键方向。这两种技术路线现在可以说是并驾齐驱。您在大模型和大数据领域有很深的研究,从您的视角出发,请帮我们勾勒一下这个两种技术各自共同具备的一些革命性的特质是什么?
肖仰华:
过去几年人工智能的发展呈现出两条非常清晰的脉络,一条是以AIGC或者叫做生成式人工智能为代表。另一条是以具身智能为代表。
像ChatGPT这样的大模型本质上都是以让机器具备人类大脑的认知能力为目标,简单来讲就是让机器学会像人类一样思考。其实早在上世纪五十年代,图灵在他的开创性论文(Can Machin e Th ink?)里就讨论过机器能否像人类一样思考这一深刻问题。也就是早在计算机设计之初,科学家们就在思考这个问题。今天的生成式大模型进展,本质上就是在回答这个问题。一定程度上,我们可以认为现在的大语言模型学会了人类语言的生成能力,以及语言背后的逻辑思考能力,甚至具备人类大脑所具备的很多认知能力。
另外一条路线是具身智能,它的根本目的是让机器习得人类身体所具备的感知和行动能力。人的智能除了大脑所呈现出的认知功能之外,还体现在人类身体五官感知世界的能力,比如,用眼睛去看,用耳朵去听,用皮肤去触摸;并进一步能够且在感知能力加持下与复杂世界进行高效、流畅的交互。这种感知和行动能力主要是由我们的身体所决定与赋予的。因此,具身智能的根本目的是在于让机器模仿人类身体感知和与世界交互的能力。
这两条技术路线都是机器智能通往AGI发展过程中必须经历的两个关键智能形态。事实上,认知智能与具身智能的发展还可能有下一个重要的里程碑式的形态 (或阶段) ,就是身心协同。
现在,机器有了大脑和身体,但在身心协同方面与人类智能还存在本质的差距。其实先哲们很早就思考过一个深刻问题——人类水平的智能何以诞生?当时就有好几个对立的流派,比如,有人认为我们的大脑决定了我们的智能,但后来又发现身体对大脑有着不可或缺的塑造作用。我们可以想象一下,你身体舒服的时候,你心情就很高兴;你身体很不舒服的时候,你的心情往往好不到哪里去。我们跑步到一定程度,大脑就会分泌多巴胺,让我们兴奋、开心。你的身体的能力还决定了你的行动范围,从而从根本上决定了大脑的认知边界。人类大脑的认知模式很大程度上是身体能力的某种隐喻。比如我们经常说,为人做事要拿得起放得下,这本质上是对手臂能力的一种隐喻。所以身体是会对大脑的功能有一定的影响甚至是塑造作用。反过来大脑也会影响身体,比如大脑时刻在控制身体与环境的交互。因此身体与大脑是双向塑造的。
现在看来,机器是否能够迈过身心协同这关将至关重要。目前机器在身心协调方面仍然有各种各样的问题。单独看,当下的机器人的身体越来越发达,机器所能实现的感知与交互能力日益强大;大模型也越来越强,机器所能实现的认知能力也飞速发展。但是把这两个组合在一起时,我们会发现机器人会做出非常“傻”的行为,这本质是因为机器身心协调能力的缺失。
那么上述技术路径是否构成一场技术革命呢?从长期来讲,这涉及到一个根本问题就是大脑还是身体,或者说大脑的这种认知能力具有决定性,还是我们身体所呈现出的感知、交互、行动能力,对产业与社会发展更具决定性、革命性的、持久性的影响与作用?
我们现在已经很清晰的看到,当 AI 具备了人类的认知能力,也就是当机器有了大脑之后,这一定是一场技术革命。为什么我们说这是一场技术革命,要从三个基本方面去看:
第一,这个先进技术,是不是具有基础性。传统的技术革命,比如蒸汽和电,它们都成为一种基础设施,几乎无处不在,所以基础性是成立的。
第二个就是它对生产效率的提升作用。作为一场先进技术的革命,它是成倍的甚至呈指数级提升生产力。当前,在 AIGC 的加持下,我们有很多工作,尤其是脑力工作,比如说合同审校,绘画制作,文本生成等工作的效率都是成百倍、千倍的上升。有了AIGC之后,各种论文的生产量极大提升,以至于大家都被淹没在论文的海洋中。这确实是论文生产力的极大提升。如果没有AIGC,我们很多学生都会苦于怎么把文字写好,但今天他们已经没有这种苦恼,所以这是生产力的证明, AIGC 的确是一种生产力。
第三就是它对整个社会上层建筑的影响。当 AI 学会了思考,具备了人类大脑的能力,它对整个社会的影响的广度和深度是前所未有的。但凡智力所及的人类的所有生产和生活活动都会被生成式人工智能所染指。比如,听报告,开会,都会用脑子,就可以研发AI产品进行会议速记。所以有脑子的AI,其应用会渗透到社会的每一根毛细血管,是无处不在的。其大量应用也可能导致人类思维的懒惰,因此其它对整个社会的影响也是十分之深远的。已经有大量的话题在讨论 AIGC 大量使用之后,人的脑子如果不用是不是会废掉等等的话题,这些本质上都是有脑子AI的影响的体现。
所以,根据上述三个标准,AIGC 或者生成式大模型一定是一场新的技术革命。但是反观具身智能,如果其目的仅是要让机器具备人类的身体或动物身体的感知和行动能力。这种因为具有身体能力对生产力的提升的作用可能还抵不上一次物种的大规模繁衍,或者说一个人口生育的激励政策。
假设现在全球人口是80亿,将来有80亿的机器人在为我们工作,这80亿机器人的生产能力,从某种程度上完全可以通过人口翻一倍来达到。考虑到机器的研发、维修,一台人形机器所创造的生产能力可以等价于一到两个人类个体的生产能力,等价于我们人口增长一到两倍。所以从这个意义上来讲,机器有了身体之后,对生产力的提升有一定的促进作用,但是这个促进作用是一个常量性的,这与让机器具备人类水平的思维能力相比较而言,对生产力的解放作用是不同能级的。尤其是具身智能的人形机器人,它的商业场景仍有待挖掘,到底哪些场景是一定需用到人形机器人?大家会觉得我们不是有很多要用人的身体才能完成的工作吗?比如,老人的陪伴。但是一旦人形机器人真的成熟到足以进入到家庭进入到生活,它的发展还会受到另外一个我们不可忽视的因素的影响,就是安全和伦理这两个因素。
从安全考量看,如果一个机器人在给你服务的话,它是会跌倒的,它是会误伤人类的。出于安全考量,你也会限制它的应用。从伦理上的考量看,要考虑的更多。比如,我们将来的技术可以很成熟,机器人可以很廉价,但是对于老人的陪伴,再精心照顾的机器人,也抵不上来自于子女的问候和陪伴。
从这个意义上来讲,安全和伦理一定程度上会限制人形机器人的应用场景与规模。
因此,让机器具有身体与让机器具有大脑,从对社会与生活的影响力来看,前者要有限的多。今天我们所看到的具身智能发展,很大程度上是因为AI 在模拟人类大脑方面取得了巨大进展与突破,很自然的延伸到了让 AI具备人类身体能力。所以我更倾向于认为当前具身智能的发展仍是认知智能取得了突破之后的技术延伸;即便人类身体水平的具身智能取得突破,其对产业与社会的影响也不具有机器实现人类水平的认知能力更具根本性与革命性。对于人而言,没有大脑的身体,充其量是行尸走肉。对机器而言同样如此,唯有认知能力的加持,具身能力才具革命意义,才具产业价值,才能形成真正的新质生产力。
AI&Society百人百问:
谢谢肖教授,刚才您给了AI的革命性的特质一个比较完整的概括。就是它是否具有像水电煤这种基础性,对我们的生产力指数级的提升,以及对社会经济生产生活的这种颠覆性作用。这应该是您判断AI具有革命性的一个核心特质。您说到这些让我想到数字化,或者互联网,它是具备这三种特性的。那么下一个问题,就是我们从数字化到智能化,或者我们数字化的铺垫做完了以后,我们迎来了生成式人工智能。那么它的进化路径里,哪些是具有这种底层规律的,这种底层规律是否可以帮助机器人走向通用,大家都认为具身智能具备成为一种通用人工智能的可能性,它的这种规律和线索,您能再帮我们去抽象提炼一下吗?
肖仰华:
我们现在反思生成式人工智能近两年的发展,可以发现它的确是存在着一定的模式或者说规律的。其中最典型的模式就是大家津津乐道的 scaling law,也就是海量数据和大规模算力对于激发 AI 的能力起到了决定性作用。大模型厂商总体上仍然奉行scaling law,技术路线趋同。各大厂商为了进一步提升自己的大模型或者具身智能的能力,核心工作就是整理收集更多的高质量数据,采买或者租用更强大的算力,用更强大的算力和更多的数据来激发大模型的潜力。基于Scaling law的发展模式成就了生成式人工智能一系列进展。一定程度上Scaling law也延续到了具身智能,以及其它形态智能的发展。我们看到具身智能的从业者们都在想尽办法收集、采集、合成、生成更大规模、更高质量的具身数据,本质上都是因为从业者们笃信scaling law对于发展具身智能仍然有效。
但是,在当下再回顾、再反思生成式人工智能的发展路径,我们必须重视Deepseek等强思维大模型崛起背后所代表的大模型发展新模式。DeepSeek特别是其R1版本的成功发布,宣告了大模型后训练范式的崛起,宣告了大模型的发展不是只有海量数据和算力这一条路径可走。
实际上,Deepseek R1 (此前还有OpenAI O1) 的成功代表了后训练范式的成功。在后训练阶段我们主要是使用强化学习算法,让 AI 自己自发的进行方案枚举与评价,训练大模型自发发现解决问题的有效路径,激发 AI 的理性思维能力。对于基于强化学习的后训练范式数据规模与算力规模不再是决定性因素。而数据的质量和训练的策略,就是试错的探索尝试策略,成为最关键的两个因素。我们已经见证数百条精挑细选的复杂思维指令,就能显著提升后训练的水平。精心设计的候选方案枚举策略、奖励函数与奖励策略,往往成为基于强化学习的后训练成功与否的关键。
类比于人类的认知发展过程,如果说预训练是在发展大模型的知性能力,那么后训练则是在发展大模型的理性能力。知性能力追求知识的渊博与完整知识体系的建构;理性能力则侧重知识应用的智慧与思考的深度。知性能力的发展求全求广;理性能力的发展则求精求深。所以伴随着大模型训练的重心从预训练转向后训练,数据规模让位于数据质量,参数规模让位于算法设计。
依赖强大算力与海量数据的预训练,依赖精细算法与数据质量的后训练,对于发展具身智能来讲是同样适用。具身智能也在经历基于预训练的基础模型与场景与任务适配的后训练两个基本阶段。Scaling law对于具身基础模型的发展至关重要,而后训练阶段则走向高质量数据集建设与算法的精心设计的发展模式。这两种范式同样重要,适用于大模型发展的不同阶段,值得我们重视。
AI&Society百人百问:
谢谢肖教授,刚才您提到了scaling law 、强化学习以及数据规模等,都是能很好去推动具身智能发展的。下一个问题,就是您刚才提到的具身智能,它的一些算法就是在具身智能里面,它是不是也有一些模型,这些模型进化和刚才您说的 scaling Law的数据工程,它是不是有一些关系?同时还有一个延伸的问题就是优化模型的架构,比如说现在 transformer 基础上,我用 diffusion 这种训练的方式,我可以更好的去实现一些泛化能力或者生成高质量的成果,那么它这种模型架构的优化是不是可以在一定程度上解决数据工程的这种难题?
肖仰华:
这是一个深刻的技术问题。其实业界一直有一个基本的观点:模型算法或架构决定模型效果的下限,而数据决定这个模型效果的上限。比如,大家都使用 transformer模型架构,那么在数据同等条件下,模型效果差异往往是微末的。即便在模型方面做出创新,效果提升往往在5个百分点以内。但是在数据方面的改进却往往能带来立竿见影的效果。在相同的资源投入下,数据方面的努力有效果往往优于在模型架构或者在算法上努力。所以,假如我们要想在短期之内看到模型的本质的提升,可能要花更多的资源精力在数据上。但是,假如数据已经趋同,就是大家的数据已经是花了大力气也并不能比你的数据质量好多少,这个时候我们的焦点就会转移到模型上,包括它的架构和算法。是关注数据还是模型层面的优化,在不同的发展时期,侧重点是不一样的。
说到模型和数据之间的关系,我们可能从厂商研发的成本和投入来讲,百分之七八十的大模型研发人力成本可能还是花在数据上,剩下的人力成本是消耗在算力运维与算法设计方面。发展大模型、让具身智能具备持续进化的能力,也仍然要从数据的源头去找思路。现在业界关注的焦点是后训练,通常借助强化学习,更加重视高质量数据的筛选,来激发提升大模型的理性思维能力。所以大部分研发工作都是花在了数据上。
让大模型走向千行百业的关键在于整理好各行业数据:行业大模型落地的关键就在于把行业数据治理好、汇聚好,并转换成高质量的训练语料。大模型走向千行百业的主要瓶颈还是在数据上,我们仍需消耗大量的资源与精力从事行业数据和语料的建设。数据日益成为人工智能产业发展根本瓶颈,日益成为共识。今年2月份以来,我国各级政府也在从上往下地推动加快人工智能高质量数据集的建设与供给。很多大型企业作为大甲方都关心如何拥抱大模型机遇,事实上作为甲方可以不去投入精力去研究模型,但是你一定要投入精力去准备好模型训练的数据,只有把自己行业、企业数据整理好和清洗好,才可能炼制好自己的大模型,所以数据是非常关键的。
而数据到了今天,也面临着数据墙的问题,就是互联网上公开的高质量数据基本上已经到了一个撞墙的阶段,基本上该用的都用完了,数据问题也因此而日益突出,这也是为什么越来越多机构、学者呼吁加大数据集的建设与供给的原因。
回到数据本身,我们需要处理好数据和模型设计之间的关系。事实上,数据方面的短板一定程度上可以通过模型的优化来进行缓解,尤其是在模型训练的策略和方法上、算法上。数据优化一定程度上等价于模型参数分布的优化,等价于数据采样策略的优化。所以可以通过数据采样策略、模型参数优化等方式来缓解数据缺失或者分布失衡、暴露偏差等问题。
还可以通经验知识植入来缓解数据问题。通俗地讲,就是数据不够知识来凑。数据的结晶是知识。比如,一大堆数据所蕴含的规律、模式、函数关系,通常可以沉淀转化为行业知识、学科知识等。所以当数据不够的时候,我们可以通过先验知识来弥补。通过经验知识的有效牵引,一定程度上可以弥补人工智能训练数据不足所到来的问题。但知识注入不是从根本上解决问题,踏踏实实的培育好数据集,才是构建AI时代护城河的根本路径。
再回到具身智能,可以说数据问题尤为突出。反思今天的具身智能的发展路径,数据问题令人担忧。从现状来看具身模型的训练数据量可能还远不足以支撑它的泛化能力的涌现。大规模语言模型被认为具有一定的泛化能力,很大程度上是由足量数据的大规模训练实现的。当前具身智能泛化能力较弱,很大程度上就因为它的训练数据量还远没到能够激发模型泛化水平的临界点。生成式语言模型也是在GPT时刻,训练量达到一个基本门槛,才能成就所谓的智能涌现。具身智能智能涌现的临界点可能还远未达到。
我们看一下当前具身模型训练的数据量。当前具身模型多采用基于 VLA (Visual-Language-Action) 的多模态联合训练模型,基本思路是将视觉、语言、动作三个模态对齐之后转换成token。当前最大的具身数据集所能支持的token量差不多在百亿级别。相较于语言模型,动辄数万亿token量,从百亿到万亿,训练数据量相差两个数量级。我们再来看模型参数规模,具身大模型参数目前在数十亿规模,而最大的语言模型已经达到万亿参数规模,参数量上也相差两到三个数量级。从这个角度来看,具身智能的当前发展阶段还处在语言大模型的初期BERT时代,还没迎来它的ChatGPT时刻,所以具身智能的发展对数据是极为饥渴和迫切的。
那么有没有思路去缓解这些具身模型训练的数据饥渴问题呢?目前工业界和学界普遍采用真机数据+仿真数据+合成数据的多元数据获取思路。比如,用十多万个机器真机采集各类任务的动作数据,用人类动作视频数据来合成机器动作数据,还可以在仿真环境下去模拟的复杂环境下的动作数据。真机采集数据受限于高昂的成本,总体上数据规模有限。合成与仿真数据都不是具身原生的方法,其数据质量 (真实度、精细度) 离真机采集数据尚有距离。当前的具身智能数据发展策略总体上仍在代价、规模、质量方面存在诸多局限,迟滞了具身智能 GPT 时刻的到来。
如果我们对比生成式人工智能的数据基础,会发现像ChatGPT 这类大语言模型,其发展本质上得益于互联网蓬勃发展所到来的丰富数据积累。互联网先后经历门户网站、社交平台不同阶段的发展,积累了海量文本、图像等数据,为语言模型迎来ChatGPT 时刻奠定了数据基础。互联网的发展无意中成就了生成式大模型的发展。技术的演进往往存在着无心插柳柳成荫的现象。另外一个典型的例子是验证码的大规模应用成就了高水平的图像识别技术。为了人机区分而设计的验证码无意中收集了海量的图像标注数据,成就了Google在文字图像识别的先进水平。
今天具身智能的发展,某种意义上还缺乏类似发展AIGC的天然数据来源。具身模型的发展有可能依赖于具有动作采集能力的大规模穿戴设备的普及与应用。如果我们今天大量使用各类穿戴设备,具备场景识别、环境理解以及动作捕捉能力,是有可能形成大规模真实动作轨迹数据的,进而从根本上解决具身智能发展的数据瓶颈问题。当然,当前的穿戴设备仍然难堪动作捕捉之用。
AI&Society百人百问:
您刚才讲了很多比较重要的问题,现在的具身智能的技术路线并没有收敛,包括您刚才讲到它需要机器人和复杂世界去交互,才能更好提升它的智能。其实一个比较典型的应用就是自动驾驶,比如特斯拉用的FSD 路线。从学术上来讲,李飞飞教授提出的世界模型,也是从2d 图像,向3d 视频或者三维图像数据去发展额。另外您刚才提到一个问题,我觉得非常有意思,您说需要高质量的数据来生成来提升智能的理性思维能力。我想请教您,您觉得现在具身智能在执行这些任时,都在发挥它的理性思维吗?包括您刚才讲到经验知识,它是非数据的,是人类的知识,人类的伦理。包括这些多模态的感知能力,我增加的也是机器的理性思维吗?比如,我是一个小孩,我的五感都非常灵敏,但很难说小孩就具有一种理性思维。
肖仰华:
这个假设非常好。其实这波人工智能发展是在倒逼我们去思考人的智能,或者说我们更多的是在借用人类智能的认知框架在分析人工智能。其实康德曾经把人的能力分成了知性、感性和理性三种。
知性通常使用“学富五车”这样的词汇进行形容,比如你知道复旦大学名字的出处是什么,这都是知性能力的体现。但有知性不代表有理性。理性集中地体现在强思维、强逻辑能力。有知识不代表知道知识如何使用。比如,复旦大学以此命名意味着什么。我们知道知识如何应用,知道何时何地何种情况使用用何种知识解决何种问题,这些智慧都是理性能力的一种体现。
设想一下古代的苏格拉底、柏拉图跟我们今天的小学生比,他们具备的知识量肯定不如我们今天的小学生,但是现代人即便是成年人又有多少人敢与这些人类导师比肩理性思维能力呢?要知道二千多年的人类文明的发展都被视作是对这些轴心时代的开启者的思想的解读与脚注而已。所以有知性未必有理性。人类理性与知性之分,对我们研判大模型的能力具有启发意义。GPT4之前的绝大部分大模型主要是在训练知性能力,习得了越来越多的知识。我们总觉得国产大模型跟国际上最先进大模型比,智商会低一点,低在哪里?其实主要就是低在理性能力,也就是知识的使用能力方面。随着大模型训练数据的趋同,知识贮备或者说知性能力方面不同大模型相差不大。但在理性发展水平方面却大相径庭,特别是深度思考大模型OpenAI o1和DeepSeek R1诞生之后。
理性能力最为集中的体现就是反思能力,直到 OpenAI o1 和 DeepSeek R1 ,这两个大模型开启了大模型反思能力。我们稍微追溯一下o1 也就是去年10月份的事。DeepSeek R1是今年2月份的事,大模型学会人类的理性思考能力,也就是最近的事。包括传说中的GPT5都是希望让大模型具备更强大的理性思维能力。那为什么一定要具备理性思维能力?因为大部分的 toB 应用需要要让机器有人类水平的理性思维能力。toB应用本质是让大部分机器具备行业专家的能力。人类专家有专业知识、有强大专业思维能力,能够利用所学知识去解决行业问题,理性能力决定了他解决问题的水平。
人的能力除了刚才讲到的知性和理性,另外一个是感性能力。我们经常会觉得跟身边某些人说话聊天,有如沐春风的感觉;或者就像泰戈尔说过,“每个人都应该活成一束阳光去照亮你身边的人”。这些就是感性能力的体现。
感性能力对人类的生存与体验至关重要的,它形成了我们的气场,塑造着我们的魅力,有如香氛一半熏陶着我们的人际关系。人工智能其实一个重要的发展方向就是在模仿人类的这种感性能力。我们看到OpenAI 的GPT-4o 就是定位在感性能力发展,它能够根据你的语言语气语调,理解你当下说话时情感,并进而产生丰富的共情表达。比如,你很开心的说了一句话,它也会使用欢声笑语的风格同你聊天,这就是感性能力的呈现。试想一下,如果GPT-4o这种共情能力跟具身结合,感性的语调再配合上手舞足蹈与欢快的表情,所产生的感性效应则会远远超出苍白的文字。身体的感性能力,决定了机器能否走进千家万户。机器要想成为人类的生活伙伴必须通过感性能力的考验。所以在 ToC 应用的核心是感性能力,没有人愿意向一堆没有温度的铁别诉说烦恼。
所以大家现在去看 OpenAI 的布局就很清晰了,他在机器的知性 (GPT4之前的系列模型) 、感性 (GPT-4o) 、理性 (O1) 三方面都有布局。不得不说,OpenAI的产品规划们是深通人性的。
AI&Society百人百问:
谢谢肖教授,您刚才说的我深有体会,让我联想到我在用大模型时,会聊一些女生的话题,我发现大模型的共情能力比真人甚至家人还强,同时它很有理性,懂得控制这种情绪,它的表达也很有边界感,不会造成人机关系上的摩擦。正像您说的,未来的AI可能会向感性、理性、知性融合的这一趋势发展。再回到机器人,您提到它的价值在于和我们真实世界的人互动。回顾过去2年左右机器人所展示的,比如,从事做饭、叠衣服、冲咖啡等家政服务,我觉得这些都属于家政的基础技能。那么从特定任务出发,到真正实现机器人完成复杂任务。在实现这一目标的过程中,机器人有哪些关键的泛化能力需要突破,也请肖教授谈谈您的想法。
肖仰华:
泛化水平是评价AI的最重要维度。我从数据角度谈谈泛化的难点。
从业者的一个真切体会就是具身智能的泛化十分困难。为了理解这种困难,不妨先考察一下AIGC的泛化性,生成式大模型的泛化性看上去不错。比如聊天,不管何种形式的语言表达,大模型的理解基本不会再有偏差。本质上大模型的这种泛化能力来源于海量数据的训练,数据达到一定规模,触发了泛化水平达到临界点。如果没有近万亿 token 的训练,语言大模型可能也无法达到人类水平的泛化。数据量变,才有可能换来智能泛化的质变。
回到具身智能,其数据要产生并汇聚到足以引发泛化质变的地步仍然十分艰难。为什么积累不到大规模的具身数据?因为身体在环境中的体验、交互看似简单,但对于计算机实现而言实则复杂。
首先,个体体验表达困难。比如,我现在坐在这个椅子上,如此简单的环境交互。但如果要对其进行精准建模则是异常复杂。为了描述“我很惬意的坐在椅子上”这个体验,需要我描述我当下的外在身体状态与内在心理状态,它们共同构成了我的当下体验。人类的体验,如果要付诸完整、精准表达,将会形成高维数据。比如,仅是为了描述我当前的坐姿,就需要对“臀部 [位置],双腿[分开程度],膝盖弯曲约[角度]度,双脚[着地方式],躯干[挺直/前倾/后靠]程度,腰部[是否有支撑],肩膀[高低/前后位置],双臂[具体姿态],手部[位置和动作]。头部[朝向和角度],整体重心[分布情况]……” (来自于大模型的回答,经笔者确认) 。这还不包括此刻我眼睛所见、耳朵所闻、皮肤所感、心里所想。单单是个体体验数据完整、清晰表达就非常困难。
第二、环境表达困难。人是与环境交互的,而环境又是非常复杂,难以精准刻画。当下,世界模型研发吸引了业界的高度关注。世界模型的本质就是让 AI 能够建模这个复杂世界。我们人所身处的环境世界是多样、易变的。比如,我的办公室与其他人的办公室环境不一样,就连一个台灯都有可能千差万别。环境还处于快速变化之中。因此,对环境建模是特别困难的。
雪上加霜的是,即便相同的环境,不同的个体、不同的场景、不同的任务、不同的时空,其交互的呈现仍有差异。环境复杂性、个体体验复杂性,再叠加了由个体与环境交互所产生的复杂性,就造成了具身智能发展的数据复杂性。因此,提升具身智能的数据规模与质量有着重大技术挑战的。
某种程度上,我们今天能够采集、收集的具身数据,其规模即便与语言模型涌现相比也还差两到三个数量级。即便达到万亿token规模,具身任务的复杂性决定了其离触发具身智能“涌现”所需的数据规模与质量仍然相去甚远。
具身智能绝不比语言智能简单。在文字、符号空间的计算与推理远难于说不清、道不明的复杂世界交互。越是接近人类认知的抽象空间,对于计算机实现而言越是简单;越是接近人类感知行动的具体经验,对于计算机实现而言越是复杂。某种意义上,对于计算机实现而言,端茶倒水的复杂性远甚于吟诗作画。维特根斯坦说过"凡是能够言说的,都能够说清楚;而对于不可言说的,人们必须保持沉默。"具身体验多多少少就是难以言说的任务。某种意义上,实现具身智能就是在挑战维氏所认为的“必须保持沉默”无法完成的任务。对此,我们这些AI实现者们应该保持敬畏之心。
真正的英雄最为难能可贵的品质不就在于认清困难真相之后,仍然迎难而上么。我们有没有办法促进它尽快接近这种临界点。我觉得可能会有几个思路:
第一,我们不能像语言模型那样去寻求暴力的数据堆积与汇聚方式。我们必须承认具身数据采集的困难(样本稀疏、不完备、成本高),转而寻求加大反馈和试错的训练量。简言之,数据量上不去,但可以堆训练量。比如,我们将来可能有大量的实体机器人或者虚拟机器人,让这些机器人在现实世界或虚拟世界中进行交互、探索、试错、反馈,通过大量的训练促进它的泛化。具身学习的本质就是“尝试”。再科学、完美的游泳教材,再多的游泳演示,如果你自己不付诸亲身尝试,也学不会游泳。即便我们能够使用最为先进的传感设备把泳池环境与水波流体力学进行完美建模,如果你不亲身下水感受,你也无法在水池中漂浮。身体的能力,从来都是的具体任务的尝试与实践中形成的。
第二,是借鉴并学习人类的泛化迁移机制。人的泛化能力体现在举一反三。人类之所以能够做到这一点,有两个非常重要的认知机制。一是人有类比能力,比如,当我们看到一个类似锤子的工具,会很自然联想到过往锤子的使用经验,并将其验迁移到这个新工具,从而掌握这个新工具的使用,这背后是人类对已掌握知识与技能的合理泛化和适度迁移。人类日常生活的举例、建模、隐喻本质上都是类比能力的体现。类比是能弥补数据稀缺而泛化不足的一种有效机制。另一个是人的归纳和演绎能力。人一旦具有丰富经验之后,是能够在经验基础之上进行归纳的,会把经验归纳成模式,再把这些模式推而广之,也就是演绎到新的场景。这种归纳总结再去演绎的方式,它也是一种实现泛化的思路。我们可能需要借鉴人类智能泛化的机制去考虑如何实现具身智能的泛化。
AI&Society百人百问:
谢谢肖教授。您刚才说到的智能泛化的源头,这是不是一种技术范式的一种反思。我在学习人工智能的过程中,了解到有三种范式,就是符号主义、连接主义和行为主义。就像您说的机器人要和复杂环境交互,其实更像是一种行为主义的方式,再衍生出强化学习,就是我的行动和目标之间的这个距离在不断的校正。刚才您提到的关于心理活动的表达,比如,一个人会察言观色是不是就是一种对图像或者泛图像的识别。能不能请您从范式的角度,帮我们再去提炼一下,实现AI的这种泛化能力,将有一个怎样的新的解题思路,或者说解题思路上有哪些继承和发展?
肖仰华:
从人工智能发展的思想源头来讲,虽然AI技术已经十分先进,但是其发展路径仍旧也没有跳脱上个世纪五六十年代科学家给我们绘制好的三条基本路线。也就是你所提到的符号主义、连接主义和行为主义。
符号主义的核心思想是让机器具备人类的知识,进而形成智能。人类发明了语言和文字,并将丰富的世界经验沉淀为了符号知识。这些符号知识在代际间传承推动了文明的持续进步与发展。比如,我们教科书中的内容,就是各种知识的表达,来源于人类经验总结与提炼。符号主义认为符号知识以及基于符号的推理共同构成了智能的核心。第二路线是连接主义,本质上是模拟人类大脑的神经实现机制。大脑中的神经网络经过足够训练就能习得一定的解决问题的模式。比如小学生背诵九九乘法口诀表,不会去想为什么三乘三等于九,而是通过多次训练建立起三乘三这个输入与九这个输出之间的统计关联。绝大多数死记硬背本质上就是训练、强化自己神经网络记住某个输入和某个输出之间的关联。人类的视觉、听觉等五官的感知能力大多数都是遵循类似连接主义的实现路径。
除了上述两个范式之外,人工智能实现的第三种范式叫做行为主义。认为智能是在复杂的环境中通过交互反馈进化而形成的。比如,我们一开始练习打乒乓球,经过多次尝试,多次失败后的反馈,很快就能习得发球的准确姿势。人类和动物绝大多数身体技能的习得,问题解决策略的习得,都是遵循行为主义范式。行为主义强调的是通过试错与探索学得技能或者知识。有一本书叫《为什么伟大不能被计划》,它指出伟大的成就是靠试错试出来的,而不是靠经验知识规划出来的。行为主义最为中的实现方法之一就是强化学习算法,深度思考大模型的后训练,机器抓取动作学习都依赖这一方法,本质上都是走行为主义的技术路线。
如果对比上述三个流派,我们会发现连接主义和符号主义本质上都是从历史经验进行学习。二者不同之处在于连接主义多从原始数据,或者说第一手资料开始学习,而符号主义则是从人类加工整理而成的符号知识进行学习。连接主义与符号主义的机器智能发展路径本质上类似于人类的学校教育。我们从书籍、教师学习先贤所积累的经验与知识。相比较而言,行为主义则更像人类的实践教育。书中学来终觉浅。我们还是要将所学知识付诸实践才能学有所成,成为行家里手。行为主义强调从实践中积累经验,从实践中习得技能。
事实上,这三条技术路线仍在今天人工智能的发展过程发挥重要作用。当数据量很充分时,我们往往借助transformer之类的深度神经网络模型习得数据中的统计模式,这本质上是连接主义。当数据量不够但能够梳理出明确的行业知识时,我们往往使用符号知识比如知识图谱进行大模型幻觉控制与消减,这本质上是符号主义。当基础模型已经就绪,但需要最后一公里适配场景和任务时,我们往往寻求反馈信号依靠强化学习来完成最后的优化,这本质上行为主义范式。所以,基本上这三个范式仍然是今天我们构建一个完整的人工智能解决方案的最为典型思路。
AI&Society百人百问:
好的肖教授。这些非常抽象的概念,被您理论联系实际的解释的非常清楚,让我们这种普通人也能听懂。下一个问题我们想请教您,机器人它确实存在泛化难题,但是大家都很期待,不管是人形机器人,或者其他形态的机器人,它能解决通用问题,更实现不同任务目标。那么实现这种泛化应用到实践场景后,它的意义是什么?从产业角度看,希望机器人做产品,因为它足够集约,能够规模化,这是我们第二次工业革命以来,一直采用的一种解题思路。那么从您的角度看,这是不是清晰且可行的,能不能解决或缓解机器人成本价格高昂和效益无法预见的这个局面?
肖仰华:
就产业而言,这是个非常好的问题,也是我特别想谈谈我对这个问题的观点。所谓集约化就是希望机器人能具备更多功能,最好是通用的,什么都能干。因为只有一个什么都能干的机器人,才能无限降低它的成本,这是我们的理想。为了回答机器人是否应该集约化。我可能首先回答一个问题:做通用机器人,还是专用机器人?
为了讨论清楚这个问题,我们先讨论生成式大模型的发展路径。在大模型领域,业界一直在争论通用大模型还是行业或者专用大模型。有人认为通用大模型将要一统天下,专用大模型没有机会。又有人说专用大模型才能够在场景真正发挥价值,通用大模型价值有限。
生成式大模型本质是要实现人类大脑的认知能力。认知是分通用认知和专业认知的。人类的认知能力发展是要先经历通用认知发展再到专业认知发展这一过程的。因此,人类的教育一定是先有 k12的基础教育,完成通识教育、通识认知能力的培养,然后再经历大学教育、职业教育来完成专业、行业认知训练。人类教育体系设计的一个潜台词就是通用认知是专业认知的前提。所以大模型的发展一定是先发展通用认知,然后才有可能发展成专业认知。
要知道在ChatGPT 出现之前,大多数行业专家认为实现认知智能的路径恰好是相反的。大多数行业专家都不认为能够发展出机器的通用认知能力,大都认为机器必须先发展数据量要求相对较小的各领域与行业认知,然后再汇聚到一起形成通用认知能力。但是ChatGPT的诞生刷新了我们的认知,颠覆我们的原先看法:原来人工智能发展路径和人是很像的,也必须先发展通识能力,才能发展专业能力。
所以,我们看到今天发展具身智能,大家又在照搬AIGC这一路径。然而,当我们把人的大脑的能力迁移到身体能力时,背后的逻辑根本不同。人类的身体能力的发展是没有所谓的通用身体能力和专业身体能力之分的。人从娘胎诞生出来,只要是四肢健全,就已经具备了所谓的身体“通用能力”,具备日后四肢从事复杂技艺的可能性。机器人的四肢关节等这些机械结构,对于人而言是先天形成的。人诞生之初就具备了抬腿走路、挥舞手臂以及完成复杂操作的潜力。人类身体的一些专业技能都是在专业场景中训练的。在学校的体育教育中,学生们学习的都是某项具体技能,比如篮球、游泳,人类的身体能力和技能是在各种具体运动中培养发展起来的。人类身体能力的习得是没有通用和专业之分的。
我们要反思当下具身智能的逻辑,需不需要把更多能力或技能植入到一个机器人的身体里。对于人类而言,我们不会要求一个跳水冠军同时也是乒乓球冠军。一个人跳水好就行了,不会要求她乒乓球也打得好。对机器人也是类似的逻辑,我们为什么要求一个扫地机器人非得十项全能?它能把地给扫好就可以了,为什么还要去叠被子,或者照顾老人。把一项工作做好,这就是专用机器人。更现实的期望是具身智能机器人能够胜任场景化和专业化需求。
机器人的身体决定着也限制着它的功能,有什么样的身体才有什么样的能力。比如,扫地机器人,它只有下面的刷子,所以它只能干扫地的事。机器人有了四肢,才能去做一些抓、推、拉、握等各种动作。身体构造一定程度上决定了机器人所能完成的任务类别,不存在绝对通用的机器人,通用机器人是一个伪命题,机器的功能受限于它身体的物理构造。我们永远不该指望两条腿的机器人能跑得过四个轮子的汽车。所以具身智能机器人,更多地是场景化、任务化发展的基本方式。
那么具身机器的产业发展逻辑是什么?或许任务与身体构造相适配是一个合理的前提,在此前提下尽可能拓展其适用场景和任务类型以持续提升其价值。比如,扫地机器人多装几个其他刷子,不仅能扫地,可能还能够刷墙,如果再加一个剪子,他说不定还能分解垃圾。再比如,生产线上的机械臂已成为车间利器,进一步利用大模型加持这个机械臂让它去生化实验室做实验,实现无人实验室。同样的身体构造,在大模型加持下,就能够做更多的事,来释放它的价值,这是合理的期望。但我们不应该想着让这么一个机械臂,从事超出机械臂所能从事的其他任务。所以集约化要适度,要考虑机器的机器身体构造是否否切实可行。
AI&Society百人百问:
谢谢肖教授。您让我想到了现在我们即使是看到一些通用或者仿人形机器人,如果把它的能力相对解耦的话,可以看到它,要么是利用上肢去做一些夹爪,完成一些分拣任务,完全是依靠硬件加大模型来完成的。另外就是类似自动驾驶那样的导航和移动能力的强化,所以它更多像一个轮子的功能。这些有点像机器人能力的一种迁移,这就像您说的,走场景路线,或者叫做任务集的路线。我们继续往下,刚才我们从模型包括它的能力延展到器人未来的一个形态,包括它的产业逻辑。那么它的发展也一定会影响到社会经济和民生。那么我们在面对这种变革性技术,我们想请教您:现在对机器人去进行对齐这件事,是否是一个合适的时机?以及我们应该朝着哪个思路去走?比如,今年的国内的人形机器人展示了跑步、拳击这样的能力。有一些能力让人感觉产生了威胁。同时,我们又发现机器人会导致数据泄露,并利用这点唤醒了其它机器人。我们会有相关团体去专门审核这些机器人应用,那么这些行动的背后,是不是预示我们要去对机器人做一些对齐的实践和研究?
肖仰华:
是安全对齐还是加速发展,关系到人工智能的可持续发展问题。这一热议的话题同样延续到了具身智能发展。
首先,我们必须承认机器因为有了身体,的确带来了一些新的危险。这个危险主要体现在机器有了身体之后,会造成一些直接的物理伤害。比如,陪伴老人的机器人,万一机器人跌倒,会砸到人,会造成人身伤害。这是我们需要密切关注的一个问题。
但是我更想强调的是,有身体的机器所造成的风险,远不如有大脑加持下的机器所带来的危险。事实上,机器不需要身体就可以带来巨大风险。AI为什么一定要有身体才带来风险? AI完全可以通过欺骗人类,操控人类来造成风险。比如,一个错误决策,可能给人类带来大规模且深远的危害。如果AI将来误导决策者做出错误决策,其造成的危害是可以远甚于有身体的 AI 所造成的危害。最近的很多影视作品如碟中谍8,流浪地球2等,就是在隐喻有脑子的AI所带来的风险。
但有意思的是,大众或者媒体往往关心的是那种“终结者”形象的有身体的AI危害人类的风险。有可能有身体的AI所造成的物理危害更加直观,更容易为人们所觉察与认知。但更值得重视的是有智商的AI给人类带来的隐形的但破坏更大的风险。
AI&Society百人百问:
我非常同意您这观点。比如,我之前和同事讨论的现在有cursor这样的AI编程,如果AI能拿到人类所有行为数据给自己编程,并不断演绎,AI最终会不会诞生出操控人类的新能力呢?我们应该如何去治理或者规避这样的风险?特别是AI发展的现阶段,有哪些方面需要特别关注的呢?
肖仰华:
我们还是继续刚才的话题,就是身体和大脑的关系,行动和思想的关系。我一直认为人的身体是一种赋能,但同时也是一种禁锢。人的身体能力在某种程度上限制了我们的物理边界。人不可能依靠两条腿跑步到月球,这恰恰是人的身体对自身能力的限制。将来我们要反过来思考,为了让AI不至于给人类带来重大危害,反而要给AI配置合适身体,通过身体机能的限制,反而能一定程度保障人类安全。
而另一方面,思想是没有边界的。一个有脑子的 AI 一旦有了思想,它就是自由的,是没有边界的。它所造成的危害也是没有边界的。所以与其去关注有身体的 AI 给我们带来的风险,不如享受有身体的 AI 给我们带来的安全。而我们要把有限的精力更多地关注有脑子的 AI 所带来的风险。
首先,我们要做好安全评测。单就这件事情就已经非常困难,现在已经有很多团队,很多权威专家包括图灵奖获得者都在研究这个问题。大家比较集中地关心人类能否测得出来 AI 是否具有一定程度的欺骗性或者目的性。
虽然我认为AI不容易发展出人类水平的自我意识,但这不代表AI不存在目的性。而即便有限的目的性也可能带来整个AI系统失控。比如,我们很容易为金融AI系统设定盈利的基本目标,然后让AI自主决策。那么AI就可能通过自主学习发现消灭人类某个阶层而能盈利。如果出现类似的情况,显然会对人类产生巨大危害。所以,为AI设置目的、让AI在设定目的驱动下自主学习,是一件容易导致AI系统失控并产生风险的操作。因此,AI系统的目的设置需要进行谨慎评测,任何自治AI系统都应谨慎评估其安全性。只有我们做好评测和监测,我们才能第一时间发现风险并及时干预 (比如拔插头) 。所以有人预测,将来AI安全领域会诞生新的职业:监管师,他的职责就是一旦发现AI有不正常行为或失控风险,就要及时拔插头。我们需要这样的专业人员做好AI的安全评估。
其次,要在加大AI对齐研究。AI之所以会存在刚才说的这种失控风险,本质上还是我们在模型训练,尤其在对齐阶段,跟人类的价值观的错误对齐,或者对齐不充分,也就是对齐本身就存在问题。AI所产生的很多问题很多是人类社会问题的延续。人类社会不同群体之间的价值观也往往彼此对立、难以调和,很多社会矛盾背后都是价值观差异难以协调。人类价值观的对立导致AI对齐困难,进而带来AI失控风险。所以,AI对齐能力缺陷有可能让人类社会的风险延续到AI身上。很多时候,我们与其紧盯技术去解决问题,不如盯着人类社会本身去解决问题。
AI&Society百人百问:
您提供给我们一个非常独特的观点。我们对于AI治理也不应该头疼医头,脚痛医脚。技术的本源还是我们人类本身。这让我想到了《三体》里面的“执剑者”,他就是那个要拔插头的人。其实,对立的思维一直存在于人类社会。我们想让机器更像人,也就难以避免它的负面问题。那么最后一个问题,我们回到人类本身,一方面我们希望机器更智能,但是我们也在反思如何避免人更像机器。比如,现在我们把程序员称为“码农”、工作叫“搬砖”,这些都是以前对农民、建筑工人的称呼,而现在这种称呼向具备知识的人身上迁移,大家都觉得自己像机器一样,上下班打卡,每天重复机械式的工作。那么在这个机器智能快速发展的时代,我们人类应该如何去避免这种机器化,来维护人类的独特特征和价值。而当我们找到自身的价值后,而我们的教育、文化以及社会保障体系应该如何去调整和适应未来人类在智能时代的心态的变化。
肖仰华:
这是一个非常宏大的话题。我表达几个观点:
随着机器的进步、工具的进步,人类往往更容易退步。工具越进步,工具的使用着在工具所实现的相应能力方面越容易退步。人类历史的发展再三证明了这一现象。在未来的在智能时代,由于 AI具备人类的心智能力与人类身体能力,那如何避免人的身体以及心智的全面退化,这是一个非常核心的问题。2000多年来,技术和工具每一次进步,都带来人类身体相应能力的退步。比如,汽车普及了,我们必须靠运动才能维持双腿的能力;键盘普及了,现代人就很容易提笔忘字了。
到了AI时代,人的退化问题变得日益突出。因为人类身体的退化不足以改变人之本性,人的四肢能力退化了,但可以用四肢来做手工作品或绘画。虽然现代人没有原始人跑得快,但我们可以骑车去旅游,把四肢释放出来去从事更多美好的事情。所以身体的退化可以通过其他来弥补,这不改变人的本性。
但是如果人的心智水平也退化了,比如,未来AI包括机器人被大量使用,代替我们进行大量的脑力劳动,人类脑力的实践机会都被机器剥夺了,我们的大脑就会退化。大脑退化了人还是人吗?如果人类智力退化到猿猴,比如电影《人猿猩球》里的人类,那就不能再称为人了。所以AI大规模使用之后,会导致人类能力退化这个问题值得我们严肃对待。人再怎么退化,心智能力是不能退化的。心智能力的伤害是在改变人之为人的本质。
我们将来如何在新的智能时代去保有防止人的退化,我觉得要做几件事:
第一,要建立起人工智能合理应用的基本准则。我们要高度重视 AI 治理问题,要建立起 AI 合理应用的基本原则。我们不仅要防范AI 自动武器之类的AI恶用,更要提防 AI 的大规模滥用。比如,小学生在解题过程中,不去思考就用AI解题,这就是一种AI误用或滥用。AI滥用在教育中尤为值得重视,我们必须想清楚教育中的哪些场景可以安全使用,哪些场景限制使用。事实上,如果将AI用户赋能老师的工作,比如用 AI 辅助备课、阅卷、批改作业当然是好的,可以提升教师的工作效率、提升教学水平。但如果学生在学习环节不加选择滥用AI则可能造成自身能力发展的障碍。其实AI 在很多行业的应用都具有两面性,我们应该划定好AI合理应用的边界。未来的AI 会在绝大多数任务中超越大部分人的水平。未来,我们更多的考虑不是 AI“能不能用”,而是“该不该用”。出于对人类福祉的考虑,出于对人的发展的考虑,AI绝不应能用则用,而是即便能用也要多想想该不该用。
其次,要大力发展教育学和心理学。换言之,就是要大力发展与人的发展相关的学科。
外部工具越繁盛、越进步,人的心理问题往往就会越严重。AI 是工具,其本质上是人类智能的延伸,是外部的客体。当 AI 能力越来越强,超过其主体能力之后,人的心理就会出问题。脆弱的心理是无法应对和纷繁的AI时代给个体带来的巨大冲击力的。好比枝繁叶茂但根系不深的大树很容易被大风刮倒。只有人类的心理足够强大,才能掌控AI,才能应对因AI大规模使用给社会带来的巨大的不确定性或快速变化。所谓内圣才能外王。人首先要建立其强大的内心世界以迎接AI时代的到来。
其次要革新我们的教育。我们传统的教育本质上是大规模工业化时代的产物。是为批量生产产业工人,白领工人而形成的教育。但是未来,传统教育出的大部分产业工人,其技能和知识都会被 AI 取代。这两天的高考,绝大多数大模型的考分都能达到985高校分数水平。传统教育培养的人才,已经无法适应AI 时代的发展要求。我们要培养能在AI时代从容自立的全新人才。我们要尤为重视培养人的高阶认知能力以及AI 难以具备的能力,比如鉴赏、评价、批判、质疑能力等。AI 虽然善于生成,但是它无法评判内容的美丑、好坏、是非、善恶。为了这个目的,我们首先要破除教育内卷。我们今天的教育评价仍是出于竞争性选拔考虑。事实上我们的学生为了所谓的高分所付出的诸多努力在AI的绝对高分面前失去意义。我们唯有破除教育内卷,才能给孩子留出更多时间去培养审美、批判等高阶认知能力,才能呵护与培育儿童与对世界的好奇心、创造力与想象力。教育变革势在必行。。
更长远来看,整个人类社会的上层建筑,整个文明的发展根基都会受到 AI 的冲击。我举几个例子:
我们社会是以人与人之间的关系为基本单位的。但今天 AI 闯入到我们的生产、生活当中,它就有可能冲击社会关系。比如,大量使用情感类AI,会让人和人之间的交流会变得越来越少、越加淡漠。人们都愿意跟AI去聊天,去谈情说爱,而不愿意和人类交往。人类社会架构体系就有崩塌风险。AI也进而冲击经济基础。当AI极大提升了生产力,物质便不再匮乏,物质匮乏问题成为一个过时的术语。那么这个时候经济运行赖以成立的物质需求与物质交换前提就不再满足。当前AI最大程度上满足了人类的物质和精神需求之后,如何重新定义人的价值,或者人类还有什么新的价值,就成为了我们必须直面的问题。
第三,AI时代我们如何找到人的新价值呢?在人类的旧的价值体系行将崩塌,但是新的价值体系还未建立的时候,我们的首要任务是拓展人类的认知边界。
因为我们的认知边界从根本上决定着新价值体系的确立。直到今天,人类还未走出太阳系。人类的足迹仍被困在有限的几个星球。马斯克说要去火星,要去探索星辰大海,其本质是在拓展人类的认知边界。只有认知的边界拓展了,人类才有可能在新的认知疆域建立新的意义和价值体系。我们要从学科交叉处拓展我们的认知边界,寻找新的意义和价值体系。现代文明对世界的认知是建立在各细分学科基础之上的。人类对世界的整体性认知被各细分学科分解的支离破碎。重建综合性视角对世界进行完整审视,将聚光灯打在学科交叉的缝隙处,我们才能寻找到新的意义和价值所在。同时,我们还要往人的内心深处去寻找新价值和新意义。人类对于内在世界的认知并不比外在世界更多。人心似海,人类汪洋的思维和心理世界仍有众多幽暗角落尚未被理性之光投照。
总体来说,重塑人类文明价值体系可能是任重而道远的,我们可能才刚刚开始。
AI&Society百人百问:
谢谢肖教授,听您这样讲完,又引发了我的一些思考了,就是您刚才说的未来教育要去除产业工人的这种培养模式,转而培养更多的艺术家,鉴赏家,甚至是思想家。那么这会不会产生另一种后果,比如,您说的取消现在的教育体系和模式,一方面会不会对社会产生一些连锁反应;另一方面会不会导致更多的不平等、不平权。比如,什么样的人是具备审美和鉴赏能力的?假如以写一篇主题是审美的作文为例,农村背景的小孩就不一定理解这个词,他不理解这个词,又怎么能完成作文呢?那么这种教育革新会不会带来更多不平权、不平等的问题呢?另外,回到我本身的工作,大部分白领或者办公室人群,不管这些人的比例怎么分配,他们的基本任务都能分解成 SOP 流程性的任务和创意性的工作。那么按照您说的,在教育改革后,只要分配关系没变,在就业市场,人应该如何提升这种持续的生存能力,说的通俗一点就是我要就业,我要赚钱,这是我们每个打工人要去思考的问题。
肖仰华:
这几个问题都特别好。
首先刚才说到的人的能力问题,比如写作、编程、计算等技能,都是现代人的核心能力与素养。我们不能满足于掌握这些核心技能,而是要在此基础之外,发展高阶认知能力。唯有通过破除教育内卷,才能为学生们培养AI时代的人类的独特的高阶能力留下时间。但是不能因为发展高阶认知能力,而忽视了核心能力素养的培养。实际上核心认知能力是不可或缺的,是人发展高阶认知能力的前提。如果你不具备写作能力,你大概率也不会发展出对文字的鉴赏能力。如果你没有绘画基本功,你也很难建立起涉及纹理、构图、色彩、曲线的审美评价体系。所以我们不能因为为了发展高阶能力而丢弃核心能力。这是我们在未来的教育变革当中需要高度重视的问题。
从长远来看,AI对就业影响从根本上来讲取决于AI对产业的影响。事实上,AI对产业分工的前提提出了挑战。未来在强大 AI面前,人的能力之间的差异几乎可以忽略不计了,那么这时候就也就谈不上什么产业分工了。人类的产业分工,归根结底是因为人的能力差异,一些人擅长做这个工作,另一些人擅长做那个工作。而未来,人的能力差异在AI面前显得微不足道,生产大多数是交给AI。产业分工的前提消失,产业也就不再存在。
AI所带来的物质供给极大丰富也进一步会消灭工作的必要性。AI时代,工作或许还会存在,但是未来工作的存在意义不是为了满足物质和精神需求,不是为了个人生存。未来工作最大的意义就是体验。工作将不再是谋生手段。你工作,仅仅是为了享受某项工作给你带来的独特体验,工作体验会变成你的一种生存权利。这已经超出了经济学的范畴。未来人类社会的所有问题都要从逻辑起点、问题源头进行重新审视。
AI&Society百人百问:
好的,我觉得这次采访让我的收获非常大,可能会在很长一段时间内去引导我们的工作和生活,今天我们整体的对话环节就到这,感谢肖教授!
徐一平 腾讯研究院 高级研究员
王强 腾讯研究院 资深专家
