人工智能学什么、怎么学?马毅曹颖沈向洋提出智能系统两大理想原则
2022-08-15 19:48来源: 机器人的秘密探索
原标题:人工智能学什么、怎么学?马毅曹颖沈向洋提出智能系统两大理想原则
人工智能领域3位知名华人科学家马毅、曹颖与沈向洋联名在中国工程院院刊《信息与电子工程前沿(英文)》(FITEE)上发表了名为“On the principles of Parsimony and Self-consistency for the emergence of intelligence”的论文。该文提出智能系统的两大理想原则——简约性(Parsimony)与自洽性(Self-consistency),分别回答了人工智能在学习过程中“学什么”与“怎么学”两大根本问题,在国际上引起广泛关注。我们团队一直聚焦可解释人工智能领域;作为FITEE期刊的通讯专家,荣幸受邀从可解释角度谈谈我们的粗浅理解。
虽然这篇论文和神经网络可解释性貌似在处理不一样的问题,但是根本上说,很多问题的出发点其实是类似的——目前的深度模型往往不是一个“干净”模型。这里的“干净”包含很多层面的意义,既有知识表达层面的简约与透明,也有模型表达能力和优化能力内在机理的干净与可解释。然而,目前深度模型往往采用了大量trick操作,比如权重衰减(weight decay)、随机梯度下降(SGD)、动量(momentum)、批量归一化(batch normalization),使深度模型变成各种复杂因素、复杂效应的集合体,其知识表达和运行机理很难让人条分缕析地拆解出来。因此,在深度学习中众多复杂因素中,哪些是不可或缺的本质因素,哪些是无效的冗余因素,是深度学习理论发展的根本难题。因为目前无法彻底解释神经网络,深度学习依然困于“经验性调参”范畴,尚未真正实现理论驱动的深度网络结构设计和优化。
事实上,对于这一问题的解决,学界存在不同路线。其中两种路线认可度较高。
具体地,第一条路线聚焦于对深度模型的事后解释,希望从面向某一特定问题的众多经验性的深度学习算法中,理论证明其算法有效性的公共机理,并从去芜存菁的角度反向证明经验性算法中的内在错误。第二条路线则致力于提出一些理想的人工智能模型性质,并设计一个“干净”的深度模型,使得该模型的训练和表征充分地、干净地体现这些模型性质。
我们团队近年来一直沿着第一条路线,试图证明归因算法[1]、对抗训练优化能力[2]、以及对抗迁移性[3,4]等方向上众多经验性算法背后的数学共性,从而去芜存菁,对不同模型/算法给出统一的解释,并修正其理论缺陷。
而马毅等老师的论文则沿着第二条路线,直接为“学什么”给出一套新的建模和学习方式,替代了传统的反向传播算法,贯彻了一套干净的理想的训练机理。如果我们无法彻底解释现有深度模型,为什么不构建一套训练和表征机理更干净的深度模型系统呢?该文对“学什么”的重新建模,有望为理论研究深度模型表征提供新路径,为深度学习从粗暴式炼丹范式转向理论驱动范式,增加了新的可能路径。
论文提出简约性与自洽性作为智能系统的基础性原则。其中,简约性原则直接回答了以上“学什么”的问题,指出深度模型的学习目标是基于外部观测数据,学习低维、紧凑、结构化的表示。然而,仅凭借简约性原则,并不能确保深度模型所学到的表示能够捕获感知外部观测数据中的所有重要信息。为此,论文在简约性之外提出互补的自洽性原则,探讨了深度模型“怎么学”的问题。自洽性原则认为,深度学习系统通过最小化观测数据和预测数据之间的内部差异,以寻求最自洽的特征表示。
当然,深度学习真正的本质因素可能比这两个原则复杂得多,但两个原则的提出是一项富有前瞻性的探索,为理解深度学习的本质因素提供了新视角。
关于简约性原则,论文进一步探讨:与其像传统深度学习一样,猜测网络架构和反向传播网络参数,我们能否直接地构建/推导神经网络的架构和参数?关于这个问题,论文从简约性原则出发,将“最大化简约性”目标函数的优化过程等同于神经网络的构建过程(即每产生一步迭代, 皇冠买球app正规嘛,对应人为搭建一层神经网络),从而构建一类可解释的深度神经网络(如ReduNet)。因此,这类网络在每一层的优化都是显式、可解释的,网络的所有层次结构、算子、以及算子的参数值都能利用前向传播算法显式地构造得出,而无需反向传播算法进行学习。这类网络在表达能力、优化动力学上自然也有更清晰、明确的意义。因此,论文对可解释“白盒”网络的构建是非常有意义的一次尝试。它也将我们的研究目光更多引向这个重要也富有挑战性的方向。