反问题
数学家的历史性困境与神经网络的跨越
English Edition: Inverse Problems: The Historical Predicament of Mathematicians and the Breakthrough of Neural Networks
人工智能关乎学习,而学习就是一个反问题。因为反问题本身就是病态的,而不是适定的,所以在数学漫长而丰富的历史长河中,这方面的数学理论并没有获得太大的发展;我们也普遍缺乏针对这种病态反问题的专门教育和训练。但在今天,人工智能正在主动推动反问题数学领域的进步。
本文的大部分内容先前已在《数学家不是这样训练出来的》名下发表过;此次专门成文,是因为深刻理解反问题具有极为重要的意义。
正问题的统治地位
数学几千年来的主流发展,几乎全部建立在正问题的逻辑之上。所谓正问题,是指在已知初始条件、系统参数与支配方程的前提下,推导系统未来的演化:从原因到结果,从已知到未知,沿时间正向推进。
这一方向的成就举世瞩目。欧几里得几何从公理出发推导定理;牛顿力学从初始位置与速度预测轨迹;傅里叶分析将复杂信号分解为可计算的频率成分;偏微分方程描述热传导、流体运动与电磁场的演化;有限元方法在已知材料参数下计算结构的应力与变形。这些成就,无不遵循同一逻辑:给定条件,推导结论;给定原因,预测结果。
数学家的整个训练体系,正是围绕这一正向逻辑建立的。从本科阶段的微积分与线性代数,到研究生阶段的泛函分析与偏微分方程理论,所有的工具、所有的直觉、所有的审美判断,都在强化同一种思维方式:沿确定的方向,在已知的框架内,推导出唯一的答案。这种训练造就了无与伦比的正向推导能力,却也在无形中构筑了一道思维的边界。
反问题的本质困难
反问题要求的,恰恰是打破这道边界。它不从原因出发,而从结果出发;不沿时间正向推进,而沿时间逆向追溯;不在已知框架内推导,而从观测数据中重建框架本身。
医学成像中,从X射线或核磁共振的扫描信号重建人体内部的三维结构,是反问题。地震学中,从地表的震动波形推断地下数十公里处的地质构造,是反问题。大气科学中,从当前的气象观测数据反推数小时前的大气初始状态,是反问题。而机器学习中,从海量的输入输出样本中提取隐藏的规律与结构,同样是反问题。这正是神经网络所做的事情。
反问题的数学挑战,在于它从根本上违背了正问题所依赖的良态性。二十世纪初,法国数学家雅克·阿达马(Jacques Hadamard)最早对这一困境进行了系统阐述。他提出,一个数学上“适定”(well-posed)的问题,需要同时满足三个条件:解存在、解唯一、解对数据的依赖是连续稳定的。
正问题通常满足这三个条件。而反问题则几乎普遍违反其中的一个或多个:解可能不存在,或不唯一,或对数据中微小的扰动极度敏感,导致重建结果发生天翻地覆的变化。这种不稳定性,用数学的语言来说,叫做“病态”(ill-posed)。
数学界的应对与局限
面对反问题的病态性,二十世纪的数学家并非没有做出努力。事实上,他们曾以举国之力,倾尽所能。
第二次世界大战结束后,苏联迅速成为反问题研究的全球中心。这一时期涌现出的成果,至今仍是数学史上最密集的智识爆发之一。葛尔芳特与列维坦(Gelfand–Levitan)发展出一套构造性解析方法,系统求解了反谱问题,从算子的谱数据逆推算子本身,这在当时是一项划时代的突破。
与此同时,以列宁格勒为中心聚集的数学家群体,将这些方法推向了更高的维度。其中,路德维希·法捷耶夫(Ludwig Faddeev)将反散射方法推广至多维情形,其数学框架后来成为可积非线性系统理论的基础,并与现代AI中潜在空间分析(latent space analysis)之间存在深刻的结构性关联。
吉洪诺夫正则化、贝叶斯推断、变分方法、谱方法……这些工具,背后站着一代最顶尖的数学心智,耗费数十年心血铸就。
然而,它们有一个共同的局限:都需要对问题结构有相当程度的先验了解,都依赖于研究者对解的空间做出某种形式的假设,都在某种意义上是正向思维的延伸——先设定框架,再在框架内求解。
尽管付出了如此巨大的努力,数学界始终未能发展出一套普遍适用的反问题理论。石根华所说的那个问题——如何在不预设答案形态的情况下,将正问题与反问题同时求解——在整个二十世纪,没有人给出答案。
这正是神经网络令人震撼之处。前向传播计算预测,反向传播调整参数。这不是先解正问题再解反问题的两步走,而是一个统一的、动态的、自适应的过程。它不需要对解的形态做出预判,不需要手工设计正则化约束。它让数据自己说话,让结构从计算中涌现。
苏联最优秀的数学家们倾力追求却未竟的目标,被工程师的直觉以迭代的方式悄然实现了。
神经网络令人震撼之处,不是它绕开了反问题,而是它把反问题变成了可迭代、可学习、可数值构造的过程。


