3  我的模型观

当我整理这些记录时,当现实一次次无法被简单因果解释时,模型反而成了我理解世界的语言,也许这就是我的信仰跃进 “leap of faith” 。因为我是统计学出身,很自然地会用统计模型的方式去理解世界,用模型的角度观察一切。这种习惯并不是刻意形成的世界观,而是在长期与不确定性、偏差和复杂系统打交道的过程中,逐渐内化的一种思考方式。我描述的不是物理和数学模型,因为这本身就是现代科学的基础。在我看来,没有固定的模型,或者说,一切模型都在高维中进化,频率不同而已。换句话说,宇宙的基本规律也是有变量的,也许“道” 字里的“走”这个部首暗示我们,寻找单一的真相本身就是执着。 我们既然可以创造模型和模拟系统,那就意味着我们本身就可能是运行在模拟系统的模型。

3.1 因果的模型

在物理学中,现有理论认为宇宙可能具有 11 维,甚至26维的结构;而在数学、统计学和计算科学中,维度在理论上是可以无限扩展的。从建模的角度看,我们所处的世界,本身就是一个高维系统,可以说时无限维的。如果从这个角度出发,那么“复杂”并不意味着混乱,而意味着我们所能观察到的维度只是整体的一小部分。 在统计学中,最常见、也最基础的模型是回归模型。最简单的回归模型只包含一个因变量(outcome / dependent variable)和一个自变量(predictor / independent variable)。例如,如果我们把高考成绩作为因变量,把智商作为自变量,那么两者之间的关系可以被描述为二维空间中的一条曲线,如果我们知道二者真正的关系的话,我们可以轻松的在纸上把它画出来。但成绩显然不只取决于智商,于是我们加入每周学习时间作为第二个自变量,此时成绩不再只是智商的函数,而是智商与学习时间的共同结果。如果把这三个变量的关系可视化,我们看到的就不再是一条线,而是三维空间中的一个曲面。但成绩只取决于智商和学习时间吗?显然不是。我们开始不断扩展模型,引入更多变量:父母的智商和学历、家庭条件、社会资源、老师、学校、考试当天的天气、时间、地点、身体状态,甚至吃了什么等等,但我们怎么知道到底哪些变量真正的和高考成绩有关系并测量它们? 现实世界的问题,往往并不是“变量够不够重要”,而是“我们是否意识到它的存在”。从统计建模的角度看,我们会尝试把一切可能相关的变量都纳入模型,以提高所谓的“准确性”。这样一来,我们面对的就不再是三维模型,而是一个 N 维模型,而这个 N,在理论上是无限大的。假设存在一个这样的高考成绩模型,或者有一个宇宙万物变化的模型,那么我们真正能够“看到”和“理解”的万物之间的关系,只能是高维关系在一个低维空间中的投影。而人类的直觉,恰恰最容易把“投影”误认为“本体”。 所谓“努力学习加上天资聪慧就会有好成绩”,在统计学上,只在其它所有变量保持不变的情况下才成立。换句话说,这种看似直观的规律,不过是高维关系在三维空间中的一个投影结果,是在其它所有已知的和未知的变量都一样的前提下才成立,是 一个众多假设之下的结果。而投影的形态,取决于投影的角度——也就是其它所有变量的具体取值。换一个维度,规律就可能改变;换一个条件,因果关系甚至可能反转。 在统计回归模型中,如果遗漏了一个重要变量,我们对变量之间关系的判断就可能出现偏差,甚至得出完全相反的结论,这类变量被称为混杂变量(confounder)。这并不是统计学的缺陷,而是它对现实复杂性的诚实承认。任何两个或多个变量之间的关系,都可能依赖于所有其它变量的状态。我们所看到的规律、因果与秩序,并不一定是虚假的,但它们一定是片面的、条件性的、变化的。 在应用统计学中,大部分研究时间都花在如何识别、控制和调整混杂变量上。然而我们也清楚地知道,即便拥有无限的资源,人类也不可能控制和调整所有相关变量——有些超出我们的认知,有些根本无法被观测。因此,对规律、因果和真相的追求,本身就是一条没有终点的道路。但我们不能因此而沮丧,而是意识到现实的限制,接受有用但不一定正确,对“绝对解释”保持谦逊。 我时常想,如果我们有从宇宙生成那一刻所有事物和变化的数据和时空坐标,也就是宇宙这个数据库,我们会不会可以去猜测这个万物模型,理解宇宙的“道”,会不会可以预测未来?也许更关键的问题是,如果真的能,我们是否还能承受那样的确定性。

3.2 “我”和“我执”

一个不可回避的问题,在模型论里,人是什么?人又和宇宙这个模型什么关系?很显然人不是宇宙之外的观察者,更有可能的是宇宙这个高维模型中的一个子模型,一个不断在线更新的多维模型。大脑是一台生物计算机,意识是操作系统,而“我”,是系统中用于生成反应,理解并预测世界的一组模型,模型的参数则存在大脑和身体的记忆里。从这个角度看,“我”并不是一个稳定不变的实体,而是一种持续运行的过程。它们在社会中被训练、被奖惩、被塑形。但模型不是固定的,它会随经验调整参数。于是,在不同情境、不同关系、不同时间切片中,“我”是一直在变的。人出生时,这个模型的结构极其简单,参数也非常有限。我们并不是带着完整世界观来到这个世界的,而是在与环境的持续互动中,一点点学习、更新和修正自己的模型。 而基因里隐藏的信息,则是贝叶斯(Bayesian) 模型中的事前概率分布(prior distribution)。 感官——佛教中所说的“六根”——构成了模型的输入接口。家庭和学校,提供了我们最早的训练数据来源,我们则通过监督式学习(supervised learning)在学校和家庭的教育下建立我们的基本认知,也就是模型的参数。这些最早的数据,往往不是最全面的,存在偏差的,但往往却是权重最高的。这个监督学习过程,从一开始就存在一个无法回避的问题:我们无法选择训练环境,也无法筛选训练数据。在训练人工智能模型上,人类会反复讨论如何避免训练数据产生的偏差,而在人类自身的成长过程中,没有人会为我们准备一个“无偏差”的环境。成年之前,大多数人几乎完全暴露在父母、家庭和社会的局部样本之中,这些样本本身就携带着历史、文化和上一代的偏差,并以数据和参数的形式被一代代传递下来。因此,很多后来被称为“性格”的东西,其实只是早期样本的统计结果。 久而久之,模型的输出开始根据输入变成“自然反应”:情绪、判断、恐惧、回避、渴望,看似是当下的选择,实则是早期参数在当前情境下的自动响应。这些被固化的反应模式,在佛教中被称为“业力”,在现代语境中,则常被归结为性格或原生家庭问题。当我们意识到这一点时,指责往往会让位于理解。模型的角度看,业力并不是神秘的东西,而是早期参数在后续学习中难以被修正的结果。而所谓“修正”的数据则来源于社会,我们通过强化学习(reinforcement learning)和社会的奖罚制度来调成模型的参数。那么社会数据的偏差,也慢慢的渗入模型的参数里,也就是环境塑造人。模型并不作恶,它只是如实地学习。 然而为什么早期的数据对我们的影响相对较大?为什么“本性难移”? 这也许是因为早期的数据塑造了初始模型,也就是“我”,并开始有了对混乱信息筛选的能力。“我”并不是模型中的一个普通的变量,而是定义了整个模型的参考坐标系,写在了我们的基因里。当婴儿第一次意识到镜子里的人是自己的时候,就是“我”的开始。从这一刻起,世界被分为“我”和“非我”,这也是追求“自我”的开始。 一切输入都要经过“我”的坐标变换,模型的输出才会呈现为喜、怒、哀、乐。这些输出,又会通过色、受、想、行、识(五蕴)不断制造新以“我”为中心的数据,这些数据和社会数据相互作用后再反馈给我们的模型本身。如此反复,一个以“我”为核心的闭环系统逐渐形成,并不断自我强化,这正是“我执”的形成过程。正是因为有了“我”,才产生了“我的”,有了“我执”。从高维的视角看,“我执”并不是道德问题,也不是个人意志薄弱,而是一种结构性结果,一个没有选择的选择。这个“我”的模型,在偏差的,以“我”为中心的坐标系下筛选数据并持续训练,最终只能越来越坚固地指向自身。如果能理解并在生活中接受这一点,本身就已经是“我执“是一种松动。

3.3 命运和自由

人既会感觉“有些事情无论如何都会发生”,又无法否认自己仍然在不断做出选择, 这就是命和运的结合。时间是所有模型中的特殊的变量,它不仅仅是一个变量,更是模型扩展与更新的维度。 根据热力学的熵增定律,宇宙随着相对的有序进入无序, 信息量也不断增加。 我们早期的经验,童年环境与原生家庭,在一生中占据如此高的权重,并不是因为它们更正确,而只是因为它们更早。 从这个角度看,所谓“命运感”,并不一定意味着未来已经完全注定,而是模型在时间维度上的惯性:早期参数不断被调用、放大,塑造了可行路径的范围, 这就是“命”。 说到这里难免会让人觉得悲观,但“我”还有希望。 作为人类,“我”还可以有智慧, 还会有一些自由意志。虽然这并不意味着可以随意改变一切变量,但在一定的结构与约束之下,模型仍然可以保留着的可调空间。在机器学习里, 有一种学习模式叫做“无监督学习”(unsupervised learning), 这就是自我观察,总结和纠错的能力 ——不是为了预测外部世界,而是为了理解自身结构。我们无法选择初始条件,也无法重写模型的基本架构,但并不意味着我们只能被动执行程序。 修行本身,就是跳出“我”的坐标系,并更新参数去影响路径的过程, 这就是“运”。“运”不只是“命”后面的一个名词, 它更可以是“命”前面的一个动词。 当一个人开始觉察自己的反应模式、情绪触发点和重复路径时,模型就不再完全处于“自动运行”状态。觉察本身,并不立即改变结果,但它改变了模型对自身的调用方式。这也是为什么真正的改变往往发生得很慢。并不是因为人不够努力,而是因为早期高权重参数在模型中占据着稳定的位置。改变它们,需要时间,需要学会接受新的数据,也需要在不确定中反复更新。而所谓“成长”,并不一定意味着变的更强,而可能只是让模型对世界的容忍度更高,对自身的苛责更低。 在任何一个复杂模型中,所谓“结果”,并不是某一个变量单独决定的,而是所有变量在特定时刻、特定组合下的共同产物。换句话说,没有哪个自变量是完全独立的,每一个变量的取值,都会在无数看不见的维度上,牵动着其它变量的状态。这正是佛教中所说的“缘起”:一切现象,皆由条件暂时聚合而成,并不具备独立、恒常的本体。因此,所谓“人生的结果”,并不是模型的终点,而只是某一时刻、某一切片下的输出。模型在时间中不断展开,变量在变化,参数在更新,输出自然也随之改变。从这个意义上说,“命”并不是一个静态的结论,而是模型在时间维度上的惯性表现;而“运”,则是模型在既定结构与约束之下,持续演化的过程。 修行,在这里并不意味着“把人生优化到最优解”。如果人生真是一个高维模型,那么所谓最优解,本身就依赖于目标函数的设定。而目标函数,恰恰往往是被“我执”所定义的:更成功、更安全、更被认可、更富有。于是,人一生都在试图通过调整外在变量,去逼近一个并未被审视过的目标。但从模型的角度看,真正可行、也更温和的路径,并不是无限扩展变量、加大权重、提高预测精度,而是降低模型对单一结果的依赖。当某些变量不再被赋予过高的权重,当“我”不再是唯一的参考坐标系,模型对输出波动的敏感性就会下降。痛苦,并不一定来自事件本身,而常常来自模型对某些结果的过度放大。 统计学中有一句被反复引用的话,George Box 曾说:“All models are wrong, but some are useful.” 所有模型都是错的,但有些是有用的。我们从来不是在理解真理本身,而是在借助模型去接近它。我们理解的规律、因果与意义,并非宇宙的本体,而是在特定条件下,对高维现实在低维空间中的暂时性理解。如果模型不可避免地是片面的,如果规律始终依赖于视角和坐标系,如果“我”本身也是高维现实中的一个投影——那么,也许我们真正需要修正的,并不是世界,而是我们对确定性,控制感,绝对正确和单一解释的执念。 那么,人类的出现是偶然的吗?我们的存在有意义吗? 我们是在无意识中被生成的一个子模型,还是宇宙理解自身不确定性的无数模拟实验之一? 那么模型被运行的意义是不停的产生数据?还是模型的最终觉醒才?或者是觉醒并寻找运行的意义? 或许意义并不是设计和运行前预先写好的,而是模型在运行过程中,不断生成的副产物。