【机理AI】理论指导的数据科学: 数据科学发现的新范式
介绍:科学领域中的一个重要的问题是如何表示自然变量之间的关系,一般有两种方法:
- 基于理论的因果推理;
- 数据科学模型(使用一组包含输入和输出变量的训练样本来自动学习模型并提取变量之间的关系)。
两者关系如下图1:
图1
各自的优势:
1)以理论为基础的模型(见上图的左上角)非常适合于用已知的科学原理来表示在概念上已被充分理解的数学过程;
2)数据科学模型(见上图的右下角)在有大量代表性数据样本的领域有广泛的适用性,如文本挖掘和目标识别。
各自的不足:
基于理论的模型和数据科学模型虽然各有优势,但在目前理论和数据都缺乏的科学相关性很强的问题上,存在着一定的不足。
1)许多科学问题所涉及的过程,由于过程的固有复杂性,我们目前的知识体系还不能完全理解。在这种情况下,基于理论的模型常常被迫做出一些简化的物理过程的假设,这不仅会导致性能低下,而且会使模型难以理解和分析;
2)可用的数据实例不足,且大多数数据科学模型只能捕捉变量之间的关联关系,它们不能完全服务于理解科学问题中的因果关系的目标。
由此,仅仅依赖其中一种模型不足以解决现实问题,由此引出了“基于理论指导的数据科学(Theory-Guided Data Science, TGDS)”的概念。
图2
其中M1代表复杂度较低的模型集合,M3代表复杂度较高的模型集合。曲线上的每一点代表了一个特定的训练实例学习得到的模型。星号位置代表了输入变量和输出变量之间的真实物理关系。M3中的模型更能够学习到真实的关系,但是训练数据集小小的扰动会带来巨大的改变,也就是偏差小、方差大。M1中的模型正好相反。如何平衡方差和偏差是很多机器学习算法的重点。另外,通过在模型中整合科学知识可以移除大量非物理解,显著地降低模型方差且几乎不影响模型偏差。
图3.偏差和方差
图4.偏差方差和总体的泛化误差的示意图
通过在数据科学模型中集成科学知识,TGDS旨在学习具有充分物理原理基础的依赖关系,从而更好地表示因果关系。TGDS的一个总体愿景是将physical consistency作为模型性能的关键组成部分(还包括训练精度和模型复杂度),表示如下:
下面分别介绍TGDS中的5个研究主题:
1. 将科学知识用于数据科学模型的设计 |
2. 用科学理论来指导数据科学模型的学习 |
3. 用科学理论来改善数据科学模型的输出 |
4. 学习理论和数据科学的混合模型 |
5. 使用数据科学扩充基于理论的模型 |
1. 将科学知识用于数据科学模型的设计
在数据科学模型设计中使用科学知识的两种不同的方式:
- 将response和损失函数进行协同组合;
在建模存在极端值(高度偏态分布)的因变量时,例如异常严重的洪涝和干旱的发生,假设因变量是高斯分布是不恰当的;相反,使用耿贝尔分布(Gumbel distribution)来模拟极端值的回归模型将更加准确和具有物理意义。 应用实例:在眼科领域,Twa等人开发了通过Zernike多项式分析对角膜形状分类的自动决策树模型。 |
- 选择一个符合科学知识的模型架构。
为模型架构的调整提供足够空间的数据科学模型实例:人工神经网络(ANN)。在构建人工神经网络模型时使用科学知识的两个方向: ①基于领域知识进行模块化设计; 将整个问题分解为模块子问题,每个模块子问题代表一个不同的物理子过程,领域知识可以用于神经网络模型的设计。每个子问题可以使用不同的神经网络模型进行学习,模型的输入和输出根据子过程之间的物理关系相连接。 ②以符合physical consistency的方式指定神经网络中节点之间的连接。 通过指定节点连接来捕获理论引导的变量之间的依赖关系。例如:RNN 和 CNN模型。RNN模型可用于捕获长短期记忆(LSTM),通过节点之间的跳跃连接来建模信息延迟[45]。这种模型可用于在科学应用中纳入时变领域的特性。CNN被广泛应用于视觉和图像处理应用中,用于捕捉数据中的空间依赖关系。它进一步促进了模型参数的共享,从而使学习到的特征不受缩放和变换等简单变换的影响。 未来研究方向:在输入特征中的通用相似结构上,基于领域知识探索类似的方法来共享参数(从而降低模型的复杂度)。 |
2. 用理论来指导数据科学模型的学习
本研究主题中主要包括以下四种方法:
- 理论指导的模型初始化
在初始化模型的过程中,领域知识可以帮助引导学习算法在早期选择可推广的、具有physical consistency的模型。
应用实例:
①填补植物性状矩阵中的缺失项。解决这个问题的传统数据科学方法是使用矩阵补全算法,这种算法在推荐系统[49]中取得了很大的成功。然而,大部分算法本质上是迭代的,并且使用固定的或随机的值来初始化矩阵。在领域知识存在的情况下,我们可以将每个属性的物种均值作为矩阵补全过程中的初始值来改进这些算法。这依赖于一个基本原则,即物种平均值为所有生物体的平均值提供了一个可靠的估计。这种方法已被证明在预测植物性状的准确性方面比传统的方法[47]有显著的提高。
②理论指导人工神经网络的初始化。人工神经网络很容易陷入损失曲线中的局部极小点、鞍点和平坦区域。在深度学习时代,利用预训练策略来避免神经网络初始化较差的问题已经取得了很大的进展。这些策略的基本思想是在一个更简单的问题上训练神经网络模型(有足够的代表性数据可用)。然而,它们依赖于大量未标记或标记的数据,因此不能直接应用于数据大小相对于变量数量较小的科学领域。解决这一挑战的一种方法是设计新的预训练策略---基于理论模型的计算模拟来初始化神经网络模型。当基于理论的模型可以快速产生近似模拟时,就会起到很大作用,例如,湍流的近似模型模拟(见文中例5)。这种预先训练的理论指导的ANN模型可以使用expert-quality ground truth进行微调。
- 理论指导的概率图模型
概率图模型可以将变量之间特定的关系编码为表示变量的节点之间的边。然而,在图模型中人工编码领域知识需要大量的专家监督,这对于涉及大量变量和复杂交互的问题来说是很麻烦的。
将科学知识与概率模型相结合的研究方向主要包括以下两个方面:
①探索图估计技术,最大化数据的似然,同时限制搜索具有physical consistency的解决方案。
②在模型空间中引入先验知识。
实例1:心脏的无创电生理成像问题。
在这个问题中,需要根据在受试者躯干上测量的心电图信号来预测心壁内的电活动。根据从躯干上大约100个电极收集的心电图数据,在心壁上大约有2000个位置需要预测心电活动。由于模型参数空间大,带真实信息的标签样例少,传统的黑箱模型只使用数据中包含的信息,极易学习虚假模式。然而,除了数据中包含的知识外,我们还拥有关于电信号如何通过心肌纤维结构在心脏内传输的领域知识(用电生理方程表示)。根据t - 1时刻的电信号预测,可以用这些方程来确定t时刻心脏电信号的空间分布。与传统的数据科学模型[26]、[27]相比,将理论指导的空间分布作为先验,并将其与外部收集的心电数据一起使用在层次贝叶斯模型中,已被证明能够提供有应用前景的结果。
实例2:在地球物理领域中,将流扩散方程的知识作为先验来确定地下含水层的连通性结构。
- 理论指导的约束优化
约束优化技术广泛应用于数据科学模型中,以限制模型参数的空间。例如,支持向量机(SVM)使用约束来确保不同类之间的可分性,同时最大化超平面的边界。约束的使用为在数据科学模型的学习中集成领域知识提供了一种自然的方法。在科学应用中,基于理论的约束可以用线性等式或不等式条件表示,它们可以很容易地集成到现有的约束优化公式中,特别是当目标函数是凸的时候,它们可以提供具有高计算效率的解决方案。
然而,许多科学问题涉及到以复杂形式表示的约束,如偏微分方程(PDE)或变量的非线性变换,这是传统的约束优化方法不容易处理的。为了在数据科学模型中利用这种复杂形式的约束,有必要开发约束优化技术,这种技术可以使用在科学学科中遇到的常见形式的偏微分方程。
实例说明:文中【例2】探讨了计算化学中预测电子密度的约束的使用,【例3】探讨了在绘制地表水动力学图时位置间基于海拔的约束的使用。
- 理论指导的正则化
约束模型参数搜索空间的一种方法是在目标函数中使用正则化项。研究者们已经探索了许多正则化技术,以执行模型复杂性的不同度量。例如,在岭回归和支持向量机中,L2范数被用来避免过大的参数值。然而,这些技术可能导致physically inconsistent solutions(非理论解)。例如,在使用键能和熔点预测弹性模量时,Lasso formulation可能更倾向于熔点而不是键能。这可能导致删除有意义的属性,并选择不直接相关的次要属性。因此,有必要纳入科学知识来设计正则化技术,以限制模型参数的搜索空间。
理论指导的正则化包括以下两个研究方向:
①使用Lasso的变体在参数之间合并特定领域的结构;
实例1:建模气候变量的领域特征。
在最近的工作中[66],稀疏群Lasso的应用被探索来建模气候变量的领域特征。在这项工作中,在一系列空间位置观测到的气候变量被用来预测一种感兴趣的气候现象。通过将在每个地点观察到的一组变量作为一组来处理,使用组套索可以确保如果一个地点被选定,那么在该地点观察到的所有气候变量都将被用作相关特征。这些特征由此代表了空间中有意义的(空间连贯的)区域,可以通过研究这些区域来确定气候科学中物理路径的关系。
实例2:发现疾病的遗传标记。
在这个问题上,数据驱动的方法,如弹性网,传统上被用来确定遗传标记在疾病背景下的相对重要性。然而,遗传学家了解到,由于一种称为连锁不平衡的特性,相关标记通常位于基因组序列上的较近位置,这表明,位于较近位置的遗传信息在群体的几代之间流动在一起。该领域的知识可以被纳入作为一个正则化器,以确保发现的遗传标记通常位于基因组的近距离。事实上,Liu和他的同事[28]在Lasso中引入了一个平滑的极小极大凹惩罚,该惩罚捕获了相邻标记之间回归系数的平方差,以确保相邻标记之间的遗传效应差异很小。
②将领域知识用来指导多任务学习(MTL)模型的正则化。
领域知识也可以用来指导多任务学习(MTL)模型的正则化,如[67]中对森林覆盖估计问题的研究。在数据子种群中存在异质性的情况下,数据中的不同实例组显示了输入和输出之间的不同关系。例如,不同类型的植被(例如森林、农场和灌木地)对遥感信号中的目标变量可能表现出不同的反应。
MTL在这种情况下提供了一个很有价值的方案来处理子种群的异质性,它将每个子种群的学习看作是一个不同的任务。此外,通过分享相关任务的学习,MTL对跨所有任务的学习实施了鲁棒的正则化。然而,大多数MTL公式要求明确每个任务的组成和任务之间的相似性结构,这在实际应用中并不总是已知的。例如,植被类型的确切数目和分布往往是无法得到的。在最近的研究[67]中,首先通过聚类植被时间序列来推断不同植被类型所导致的异质性,然后利用异质性来诱导相关植被类型下模型参数的相似性。
3. 用理论来改善数据科学模型的输出
领域知识还可以用来精炼数据科学模型的输出,使其符合我们目前对物理现象的理解。 使用领域知识精炼数据科学输出的方法主要包括以下两个部分:
(1)使用显式的领域知识
数据科学模型的输出常常需要经过改善,以减少噪声和缺失值的影响,从而提高结果的整体质量。数据科学的输出可以被改进以提高数据质量,例如,通过剪枝候选模式来发现频繁项集。在这些方法的基础上,一个有前途的方向是开发模型改善方法,充分利用以科学理论形式编码的领域知识,以产生具有physical consistency的结果。
实例:用于材料发现。
其目标是找到具有理想特性的新材料和晶体结构,例如,它们能够过滤气体或用作催化剂。预测晶体结构和性质的传统方法依赖于密度泛函理论等ab initio计算方法。然而,由于所有可能材料的目标空间都非常大,因此对每种材料进行昂贵的ab initio计算来估计其结构和性能是不切实际的。最近,材料科学的一些团队已经探索了使用概率图模型来预测材料的结构和性能,给出了已知结构和性能的材料训练数据库[22],[23],[24]。这提供了一种高效的方法来使用训练数据中包含的知识来减少理想属性的候选材料的空间。然后使用昂贵的ab initio计算对数据科学模型的结果进行交叉检查,以进一步优化模型输出。这一领域的研究使得使用传统方法[22]发现了100种新的三元氧化物化合物,这些化合物之前是未知的,凸显了TGDS在推进科学知识方面的有效性。
(2)使用隐式的领域知识
在科学应用中,输出变量之间的领域关系结构可能并不总是以显式方程的形式已知。这需要解决推理领域约束的对偶问题,并使用学习到的约束来改善模型输出。
实例:地表水动力学映射。
在地表水动力学映射中,估计地理位置之间的隐式约束(基于隐藏的高程排序),并用于改进水体分类地图。【Example 4:使用高程约束进行后处理】
使用隐式约束的其他例子包括城市化映射(mapping urbanization)[68]和农林业转换(tree plantation conversions)[69,70],其中隐马尔可夫模型用于关于土地覆被类型转换的领域知识。
4. 学习理论和数据科学的混合模型
将科学知识和数据科学的优势结合起来的一种方法是创建基于理论和数据科学模型的混合组合,其中问题的某些方面由基于理论的组件处理,而其余方面则使用数据科学组件建模。创建混合的TGDS模型主要包括以下两种方法:
(1)构建一个双组件模型,将基于理论的组件的输出用作数据科学组件的输入。这一想法在气候科学中用于统计气候变量的降尺度[71]。基于理论的模型输出也可以用于监督数据科学模型的训练,通过为每个训练实例提供物理上一致的目标变量估计。
(2)使用数据科学方法来预测基于理论的模型中错过或估计不准确的中间量。这种混合模型将数据科学的输出输入到理论模型中,不仅可以提高预测性能,还可以弥补现有理论模型的不足。此外,基于理论的模型的输出也可以作为数据科学组件的训练样本[72],从而在它们之间产生双向协同作用。根据模型的性质和应用程序的需求,可以有多种方法在基于理论的模型中引入数据科学的输出。实例:在湍流建模领域的应用【Example 5:】
数据科学模型的准确选择和它对基于理论的模型的贡献可以在未来进行进一步探索。可以在其他缺乏理论模型的领域进行探索,例如研究地下水流[36]的水文模型。
5. 使用数据科学扩充基于理论的模型
我们可以通过多种方式使用数据科学方法来提高基于理论的模型的有效性,主要介绍以下两种:
(1)在基于理论的模型中进行数据同化
数据可以被整合到基于理论的模型中,以改进理论模型中模型状态的选择。在基于理论的模型中,科学界长期使用的数据整合方法之一是使用数据同化方法,该方法在气候科学和水文中得到了广泛应用[74]。数据同化是一种推断最有可能的状态序列的方法,使模型的输出与每个时间步长的观测结果一致。在数据同化中,当前状态的值依赖于以前的状态值以及当前的数据观测值。但是,一般来说,数据同化方法中状态之间的依赖关系是使用由物理定律和方程控制的更复杂的分布形式建模的。数据同化在将数据与基于理论的模型整合的方向上迈出了有希望的一步,从而使知识发现方法既依赖于科学知识又依赖于观测数据。
(2)使用数据来校准基于理论的模型
数据科学方法还可以帮助校准基于理论的模型的参数,以便更好地实现物理系统。基于理论的模型通常在其方程中包含大量的参数,这些参数需要校准,以提供物理系统的准确表征。一种方法是尝试每一个参数值的组合。然而,当参数数量较大且每个参数都有多个可能值时,这种方法实际上是不可行的。在不同的学科中已经探索了许多计算效率高的方法来利用观测数据节约地校准模型参数。例如,广义似然不确定性估计(GLUE)技术是水文领域模型校准的一项开创性工作[75]。该方法使用蒙特卡罗方法对与每个参数组合相关的不确定性建模,并使用贝叶斯公式,以增量更新不确定性作为新的观测。在任何给定的迭代中,模型采用与观测值最一致的参数组合,其结果用于更新下一次迭代的不确定性。
参数选择问题最近在机器学习界受到了相当大的关注[76],[77],[78]。这些问题的基本目标是逐步选择参数值,这样我们就可以探索参数选择的空间,并利用有限数量的观察,使用提供最大回报的参数选择。这些技术的变体也被研究用于参数采用连续值而不是离散步骤的设置[79],[80]。这些技术为理论模型的高维参数校准提供了一个有前途的方向。
6. 总结
TGDS背后的一个核心动机是通过用科学知识锚定数据科学算法来确保模型的更好通用性(即使当问题很复杂且数据样本缺乏代表性时)。TGDS还旨在通过产生科学可解释的模型来提高我们对物理世界的认识。
本文大部分讨论集中在监督学习问题上,类似的TGDS研究主题还可以在数据挖掘、机器学习和统计等其他传统任务上进行探索。例如,利用物理原理来约束时空模式挖掘算法已经在[81]和[82]中进行了探索,用于从卫星数据中寻找海洋漩涡。科学知识也可以用于推进数据科学的其他方面,例如,科学工作流的设计[83]、[84]或生成模拟模型[85]。
7.参考文献
【1】
Theory-Guided Data Science: A New Paradigm for Scientific Discovery from Data.- 点赞
- 收藏
- 关注作者
评论(0)